OncodriveFML: ein allgemeiner Rahmen zur Identifizierung von kodierenden und nicht-kodierenden Regionen mit Krebstreibermutationen | Genombiologie

OncodriveFML berechnet einen lokalen FM-Bias
OncodriveFML erkennt treiberkodierende Gene
OncodriveFML erkennt nicht-kodierende Treiberelemente
OncodriveFML deckt mutmaßliche Treiberpromotoren und 5′ UTRs auf
OncodriveFML deckt Gene mit treibenden Mutationen in intronischen Spleißregionen auf
OncodriveFML identifiziert mutmaßliche Treiber 3′ UTRs
OncodriveFML identifiziert putative lncRNAs
OncodriveFML erkennt positive Selektion aus der Sequenz eines Gen-Panels

OncodriveFML berechnet einen lokalen FM-Bias

Der Grundgedanke hinter OncodriveFML ist, dass die Beobachtung von somatischen Mutationen auf einem genomischen Element (kodierendes Gen, Promotor, UTR, lncRNA usw.) in Tumoren, deren durchschnittlicher Impact Score signifikant höher ist als für das besagte Element erwartet, ein Signal dafür darstellt, dass diese Mutationen während der Tumorentstehung eine positive Selektion erfahren haben. Dies wiederum wird als direkter Hinweis darauf betrachtet, dass dieses Element die Tumorentstehung fördert. Wir bezeichnen diese Abweichung des beobachteten durchschnittlichen Impact Scores der somatischen Mutation in einem genomischen Merkmal von seinem erwarteten Wert als Functional Mutation Bias oder FM Bias. Um den FM-Bias eines bestimmten Elements zu messen, muss OncodriveFML: (1) in der Lage sein, eine relevante Bewertung der vorhergesagten Auswirkungen der Mutationen in dem genomischen Element zu berechnen; und (2) die Mutationsprozesse simulieren, um die erwartete durchschnittliche Auswirkungsbewertung zu berechnen.

Jeder Ansatz zur Berechnung der Auswirkungen von Mutationen, wie unterschiedlich er auch sein mag, je nach Art des untersuchten genomischen Elements, kann dem Zweck dienen, den beobachteten FM-Bias zu berechnen (Abb. 1a). So könnte man beispielsweise bei Mutationen in proteinkodierenden Genen die vorhergesagten Auswirkungen auf die Proteinstruktur und -funktion messen, während man bei RNA-Genen oder UTRs die Auswirkungen der Mutationen auf die RNA-Sekundärstruktur berechnen könnte, die bekanntermaßen für ihre Funktion entscheidend ist. Auch bei UTRs könnte ein nützliches Maß für die FI von Mutationen deren Auswirkung auf die Bindung von microRNAs (miRNAs) an ihre Zielstellen sein. Bei Promotoren und Enhancern kann die Auswirkung von Mutationen auf bestehende Transkriptionsfaktor-Bindungsstellen oder die Schaffung neuer Stellen bewertet werden. Kombinierte Scores, die mehrere Merkmale zur Messung der FI berücksichtigen, wie z. B. CADD , können ebenfalls nützlich sein. Die einzigen Anforderungen an den FI-Bewertungsansatz sind, dass er für die Funktion des untersuchten genomischen Elements relevant ist und dass er für alle möglichen Mutationen in dem Element berechnet werden kann. Hier stellen wir Implementierungen von OncodriveFML vor, die mehrere FI-Bewertungsmetriken verwenden.

OncodriveFML besteht aus drei Schritten, die in Abb. 1b-d dargestellt sind. Im ersten Schritt wird der durchschnittliche FI-Score des Satzes somatischer Mutationen berechnet, die in dem betreffenden Element in einer Tumorkohorte beobachtet wurden (Abb. 1b). Im zweiten Schritt werden aus dem Universum aller Varianten, die das Element möglicherweise tragen kann, zufällig Mutationssätze derselben Größe wie die Anzahl der in dem Element beobachteten Mutationen ausgewählt (Abb. 1c). Um die Mutationsprozesse in dem interessierenden Tumortyp genau zu modellieren, erfolgt die Auswahl nach der Mutationswahrscheinlichkeit der verschiedenen Trinukleotide, die entweder aus den in jeder Probe beobachteten Mutationen, in der gesamten untersuchten Kohorte oder aus zuvor analysierten Tumorkohorten desselben oder eines ähnlichen Typs berechnet werden kann. Diese Zufallsauswahl wird mehrmals wiederholt (z. B. 10.000 Mal), um die erwarteten durchschnittlichen lokalen Impact Scores zu ermitteln. Schließlich vergleicht OncodriveFML den für jedes Element beobachteten durchschnittlichen Impact Score mit dem aus der Stichprobe resultierenden lokalen erwarteten durchschnittlichen Impact Score und berechnet einen lokalen FM-Bias in Form eines empirischen p-Wertes, der die Abweichung des beobachteten durchschnittlichen Scores vom erwarteten Hintergrund misst (Abb. 1d). Elemente mit signifikanter lokaler FM-Verzerrung nach der Korrektur für die Falschentdeckungsrate werden als wahrscheinliche Treiber angesehen.

OncodriveFML erkennt treiberkodierende Gene

Um seine Gültigkeit zu testen, haben wir OncodriveFML auf die Erkennung von Treibern unter allen menschlichen proteinkodierenden Genen angewandt, indem wir den Satz somatischer Mutationen, die durch Ganz-Exom-Sequenzierung in den Tumoren von 19 Kohorten entdeckt wurden, verwendet haben (diese und alle hier verwendeten Datensätze somatischer Mutationen sind in Zusatzdatei 1 beschrieben). Zunächst zeigen wir anhand von Quantil-Quantil-Diagrammen (QQ), die die erwartete und die beobachtete Verteilung der FM-Bias-p-Werte vergleichen (Abb. 2a und Zusatzdatei 2, Abschnitt A), dass letztere der erwarteten homogenen Verteilung der Nullhypothese folgt, mit Ausnahme der wenigen Fälle, die Genen mit signifikantem FM-Bias entsprechen. Unter den hochrangigen Genen, die von OncodriveFML in den vier Kohorten identifiziert wurden, die in Abb. 2b und c als Beispiele dargestellt sind, befinden sich bekannte Krebsgene, wie TP53, KEAP1, ARID2 und RUNX1. Die in diesen Genen beobachteten Mutationen weisen eine deutliche Tendenz zu hohen FI auf (Abb. 2b; vollständige Liste in Zusatzdatei 3).

Zweitens berechneten wir als Näherungswert für die True-Positive-Rate der Methode die fache Anreicherung des Anteils bekannter Krebsgene (Gene im Cancer Gene Census (CGC) ) unter den Top-Ranking-Genen. Wir stellten fest, dass OncodriveFML in dieser Metrik besser abschneidet als die Originalversion von OncodriveFM , MutSigCV und e-Driver (Abb. 2c und Zusatzdatei 2, Abschnitt A) in den 19 untersuchten Tumorkohorten. Wir verglichen auch die Ergebnisse von OncodriveFML mit einer neueren Version von MutSigCV, die von den Autoren durchgeführt wurde, und stellten fest, dass es eine große Überschneidung zwischen den Genen gibt, die von beiden Methoden identifiziert wurden, und dass jede Methode zusätzliche echte Krebsgene identifiziert, die von der anderen übersehen wurden, was die Komplementarität der beiden Ansätze unterstreicht (zusätzliche Datei 2, Abschnitt A). Als Nächstes wendeten wir den OncodriveFML FM Verzerrungstest auf randomisierte Mutationsdatensätze an, die durch Umschichtung der in jedem Genom beobachteten Mutationen unter Berücksichtigung der Tri-Nukleotid-Raten und der Beschränkungen hinsichtlich der Anzahl der Mutationen pro Probe und pro Region erstellt wurden. Die Anzahl der Gene, die in diesen zufälligen Mutationsdatensätzen als mutmaßliche Triebkräfte erkannt wurden, würde als Indikator für die Rate der falsch-positiven Elemente dienen, die durch den FM-Bias-Test erkannt wurden. Wir haben diese Analyse an den 19 Ganz-Exom-Kohorten von Tumoren durchgeführt, die den WE-4482-Datensatz bilden. OncodriveFML findet kein signifikantes Gen in diesem Datensatz (graue Punkte in Abb. 2a), wie es für eine genaue Methode mit einer geringen Anzahl falsch positiver Elemente zu erwarten ist. Die gesamte Liste der Treiberkandidaten ist in Zusatzdatei 3 enthalten. Insgesamt zeigen die in diesem Abschnitt vorgestellten Ergebnisse, dass OncodriveFML mutmaßliche proteinkodierende Treibergene mit einer Sensitivität identifiziert, die fünf weit verbreitete, für diese Aufgabe entwickelte Methoden übertrifft, und dabei eine sehr niedrige Falsch-Positiv-Rate aufweist.

OncodriveFML erkennt nicht-kodierende Treiberelemente

Eines der interessantesten Merkmale von OncodriveFML ist seine Anwendbarkeit bei der Erkennung von nicht-kodierenden genomischen Treiberelementen. Daher testeten wir als Nächstes die Leistungsfähigkeit von OncodriveFML bei der Identifizierung von mutmaßlichen Treiberpromotoren, 5′ UTR-, intronischen Spleiß- und 3′ UTR-Regionen von kodierenden Genen, die Mutationen in 22 Tumorkohorten mit Ganzgenomdaten enthalten, die von TCGA oder anderen Projekten sequenziert wurden (Datensätze WG-505 bzw. WG-608 in Zusatzdatei 1), sowie zwei Pan-Krebs-Kohorten, die sich aus der Zusammenfassung der in allen Kohorten jedes Datensatzes entdeckten Mutationen ergeben (Abb. 3 und 4). 3 und 4). Unser primäres Ziel war es, OncodriveFML bei der Identifizierung von mutmaßlichen treibenden nicht-kodierenden Elementen zu testen und seine Leistung mit zwei anderen, kürzlich veröffentlichten Methoden zu vergleichen, die denselben Effekt haben. Aufgrund des völligen Fehlens eines kuratierten Goldstandards für nicht-kodierende Treiberelemente beschränkten wir den Vergleich auf die Bewertung der Falsch-Positiv-Rate, die von jeder Methode durch die Analyse der QQ-Plots ihrer beobachteten und erwarteten Verteilungen der p-Werte und die Analyse der randomisierten Datensätze erkannt wurde. Wir haben CADD verwendet, um die FI von Mutationen zu bewerten, die in allen oben genannten nicht-kodierenden Elementen auftreten, mit Ausnahme von 3′ UTRs, bei denen wir den von RNAsnp bereitgestellten Score für diesen Effekt verwendet haben (siehe unten). Wie bei den kodierenden Genen korrelieren die beobachteten und erwarteten Verteilungen der FM bias p-Werte der 22- und Pan-Krebs-Kohorten sehr gut, und bei Anwendung auf den randomisierten Mutationsdatensatz zeigt sich eine gute Kontrolle der falsch-positiven Ergebnisse (Abb. 3a). In dieser Hinsicht schneidet OncodriveFML bei der Identifizierung von putativen nicht-kodierenden Elementen in den Kohorten der WG-505- und WG-608-Datensätze im Vergleich zu zwei kürzlich veröffentlichten Methoden gut ab (Zusatzdatei 2, Abschnitt B). In den folgenden Abschnitten beschreiben wir detailliert die interessantesten Treiberkandidaten für jeden Typ von nicht-kodierenden Elementen, die als signifikant FM-verzerrt identifiziert wurden.

OncodriveFML deckt mutmaßliche Treiberpromotoren und 5′ UTRs auf

In der Pan-Krebs-Kohorte, die 505 Tumoren umfasst, umfassen die Promotorregionen mit der signifikantesten FM-Verzerrung eine kurze Liste interessanter Treiberkandidaten, wie z. B. die von TERT (Details in Abb. 3b), SYF2, ARGHEF18 und POLR2D. TERT kodiert für die Reverse Transkriptase-Untereinheit der Telomerase, die für die Aufrechterhaltung der Telomerlänge während des Tumorwachstums erforderlich ist. Aktivierende Mutationen im TERT-Promotor wurden als treibende Kraft bei mehreren Krebsarten festgestellt. Weitere vielversprechende neue Kandidaten sind die Promotoren von SYF2 (Details in Abb. 3c), einem mRNA-Spleißfaktor, von dem angenommen wird, dass er mit einem Zellzyklusregulator interagiert, ARHGEF18, einem Rho-spezifischen Guanin-Nukleotid-Austauschfaktor, der an der RhoA-Aktivierung und der Zellmotilität beteiligt ist, und POLR2D (Abb. 3d), einer Untereinheit von RhoA. 3d), eine Untereinheit der RNA-Polymerase, die in Melanomproben Mutationen in unmittelbarer Nähe der Transkriptionsstartstelle (TSS) aufweist.

In einer Kohorte von 18 Gliomen niedrigeren Grades identifiziert OncodriveFML neben dem TERT-Promotor auch den Promotor von SPN mit einer hochsignifikanten FM-Verzerrung (Abb. 3e). Die Expression beider Gene ist in Proben, die Mutationen in ihren Promotoren tragen, signifikant höher als in nicht mutierten Proben (Abb. 3f), was die Vorstellung untermauert, dass diese Mutationen während der Tumorentstehung positiv selektiert werden. SPN wird normalerweise nur von weißen Blutkörperchen produziert, wo es Funktionen wie Zell-Zell-Adhäsion, intrazelluläre Signalübertragung, Apoptose, Migration und Proliferation reguliert. Seine ektopische Expression in soliden Tumoren wurde berichtet und als Ziel für eine Immuntherapie vorgeschlagen. Zusammenfassend lässt sich sagen, dass OncodriveFML nicht nur eine sehr niedrige Rate an falsch-positiven Ergebnissen bei der Erkennung von mutmaßlichen Treiberpromotorelementen liefert, sondern auch in der Lage ist, bereits bekannte und mutmaßlich interessante Promotoren mit Treibermutationen zu identifizieren, selbst bei sehr geringer Mutationshäufigkeit. Die gesamte Liste der mutmaßlichen Treiberpromotoren (und anderer nicht-kodierender Elemente) ist in Zusatzdatei 3 zu finden.

Unter den am höchsten eingestuften FM-beeinflussten 5′ UTR-Regionen fanden wir die von TBC1D12 (Abb. 3g). Dieses Gen kodiert ein GTPase-aktivierendes Protein für Proteine der Rab-Familie. 5′-UTR-Mutationen finden sich immer wieder in der Nähe des Startcodons (Abb. 3h) und werden in Proben verschiedener Tumortypen nachgewiesen. Wir haben sie auch als FM voreingenommen in Kohorten des WG-608-Datensatzes entdeckt (Abb. 3i). Die Nähe der Mutationen zum Startcodon legt nahe, dass sie sich auf die Translationskontrolle auswirken könnten. Diese Mutationen wurden vor kurzem als signifikant redundant durch berichtet, wobei 15 % der Blasentumorproben Mutationen unter Verwendung von Ganz-Exom-Daten trugen.

OncodriveFML deckt Gene mit treibenden Mutationen in intronischen Spleißregionen auf

Als nächstes analysierten wir mit OncodriverFML die intronischen Regionen kodierender Gene, insbesondere die 50 bps von der Exon-Intron-Grenze (intron-50 bps) unter Verwendung von CADD als funktionellem Scoring-Rahmen, um Gene mit treibenden Intron-Spleißmutationen zu identifizieren. In der Pan-Krebs-Kohorte des WG-505-Datensatzes identifiziert OncodriveFML eine Auswahlliste bekannter Tumorsuppressorgene – TP53, STK11 und NF1 -, deren Intron-Splicing-Mutationen in hohem Maße auf FM zurückzuführen sind (Abb. 4a-b). TP53 enthält 16 Mutationen innerhalb der ersten 50 bps seiner Introns, von denen sieben in Brustkrebsproben auftreten, während die anderen über die Kohorten anderer Tumorarten (einschließlich GBM, CRC, LUSC, SKCM, LUAD) verteilt sind (Abb. 4b). Interessanterweise liegen acht dieser Mutationen innerhalb der ersten 2 bps der Intron-Exon-Grenze. STK11 ist eine Serin/Threonin-Proteinkinase, von der bekannt ist, dass sie als Tumorsuppressor bei der Kontrolle der Aktivität von Mitgliedern der AMP-aktivierten Proteinkinase (AMPK)-Familie fungiert und dadurch eine Rolle bei verschiedenen Prozessen wie Zellstoffwechsel, Zellpolarität, Apoptose und DNA-Schadensreaktion spielt, wobei sie bei Lungenadenokarzinomen häufig inaktivierende Mutationen trägt. Die meisten der in der Pan-Krebs-Kohorte des WG-505-Datensatzes beobachteten Mutationen (4 von 6), die in die ersten 50 bps der Introns fallen, entsprechen tatsächlich Lungenadenokarzinom-Proben und liegen alle in unmittelbarer Nähe der Intron-Exon-Grenze (Abb. 4c). 4c).

OncodriveFML identifiziert mutmaßliche Treiber 3′ UTRs

Als nächstes setzten wir OncodriveFML ein, um Treibergene durch Mutationen in ihren 3′ UTR-Regionen zu identifizieren. In diesem Fall verwendeten wir die Auswirkungen der Mutationen auf die RNA-Sekundärstruktur, die von RNAsnp als FI-Score berechnet wurde, um den FM-Bias der Mutationen zu berechnen. In der Pan-Krebs-Kohorte des WG-505-Datensatzes identifizierte OncodriveFML BORA und CHAF1B als mutmaßliche Treibergene anhand der Mutationen in ihren 3′-UTR-Regionen (Abb. 4d-h). Mutationen, die zum berechneten FM-Bias für CHAF1B im WG-505-Datensatz beitragen, treten in BRCA, CRC, LUAD und UCEC auf. In der Pan-Krebs-Kohorte des WG-608-Datensatzes hingegen, in der ebenfalls eine signifikante FM-Verzerrung festgestellt wurde, treten Mutationen in BRCA- und STAD-Proben auf (Abb. 4e). CHAF1B ist ein Faktor für den Zusammenbau von Chromatin, der an der DNA-Replikation und DNA-Reparatur beteiligt ist. BORA ist ein Aurora-Kinase-Aktivator, der an der Reifung des Zentrosoms, dem Aufbau der Spindel und der asymmetrischen Proteinlokalisierung während der Mitose beteiligt ist.

OncodriveFML identifiziert putative lncRNAs

Als Nächstes setzten wir OncodriveFML ein, um das Potenzial einer Gruppe von lncRNAs zu untersuchen, die wir aus der Literatur entnommen hatten und deren biologische Funktionen bereits bekannt sind (Additional file 4). Die mutierten lncRNAs unter diesen (über Kohorten hinweg in den WG-505- und WG-608-Datensätzen) wurden daher von OncodriveFML analysiert, und diejenigen, die in mindestens einer Kohorte signifikant FM verzerrt sind, erscheinen in Zusatzdatei 4. Wie im Fall der 3′-UTRs berechneten wir die FM-Verzerrung anhand einer FI-Metrik, die die Auswirkungen der Mutation auf die RNA-Sekundärstruktur schätzt. Wir fanden heraus, dass MALAT1, ein lncRNA-Gen, von dem zuvor gezeigt wurde, dass es an der Tumorigenese von Lungenadenokarzinomen beteiligt ist, eine leicht signifikante FM-Verzerrung sowohl in den Kohorten der WG-505 (p-Wert 0,0138 in KIRC) als auch der WG-608 (p-Wert 0,0104 in Pan-Krebs) Datensätze aufweist. Darüber hinaus entdeckten wir im WG-505-Datensatz (p-Wert 0,0281 bei KIRC und p-Wert 0,0163 bei Pan-Krebs) eine größere als erwartete Häufung von somatischen Mutationen mit hoher funktioneller Auswirkung in MIAT, einem nicht-proteinkodierenden Transkript, das mit Myokardinfarkt assoziiert ist.

OncodriveFML erkennt positive Selektion aus der Sequenz eines Gen-Panels

Schließlich haben wir die Liste der somatischen Mutationen analysiert, die in einem Gen-Panel mit hoher Abdeckung in 234 Biopsien sonnenexponierter Epidermis sequenziert wurden, um den Einsatz von OncodriveFML bei der Erkennung von Genen mit positiver Selektion zu veranschaulichen, wenn die meisten Mutationen in der Probe für die Methode nicht verfügbar sind. OncodriveFML erkennt neun Gene mit einem FM bias q-Wert <0,1 (Abb. 5a und b), darunter die fünf Gene, die von den Autoren mit einem modifizierten dn/ds-Ansatz identifiziert wurden (NOTCH1, NOTCH2, FAT1, TP53, RBM10), und vier weitere gutgläubige Treiber der Tumorentstehung (NOTCH3, ARID2, KMT2D, ARID1A). Sechs dieser neun Gene werden als Treiber von kutanen Plattenepithelkarzinomen (cSCC) identifiziert, dem Tumortyp, der sich am häufigsten bei der Malignisierung von sonnenexponierter Epidermis entwickelt. Die Ergebnisse zeigen das Potenzial von OncodriveFML bei der Identifizierung von Genen, die unter positiver Selektion stehen und als Teil eines Panels sequenziert wurden.

Wir haben OncodriveFML für Krebsgenomforscher sowohl zum Herunterladen und Installieren des Codes als auch zur Ausführung über eine Webanwendung (http://www.intogen.org/oncodrivefml) zur Verfügung gestellt.

OncodriveFML: Ein allgemeiner Rahmen zur Identifizierung von kodierenden und nicht-kodierenden Regionen mit krebsfördernden Mutationen