OncodriveFML: a general framework to identify coding and non-coding regions with cancer driver mutations

OncodriveFML computes a local FM bias

De gedachte achter OncodriveFML is dat de waarneming van somatische mutaties op een genomisch element (coderend gen, promoter, UTR, lncRNA, enz.) in tumoren, waarvan de gemiddelde impactscore significant hoger is dan verwacht voor dat element, een signaal vormt dat deze mutaties positieve selectie hebben ondergaan tijdens de tumorigenese. Dit wordt op zijn beurt beschouwd als een directe aanwijzing dat dit element tumorigenese aanstuurt. Deze afwijking van de waargenomen gemiddelde impactscore van somatische mutaties in een genomisch kenmerk ten opzichte van de verwachte waarde noemen wij de functionele mutatiebias, of FM bias. Om de FM bias van een bepaald element te meten, moet OncodriveFML (1) een relevante score van de voorspelde impact van de mutaties in het genomische element kunnen berekenen; en (2) de mutatieprocessen simuleren om de verwachte gemiddelde impactscore te berekenen.

Elke benadering om de impact van mutaties te berekenen, hoe verschillend ook afhankelijk van het type genomisch element dat wordt geanalyseerd, kan dienen om de waargenomen FM bias ervan te berekenen (fig. 1a). Zo zou men bij mutaties in eiwitcoderende genen het voorspelde effect op de eiwitstructuur en -functie kunnen meten, terwijl men bij RNA-genen of UTR’s het effect van de mutaties op de secundaire structuur van het RNA zou kunnen berekenen, waarvan bekend is dat die bepalend is voor hun functie. Ook in UTR’s zou het effect van mutaties op de binding van microRNA’s (miRNA’s) aan hun doelgebieden een nuttige maatstaf voor de FI kunnen zijn. In het geval van promotors en enhancers kan het effect van mutaties op bestaande bindingsplaatsen voor transcriptiefactoren of het ontstaan van nieuwe bindingsplaatsen worden beoordeeld. Gecombineerde scores die rekening houden met verscheidene kenmerken om de FI te meten, zoals CADD , kunnen ook nuttig zijn. De enige vereisten voor de FI score aanpak is dat het relevant is voor de functie van het bestudeerde genomische element en dat het berekend kan worden voor alle mogelijke mutaties in het element. Hier presenteren we implementaties van OncodriveFML die gebruik maken van verschillende FI-scoremethoden.

Fig. 1

De OncodriveFML-benadering voor het detecteren van signalen van positieve selectie. a De functionele impact (FI) van mutaties kan op verschillende manieren worden berekend voor verschillende soorten genomische elementen. b De FI van somatische mutaties die in een genomisch element in tumoren voorkomen, worden berekend. c Mutatiesets worden willekeurig uit het geanalyseerde element genomen en de FI-score van elke gesimuleerde mutatie wordt verkregen. d De gemiddelde FI van de in het element waargenomen mutaties (rode stippen) wordt vergeleken met de verdeling van de FI-gemiddelden van willekeurig gegenereerde mutaties (vioolplots) om een empirische p-waarde te verkrijgen. Links wordt een voorbeeld van een zeer significante p-waarde getoond, terwijl de vioolplot rechts een niet-significant geval illustreert

OncodriveFML bestaat uit drie stappen die in fig. 1b-d worden geïllustreerd. In de eerste stap wordt de gemiddelde FI-score berekend van de reeks somatische mutaties die in het betrokken element in een tumorcohort zijn waargenomen (fig. 1b). In de tweede stap worden sets mutaties van dezelfde grootte als het aantal waargenomen mutaties in het element willekeurig bemonsterd uit het universum van alle varianten die het mogelijk kan dragen (fig. 1c). Om mutatieprocessen in de tumor van belang nauwkeurig te modelleren, wordt de bemonstering gedaan volgens de mutatiekans van verschillende tri-nucleotiden, die ofwel kan worden berekend uit de mutaties waargenomen in elk monster, in cohort geanalyseerd als geheel, of vooraf berekend uit eerder geanalyseerde tumor cohorten van hetzelfde of soortgelijk type. Deze willekeurige bemonstering wordt een aantal malen herhaald (bv. 10.000 keer) om lokale verwachte gemiddelde impactscores te genereren. Tenslotte vergelijkt OncodriveFML de gemiddelde impactscore die voor elk element is waargenomen met de lokale verwachte gemiddelde impactscore die het resultaat is van de bemonstering en berekent een lokale FM bias, in de vorm van een empirische p-waarde die de afwijking meet van de waargenomen gemiddelde score ten opzichte van de verwachte achtergrond (fig. 1d). Elementen met een significante lokale FM bias na de correctie voor false discovery rate worden beschouwd als waarschijnlijke drivers.

OncodriveFML detecteert driver-coderende genen

Om de validiteit te testen, hebben we OncodriveFML toegepast op de detectie van drivers onder alle menselijke eiwit-coderende genen met behulp van de set van somatische mutaties gedetecteerd door whole-exome sequencing in de tumoren van 19 cohorten, (deze en alle datasets van somatische mutaties die hier worden gebruikt, worden beschreven in Additional file 1). Ten eerste, door middel van kwantiel-kwantiel (QQ) plots die de verwachte en waargenomen verdeling van de FM bias p-waarden vergelijken (Fig. 2a en Additional file 2, sectie A), tonen we aan dat de laatste de verwachte homogene verdeling van de nulhypothese volgt, met uitzondering van de weinige gevallen die overeenkomen met genen met een significante FM bias. Onder de genen met de hoogste rangschikking die door OncodriveFML werden geïdentificeerd in de vier cohorten die in fig. 2b en c als voorbeeld worden voorgesteld, bevinden zich bekende kankergenen, zoals TP53, KEAP1, ARID2, en RUNX1. Mutaties die in deze genen worden waargenomen, vertonen een duidelijke bias naar hoge FI (Fig. 2b; hele lijst in Additional file 3).

Fig. 2

Resultaten van de toepassing van OncodriveFML voor het identificeren van driver-eiwit-coderende genen in vier cohorten tumoren. a Kwantiel-kwantiel (QQ) plots waarin de verwachte en waargenomen verdeling van de FM-bias p-waarden van genen worden vergeleken. Grijze stippen geven p-waarden verkregen op de gerandomiseerde dataset die dient als negatieve controle. Namen in rood geven genen aan met een FM bias q-waarde lager dan 0.1, terwijl namen in zwart genen aangeven met een FM bias q-waarde lager dan 0.25. Vetgedrukte namen wijzen op genen die zijn geannoteerd in de Cancer Gene Census (CGC). b Mutatie-naald-grafieken met de verdeling van mutaties langs de sequenties van de CDS van geselecteerde genen. De kleur van de cirkels volgt de schaal van de FI CADD-score. De y-as geeft het aantal tumormonsters in de cohorten aan waar mutaties op elke positie zijn waargenomen. Het gedrag van de CADD FI score over de gehele CDS wordt onder de naald-plot getoond. c Vijftoename van het aandeel CGC genen onder sets met toenemend aantal top ranking genen gedetecteerd door vier methoden: OncodriveFML, OncodriveFM, MutSigCV, en e-Driver. (Zie details in de tekst.) QQ plots en vouwen CGC proportie toename grafieken voor andere 15 cohorten tumoren zijn beschikbaar in Additional file 2, sectie A

Ten tweede, als een proxy van de echte positieven tarief van de methode, berekenden we de vouw verrijking in het aandeel van bekende kanker genen (genen in de Cancer Gene Census (CGC) ) onder de top ranking genen. We vonden dat OncodriveFML beter presteert in deze metriek dan de originele versie van OncodriveFM , MutSigCV , en e-Driver (Fig. 2c en Additional file 2, sectie A) over de 19 geanalyseerde cohorten tumoren. We hebben ook de resultaten van OncodriveFML vergeleken met een nieuwere versie van MutSigCV, uitgevoerd door de auteurs ervan, waarbij we ontdekten dat er een belangrijke overlap is tussen de genen die door beide methoden worden geïdentificeerd en dat elke methode extra echte kankergenen identificeert die door de andere worden gemist, wat de complementariteit van de twee benaderingen benadrukt (Additional file 2, sectie A). Vervolgens hebben we de OncodriveFML FM bias test toegepast op gerandomiseerde datasets van mutaties, opgebouwd door de mutaties die binnen elk genoom zijn waargenomen te herschikken, volgens de percentages van tri-nucleotiden en de beperkingen van het aantal mutaties per monster en per regio. Het aantal genen dat binnen deze willekeurige datasets van mutaties als vermoedelijke drijvende kracht wordt gedetecteerd, fungeert als proxy voor het percentage fout-positieve elementen dat met de FM-bias-test wordt opgespoord. Wij hebben deze analyse uitgevoerd op de 19 gehele genoom cohorten van tumoren die de WE-4482 dataset vormen. OncodriveFML vindt geen significant gen in deze dataset (grijze stippen in Fig. 2a), zoals verwacht voor een nauwkeurige methode met een laag aantal vals-positieven. De volledige lijst van kandidaat-stuurprogramma’s is te vinden in Additional file 3. Alles bij elkaar tonen de resultaten in deze sectie aan dat OncodriveFML putatieve eiwit-coderende driver-genen identificeert met een gevoeligheid die beter is dan die van vijf veelgebruikte methoden die voor deze taak zijn ontwikkeld, met behoud van een zeer laag percentage vals-positieven.

OncodriveFML detecteert driver niet-coderende elementen

Eén van de meest interessante kenmerken van OncodriveFML is de toepasbaarheid ervan op de detectie van driver niet-coderende genomische elementen. Daarom hebben we vervolgens de prestaties getest in de identificatie van putatieve driver promotor, 5′ UTR, splice intronic, en 3′ UTR regio’s van coderende genen die mutaties bevatten in 22 tumorcohorten met whole-genome data gesequenced door TCGA of andere projecten (datasets WG-505 en WG-608, respectievelijk, in Additional file 1), evenals twee pan-kanker cohorten die voortvloeien uit het poolen van de mutaties gedetecteerd in alle cohorten van elke dataset (Figs. 3 en 4). Ons primaire doel was om OncodriveFML te testen op de identificatie van putatieve driver niet-coderende elementen en de prestaties te vergelijken met twee andere recent gepubliceerde methoden met hetzelfde effect. Wegens het volledig ontbreken van een gecureerde gouden standaard van niet-coderende driver elementen, hebben wij de vergelijking beperkt tot de beoordeling van het percentage vals-positieven gedetecteerd door elke methode door middel van de analyse van de QQ plots van hun waargenomen en verwachte verdelingen van p-waarden en de analyse van gerandomiseerde datasets. We hebben CADD gebruikt om de FI van mutaties in alle bovengenoemde niet-coderende elementen te scoren, met uitzondering van de 3′ UTR’s, waarvoor we de score van RNAsnp hebben gebruikt (zie hieronder). Net als bij de coderende genen correleren de waargenomen en verwachte verdelingen van de FM bias p-waarden van de 22- en pan-kanker-cohorten zeer goed, en wanneer toegepast op de gerandomiseerde mutatie-dataset vertoont het een goede beheersing van vals-positieven (Fig. 3a). In dit opzicht steekt OncodriveFML gunstig af bij twee recent gepubliceerde methoden voor de identificatie van putatieve niet-coderende elementen over de cohorten van zowel de WG-505 als de WG-608 datasets (Additional file 2, sectie B). In de volgende secties beschrijven we in detail de meest interessante kandidaat-bestuurders van elk type niet-coderende elementen die als significant FM-vertekend werden geïdentificeerd.

Fig. 3

Resultaten van de toepassing van OncodriveFML voor het identificeren van driver-promotors en 5′ UTR’s. De resultaten van OncodriveFML worden geïllustreerd voor mutaties die zijn aangetroffen in het pan-kankercohort (a-d) en de cohorten van gliomen van lagere graad (e, f) en urotheliale blaascarcinomen (g-i) van de WG-505-dataset. a, e, g QQ-plots waarin de verwachte en waargenomen verdeling van de FM-bias p-waarden van in de respectieve cohorten gemuteerde promotors en 5′ UTR’s wordt vergeleken. b-d, h Mutatie naald-plots van geselecteerde promotors en 5′ UTRs, met een zoom op mutaties in de nabijheid van de transcriptie start site (TSS), of de 5 bps van de 5′ UTR dichter bij de CDS, respectievelijk. f Vergelijking van de expressie van twee genen met significant FM bias promotors in het cohort van lagere graad glioma’s in monsters met mutaties in de promotor en niet-gemuteerde monsters. In de boxplots wordt de genexpressie van de gemuteerde monsters (links) vergeleken met die van niet-gemuteerde monsters (rechts). De expressiewaarden worden gerapporteerd in RPKM (Reads Per Kilobase of transcript per Million mapped reads) op de y-as en het aantal monsters (gemuteerd en normaal) in elke set wordt aangegeven met stippen op de boxplots. De significantie van de differentiële expressie tussen gemuteerde en niet-gemuteerde monsters wordt gerapporteerd aan de bovenkant van elke plot (Wilcoxon rank-sum test). I. Significantie van het 5′ UTR van het TBC1D12-gen in verschillende cohorten van zowel de WG-505- als de WG-608-datasets

Fig. 4

Resultaten van de toepassing van OncodriveFML voor het identificeren van driver splice intronic regio’s en 3′ UTRs. De resultaten van OncodriveFML worden geïllustreerd op mutaties die zijn aangetroffen in het pan-kanker cohort van de WG-505 dataset. a, d QQ-plots waarin de verwachte en waargenomen verdeling van FM bias p-waarden van splice intronic regio’s en 3′ UTR’s gemuteerd in het pan-kanker cohort worden vergeleken. b, c, f-h Mutatie naald-plots van geselecteerde splice intronic regio’s en 3′ UTR’s. e Significantie van het 3′ UTR van het CHAF1B-gen in verschillende cohorten van zowel de WG-505- als de WG-608-datasets

OncodriveFML legt putatieve driver-promotors en 5′ UTRs bloot

In het pan-kankercohort, bestaande uit 505 tumoren omvatten de promotorregio’s met de meest significante FM bias een shortlist van interessante kandidaat-drivers, zoals die van TERT (details in Fig. 3b), SYF2, ARGHEF18, en POLR2D. TERT codeert voor de reverse transcriptase subeenheid van telomerase die nodig is om telomeerlengte te behouden tijdens tumorgroei. Activerende mutaties in de promotor van TERT zijn aangetroffen als aanjagers in verschillende soorten kanker. Andere veelbelovende nieuwe kandidaten zijn de promotors van SYF2 (details in Fig. 3c), een mRNA splicing factor waarvan gedacht wordt dat hij interageert met een celcyclus regulator, ARHGEF18, een Rho-specifieke guanine nucleotide wisselfactor die betrokken is bij RhoA activering en cel motiliteit, en POLR2D (Fig. 3d), een subunit van de RNA polymerase, die mutaties bevat zeer dicht bij de transcriptie start site (TSS) in melanoom monsters .

In een cohort van 18 lagere graad glioma’s, identificeert OncodriveFML, naast de TERT promoter, de promoter van SPN met een zeer significante FM bias (Fig. 3e). De expressie van beide genen is significant hoger in monsters met mutaties in hun promotors dan in niet gemuteerde monsters (Fig. 3f), wat fundament geeft aan het idee dat deze mutaties positief geselecteerd worden tijdens de tumorigenese. SPN wordt normaliter uitsluitend geproduceerd door witte bloedcellen, waar het functies reguleert als cel-cel adhesie, intracellulaire signalering, apoptose, migratie en proliferatie. De ectopische expressie ervan in solide tumoren is gerapporteerd en voorgesteld als een doelwit voor immunotherapie. Samenvattend kan worden gesteld dat OncodriveFML niet alleen een zeer laag percentage vals-positieve resultaten oplevert bij de opsporing van putatieve driverpromoterelementen, maar ook in staat is reeds bekende en putatieve interessante promotors met drivermutaties te identificeren, zelfs bij een zeer lage mutatiefrequentie. De hele lijst van putatieve driver promotors (en andere niet-coderende elementen) is te vinden in Additional file 3.

Tot de top-ranking FM biased 5′ UTR regio’s, vonden we die van TBC1D12 (Fig. 3g). Dit gen codeert voor een GTPase-activerend eiwit voor Rab-familie-eiwitten. 5′ UTR mutaties worden recurrent gevonden nabij het start codon (Fig. 3h) en worden gedetecteerd in stalen van verschillende tumortypes. We ontdekten ze ook als FM biased in cohorten van de WG-608 dataset (Fig. 3i). De nabijheid van de mutaties bij het startcodon suggereert dat ze een effect op de translatiecontrole zouden kunnen hebben. Deze mutaties werden onlangs gerapporteerd als significant redundant door , waarbij 15 % van de blaastumormonsters mutaties vertoonden met behulp van whole-exome data.

OncodriveFML ontdekt genen met driver mutaties in splice intronic regio’s

We analyseerden vervolgens met OncodriverFML de intronic regio’s van coderende genen, specifiek, de 50 bps van exon-intron grens (intron-50 bps) met behulp van CADD als een functioneel scoringskader om genen met driver intron-splicing mutaties te identificeren. In het pan-kanker cohort, van de WG-505 dataset, identificeert OncodriveFML een shortlist van bekende tumoronderdrukkende genen-TP53, STK11, en NF1-als sterk FM bevooroordeeld in hun intron-splicing mutaties (Fig. 4a-b). TP53 bevat 16 mutaties binnen de eerste 50 bps van zijn intronen, waarvan er zeven voorkomen in borstkankermonsters, terwijl de andere verdeeld zijn over de cohorten van andere tumortypes (waaronder GBM, CRC, LUSC, SKCM, LUAD) (Fig. 4b). Interessant is dat acht van deze mutaties zich binnen de eerste 2 bps van de intron-exon grens bevinden. STK11 is een serine/threonine-eiwit kinase waarvan bekend is dat het als tumorsuppressor de activiteit van AMP-geactiveerde proteïnekinase (AMPK) familieleden controleert en daardoor een rol speelt in diverse processen zoals celmetabolisme, celpolariteit, apoptose en DNA-schaderespons, en dat vaak inactiverende mutaties draagt in longadenocarcinoma’s. De meeste mutaties (4 van de 6) die in het pan-kanker cohort van de WG-505 dataset zijn waargenomen en die binnen de eerste 50 bps van de intronen vallen, komen inderdaad overeen met longadenocarcinoma monsters en liggen alle in de nabijheid van de intron-exon grens (Fig. 4c).

OncodriveFML identificeert putatieve driver 3′ UTRs

Volgende, gebruikten we OncodriveFML om driver-genen te identificeren op mutaties in hun 3′ UTR regio’s. In dit geval gebruikten we de impact van mutaties op de secundaire structuur van RNA berekend door RNAsnp als FI score om de FM bias van mutaties te berekenen. In het pan-kanker cohort van de WG-505 dataset identificeerde OncodriveFML BORA en CHAF1B als putatieve driver genen op basis van de mutaties in hun 3′ UTR regio’s (Fig. 4d-h). Mutaties die bijdragen aan de berekende FM bias voor CHAF1B in de WG-505 dataset komen voor in BRCA, CRC, LUAD, en UCEC. Aan de andere kant, in het pan-kanker cohort van de WG-608 dataset, waar het ook als significant FM biased naar voren komt, komen mutaties voor in BRCA en STAD monsters (Fig. 4e). CHAF1B is een factor voor de assemblage van chromatine die betrokken is bij DNA-replicatie en DNA-herstel. BORA is een Aurora kinase activator, betrokken bij de maturatie van het centrosoom, de assemblage van de spindel en asymmetrische eiwitlokalisatie tijdens mitose.

OncodriveFML identificeert putatieve lncRNAs

Vervolgens gebruikten we OncodriveFML om het potentieel van een groep lncRNAs te onderzoeken die uit de literatuur waren verzameld en waarvan de biologische functies zijn vastgesteld (Additional file 4). De gemuteerde lncRNAs hieruit (over cohorten in de WG-505 en WG-608 datasets) werden dus geanalyseerd door OncodriveFML en die significant FM vertekend in ten minste één cohort verschijnen in Additional file 4. Net als bij de 3′ UTRs berekenden we de FM bias met behulp van een FI metric die de invloed van mutatie op de secundaire structuur van het RNA schat. We vonden dat MALAT1, een lncRNA gen waarvan eerder is aangetoond dat het betrokken is bij de tumorigenese van long adenocarcinomen, een licht significante FM bias vertoont in cohorten van zowel de WG-505 (p waarde 0,0138 in KIRC) en de WG-608 (p waarde 0,0104 in pan-kanker) datasets. Bovendien ontdekten wij een hoger dan verwachte accumulatie van somatische mutaties met een grote functionele impact in MIAT, een niet-eiwitcoderend transcript dat geassocieerd is met myocardinfarct in de WG-505 dataset (p waarde 0,0281 in KIRC en p waarde 0,0163 in pan-kanker).

OncodriveFML detecteert positieve selectie uit de sequentie van een genenpanel

Ten slotte analyseerden we de lijst van somatische mutaties die werden gedetecteerd in een panel van genen die met hoge dekking werden gesequeneerd over 234 biopten van aan de zon blootgestelde epidermis om het gebruik van OncodriveFML te illustreren voor de taak van het detecteren van genen onder positieve selectie in het geval dat de meeste mutaties in het monster niet beschikbaar zijn voor de methode. OncodriveFML detecteert negen genen met een FM bias q-waarde <0.1 (Fig. 5a en b), waaronder de vijf genen die door de auteurs met een aangepaste dn/ds benadering werden geïdentificeerd (NOTCH1, NOTCH2, FAT1, TP53, RBM10) en vier andere bonafide aanjagers van tumorigenese (NOTCH3, ARID2, KMT2D, ARID1A). Zes van deze negen genen worden gedetecteerd als drivers van cutaan plaveiselcelcarcinoom (cSCC), het tumortype dat zich het vaakst ontwikkelt na malignisatie van aan de zon blootgestelde epidermis. De resultaten laten het potentieel zien van OncodriveFML bij het identificeren van genen die onder positieve selectie staan onder de genen die als onderdeel van een panel zijn gesequenced.

Fig. 5

Resultaten van de toepassing van OncodriveFML op de somatische mutaties die werden geïdentificeerd in een panel van genen in 234 biopsieën van normale huid. a p waarde vs. aantal mutaties van de 74 genen die in het panel werden gesequenced. Genen die als significant zijn geïdentificeerd met een q-waarde <0.1 (rode stippen) zijn aangegeven met hun naam, terwijl genen die als significant zijn geïdentificeerd met een q-waarde <0.25 zijn gemarkeerd als groene stippen. b Mutatie-naald-grafieken van de meest significante genen

We hebben OncodriveFML beschikbaar gesteld aan onderzoekers op het gebied van kankergenomica, zowel om de code te downloaden en te installeren als om via een webtoepassing uit te voeren (http://www.intogen.org/oncodrivefml).

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.