- OncodriveFML computes a local FM bias
- OncodriveFML upptäcker drivkrafter som kodar gener
- OncodriveFML upptäcker drivande icke-kodande element
- OncodriveFML avslöjar putativa drivkraftspromotorer och 5′ UTR
- OncodriverFML avslöjar gener med drivande mutationer i introniska spliceregioner
- OncodriveFML identifierar putativa drivande 3′ UTRs
- OncodriveFML identifierar putativa lncRNA
- OncodriveFML upptäcker positivt urval från sekvensen i en genpanel
OncodriveFML computes a local FM bias
Rationaliteten bakom OncodriveFML är att observationen av somatiska mutationer på ett genomiskt element (kodande gen, promotor, UTR, lncRNA etc.) i olika tumörer, vars genomsnittliga effektpoäng är betydligt större än vad som kan förväntas för elementet i fråga, är en signal om att dessa mutationer har genomgått positiv selektion under tumörigenesen. Detta anses i sin tur vara en direkt indikation på att detta element driver tumörigenesen. Vi kallar denna avvikelse av den observerade genomsnittliga effektpoängen för somatiska mutationer i ett genomiskt element från dess förväntade värde för funktionell mutationsbias, eller FM-bias. För att mäta FM bias för ett visst element krävs att OncodriveFML: (1) kunna beräkna en relevant poäng för den förutspådda effekten av mutationerna i det genomiska elementet, och (2) simulera mutationsprocesserna för att beräkna den förväntade genomsnittliga effektpoängen.
Varje tillvägagångssätt för att beräkna effekten av mutationer, även om det skiljer sig åt beroende på vilken typ av genomiskt element som analyseras, kan tjäna syftet att beräkna dess observerade FM-bias (fig. 1a). När det gäller mutationer i proteinkodande gener kan man till exempel mäta den förutspådda effekten på proteinets struktur och funktion, medan man i RNA-gener eller UTR:er kan beräkna mutationernas inverkan på RNA:s sekundärstruktur, som är känd för att vara avgörande för deras funktion. Även i UTR:er skulle ett användbart mått på mutationernas FI kunna vara deras effekt på mikroRNA:s (miRNA:s) bindning till sina målpunkter. När det gäller promotorer och förstärkare kan man bedöma effekten av mutationer på befintliga bindningsställen för transkriptionsfaktorer eller skapandet av nya sådana. Kombinerade poäng som tar hänsyn till flera egenskaper för att mäta FI, t.ex. CADD , kan också vara användbara. Det enda krav som ställs på FI-poängen är att de är relevanta för funktionen hos det undersökta genomiska elementet och att de kan beräknas för alla möjliga mutationer i elementet. Här presenterar vi implementeringar av OncodriveFML som använder flera metoder för FI-scoring.
OncodriveFML består av tre steg som illustreras i fig. 1b-d. I det första steget beräknas den genomsnittliga FI-poängen för den uppsättning somatiska mutationer som observerats i det aktuella elementet i en tumörkohort (fig. 1b). I det andra steget tas slumpmässigt urval av uppsättningar av mutationer av samma storlek som det antal mutationer som observerats i elementet från universumet av alla varianter som det möjligen kan upprätthålla (fig. 1c). För att exakt modellera mutationsprocesser i den aktuella tumörtypen görs urvalet enligt sannolikheten för mutation av olika trenukleotider, som antingen kan beräknas från de mutationer som observerats i varje prov, i den kohort som analyseras som helhet, eller förberäknas från tidigare analyserade tumörkohorter av samma eller liknande typ. Detta slumpmässiga urval upprepas ett antal gånger (t.ex. 10 000 gånger) för att generera lokala förväntade genomsnittliga effektpoäng. Slutligen jämför OncodriveFML den genomsnittliga effektpoängen som observerats för varje element med dess lokala förväntade genomsnittliga effektpoäng som är resultatet av provtagningen och beräknar en lokal FM-bias i form av ett empiriskt p-värde som mäter avvikelsen mellan den observerade genomsnittliga poängen och den förväntade bakgrunden (fig. 1d). Element med signifikant lokal FM bias efter korrigering för false discovery rate anses vara sannolika drivkrafter.
OncodriveFML upptäcker drivkrafter som kodar gener
För att testa dess validitet tillämpade vi OncodriveFML för att upptäcka drivkrafter bland alla mänskliga proteinkodande gener med hjälp av uppsättningen somatiska mutationer som upptäckts genom whole-exome sekvensering i tumörer från 19 kohorter, (dessa och alla datauppsättningar av somatiska mutationer som används här beskrivs i Additional file 1). För det första visar vi genom kvantil-kvantil (QQ)-plottar som jämför den förväntade och observerade fördelningen av p-värdena för FM-bias (fig. 2a och Additional file 2, avsnitt A) att den senare följer den förväntade homogena fördelningen av nollhypotesen, med undantag för de få fall som motsvarar gener med signifikant FM-bias. Bland de högst rankade generna som identifierats av OncodriveFML i de fyra kohorter som presenteras som exempel i fig. 2b och c finns välkända cancergener, t.ex. TP53, KEAP1, ARID2 och RUNX1. Mutationer som observerats i dessa gener uppvisar en tydlig bias mot hög FI (fig. 2b; hela listan finns i Additional file 3).
För det andra beräknade vi, som en proxy för metodens sant positiva frekvens, fold-berikningen i andelen kända cancergener (gener i Cancer Gene Census (CGC) ) bland de högst rankade generna. Vi fann att OncodriveFML presterar bättre i detta mått än originalversionen av OncodriveFM , MutSigCV och e-Driver (fig. 2c och Additional file 2, avsnitt A) i de 19 kohorter av tumörer som analyserades. Vi jämförde också resultaten från OncodriveFML med en nyare version av MutSigCV som körs av dess författare , och fann att det finns en viktig överlappning mellan de gener som identifieras av de båda metoderna och att varje metod identifierar ytterligare äkta cancergener som missats av den andra, vilket understryker att de två metoderna kompletterar varandra (Additional file 2, avsnitt A). Därefter tillämpade vi OncodriveFML FM bias-testet på slumpmässiga dataset av mutationer, som byggdes upp genom att omfördela de mutationer som observerats inom varje genom, enligt hastigheterna för trenukleotider och begränsningarna av antalet mutationer per prov och per region. Antalet gener som upptäcks som förmodade drivkrafter i dessa slumpmässiga datauppsättningar av mutationer skulle fungera som ett mått på andelen falskt positiva element som upptäcks av FM-biastestet. Vi utförde denna analys på de 19 helexomkohorter av tumörer som utgör WE-4482-dataset. OncodriveFML hittar ingen signifikant gen i detta dataset (grå prickar i fig. 2a), vilket är förväntat för en korrekt metod med ett lågt antal falskt positiva element. Hela listan över drivarkandidater finns i Additional file 3. Sammantaget visar de resultat som presenteras i det här avsnittet att OncodriveFML identifierar förmodade proteinkodande drivgener med en känslighet som överträffar fem allmänt använda metoder som utvecklats för den här uppgiften, samtidigt som den bibehåller en mycket låg andel falskt positiva resultat.
OncodriveFML upptäcker drivande icke-kodande element
En av de mest intressanta egenskaperna hos OncodriveFML är dess tillämplighet för upptäckt av drivande icke-kodande genomiska element. Därför testade vi nästa gång dess prestanda vid identifiering av putativa drivande promotor-, 5′ UTR-, splice-introniska och 3′ UTR-regioner av kodande gener som innehåller mutationer i 22 tumörkohorter med helgenomdata som sekvenserats av TCGA eller andra projekt (datamängderna WG-505 respektive WG-608 i tilläggsfil 1), samt två pan-cancerkohorter som är ett resultat av en sammanslagning av de mutationer som upptäckts i alla kohorter i varje datamängd (figurer. 3 och 4). Vårt primära mål var att testa OncodriveFML vid identifiering av icke-kodande element som kan vara drivkrafter och jämföra dess prestanda med andra två nyligen publicerade metoder för samma ändamål . På grund av den fullständiga avsaknaden av en kurerad guldstandard för icke-kodande förarelement begränsade vi jämförelsen till bedömningen av andelen falskt positiva upptäckta av varje metod genom analys av QQ-plottar av deras observerade och förväntade fördelningar av p-värden och analysen av slumpmässiga dataset. Vi använde CADD för att poängsätta FI för mutationer som förekommer i alla ovan nämnda icke-kodande element, med undantag för 3′ UTR, där vi använde den poäng som RNAsnp tillhandahåller för detta ändamål (se nedan). Liksom för kodande gener korrelerar de observerade och förväntade fördelningarna av FM bias p-värdena i 22- och pan-cancer-kohorterna mycket väl, och när de tillämpas på slumpmässiga mutationsdataset visar det en god kontroll av falskt positiva resultat (fig. 3a). I detta avseende jämför OncodriveFML positivt med två nyligen publicerade metoder när det gäller identifiering av putativa icke-kodande element över kohorterna i både WG-505- och WG-608-datasetterna (Additional file 2, avsnitt B). I följande avsnitt beskriver vi i detalj de mest intressanta kandidatdrivare för varje typ av icke-kodande element som identifierats som signifikant FM-biaserade.
OncodriveFML avslöjar putativa drivkraftspromotorer och 5′ UTR
I pan-cancerkohorten, som består av 505 tumörer, omfattar promotorregionerna med den mest signifikanta FM-förskjutningen en kort lista över intressanta kandidatdrivare, t.ex. för TERT (detaljer i fig. 3b), SYF2, ARGHEF18 och POLR2D. TERT kodar för den omvända transkriptasunderenheten av telomeras som krävs för att bibehålla telomerlängden under tumörtillväxten. Aktiverande mutationer i TERT-promotorn har hittats som drivkrafter i flera olika typer av cancer. Andra lovande nya kandidater är promotorerna för SYF2 (detaljer i fig. 3c), en mRNA-splicingfaktor som tros interagera med en cellcykelregulator , ARHGEF18, en Rho-specifik guaninnukleotidutbytesfaktor som är involverad i RhoA-aktivering och cellmotilitet , och POLR2D (fig. 3c). 3d), en underenhet till RNA-polymeras, som innehåller mutationer mycket nära transkriptionsstartplatsen (TSS) i melanomprover .
I en kohort av 18 lägre gradiga gliom identifierar OncodriveFML, förutom TERT-promotorn, SPN-promotorn med en mycket signifikant FM-bias (fig. 3e). Uttrycket av båda generna är signifikant högre i prover som bär på mutationer i deras promotorer än i icke-muterade prover (Fig. 3f), vilket ger grund för tanken att dessa mutationer är positivt selekterade under tumörigenesen. SPN produceras normalt endast av vita blodkroppar där det reglerar funktioner som cell-celladhesion, intracellulär signalering, apoptos, migration och proliferation. Dess ektopiska uttryck i solida tumörer har rapporterats och föreslagits som ett mål för immunterapi . Sammanfattningsvis kan OncodriveFML, förutom att det ger en mycket låg andel falskt positiva resultat vid upptäckten av potentiella drivande promotorelement, identifiera redan kända och potentiella intressanta promotorer med drivande mutationer, även vid mycket låg mutationsfrekvens. Hela listan över förmodade promotorer (och andra icke-kodande element) finns i Additional file 3.
Av de högst rankade FM-biased 5′ UTR-regionerna hittade vi TBC1D12:s 5′ UTR-region (fig. 3g). Denna gen kodar för ett GTPase-aktiverande protein för Rab-familjens proteiner. 5′ UTR-mutationer återkommer ofta nära startkoden (fig. 3h) och upptäcks i prover av olika tumörtyper. Vi upptäckte den också som FM-biologisk i kohorter i datasetet WG-608 (fig. 3i). Mutationernas närhet till startkodonet tyder på att de kan ha en effekt på translationskontrollen. Dessa mutationer rapporterades nyligen som signifikant redundanta av , där 15 % av proverna av blåsetumörer innehöll mutationer med hjälp av whole-exome-data.
OncodriverFML avslöjar gener med drivande mutationer i introniska spliceregioner
Nästan analyserade vi med OncodriverFML de introniska regionerna av kodande gener, närmare bestämt de 50 bps från exon-intron-gränsen (intron-50 bps) med hjälp av CADD som ett ramverk för funktionell poängsättning för att identifiera gener med drivande intron-splicingmutationer. I pan-cancerkohorten i datasetet WG-505 identifierar OncodriveFML en kort lista med välkända tumörsuppressorgener – TP53, STK11 och NF1 – som mycket FM-biaserade i sina intron-splicing-mutationer (fig. 4a-b). TP53 innehåller 16 mutationer inom de första 50 bps av dess introner, varav sju förekommer i bröstcancerprover, medan de övriga är fördelade över kohorter av andra tumörtyper (inklusive GBM, CRC, LUSC, SKCM, LUAD) (Fig. 4b). Intressant nog finns åtta av dessa mutationer inom de första 2 bps av intron-exon-gränsen. STK11 är ett serin/treoninproteinkinas som är känt för att fungera som en tumörsuppressor i kontrollen av aktiviteten hos medlemmarna i AMPK-familjen (AMPK) och spelar därmed en roll i olika processer som cellmetabolism, cellpolaritet, apoptos och DNA-skadereaktion, och som ofta bär på inaktiverande mutationer i i lungadenokarcinom . De flesta av de mutationer (4 av 6) som observerades i pan-cancerkohorten i datasetet WG-505 och som faller inom de första 50 bps av dess introner motsvarar faktiskt prover av lungadenokarcinom och alla ligger i nära anslutning till intron-exon-gränsen (Fig.
OncodriveFML identifierar putativa drivande 3′ UTRs
Nästan använde vi OncodriveFML för att identifiera drivande gener efter mutationer i deras 3′ UTR-regioner. I detta fall använde vi mutationernas inverkan på RNA:s sekundärstruktur beräknad av RNAsnp som FI-poäng för att beräkna mutationernas FM-bias . I pan-cancerkohorten i datasetet WG-505 identifierade OncodriveFML BORA och CHAF1B som förmodade drivgener utifrån mutationerna i deras 3′ UTR-regioner (fig. 4d-h). Mutationer som bidrar till den beräknade FM-biasen för CHAF1B i datasetet WG-505 förekommer i BRCA, CRC, LUAD och UCEC. Å andra sidan förekommer mutationer i BRCA- och STAD-proverna i WG-608-datasetets pan-cancerkohort, där den också verkar vara betydligt FM-biaserad (fig. 4e). CHAF1B är en kromatinsamlingsfaktor som är involverad i DNA-replikation och DNA-reparation . BORA är en Aurora kinas-aktivator som är involverad i mognad av centrosomen, montering av spindeln och asymmetrisk proteinlokalisering under mitos .
OncodriveFML identifierar putativa lncRNA
Vi använde oss därefter av OncodriveFML för att utforska potentialen hos en grupp lncRNA som samlats in från litteraturen och vars biologiska funktioner har fastställts (Additional file 4). De muterade lncRNA:erna bland dessa (över kohorter i datamängderna WG-505 och WG-608) analyserades således med OncodriveFML och de signifikant FM-biaserade i minst en kohort visas i Additional file 4. Liksom i fallet med 3′ UTR:er beräknade vi FM-biasen med hjälp av en FI-metrik som uppskattar mutationens inverkan på RNA:s sekundärstruktur . Vi fann att MALAT1, en lncRNA-gen som tidigare visat sig vara involverad i tumörigenesen av lungadenokarcinom , uppvisar en lätt signifikant FM-bias i kohorter i både WG-505 (p-värde 0,0138 i KIRC) och WG-608 (p-värde 0,0104 i pan-cancer) dataset. Dessutom upptäckte vi en högre ackumulering än förväntat av somatiska mutationer med hög funktionell påverkan i MIAT, ett icke-proteinkodande transkript som förknippas med hjärtinfarkt i datasetet WG-505 (p-värde 0,0281 i KIRC och p-värde 0,0163 i pan-cancer).
OncodriveFML upptäcker positivt urval från sekvensen i en genpanel
Slutligen analyserade vi listan över somatiska mutationer som upptäcktes i en panel av gener som sekvenserades med hög täckning i 234 biopsier av solexponerad epidermis för att illustrera användningen av OncodriveFML på uppgiften att upptäcka gener som är föremål för positivt urval i det fall då de flesta mutationer i provet är otillgängliga för metoden. OncodriveFML upptäcker nio gener med ett FM bias q-värde <0,1 (fig. 5a och b), vilket inkluderar de fem gener som identifierats av författarna med hjälp av en modifierad dn/ds-metod (NOTCH1, NOTCH2, FAT1, TP53, RBM10) och fyra andra bona fide drivkrafter för tumörigenesis (NOTCH3, ARID2, KMT2D, ARID1A). Sex av dessa nio gener upptäcks som drivkrafter för kutant skivepitelcancer (cSCC), den tumörtyp som utvecklas oftare vid malignisering av solexponerad epidermis. Resultaten visar OncodriveFML:s potential att identifiera gener under positivt urval bland de gener som sekvenserats som en del av en panel.
Vi har gjort OncodriveFML tillgängligt för forskare inom cancergenomik både för att ladda ner och installera koden och för att köra via en webbapplikation (http://www.intogen.org/oncodrivefml).