OncodriveFML: en generel ramme til identifikation af kodningsområder og ikke-kodningsområder med kræftdrivermutationer | Genome Biology

OncodriveFML beregner en lokal FM bias
OncodriveFML detekterer driverkodningsgener
OncodriveFML detekterer ikke-kodende driverelementer
OncodriveFML afdækker putative driverpromotorer og 5′ UTR’er
OncodriverFML afdækker gener med drivermutationer i splejsningens introniske regioner
OncodriveFML identificerer putative driver 3′ UTR’er
OncodriveFML identificerer formodede lncRNA’er
OncodriveFML detekterer positiv selektion fra sekvensen af et genpanel

OncodriveFML beregner en lokal FM bias

Rationalet bag OncodriveFML er, at observationen af somatiske mutationer på et genomisk element (kodende gen, promotor, UTR, lncRNA osv.) på tværs af tumorer, hvis gennemsnitlige virkningsscore er signifikant større end forventet for det pågældende element, udgør et signal om, at disse mutationer har været udsat for positiv selektion under tumorigenese. Dette betragtes igen som en direkte indikation af, at dette element er drivkraften bag tumorigenesen. Vi kalder denne afvigelse af den observerede gennemsnitlige virkningsscore for somatiske mutationer i et genomisk element fra den forventede værdi for funktionel mutationsbias eller FM-bias. For at måle FM bias for et bestemt element er OncodriveFML forpligtet til at: (1) være i stand til at beregne en relevant score for den forudsagte virkning af mutationerne i det genomiske element; og (2) simulere mutationsprocesserne for at beregne den forventede gennemsnitlige virkningsscore.

En hvilken som helst tilgang til beregning af virkning af mutationer, uanset hvor forskellig den er afhængig af typen af det analyserede genomiske element, kan tjene til at beregne dets observerede FM bias (fig. 1a). For eksempel kunne man ved mutationer i proteinkodende gener måle den forudsagte indvirkning på proteinstruktur og -funktion, mens man ved RNA-gener eller UTR’er kunne beregne mutationernes indvirkning på RNA-sekundærstrukturen, som vides at være afgørende for deres funktion. Også i UTR’er kunne et nyttigt mål for FI af mutationer være deres virkning på bindingen af mikroRNA’er (miRNA’er) til deres målsteder. I tilfælde af promotorer og forstærkere kan man vurdere virkningen af mutationer på eksisterende transkriptionsfaktorbindingssteder eller oprettelsen af nye. Kombinerede scoringer, der tager hensyn til flere funktioner til måling af FI, såsom CADD , kan også være nyttige. De eneste krav til FI-scoringsmetoden er, at den er relevant for funktionen af det undersøgte genomiske element, og at den kan beregnes for alle mulige mutationer i elementet. Her præsenteres implementeringer af OncodriveFML, der anvender flere FI-scoringmetrikker.

OncodriveFML består af tre trin, der er illustreret i fig. 1b-d. I det første trin beregnes den gennemsnitlige FI-score for det sæt af somatiske mutationer, der er observeret i det pågældende element på tværs af en tumorkohorte (fig. 1b). I det andet trin udtages der tilfældigt sæt af mutationer af samme størrelse som det antal mutationer, der er observeret i elementet, fra universet af alle de varianter, som det muligvis kan bære (fig. 1c). For nøjagtigt at kunne modellere mutationsprocesser i den pågældende tumortype foretages udtagningen efter sandsynligheden for mutation af forskellige trenukleotider, som enten kan beregnes ud fra de mutationer, der er observeret i hver prøve, i den analyserede kohorte som helhed eller forudberegnes ud fra tidligere analyserede tumorkohorter af samme eller lignende type. Denne tilfældige stikprøveudtagning gentages et antal gange (f.eks. 10 000 gange) for at generere lokale forventede gennemsnitlige effektresultater. Endelig sammenligner OncodriveFML den gennemsnitlige virkningsscore, der er observeret for hvert element, med den lokale forventede gennemsnitlige virkningsscore, der er resultatet af stikprøveudtagningen, og beregner en lokal FM-bias i form af en empirisk p-værdi, der måler afvigelsen af den observerede gennemsnitlige score fra den forventede baggrund (fig. 1d). Elementer med signifikant lokal FM bias efter korrektion for falsk opdagelsesrate anses for sandsynlige drivere.

OncodriveFML detekterer driverkodningsgener

For at teste sin validitet anvendte vi OncodriveFML til detektion af drivere blandt alle menneskelige protein-kodende gener ved hjælp af sættet af somatiske mutationer, der er detekteret ved heleksiom-sekventering på tværs af tumorer i 19 kohorter, (disse og alle datasæt af somatiske mutationer, der er anvendt her, er beskrevet i Yderligere fil 1). For det første viser vi gennem kvantil-kvantil (QQ)-plots, der sammenligner den forventede og observerede fordeling af FM bias p-værdierne (Fig. 2a og Additional file 2, afsnit A), at sidstnævnte følger den forventede homogene fordeling af nulhypotesen, med undtagelse af de få tilfælde, der svarer til gener med signifikant FM bias. Blandt de højest rangerende gener identificeret af OncodriveFML i de fire kohorter, der præsenteres som eksempler i fig. 2b og c, er der velkendte kræftgener, såsom TP53, KEAP1, ARID2 og RUNX1. Mutationer observeret i disse gener udviser en klar skævhed i retning af høj FI (fig. 2b; hele listen i Additional file 3).

For det andet beregnede vi som en proxy for metodens sande positive rate foldberigelsen i andelen af kendte kræftgener (gener i Cancer Gene Census (CGC) ) blandt dens top-rangerende gener. Vi fandt, at OncodriveFML klarer sig bedre i denne målemetrik end den oprindelige version af OncodriveFM , MutSigCV og e-Driver (Fig. 2c og Additional file 2, afsnit A) på tværs af de 19 kohorter af analyserede tumorer. Vi sammenlignede også resultaterne af OncodriveFML med en nyere version af MutSigCV, der er udført af forfatterne , og fandt, at der er et vigtigt overlap mellem de gener, der identificeres af de to metoder, og at hver metode identificerer yderligere sande kræftgener, som den anden metode overså, hvilket understreger komplementariteten af de to metoder (Yderligere fil 2, afsnit A). Vi anvendte derefter OncodriveFML FM bias-testen på randomiserede datasæt af mutationer, der blev opbygget ved at omgruppere de observerede mutationer inden for hvert genom, idet vi fulgte satserne for tri-nucleotides og begrænsningerne for antallet af mutationer pr. prøve og pr. region. Antallet af gener, der påvises som formodede drivkræfter i disse tilfældige datasæt af mutationer, vil fungere som en proxy for antallet af falske positive elementer, der påvises af FM bias-testen. Vi udførte denne analyse på de 19 whole-exome-kohorter af tumorer, der udgør WE-4482-datasættet. OncodriveFML finder ikke noget signifikant gen i dette datasæt (grå prikker i fig. 2a), som forventet for en præcis metode med et lavt antal falske positive elementer. Hele listen over driverkandidater findes i Additional file 3. Samlet set viser de resultater, der præsenteres i dette afsnit, at OncodriveFML identificerer formodede protein-kodende drivergener med en følsomhed, der overgår fem bredt anvendte metoder, der er udviklet til denne opgave, samtidig med at der opretholdes en meget lav falsk positiv rate.

OncodriveFML detekterer ikke-kodende driverelementer

Et af de mest interessante træk ved OncodriveFML er dets anvendelighed til detektion af ikke-kodende genomiske driverelementer. Derfor testede vi næste gang dens ydeevne ved identifikation af formodede driverpromotorer, 5′ UTR, splejsningsintroniske og 3′ UTR-regioner af kodende gener, der indeholder mutationer på tværs af 22 tumorkohorte med helgenomdata sekventeret af TCGA eller andre projekter (datasæt WG-505 og WG-608, henholdsvis i Additional file 1), samt to pan-cancer-kohorter, der er resultatet af pooling af de mutationer, der er påvist i alle kohorter i hvert datasæt (Figs. 3 og 4). Vores primære mål var at teste OncodriveFML ved identifikation af putative ikke-kodende driverelementer og sammenligne dens ydeevne med andre to nyligt offentliggjorte metoder til samme formål . På grund af det fuldstændige fravær af en kurateret guldstandard for ikke-kodende driverelementer begrænsede vi sammenligningen til vurderingen af andelen af falsk positive fundne ved hver metode gennem analysen af QQ-plots af deres observerede og forventede fordelinger af p-værdier og analysen af randomiserede datasæt. Vi brugte CADD til at score FI af mutationer, der forekommer i alle ovennævnte ikke-kodende elementer, med undtagelse af 3′ UTR’er, hvor vi brugte den score, som RNAsnp gav os i den forbindelse (se nedenfor). Som med de kodende gener korrelerer de observerede og forventede fordelinger af FM bias p-værdierne i 22- og pan-cancer-kohorterne meget godt, og når de anvendes på randomiserede mutationsdatasæt, viser det en god kontrol af falske positive (Fig. 3a). I denne henseende sammenligner OncodriveFML positivt med to nyligt offentliggjorte metoder med hensyn til identifikation af putative ikke-kodende elementer på tværs af kohorterne i både WG-505- og WG-608-datasættene (Additional file 2, afsnit B). I de følgende afsnit beskriver vi i detaljer de mest interessante kandidatdrivere for hver type ikke-kodende elementer, der er identificeret som signifikant FM-biaseret.

OncodriveFML afdækker putative driverpromotorer og 5′ UTR’er

I pan-cancer-kohorten, der omfatter 505 tumorer, omfatter de promotorregioner med den mest signifikante FM-forvridning en liste over interessante kandidatdrivere, såsom TERT’s (detaljer i Fig. 3b), SYF2, ARGHEF18 og POLR2D. TERT koder for den omvendte transkriptaseunderenhed af telomerase, der er nødvendig for at opretholde telomerlængden under tumorvækst. Aktiverende mutationer i TERT-promotoren er blevet fundet som drivkræfter i flere typer kræft . Andre lovende nye kandidater omfatter promotorerne for SYF2 (detaljer i fig. 3c), en mRNA-splejningsfaktor, der menes at interagere med en cellecyklusregulator , ARHGEF18, en Rho-specifik guaninnukleotidudvekslingsfaktor, der er involveret i RhoA-aktivering og cellemotilitet , og POLR2D (fig. 3c) (fig. 3c), en mRNA-splejningsfaktor, der menes at interagere med en cellecyklusregulator , og POLR2D (fig. 3c). 3d), en underenhed af RNA-polymerase, som indeholder mutationer meget tæt på transkriptionsstartstedet (TSS) i melanomprøver .

I en kohorte af 18 lavere grads gliomer identificerer OncodriveFML ud over TERT-promotoren også SPN-promotoren med en meget signifikant FM-bias (fig. 3e). Ekspressionen af begge gener er signifikant højere i prøver, der bærer mutationer i deres promotorer, end i ikke-muterede prøver (Fig. 3f), hvilket giver grundlag for tanken om, at disse mutationer er positivt selekteret under tumorigenese. SPN produceres normalt kun af hvide blodlegemer, hvor det regulerer funktioner såsom celle-celleadhæsion, intracellulær signalering, apoptose, migration og proliferation. Dens ektopiske ekspression i solide tumorer er blevet rapporteret og foreslået som et mål for immunterapi . Sammenfattende kan OncodriveFML ud over at give en meget lav andel af falske positive resultater ved påvisning af formodede driverpromotorelementer identificere allerede kendte og formodede interessante promotorer med drivermutationer, selv ved en meget lav mutationsfrekvens. Hele listen over formodede driverpromotorer (og andre ikke-kodende elementer) findes i Additional file 3.

I blandt de højest rangerende FM-forspændte 5′ UTR-regioner fandt vi TBC1D12’s 5′ UTR-region (fig. 3g). Dette gen koder for et GTPase-aktiverende protein for Rab-familieproteiner. 5′ UTR-mutationer findes hyppigt i nærheden af startkodonet (fig. 3h) og påvises i prøver af forskellige tumortyper. Vi påviste den også som FM-forskudt i kohorter i WG-608-datasættet (fig. 3i). Nærheden af mutationerne til startkodonet tyder på, at de kan have en effekt på translationskontrol. Disse mutationer blev for nylig rapporteret som signifikant redundante af , med 15 % af blæretumorprøverne med mutationer ved hjælp af whole-exome-data.

OncodriverFML afdækker gener med drivermutationer i splejsningens introniske regioner

Vi analyserede derefter med OncodriverFML de introniske regioner af kodningsgener, specifikt de 50 bps fra exon-intron-grænsen (intron-50 bps) ved hjælp af CADD som en funktionel scoringsramme for at identificere gener med driver-intron-splejsningens mutationer. I pan-cancer-kohorten i WG-505-datasættet identificerer OncodriveFML en liste af velkendte tumorsuppressorgener – TP53, STK11 og NF1 – som stærkt FM-forspændte i deres intron-splejsningsmutationer (fig. 4a-b). TP53 indeholder 16 mutationer inden for de første 50 bps af dets introner, hvoraf syv forekommer i brystkræftprøver, mens de andre er fordelt på tværs af kohorter af andre tumortyper (herunder GBM, CRC, LUSC, SKCM, LUAD) (Fig. 4b). Interessant nok befinder otte af disse mutationer sig inden for de første 2 bps af intron-exon-grænsen. STK11 er en serin/threonin-protein kinase, der er kendt for at fungere som en tumorsuppressor i kontrollen af aktiviteten af AMP-aktiverede proteinkinase (AMPK) familiemedlemmer og derved spiller en rolle i forskellige processer såsom cellemetabolisme, cellepolaritet, apoptose og DNA-skadesrespons, der ofte bærer inaktiverende mutationer i i lunge adenokarcinomer . De fleste af de mutationer (4 ud af 6), der er observeret i pan-cancer-kohorten i WG-505-datasættet, som falder inden for de første 50 bps af intronerne, svarer faktisk til lungenadenocarcinomprøver, og alle er i umiddelbar nærhed af intron-exon-grænsen (fig. 4c).

OncodriveFML identificerer putative driver 3′ UTR’er

Næst anvendte vi OncodriveFML til at identificere drivergener ved mutationer i deres 3′ UTR-regioner. I dette tilfælde brugte vi mutationernes indvirkning på RNA sekundærstruktur beregnet af RNAsnp som FI score til at beregne FM bias af mutationer . I pan-cancer-kohorten i WG-505-datasættet identificerede OncodriveFML BORA og CHAF1B som formodede drivergener ud fra mutationerne i deres 3′ UTR-regioner (fig. 4d-h). Mutationer, der bidrager til den beregnede FM-bias for CHAF1B i WG-505-datasættet, forekommer i BRCA, CRC, LUAD og UCEC. På den anden side forekommer mutationer i den pan-cancer-kohorte i WG-608-datasættet, hvor den også fremstår som signifikant FM-biaseret, i BRCA- og STAD-prøver (fig. 4e). CHAF1B er en kromatin-samlingsfaktor, der er involveret i DNA-replikation og DNA-reparation . BORA er en Aurora kinase-aktivator, der er involveret i modning af centrosomet, samling af spindlen og asymmetrisk proteinlokalisering under mitose .

OncodriveFML identificerer formodede lncRNA’er

Vi anvendte derefter OncodriveFML til at undersøge potentialet i en gruppe af lncRNA’er indsamlet fra litteraturen, hvis biologiske funktioner er blevet etableret (Yderligere fil 4). De muterede lncRNA’er blandt disse (på tværs af kohorter i WG-505- og WG-608-datasættene) blev således analyseret af OncodriveFML, og de signifikant FM biased i mindst én kohorte vises i Additional file 4. Som i tilfældet med 3′ UTR’er beregnede vi FM-biasen ved hjælp af en FI-metrik, der estimerer mutationens indvirkning på RNA’s sekundærstruktur . Vi fandt, at MALAT1, et lncRNA-gen, der tidligere har vist sig at være involveret i tumorigenese af lunge adenocarcinomer , udviser en let signifikant FM bias i kohorter i både WG-505 (p-værdi 0,0138 i KIRC) og WG-608 (p-værdi 0,0104 i pan-cancer) datasættene. Desuden påviste vi en højere end forventet ophobning af somatiske mutationer med høj funktionel indvirkning i MIAT, et ikke-protein-kodende transkript, der er forbundet med myokardieinfarkt i WG-505-datasættet (p-værdi 0,0281 i KIRC og p-værdi 0,0163 i pan-cancer).

OncodriveFML detekterer positiv selektion fra sekvensen af et genpanel

Endeligt analyserede vi listen over somatiske mutationer, der er detekteret i et panel af gener, der er sekventeret med høj dækning på tværs af 234 biopsier af soleksponeret epidermis for at illustrere brugen af OncodriveFML på opgaven med at detektere gener under positiv selektion i det tilfælde, hvor de fleste mutationer i prøven ikke er tilgængelige for metoden. OncodriveFML detekterer ni gener med en FM bias q-værdi <0,1 (Fig. 5a og b), som omfatter de fem gener, der er identificeret af forfatterne ved hjælp af en modificeret dn/ds-tilgang (NOTCH1, NOTCH2, FAT1, TP53, RBM10), og fire andre bona fide drivere af tumorigenese (NOTCH3, ARID2, KMT2D, ARID1A). Seks ud af disse ni gener er påvist som drivkræfter for kutant pladecellekarcinom (cSCC), som er den tumortype, der hyppigst udvikles ved malignisering af soleksponeret epidermis. Resultaterne afslører OncodriveFML’s potentiale til at identificere gener under positiv selektion blandt de gener, der er sekventeret som en del af et panel.

Vi har gjort OncodriveFML tilgængelig for kræftgenomforskere både til at downloade og installere koden og til at køre via en webapplikation (http://www.intogen.org/oncodrivefml).

OncodriveFML: En generel ramme til identifikation af kodende og ikke-kodende regioner med kræftdrivermutationer