- OncodriveFML calculează un bias local al FM
- OncodriveFML detectează genele codificatoare de factori determinanți
- OncodriveFML detectează elemente driver necodificatoare
- OncodriveFML descoperă promotori driver putativi și 5′ UTRs
- OncodriveFML descoperă gene cu mutații driver în regiunile intronice de splicare
- OncodriveFML identifică 3′ UTR-uri driver putative
- OncodriveFML identifică lncRNA-uri putative
- OncodriveFML detectează selecția pozitivă din secvența unui panou de gene
OncodriveFML calculează un bias local al FM
Subiectivul care stă la baza OncodriveFML este acela că observarea de mutații somatice pe un element genomic (genă codificatoare, promotor, UTR, lncRNA etc.) în tumori, al căror scor mediu de impact este semnificativ mai mare decât cel așteptat pentru elementul respectiv, constituie un semnal că aceste mutații au fost supuse unei selecții pozitive în timpul tumorigenezei. Acest lucru, la rândul său, este considerat ca o indicație directă a faptului că acest element determină tumorigeneza. Noi numim această abatere a scorului mediu de impact observat al mutației somatice într-un element genomic de la valoarea sa așteptată, prejudecata mutației funcționale sau prejudecata FM. Pentru a măsura biasul FM al unui anumit element, OncodriveFML este necesar să: (1) să fie capabil să calculeze un scor relevant al impactului prezis al mutațiilor în elementul genomic; și (2) să simuleze procesele de mutație pentru a calcula scorul mediu de impact așteptat.
Care abordare pentru a calcula impactul mutațiilor, oricât de diferită ar fi în funcție de tipul de element genomic analizat, poate servi scopului de a calcula biasul FM observat al acestuia (Fig. 1a). De exemplu, în cazul mutațiilor în genele codificatoare de proteine, s-ar putea măsura impactul prezis asupra structurii și funcției proteinelor, în timp ce în cazul genelor ARN sau UTR, s-ar putea calcula impactul mutațiilor asupra structurii secundare a ARN, despre care se știe că este esențială pentru funcția lor. De asemenea, în cazul UTR-urilor, o măsură utilă a IF a mutațiilor ar putea fi efectul acestora asupra legăturii microARN-urilor (miARN-uri) cu site-urile lor țintă. În cazul promotorilor și al intensificatorilor, se poate evalua efectul mutațiilor asupra situsurilor existente de legare a factorilor de transcripție sau crearea de noi situsuri. Scorurile combinate care iau în considerare mai multe caracteristici pentru a măsura IF, cum ar fi CADD , pot fi, de asemenea, utile. Singurele cerințe ale abordării de scorare a FI sunt ca aceasta să fie relevantă pentru funcția elementului genomic studiat și să poată fi calculată pentru toate mutațiile posibile în elementul respectiv. Aici prezentăm implementări ale OncodriveFML care utilizează mai mulți parametri de scorare a FI.
OncodriveFML constă în trei etape ilustrate în Fig. 1b-d. În prima etapă, se calculează scorul FI mediu al setului de mutații somatice observate în elementul de interes în cadrul unei cohorte de tumori (Fig. 1b). În a doua etapă, seturi de mutații de aceeași mărime cu numărul de mutații observate în element sunt eșantionate aleatoriu din universul tuturor variantelor pe care acesta le poate susține (Fig. 1c). Pentru a modela cu acuratețe procesele mutaționale în tipul de tumoare de interes, eșantionarea se face urmărind probabilitatea de mutație a diferitelor tri-nucleotide, care poate fi calculată fie din mutațiile observate în fiecare eșantion, în cohorta analizată ca întreg, fie precalculată din cohortele tumorale analizate anterior de același tip sau similare. Această eșantionare aleatorie este iterată de un anumit număr de ori (de exemplu, de 10 000 de ori) pentru a genera scoruri de impact mediu așteptat la nivel local. În cele din urmă, OncodriveFML compară scorul mediu de impact observat pentru fiecare element cu scorul mediu de impact preconizat local rezultat din eșantionare și calculează o distorsiune FM locală, sub forma unei valori p empirice care măsoară abaterea scorului mediu observat de la fondul preconizat (Fig. 1d). Elementele cu o prejudecată FM locală semnificativă după corecția pentru rata de descoperire falsă sunt considerate factori determinanți probabili.
OncodriveFML detectează genele codificatoare de factori determinanți
Pentru a testa validitatea sa, am aplicat OncodriveFML la detectarea factorilor determinanți în rândul tuturor genelor umane codificatoare de proteine, utilizând setul de mutații somatice detectate prin secvențierea întregului exom în tumorile din 19 cohorte, (aceste seturi de date și toate seturile de date de mutații somatice utilizate aici sunt descrise în fișierul suplimentar 1). În primul rând, prin intermediul graficelor cuantile-quantile (QQ) care compară distribuția așteptată și observată a valorilor p ale biasului FM (Fig. 2a și Fișierul suplimentar 2, secțiunea A), demonstrăm că aceasta din urmă urmează distribuția omogenă așteptată a ipotezei nule, cu excepția celor câteva cazuri care corespund genelor cu bias FM semnificativ. Printre genele de prim rang identificate de OncodriveFML în cele patru cohorte prezentate ca exemple în Fig. 2b și c, se numără gene de cancer bine cunoscute, cum ar fi TP53, KEAP1, ARID2 și RUNX1. Mutațiile observate în aceste gene prezintă o înclinație clară către FI ridicat (Fig. 2b; lista completă în fișierul suplimentar 3).
În al doilea rând, ca o aproximare a ratei adevăratelor pozitive ale metodei, am calculat îmbogățirea de fold în proporția de gene canceroase cunoscute (gene din Cancer Gene Census (CGC) ) printre genele sale de prim rang. Am constatat că OncodriveFML are performanțe mai bune în această metrică decât versiunea originală a OncodriveFM , MutSigCV și e-Driver (Fig. 2c și Fișierul suplimentar 2, secțiunea A) în cele 19 cohorte de tumori analizate. De asemenea, am comparat rezultatele OncodriveFML cu o versiune mai nouă a MutSigCV rulată de autorii acesteia , constatând că există o suprapunere importantă între genele identificate de ambele metode și că fiecare metodă identifică gene adevărate de cancer suplimentare ratate de cealaltă, subliniind complementaritatea celor două abordări (Fișier suplimentar 2, secțiunea A). În continuare, am aplicat testul de părtinire OncodriveFML FM la seturi de date randomizate de mutații, construite prin reașezarea mutațiilor observate în cadrul fiecărui genom, urmărind ratele de tri-nucleotide și constrângerile privind numărul de mutații pe eșantion și pe regiune. Numărul de gene detectate ca factori de conducere putativi în cadrul acestor seturi de date aleatorii de mutații ar acționa ca un indicator al ratei de elemente fals pozitive detectate de testul de distorsiune FM. Am efectuat această analiză pe cele 19 cohorte de tumori cu exom complet care constituie setul de date WE-4482. OncodriveFML nu găsește nicio genă semnificativă în acest set de date (puncte gri în Fig. 2a), așa cum era de așteptat pentru o metodă precisă cu un număr redus de falsuri pozitive. Întreaga listă de candidați driver apare în fișierul suplimentar 3. Luate împreună, rezultatele prezentate în această secțiune demonstrează că OncodriveFML identifică gene driver putative codificatoare de proteine cu o sensibilitate care depășește cinci metode utilizate pe scară largă dezvoltate pentru această sarcină, menținând în același timp o rată fals pozitivă foarte scăzută.
OncodriveFML detectează elemente driver necodificatoare
Una dintre cele mai interesante caracteristici ale OncodriveFML este aplicabilitatea sa la detectarea elementelor genomice driver necodificatoare. Prin urmare, am testat în continuare performanța sa în ceea ce privește identificarea regiunilor de promotor driver putativ, 5′ UTR, intronice de îmbinare și 3′ UTR ale genelor codificatoare care conțin mutații în 22 de cohorte tumorale cu date de genom întreg secvențiate de TCGA sau de alte proiecte (seturile de date WG-505 și, respectiv, WG-608, în fișierul suplimentar 1), precum și două cohorte pan-cancerigene rezultate din punerea în comun a mutațiilor detectate în toate cohortele din fiecare set de date (Fig. 3 și 4). Scopul nostru principal a fost de a testa OncodriveFML la identificarea elementelor necodante driver putative și de a compara performanța sa cu alte două metode publicate recent în același scop . Din cauza absenței complete a unui standard de aur curatoriat al elementelor driver necodificatoare, am limitat comparația la evaluarea ratei de falsuri pozitive detectate de fiecare metodă prin analiza graficelor QQ ale distribuțiilor lor observate și așteptate ale valorilor p și analiza seturilor de date randomizate. Am utilizat CADD pentru a evalua IF a mutațiilor care apar în toate elementele necodificatoare menționate anterior, cu excepția 3′ UTR, unde am utilizat scorul furnizat de RNAsnp în acest sens (a se vedea mai jos). La fel ca în cazul genelor codificatoare, distribuțiile observate și așteptate ale valorilor p ale biasului FM din cohortele de 22 și pan-cancer se corelează foarte bine, iar atunci când se aplică la setul de date cu mutații randomizate, arată un bun control al falsurilor pozitive (Fig. 3a). În această privință, OncodriveFML se compară favorabil cu două metode publicate recent în identificarea elementelor necodante putative în cohortele din seturile de date WG-505 și WG-608 (Fișierul suplimentar 2, secțiunea B). În secțiunile următoare, descriem în detaliu cei mai interesanți promotori candidați ai fiecărui tip de elemente necodificatoare identificate ca fiind semnificativ distorsionate de FM.
OncodriveFML descoperă promotori driver putativi și 5′ UTRs
În cohorta pan-cancer, cuprinzând 505 tumori, regiunile promotoare cu cea mai semnificativă distorsiune FM cuprind o listă scurtă de promotori candidați interesanți, cum ar fi cele ale TERT (detalii în Fig. 3b), SYF2, ARGHEF18 și POLR2D. TERT codifică subunitatea de transcriptază inversă a telomerazei necesară pentru a menține lungimea telomerilor în timpul creșterii tumorale. Mutații activatoare în promotorul TERT au fost găsite ca factori determinanți în mai multe tipuri de cancer . Alți candidați noi și promițători includ promotorii SYF2 (detalii în Fig. 3c), un factor de splicing al ARNm despre care se crede că interacționează cu un regulator al ciclului celular , ARHGEF18, un factor de schimb de nucleotide de guanină specific Rho implicat în activarea RhoA și în motilitatea celulară , și POLR2D (Fig. 3d), o subunitate a ARN polimerazei, care conține mutații foarte aproape de situsul de început al transcripției (TSS) în probele de melanom .
Într-o cohortă de 18 gliome de grad inferior, pe lângă promotorul TERT, OncodriveFML identifică promotorul SPN cu o prejudecată FM foarte semnificativă (Fig. 3e). Expresia ambelor gene este semnificativ mai mare în eșantioanele care prezintă mutații în promotorii lor decât în eșantioanele nemutate (Fig. 3f), ceea ce oferă temei pentru ideea că aceste mutații sunt selectate pozitiv în timpul tumorigenezei. În mod normal, SPN este produsă exclusiv de celulele albe din sânge, unde reglează funcții precum adeziunea celulă-celulă, semnalizarea intracelulară, apoptoza, migrația și proliferarea. Expresia sa ectopică în tumorile solide a fost raportată și propusă ca o țintă pentru imunoterapie . În concluzie, pe lângă faptul că produce o rată foarte scăzută de rezultate fals pozitive în detectarea elementelor promotoare de tip driver putativ, OncodriveFML este capabil să identifice promotori interesanți deja cunoscuți și putativi cu mutații driver, chiar și la o frecvență mutațională foarte scăzută. Întreaga listă de promotori driver putativi (și alte elemente necodificatoare) apare în Fișierul suplimentar 3.
Printre regiunile 5′ UTR cu cele mai bune clasări în funcție de FM, am găsit-o pe cea a TBC1D12 (Fig. 3g). Această genă codifică o proteină de activare a GTPazei pentru proteinele din familia Rab. Mutațiile 5′ UTR se găsesc în mod recurent în apropierea codonului de start (Fig. 3h) și sunt detectate în eșantioane de diferite tipuri de tumori. Am detectat-o, de asemenea, ca FM biasată în cohortele din setul de date WG-608 (Fig. 3i). Proximitatea mutațiilor față de codonul de start sugerează că acestea ar putea avea un efect asupra controlului translațional. Aceste mutații au fost raportate recent ca fiind semnificativ redundante de către , 15 % din eșantioanele de tumori de vezică urinară purtând mutații cu ajutorul datelor whole-exome.
OncodriveFML descoperă gene cu mutații driver în regiunile intronice de splicare
Am analizat în continuare cu OncodriverFML regiunile intronice ale genelor codificatoare, mai exact, cei 50 bps de la granița exon-intron (intron-50 bps) folosind CADD ca un cadru de scor funcțional pentru a identifica genele cu mutații driver de splicare a intronilor. În cohorta pan-cancer, din setul de date WG-505, OncodriveFML identifică o listă scurtă de gene supresoare tumorale bine-cunoscute – TP53, STK11 și NF1 – ca fiind puternic influențate de FM în ceea ce privește mutațiile lor de intron-splicare (Fig. 4a-b). TP53 conține 16 mutații în primii 50 bps ai intronilor săi, dintre care șapte apar în probele de cancer de sân, în timp ce celelalte sunt distribuite în cohortele altor tipuri de tumori (inclusiv GBM, CRC, LUSC, SKCM, LUAD) (Fig. 4b). Este interesant faptul că opt dintre aceste mutații se află în cadrul primilor 2 bps de la granița intron-exon. STK11 este o serină/treonină-proteină-kinază cunoscută ca acționând ca un supresor tumoral în controlul activității membrilor familiei de proteine kinazei activate de AMP (AMPK), jucând astfel un rol în diverse procese, cum ar fi metabolismul celular, polaritatea celulară, apoptoza și răspunsul la daunele ADN, purtând adesea mutații de inactivare în în adenocarcinoamele pulmonare . Cele mai multe dintre mutațiile (4 din 6) observate în cohorta pan-cancer din setul de date WG-505 care se încadrează în primii 50 bps ai intronilor săi corespund într-adevăr eșantioanelor de adenocarcinom pulmonar și toate se află în imediata apropiere a limitei intron-exon (Fig. 4c).
OncodriveFML identifică 3′ UTR-uri driver putative
În continuare, am utilizat OncodriveFML pentru a identifica genele driver în urma unor mutații în regiunile lor 3′ UTR. În acest caz, am folosit impactul mutațiilor asupra structurii secundare a ARN-ului calculat de RNAsnp ca scor FI pentru a calcula influența FM a mutațiilor . În cohorta de pan-cancer din setul de date WG-505, OncodriveFML a identificat BORA și CHAF1B ca gene driver putative din mutațiile din regiunile lor 3′ UTR (Fig. 4d-h). Mutațiile care au contribuit la prejudecata FM calculată pentru CHAF1B în setul de date WG-505 apar în BRCA, CRC, LUAD și UCEC. Pe de altă parte, în cohorta pan-cancerigenă a setului de date WG-608, unde apare, de asemenea, ca fiind semnificativ distorsionată FM, mutațiile apar în probele BRCA și STAD (Fig. 4e). CHAF1B este un factor de asamblare a cromatinei implicat în replicarea și repararea ADN-ului . BORA este un activator al Aurora kinazei, implicat în maturarea centrosomului, asamblarea fusului și localizarea asimetrică a proteinelor în timpul mitozei .
OncodriveFML identifică lncRNA-uri putative
Am folosit în continuare OncodriveFML pentru a explora potențialul unui grup de lncRNA-uri colectate din literatura de specialitate ale căror funcții biologice au fost stabilite (fișier suplimentar 4). Astfel, lncRNA-urile mutate dintre acestea (în toate cohortele din seturile de date WG-505 și WG-608) au fost analizate de OncodriveFML, iar cele care au suferit mutații semnificative ale FM în cel puțin o cohortă apar în fișierul suplimentar 4. Ca și în cazul 3′ UTR-urilor, am calculat părtinirea FM folosind o metrică FI care estimează impactul mutației asupra structurii secundare a ARN-ului . Am constatat că MALAT1, o genă lncRNA despre care s-a demonstrat anterior că este implicată în tumorigeneza adenocarcinoamelor pulmonare , prezintă o prejudecată FM ușor semnificativă în cohortele din ambele seturi de date WG-505 (valoare p 0,0138 în KIRC) și WG-608 (valoare p 0,0104 în pan-cancer). În plus, am detectat o acumulare mai mare decât era de așteptat a mutațiilor somatice cu impact funcțional ridicat în MIAT, un transcript non-codificator de proteine asociat cu infarctul miocardic în setul de date WG-505 (valoare p 0,0281 în CRC și valoare p 0,0163 în pan-cancer).
OncodriveFML detectează selecția pozitivă din secvența unui panou de gene
În cele din urmă, am analizat lista de mutații somatice detectate într-un panou de gene secvențiate la o acoperire ridicată în 234 de biopsii de epidermă expusă la soare pentru a ilustra utilizarea OncodriveFML pe sarcina de detectare a genelor supuse selecției pozitive în cazul în care majoritatea mutațiilor din eșantion nu sunt disponibile pentru metodă. OncodriveFML detectează nouă gene cu o valoare q de bias FM <0,1 (Fig. 5a și b), care includ cele cinci gene identificate de autori cu ajutorul unei abordări dn/ds modificate (NOTCH1, NOTCH2, FAT1, TP53, RBM10) și alte patru gene motoare de bună credință ale tumorigenezei (NOTCH3, ARID2, KMT2D, ARID1A). Șase din aceste nouă gene sunt detectate ca factori determinanți ai carcinomului cutanat cu celule scuamoase (cSCC), tipul de tumoare care se dezvoltă mai frecvent în urma malignizării epidermei expuse la soare. Rezultatele relevă potențialul OncodriveFML în identificarea genelor supuse selecției pozitive printre cele secvențiate ca parte a unui panel.
Am pus OncodriveFML la dispoziția cercetătorilor în genomica cancerului atât pentru a descărca și instala codul, cât și pentru a rula prin intermediul unei aplicații web (http://www.intogen.org/oncodrivefml).