- OncodriveFML počítá lokální zkreslení FM
- OncodriveFML detekuje geny kódující ovladače
- OncodriveFML detekuje nekódující ovladačové elementy
- OncodriveFML odhaluje putativní promotory a 5′ UTR
- OncodriveFML odhaluje geny s řídicími mutacemi v intronických oblastech sestřihu
- OncodriveFML identifikuje předpokládané řídicí geny 3′ UTR
- OncodriveFML identifikuje předpokládané lncRNA
- OncodriveFML detekuje pozitivní selekci ze sekvence panelu genů
OncodriveFML počítá lokální zkreslení FM
Smysl OncodriveFML spočívá v tom, že pozorování somatických mutací na genomickém prvku (kódující gen, promotor, UTR, lncRNA atd.) napříč nádory, jejichž průměrné skóre dopadu je výrazně vyšší, než se pro uvedený prvek očekává, představuje signál, že tyto mutace prošly během tumorigeneze pozitivní selekcí. To je zase považováno za přímou indikaci, že tento prvek je hnací silou tumorigeneze. Tuto odchylku pozorovaného průměrného skóre dopadu somatické mutace v genomickém prvku od jeho očekávané hodnoty nazýváme funkční mutační bias neboli FM bias. Aby bylo možné změřit FM bias konkrétního prvku, musí nástroj OncodriveFML: (1) být schopen vypočítat příslušné skóre předpokládaného dopadu mutací v genomickém prvku a (2) simulovat mutační procesy pro výpočet očekávaného průměrného skóre dopadu.
K výpočtu jeho pozorovaného FM biasu může sloužit jakýkoli přístup k výpočtu dopadu mutací, jakkoli se liší v závislosti na typu analyzovaného genomického prvku (obr. 1a). Například u mutací v genech kódujících proteiny lze měřit předpokládaný dopad na strukturu a funkci proteinů, zatímco u genů RNA nebo UTR lze vypočítat dopad mutací na sekundární strukturu RNA, která je, jak známo, klíčová pro jejich funkci. Také u UTR by užitečným měřítkem FI mutací mohl být jejich vliv na vazbu mikroRNA (miRNA) na jejich cílová místa. V případě promotorů a enhancerů lze hodnotit vliv mutací na stávající vazebná místa transkripčních faktorů nebo na vznik nových. Užitečné může být také kombinované skóre, které pro měření FI zohledňuje několik znaků, například CADD ,. Jediným požadavkem na přístup ke skórování FI je, aby bylo relevantní pro funkci zkoumaného genomického prvku a aby jej bylo možné vypočítat pro všechny možné mutace v prvku. Zde uvádíme implementace programu OncodriveFML, které používají několik metrik pro skórování FI.
OncodriveFML se skládá ze tří kroků znázorněných na obr. 1b-d. V prvním kroku se vypočítá průměrné FI skóre souboru somatických mutací pozorovaných v zájmovém prvku v celé kohortě nádorů (obr. 1b). Ve druhém kroku jsou z univerza všech variant, které může daný prvek udržet, náhodně vybrány sady mutací o stejné velikosti, jako je počet mutací pozorovaných v daném prvku (obr. 1c). Pro přesné modelování mutačních procesů v zájmovém typu nádoru se vzorkování provádí podle pravděpodobnosti mutace různých tri-nukleotidů, kterou lze buď vypočítat z mutací pozorovaných v každém vzorku, v analyzované kohortě jako celku, nebo předem vypočítat z dříve analyzovaných kohort nádorů stejného nebo podobného typu. Tento náhodný výběr vzorků se několikrát iteruje (např. 10 000krát), aby se vytvořilo lokální očekávané průměrné skóre dopadu. Nakonec program OncodriveFML porovná průměrné skóre dopadu pozorované pro každý prvek s jeho místním očekávaným průměrným skóre dopadu vyplývajícím ze vzorkování a vypočítá místní zkreslení FM ve formě empirické hodnoty p, která měří odchylku pozorovaného průměrného skóre od očekávaného pozadí (obr. 1d). Prvky s významným lokálním zkreslením FM po korekci na míru falešných objevů jsou považovány za pravděpodobné ovladače.
OncodriveFML detekuje geny kódující ovladače
Pro ověření jeho platnosti jsme použili OncodriveFML k detekci ovladačů mezi všemi lidskými geny kódujícími proteiny pomocí souboru somatických mutací detekovaných celoexomovým sekvenováním v nádorech 19 kohort, (tyto a všechny zde použité soubory dat somatických mutací jsou popsány v Doplňkovém souboru 1). Nejprve prostřednictvím kvantilových kvantilových grafů (QQ) porovnávajících očekávané a pozorované rozdělení p hodnot FM bias (obr. 2a a doplňkový soubor 2, část A) prokazujeme, že toto rozdělení odpovídá očekávanému homogennímu rozdělení nulové hypotézy, s výjimkou několika případů, které odpovídají genům s významným FM bias. Mezi nejlépe hodnocenými geny identifikovanými nástrojem OncodriveFML ve čtyřech kohortách uvedených jako příklady na obr. 2b a c jsou dobře známé nádorové geny, například TP53, KEAP1, ARID2 a RUNX1. Mutace pozorované v těchto genech vykazují jasnou tendenci k vysoké FI (obr. 2b; celý seznam v doplňkovém souboru 3).
Druhé, jako ukazatel míry pravdivě pozitivních výsledků metody jsme vypočítali násobné obohacení podílu známých nádorových genů (genů v Cancer Gene Census (CGC) ) mezi jejími geny nejvyššího pořadí. Zjistili jsme, že OncodriveFML si v této metrice vede lépe než původní verze OncodriveFM , MutSigCV a e-Driver (obr. 2c a doplňkový soubor 2, oddíl A) v 19 kohortách analyzovaných nádorů. Porovnali jsme také výsledky OncodriveFML s novější verzí MutSigCV provozovanou jejími autory , přičemž jsme zjistili, že geny identifikované oběma metodami se významně překrývají a že každá z metod identifikuje další skutečné nádorové geny, které druhá metoda přehlédla, což zdůrazňuje komplementaritu obou přístupů (doplňkový soubor 2, oddíl A). Dále jsme použili test zkreslení OncodriveFML FM na náhodně vybrané soubory dat s mutacemi, vytvořené přehazováním mutací pozorovaných v rámci každého genomu, přičemž jsme se řídili poměry tri-nukleotidů a omezeními počtu mutací na vzorek a na oblast. Počet genů zjištěných jako domnělé ovladače v těchto náhodných souborech údajů o mutacích by sloužil jako ukazatel míry falešně pozitivních prvků zjištěných testem zkreslení FM. Tuto analýzu jsme provedli na 19 kohortách celoexomových nádorů, které tvoří soubor dat WE-4482. OncodriveFML v tomto souboru dat nenalezl žádný významný gen (šedé tečky na obr. 2a), jak se očekávalo u přesné metody s nízkým počtem falešně pozitivních prvků. Celý seznam kandidátů na ovladače je uveden v doplňkovém souboru 3. Celkově výsledky uvedené v této části ukazují, že OncodriveFML identifikuje předpokládané ovladačové geny kódující proteiny s citlivostí, která překonává pět široce používaných metod vyvinutých pro tento úkol, při zachování velmi nízkého počtu falešně pozitivních výsledků.
OncodriveFML detekuje nekódující ovladačové elementy
Jednou z nejzajímavějších vlastností OncodriveFML je jeho použitelnost pro detekci nekódujících ovladačových genomických elementů. Proto jsme dále testovali jeho výkonnost při identifikaci předpokládaných driver promotorů, 5′ UTR, splice intronic a 3′ UTR oblastí kódujících genů obsahujících mutace napříč 22 nádorovými kohortami s celogenomovými daty sekvenovanými TCGA nebo jinými projekty (datové sady WG-505 a WG-608, resp. v Doplňkovém souboru 1), jakož i dvěma pan-nádorovými kohortami vzniklými spojením mutací detekovaných ve všech kohortách každé datové sady (obr. 3 a 4). Naším hlavním cílem bylo otestovat OncodriveFML při identifikaci předpokládaných řídících nekódujících elementů a porovnat jeho výkonnost s dalšími dvěma nedávno publikovanými metodami se stejným účinkem . Vzhledem k úplné absenci kurativního zlatého standardu nekódujících ovladačových elementů jsme srovnání omezili na posouzení míry falešně pozitivních výsledků zjištěných jednotlivými metodami prostřednictvím analýzy QQ grafů jejich pozorovaných a očekávaných rozdělení p hodnot a analýzy náhodně vybraných souborů dat. K hodnocení FI mutací vyskytujících se ve všech výše uvedených nekódujících prvcích jsme použili CADD, s výjimkou 3′ UTR, kde jsme k tomuto účelu použili skóre poskytnuté RNAsnp (viz níže). Stejně jako u kódujících genů pozorované a očekávané rozdělení p hodnot FM bias 22 a pan-kohorty velmi dobře korelují a při použití na náhodně vybraný soubor dat o mutacích vykazuje dobrou kontrolu falešně pozitivních výsledků (obr. 3a). V tomto ohledu se OncodriveFML příznivě srovnává se dvěma nedávno publikovanými metodami při identifikaci domnělých nekódujících elementů napříč kohortami datových souborů WG-505 i WG-608 (doplňkový soubor 2, oddíl B). V následujících oddílech podrobně popisujeme nejzajímavější kandidáty na ovladače jednotlivých typů nekódujících prvků, které byly identifikovány jako významně zkreslené FM.
OncodriveFML odhaluje putativní promotory a 5′ UTR
V pan-rakovinové kohortě, zahrnující 505 nádorů tvoří promotorové oblasti s nejvýznamnějším zkreslením FM užší seznam zajímavých kandidátních ovladačů, jako jsou oblasti TERT (podrobnosti na obr. 3b), SYF2, ARGHEF18 a POLR2D. TERT kóduje reverzní transkriptázovou podjednotku telomerázy, která je nutná k udržení délky telomer během růstu nádoru. Aktivační mutace v promotoru TERT byly nalezeny jako hnací síly u mnoha typů rakoviny . Mezi další slibné nové kandidáty patří promotory SYF2 (podrobnosti na obr. 3c), faktoru sestřihu mRNA, o němž se předpokládá, že interaguje s regulátorem buněčného cyklu , ARHGEF18, faktoru specifického pro výměnu guaninových nukleotidů Rho, který se podílí na aktivaci RhoA a buněčné motilitě , a POLR2D (obr. 3c). 3d), podjednotky RNA polymerázy, která ve vzorcích melanomu obsahuje mutace velmi blízko místa začátku transkripce (TSS) .
V kohortě 18 gliomů nižšího stupně kromě promotoru TERT identifikuje OncodriveFML promotor SPN s velmi významným zkreslením FM (obr. 3e). Exprese obou genů je významně vyšší u vzorků nesoucích mutace v jejich promotorech než u vzorků bez mutací (obr. 3f), což poskytuje podklad pro myšlenku, že tyto mutace jsou během tumorigeneze pozitivně selektovány. SPN je normálně produkován výhradně bílými krvinkami, kde reguluje funkce, jako je buněčná adheze, vnitrobuněčná signalizace, apoptóza, migrace a proliferace. Jeho ektopická exprese v solidních nádorech byla zaznamenána a navržena jako cíl pro imunoterapii . Souhrnně lze říci, že kromě velmi nízké míry falešně pozitivních výsledků při detekci předpokládaných driver promotorových elementů dokáže OncodriveFML identifikovat již známé a předpokládané zajímavé promotory s driver mutacemi, a to i při velmi nízké mutační frekvenci. Celý seznam putativních driver promotorů (a dalších nekódujících prvků) je uveden v Doplňkovém souboru 3.
Mezi nejlépe hodnocenými oblastmi 5′ UTR zkreslenými FM jsme našli oblast TBC1D12 (obr. 3g). Tento gen kóduje protein aktivující GTPázy pro proteiny rodiny Rab. Mutace 5′ UTR se opakovaně vyskytují v blízkosti start kodonu (obr. 3h) a jsou detekovány ve vzorcích různých typů nádorů. V kohortách souboru dat WG-608 jsme jej detekovali také jako FM bias (obr. 3i). Blízkost mutací ke start kodonu naznačuje, že by mohly mít vliv na řízení translace. Tyto mutace byly nedávno hlášeny jako významně nadbytečné podle , přičemž 15 % vzorků nádorů močového měchýře neslo mutace pomocí celoexomových dat.
OncodriveFML odhaluje geny s řídicími mutacemi v intronických oblastech sestřihu
Dále jsme pomocí OncodriverFML analyzovali intronické oblasti kódujících genů, konkrétně 50 bps od hranice exon-intron (intron-50 bps), s použitím CADD jako funkčního skórovacího rámce k identifikaci genů s řídicími mutacemi v intronickém sestřihu. V celonádorové kohortě souboru dat WG-505 identifikuje OncodriveFML krátký seznam dobře známých nádorových supresorových genů – TP53, STK11 a NF1 – jako vysoce zkreslené FM v jejich intron-splicingových mutacích (obr. 4a-b). TP53 obsahuje 16 mutací v prvních 50 bps svých intronů, z nichž sedm se objevuje ve vzorcích karcinomu prsu, zatímco ostatní jsou rozloženy v kohortách ostatních typů nádorů (včetně GBM, CRC, LUSC, SKCM, LUAD) (obr. 4b). Zajímavé je, že osm z těchto mutací se nachází v prvních 2 bps hranice intron-exon. STK11 je serin/treonin-proteinkináza, o níž je známo, že působí jako nádorový supresor při kontrole aktivity členů rodiny AMP-aktivované proteinkinázy (AMPK), čímž hraje roli v různých procesech, jako je buněčný metabolismus, buněčná polarita, apoptóza a odpověď na poškození DNA, a často nese inaktivující mutace u plicních adenokarcinomů . Většina mutací (4 ze 6) pozorovaných v celonádorové kohortě souboru dat WG-505, které spadají do prvních 50 bps jeho intronů, skutečně odpovídá vzorkům plicních adenokarcinomů a všechny se nacházejí v těsné blízkosti hranice intron-exon (obr. 4c).
OncodriveFML identifikuje předpokládané řídicí geny 3′ UTR
Dále jsme použili OncodriveFML k identifikaci řídicích genů na základě mutací v jejich oblastech 3′ UTR. V tomto případě jsme použili dopad mutací na sekundární strukturu RNA vypočtený pomocí RNAsnp jako FI skóre pro výpočet zkreslení FM mutací . V celonádorové kohortě souboru dat WG-505 identifikoval OncodriveFML na základě mutací v jejich 3′ UTR oblastech geny BORA a CHAF1B jako předpokládané řídicí geny (obr. 4d-h). Mutace přispívající k vypočtenému zkreslení FM pro CHAF1B v souboru dat WG-505 se objevují u BRCA, CRC, LUAD a UCEC. Na druhou stranu v celonádorové kohortě souboru dat WG-608, kde se rovněž objevuje výrazné FM zkreslení, se mutace objevují ve vzorcích BRCA a STAD (obr. 4e). CHAF1B je chromatinový montážní faktor, který se podílí na replikaci DNA a opravách DNA . BORA je aktivátor kinázy Aurora, který se podílí na zrání centrozomu, sestavování vřeténka a asymetrické lokalizaci proteinů během mitózy .
OncodriveFML identifikuje předpokládané lncRNA
Dále jsme použili OncodriveFML ke zkoumání potenciálu skupiny lncRNA shromážděných z literatury, jejichž biologické funkce byly stanoveny (doplňkový soubor 4). Mutované lncRNA mezi nimi (napříč kohortami v souborech dat WG-505 a WG-608) byly tedy analyzovány pomocí OncodriveFML a ty významně FM zkreslené alespoň v jedné kohortě se objevují v Doplňkovém souboru 4. Stejně jako v případě 3′ UTR jsme FM bias vypočítali pomocí metriky FI, která odhaduje dopad mutace na sekundární strukturu RNA . Zjistili jsme, že MALAT1, gen lncRNA, u něhož bylo dříve prokázáno, že se podílí na tumorigenezi plicních adenokarcinomů , vykazuje mírně významné zkreslení FM v kohortách souborů WG-505 (hodnota p 0,0138 v KIRC) i WG-608 (hodnota p 0,0104 v pan-kancerogenezi). Kromě toho jsme v souboru dat WG-505 zjistili vyšší než očekávanou akumulaci somatických mutací s vysokým funkčním dopadem v MIAT, transkriptu nekódujícím proteiny, který je spojen s infarktem myokardu (hodnota p 0,0281 v CRC a hodnota p 0,0163 v pan-cancer).
OncodriveFML detekuje pozitivní selekci ze sekvence panelu genů
Nakonec jsme analyzovali seznam somatických mutací detekovaných v panelu genů sekvenovaných s vysokým pokrytím napříč 234 biopsiemi epidermis vystavené slunečnímu záření, abychom ilustrovali použití OncodriveFML na úlohu detekce genů pod pozitivní selekcí v případě, že většina mutací ve vzorku není pro metodu dostupná. OncodriveFML detekuje devět genů s q-hodnotou FM bias <0,1 (obr. 5a a b), mezi něž patří pět genů identifikovaných autory pomocí modifikovaného dn/ds přístupu (NOTCH1, NOTCH2, FAT1, TP53, RBM10) a čtyři další bona fide drivery tumorigeneze (NOTCH3, ARID2, KMT2D, ARID1A). Šest z těchto devíti genů bylo detekováno jako ovladače kožního dlaždicobuněčného karcinomu (cSCC), což je typ nádoru, který vzniká častěji při malignizaci slunci vystavené epidermis. Výsledky odhalují potenciál nástroje OncodriveFML při identifikaci genů podléhajících pozitivní selekci mezi geny sekvenovanými v rámci panelu.
Vědcům zabývajícím se genomikou rakoviny jsme zpřístupnili OncodriveFML jak ke stažení a instalaci kódu, tak ke spuštění prostřednictvím webové aplikace (http://www.intogen.org/oncodrivefml)
.