- OncodriveFML calcola un bias FM locale
- OncodriveFML rileva i geni codificanti driver
- OncodriveFML rileva elementi non codificanti driver
- OncodriveFML scopre promotori driver putativi e 5′ UTR
- OncodriveFML scopre i geni con mutazioni driver nelle regioni introniche di splice
- OncodriveFML identifica putativo driver 3′ UTRs
- OncodriveFML identifica lncRNA putativi
- OncodriveFML rileva la selezione positiva dalla sequenza di un pannello di geni
OncodriveFML calcola un bias FM locale
La logica dietro OncodriveFML è che l’osservazione di mutazioni somatiche su un elemento genomico (gene codificante, promotore, UTR, lncRNA, ecc) nei tumori, il cui punteggio di impatto medio è significativamente maggiore del previsto per detto elemento costituisce un segnale che queste mutazioni hanno subito una selezione positiva durante la tumorigenesi. Questo, a sua volta, è considerato come un’indicazione diretta che questo elemento guida la tumorigenesi. Chiamiamo questa deviazione del punteggio medio di impatto osservato della mutazione somatica in una caratteristica genomica dal suo valore atteso, il bias di mutazione funzionale, o FM bias. Per misurare il bias FM di un particolare elemento, OncodriveFML deve: (1) essere in grado di calcolare un punteggio rilevante dell’impatto previsto delle mutazioni nell’elemento genomico; e (2) simulare i processi mutazionali per calcolare il punteggio di impatto medio atteso.
Qualunque approccio per calcolare l’impatto delle mutazioni, per quanto diverso a seconda del tipo di elemento genomico in analisi, può servire allo scopo di calcolare il suo FM bias osservato (Fig. 1a). Per esempio, nelle mutazioni nei geni codificanti le proteine, si potrebbe misurare l’impatto previsto sulla struttura e la funzione delle proteine, mentre nei geni dell’RNA o nelle UTR, si potrebbe calcolare l’impatto delle mutazioni sulla struttura secondaria dell’RNA, che è nota per essere la chiave della loro funzione. Anche nelle UTR, una misura utile del FI delle mutazioni potrebbe essere il loro effetto sul legame dei microRNA (miRNA) ai loro siti bersaglio. Nel caso di promotori ed esaltatori, si può valutare l’effetto delle mutazioni sui siti di legame dei fattori di trascrizione esistenti o la creazione di nuovi. Possono essere utili anche punteggi combinati che tengono conto di diverse caratteristiche per misurare l’IF, come il CADD. Gli unici requisiti dell’approccio di punteggio FI è che sia rilevante per la funzione dell’elemento genomico in studio e che possa essere calcolato per tutte le possibili mutazioni nell’elemento. Qui presentiamo le implementazioni di OncodriveFML che usano diverse metriche di punteggio FI.
OncodriveFML consiste in tre passi illustrati in Fig. 1b-d. Nel primo passo, viene calcolato il punteggio FI medio dell’insieme di mutazioni somatiche osservate nell’elemento di interesse in una coorte di tumori (Fig. 1b). Nel secondo passo, insiemi di mutazioni della stessa dimensione del numero di mutazioni osservate nell’elemento sono campionati a caso dall’universo di tutte le varianti che esso può sostenere (Fig. 1c). Per modellare accuratamente i processi mutazionali nel tipo di tumore di interesse, il campionamento viene fatto seguendo la probabilità di mutazione di diversi tri-nucleotidi, che può essere calcolata dalle mutazioni osservate in ogni campione, nella coorte in analisi nel suo complesso, o pre-calcolata da coorti di tumori precedentemente analizzati dello stesso tipo o simili. Questo campionamento casuale viene iterato un certo numero di volte (ad esempio 10.000 volte) per generare punteggi di impatto medio locale atteso. Infine, OncodriveFML confronta il punteggio medio di impatto osservato per ogni elemento con il suo punteggio medio atteso locale di impatto risultante dal campionamento e calcola un bias FM locale, sotto forma di un valore p empirico che misura la deviazione del punteggio medio osservato dal background atteso (Fig. 1d). Gli elementi con un bias FM locale significativo dopo la correzione per il tasso di falsa scoperta sono considerati probabili driver.
OncodriveFML rileva i geni codificanti driver
Per testare la sua validità, abbiamo applicato OncodriveFML al rilevamento di driver tra tutti i geni codificanti proteine umane utilizzando il set di mutazioni somatiche rilevate dal sequenziamento dell’esoma intero attraverso i tumori di 19 coorti, (questi e tutti i dataset di mutazioni somatiche qui impiegati sono descritti nel file aggiuntivo 1). In primo luogo, attraverso i grafici quantile-quantile (QQ) che confrontano la distribuzione prevista e osservata dei valori p di FM bias (Fig. 2a e file aggiuntivo 2, sezione A), dimostriamo che quest’ultima segue la distribuzione omogenea attesa dell’ipotesi nulla, ad eccezione dei pochi casi che corrispondono a geni con FM bias significativo. Tra i geni in cima alla classifica identificati da OncodriveFML nelle quattro coorti presentate come esempi in Fig. 2b e c, ci sono noti geni del cancro, come TP53, KEAP1, ARID2, e RUNX1. Le mutazioni osservate in questi geni mostrano una chiara polarizzazione verso un alto FI (Fig. 2b; elenco completo nel file aggiuntivo 3).
In secondo luogo, come un proxy del tasso di veri positivi del metodo, abbiamo calcolato l’arricchimento piega nella proporzione di geni noti cancro (geni nel Cancer Gene Census (CGC)) tra i suoi geni top ranking. Abbiamo trovato che OncodriveFML ha prestazioni migliori in questa metrica rispetto alla versione originale di OncodriveFM, MutSigCV ed e-Driver (Fig. 2c e file aggiuntivo 2, sezione A) in tutte le 19 coorti di tumori analizzati. Abbiamo anche confrontato i risultati di OncodriveFML con una versione più recente di MutSigCV eseguita dai suoi autori, trovando che c’è un’importante sovrapposizione tra i geni identificati da entrambi i metodi e che ogni metodo identifica ulteriori geni di cancro veri mancati dall’altro, sottolineando la complementarità dei due approcci (file aggiuntivo 2, sezione A). Abbiamo poi applicato il test OncodriveFML FM bias a set di dati randomizzati di mutazioni, costruiti rimescolando le mutazioni osservate all’interno di ogni genoma, seguendo i tassi di tri-nucleotidi e i vincoli del numero di mutazioni per campione e per regione. Il numero di geni rilevati come driver putativi all’interno di questi set di dati casuali di mutazioni fungerebbe da proxy del tasso di elementi falsi positivi rilevati dal test FM bias. Abbiamo effettuato questa analisi sulle 19 coorti di tumori whole-exome che costituiscono il dataset WE-4482. OncodriveFML non trova alcun gene significativo in questo set di dati (punti grigi in Fig. 2a), come previsto per un metodo accurato con un basso numero di falsi positivi. L’intera lista di candidati driver appare nel file aggiuntivo 3. Nel complesso, i risultati presentati in questa sezione dimostrano che OncodriveFML identifica i geni driver putativi codificanti proteine con una sensibilità che supera cinque metodi ampiamente utilizzati sviluppati per questo compito, pur mantenendo un tasso di falsi positivi molto basso.
OncodriveFML rileva elementi non codificanti driver
Una delle caratteristiche più interessanti di OncodriveFML è la sua applicabilità al rilevamento di elementi genomici non codificanti driver. Pertanto, abbiamo poi testato le sue prestazioni nell’identificazione del promotore putativo driver, 5′ UTR, splice intronic, e 3′ UTR regioni di geni codificanti contenenti mutazioni attraverso 22 coorti di tumore con dati whole-genome sequenziati da TCGA o altri progetti (dataset WG-505 e WG-608, rispettivamente, nel file aggiuntivo 1), così come due coorti pan-cancro derivanti dal pooling le mutazioni rilevate in tutte le coorti di ogni set di dati (Figs. 3 e 4). Il nostro obiettivo primario era quello di testare OncodriveFML all’identificazione di elementi putativi driver non codificanti e confrontare le sue prestazioni con altri due metodi recentemente pubblicati per lo stesso effetto. A causa della completa assenza di un gold standard curato di elementi driver non codificanti, abbiamo limitato il confronto alla valutazione del tasso di falsi positivi rilevati da ciascun metodo attraverso l’analisi dei grafici QQ delle loro distribuzioni osservate e attese di valori p e l’analisi di set di dati randomizzati. Abbiamo usato CADD per segnare il FI di mutazioni che si verificano in tutti i suddetti elementi non codificanti, con l’eccezione di 3′ UTR, dove abbiamo usato il punteggio fornito da RNAsnp a tal fine (vedi sotto). Come per i geni codificanti, le distribuzioni osservate e previste dei valori p di bias FM delle coorti 22 e pan-cancro correlano molto bene, e quando applicato al dataset di mutazioni randomizzate mostra un buon controllo dei falsi positivi (Fig. 3a). A questo proposito, OncodriveFML si confronta favorevolmente con due metodi recentemente pubblicati nell’identificazione di elementi putativi non codificanti attraverso le coorti di entrambi i dataset WG-505 e WG-608 (Additional file 2, sezione B). Nelle sezioni seguenti, descriviamo in dettaglio i candidati driver più interessanti di ogni tipo di elementi non codificanti identificati come significativamente FM biased.
OncodriveFML scopre promotori driver putativi e 5′ UTR
Nella coorte pan-cancro, comprendente 505 tumori, le regioni promotrici con il bias FM più significativo comprendono una rosa di interessanti driver candidati, come quelli di TERT (dettagli in Fig. 3b), SYF2, ARGHEF18 e POLR2D. TERT codifica la subunità della trascrittasi inversa della telomerasi necessaria per mantenere la lunghezza dei telomeri durante la crescita del tumore. Mutazioni attivanti nel promotore di TERT sono state trovate come driver in diversi tipi di cancro. Altri promettenti nuovi candidati includono i promotori di SYF2 (dettagli in Fig. 3c), un fattore di splicing mRNA pensato per interagire con un regolatore del ciclo cellulare, ARHGEF18, un fattore di scambio di guanina nucleotide Rho-specifico coinvolto nell’attivazione RhoA e la motilità cellulare, e POLR2D (Fig. 3d), una subunità della RNA polimerasi, che contiene mutazioni molto vicino al sito di inizio della trascrizione (TSS) nei campioni di melanoma.
In una coorte di 18 gliomi di grado inferiore, oltre al promotore TERT, OncodriveFML identifica il promotore di SPN con un bias FM altamente significativo (Fig. 3e). L’espressione di entrambi i geni è significativamente più alta nei campioni con mutazioni nei loro promotori rispetto ai campioni non mutati (Fig. 3f), il che fornisce il fondamento all’idea che queste mutazioni sono selezionate positivamente durante la tumorigenesi. SPN è normalmente prodotto solo dai globuli bianchi dove regola funzioni come l’adesione cellula-cellula, la segnalazione intracellulare, l’apoptosi, la migrazione e la proliferazione. La sua espressione ectopica nei tumori solidi è stata riportata e proposta come bersaglio per l’immunoterapia. In sintesi, oltre a produrre un tasso molto basso di risultati falsi positivi nel rilevamento di elementi promotori putativi, OncodriveFML è in grado di identificare promotori già noti e putativi interessanti con mutazioni driver, anche a frequenza mutazionale molto bassa. L’intero elenco dei promotori driver putativi (e altri elementi non codificanti) appare nel file aggiuntivo 3.
Tra le regioni top-ranking FM biased 5′ UTR, abbiamo trovato quella di TBC1D12 (Fig. 3g). Questo gene codifica una proteina attivante la GTPasi per le proteine della famiglia Rab. Le mutazioni 5′ UTR si trovano ricorrentemente vicino al codone di inizio (Fig. 3h) e sono rilevate in campioni di diversi tipi di tumore. Abbiamo rilevato anche come FM biased in coorti del dataset WG-608 (Fig. 3i). La vicinanza delle mutazioni al codone di inizio suggerisce che potrebbero avere un effetto sul controllo traslazionale. Queste mutazioni sono state recentemente segnalate come significativamente ridondanti da , con il 15 % dei campioni di tumore della vescica con mutazioni utilizzando i dati whole-exome.
OncodriveFML scopre i geni con mutazioni driver nelle regioni introniche di splice
Abbiamo poi analizzato con OncodriverFML le regioni introniche dei geni codificanti, in particolare, i 50 bps dal confine esone-introne (intron-50 bps) utilizzando CADD come un quadro di punteggio funzionale per identificare i geni con mutazioni driver introne-splicing. Nella coorte pan-cancro, del set di dati WG-505, OncodriveFML identifica una rosa di ben noti geni soppressori del tumore-TP53, STK11, e NF1-come altamente FM biased nelle loro mutazioni introne-splicing (Fig. 4a-b). TP53 contiene 16 mutazioni all’interno dei primi 50 bps dei suoi introni, sette dei quali appaiono in campioni di cancro al seno, mentre gli altri sono distribuiti attraverso le coorti di altri tipi di tumore (tra cui GBM, CRC, LUSC, SKCM, LUAD) (Fig. 4b). È interessante notare che otto di queste mutazioni sono all’interno dei primi 2 bps del confine introne-esone. STK11 è una serina/treonina-proteina chinasi nota per agire come un soppressore tumorale nel controllo dell’attività dei membri della famiglia AMP-activated protein kinase (AMPK), giocando così un ruolo in vari processi come il metabolismo cellulare, la polarità cellulare, l’apoptosi, e la risposta al danno al DNA, spesso con mutazioni inattivanti negli adenocarcinomi del polmone. La maggior parte delle mutazioni (4 su 6) osservate nella coorte pan-cancro del set di dati WG-505 che cadono all’interno dei primi 50 bps dei suoi introni effettivamente corrispondono a campioni di adenocarcinoma polmonare e tutti sono in prossimità del confine introne-esone (Fig. 4c).
OncodriveFML identifica putativo driver 3′ UTRs
In seguito, abbiamo impiegato OncodriveFML per identificare i geni driver su mutazioni nelle loro regioni 3′ UTR. In questo caso, abbiamo usato l’impatto delle mutazioni sulla struttura secondaria dell’RNA calcolata da RNAsnp come punteggio FI per calcolare il bias FM delle mutazioni. Nella coorte pan-cancro del set di dati WG-505, OncodriveFML identificato BORA e CHAF1B come geni driver putativo dalle mutazioni nelle loro regioni 3′ UTR (Fig. 4d-h). Mutazioni che contribuiscono al bias FM calcolato per CHAF1B nel set di dati WG-505 appaiono in BRCA, CRC, LUAD e UCEC. D’altra parte, nella coorte pan-cancro del set di dati WG-608, dove appare anche come significativamente FM bias, le mutazioni appaiono in BRCA e campioni STAD (Fig. 4e). CHAF1B è un fattore di assemblaggio della cromatina implicato nella replicazione del DNA e nella riparazione del DNA. BORA è un attivatore dell’Aurora chinasi, coinvolto nella maturazione del centrosoma, nell’assemblaggio del fuso e nella localizzazione asimmetrica delle proteine durante la mitosi.
OncodriveFML identifica lncRNA putativi
Abbiamo poi impiegato OncodriveFML per esplorare il potenziale di un gruppo di lncRNA raccolti dalla letteratura le cui funzioni biologiche sono state stabilite (Additional file 4). I lncRNA mutati tra questi (attraverso le coorti nei dataset WG-505 e WG-608) sono stati quindi analizzati da OncodriveFML e quelli significativamente FM biased in almeno una coorte appaiono nel file aggiuntivo 4. Come nel caso di 3′ UTR, abbiamo calcolato il bias FM utilizzando una metrica FI che stima l’impatto della mutazione sulla struttura secondaria dell’RNA. Abbiamo trovato che MALAT1, un gene lncRNA precedentemente dimostrato di essere coinvolto nella tumorigenesi degli adenocarcinomi polmonari, esibisce un bias FM leggermente significativo nelle coorti sia del WG-505 (p valore 0.0138 in KIRC) e il WG-608 (p valore 0.0104 in pan-cancro) set di dati. Inoltre, abbiamo rilevato un accumulo superiore al previsto di mutazioni somatiche ad alto impatto funzionale in MIAT, un trascritto non codificante per proteine associato all’infarto del miocardio nel set di dati WG-505 (p value 0.0281 in CRC e p value 0.0163 in pan-cancro).
OncodriveFML rileva la selezione positiva dalla sequenza di un pannello di geni
Infine, abbiamo analizzato l’elenco delle mutazioni somatiche rilevate in un pannello di geni sequenziati ad alta copertura attraverso 234 biopsie di epidermide esposta al sole per illustrare l’uso di OncodriveFML sul compito di rilevare i geni sotto selezione positiva nel caso in cui la maggior parte delle mutazioni nel campione non sono disponibili al metodo. OncodriveFML rileva nove geni con un FM bias q-value <0.1 (Fig. 5a e b), che includono i cinque geni identificati dagli autori utilizzando un approccio dn/ds modificato (NOTCH1, NOTCH2, FAT1, TP53, RBM10) e altri quattro driver bona fide di tumorigenesi (NOTCH3, ARID2, KMT2D, ARID1A). Sei di questi nove geni sono rilevati come driver del carcinoma cutaneo a cellule squamose (cSCC), il tipo di tumore che si sviluppa più frequentemente sulla malignizzazione dell’epidermide esposta al sole. I risultati rivelano il potenziale di OncodriveFML nell’identificare i geni sotto selezione positiva tra quelli sequenziati come parte di un pannello.
Abbiamo messo OncodriveFML a disposizione dei ricercatori di genomica del cancro sia per scaricare e installare il codice che per eseguirlo attraverso un’applicazione web (http://www.intogen.org/oncodrivefml).