- OncodriveFML calcula um viés FM local
- OncodriveFML detecta genes codificadores de drivers
- OncodriveFML detecta elementos não codificadores de driver
- OncodriveFML descobre promotores putativos e 5′ UTRs
- OncodriveFML descobre genes com mutações de driver em regiões intrônicas de emenda
- OncodriveFML identifica o condutor putativo 3′ UTRs
- OncodriveFML identifica lncRNAs putativos
- OncodriveFML detecta seleção positiva da seqüência de um painel de genes
OncodriveFML calcula um viés FM local
A lógica por trás de OncodriveFML é que a observação de mutações somáticas em um elemento genômico (gene codificador, promotor, UTR, lncRNA, etc) através de tumores, cujo escore de impacto médio é significativamente maior do que o esperado para esse elemento constitui um sinal de que essas mutações sofreram seleção positiva durante a tumorigenese. Isto, por sua vez, é considerado como uma indicação direta de que este elemento provoca a tumorigenese. Chamamos este desvio do escore de impacto médio observado de mutação somática em uma característica genômica do seu valor esperado, o viés de mutação funcional, ou viés FM. Para medir o viés FM de um elemento em particular, é necessário o OncodriveFML: (1) ser capaz de computar uma pontuação relevante do impacto previsto das mutações no elemento genômico; e (2) simular os processos mutacionais para computar a pontuação média esperada de impacto.
Ainda abordagem para computar o impacto das mutações, porém diferente dependendo do tipo de elemento genômico em análise, pode servir ao propósito de computar seu viés FM observado (Fig. 1a). Por exemplo, em mutações em genes codificadores de proteínas, pode-se medir o impacto previsto na estrutura e função da proteína, enquanto em genes RNA ou UTRs, pode-se computar o impacto das mutações na estrutura secundária do RNA, que é conhecida por ser a chave para sua função. Também nos UTRs, uma medida útil do FI das mutações poderia ser seu efeito na ligação dos microRNAs (miRNAs) aos seus locais alvo. No caso de promotores e melhoradores, o efeito das mutações sobre os sítios de ligação dos factores de transcrição existentes ou a criação de novos sítios pode ser avaliado. Pontuações combinadas que levam em conta várias características para medir o FI, como CADD , também podem ser úteis. Os únicos requisitos da abordagem de pontuação da IF é que ela seja relevante para a função do elemento genômico em estudo e que possa ser computada para todas as mutações possíveis no elemento. Aqui apresentamos implementações de OncodriveFML que utilizam várias métricas de pontuação FI.
OncodriveFML consiste em três passos ilustrados na Fig. 1b-d. No primeiro passo, é calculada a pontuação média FI do conjunto de mutações somáticas observadas no elemento de interesse em uma coorte tumoral (Fig. 1b). No segundo passo, conjuntos de mutações do mesmo tamanho que o número de mutações observadas no elemento são amostrados aleatoriamente a partir do universo de todas as variantes que ele pode possivelmente sustentar (Fig. 1c). Para modelar com precisão os processos mutacionais no tipo de tumor de interesse, a amostragem é feita seguindo a probabilidade de mutação de diferentes tri-nucleotídeos, que podem ser computados a partir das mutações observadas em cada amostra, em coorte em análise como um todo, ou pré-calculadas a partir de coortes tumorais previamente analisadas do mesmo tipo ou similares. Esta amostragem aleatória é iterada várias vezes (por exemplo, 10.000 vezes) para gerar escores locais de impacto médio esperado. Finalmente, OncodriveFML compara o escore de impacto médio observado para cada elemento com seu escore de impacto médio esperado local resultante da amostragem e calcula um viés local de FM, na forma de um valor p empírico que mede o desvio do escore médio observado em relação ao fundo esperado (Fig. 1d). Elementos com viés local significativo de FM após a correção para taxa de falsa descoberta são considerados prováveis drivers.
OncodriveFML detecta genes codificadores de drivers
Para testar sua validade, aplicamos OncodriveFML à detecção de drivers entre todos os genes codificadores de proteínas humanas usando o conjunto de mutações somáticas detectadas por seqüenciamento de todo um excêntrico através dos tumores de 19 coortes, (estes e todos os conjuntos de dados de mutações somáticas aqui empregados estão descritos no arquivo adicional 1). Primeiro, através de gráficos quantile-quantile (QQ) comparando a distribuição esperada e observada dos valores de p de viés FM (Fig. 2a e arquivo adicional 2, seção A), demonstramos que este último segue a distribuição homogênea esperada da hipótese nula, com exceção dos poucos casos que correspondem a genes com viés FM significativo. Entre os genes de primeira linha identificados por OncodriveFML nas quatro coortes apresentadas como exemplos na Fig. 2b e c, existem genes cancerígenos bem conhecidos, como TP53, KEAP1, ARID2, e RUNX1. As mutações observadas nestes genes apresentam um claro viés para FI alto (Fig. 2b; lista completa no arquivo adicional 3).
Segundo, como uma proxy da taxa de verdadeiros positivos do método, calculamos o enriquecimento da dobra na proporção de genes cancerígenos conhecidos (genes do Censo Genético do Câncer (CGC) ) entre seus genes de topo de ranking. Verificamos que OncodriveFML tem melhor desempenho nessa métrica do que a versão original de OncodriveFM , MutSigCV e e-Driver (Fig. 2c e arquivo adicional 2, seção A) nos 19 coortes de tumores analisados. Também comparamos os resultados do OncodriveFML com uma versão mais recente do MutSigCV executada por seus autores, verificando que existe uma importante sobreposição entre os genes identificados pelos dois métodos e que cada método identifica genes adicionais verdadeiros do câncer perdidos pelo outro, enfatizando a complementaridade das duas abordagens (arquivo adicional 2, seção A). Em seguida aplicamos o teste de viés OncodriveFML FM a conjuntos de dados randomizados de mutações, construídos reordenando as mutações observadas dentro de cada genoma, seguindo as taxas de tri-nucleotídeos e as restrições de número de mutações por amostra e por região. O número de genes detectados como condutores putativos dentro desses conjuntos de dados aleatórios de mutações atuaria como proxy da taxa de elementos falso-positivos detectados pelo teste de viés FM. Realizamos esta análise em 19 coortes de tumores que constituem o conjunto de dados WE-4482. OncodriveFML não encontra nenhum gene significativo neste conjunto de dados (pontos cinzas na Fig. 2a), como esperado para um método preciso com um baixo número de falsos positivos. A lista completa de candidatos a motoristas aparece no arquivo adicional 3. Em conjunto, os resultados apresentados nesta secção demonstram que OncodriveFML identifica genes de driver codificadores de proteínas putativos com uma sensibilidade que supera cinco métodos amplamente utilizados desenvolvidos para esta tarefa, mantendo uma taxa muito baixa de falsos positivos.
OncodriveFML detecta elementos não codificadores de driver
Uma das características mais interessantes de OncodriveFML é a sua aplicabilidade na detecção de elementos genómicos não codificadores de driver. Portanto, testamos em seguida o seu desempenho na identificação do promotor de driver putativo, 5′ UTR, splice intronic, e 3′ regiões UTR de genes codificadores contendo mutações em 22 coortes tumorais com dados do genoma inteiro sequenciados por TCGA ou outros projectos (conjuntos de dados WG-505 e WG-608, respectivamente, no ficheiro adicional 1), bem como dois coortes pan-cancer resultantes do agrupamento das mutações detectadas em todos os coortes de cada conjunto de dados (Figs. 3 e 4). Nosso objetivo principal foi testar o OncodriveFML na identificação de elementos não-codificadores putativos e comparar seu desempenho com outros dois métodos recentemente publicados com o mesmo efeito . Devido à completa ausência de um padrão de ouro curado de elementos não-codificadores, limitamos a comparação à avaliação da taxa de falsos positivos detectados por cada método através da análise dos gráficos QQ de suas distribuições observadas e esperadas de valores de p e da análise de conjuntos de dados randomizados. Utilizamos o CADD para pontuar o FI das mutações que ocorrem em todos os elementos não-codificadores acima mencionados, com exceção de 3′ UTRs, onde utilizamos a pontuação fornecida pelo RNAsnp para esse efeito (ver abaixo). Assim como nos genes codificadores, as distribuições observadas e esperadas dos valores de p de viés FM dos 22 e pan-cancer-cohorts se correlacionam muito bem, e quando aplicados ao conjunto de dados de mutações aleatórias mostra um bom controle de falsos positivos (Fig. 3a). Neste sentido, OncodriveFML se compara favoravelmente com dois métodos recentemente publicados na identificação de elementos não-codificadores putativos em coortes do WG-505 e do WG-608 (arquivo adicional 2, seção B). Nas seções seguintes, descrevemos em detalhes os drivers candidatos mais interessantes de cada tipo de elementos não-codificadores identificados como significativamente tendenciosos FM.
OncodriveFML descobre promotores putativos e 5′ UTRs
Na coorte pan-cancerígena, compreendendo 505 tumores as regiões promotoras com o viés FM mais significativo compreendem uma lista restrita de candidatos a motoristas interessantes, como os do TERT (detalhes na Fig. 3b), SYF2, ARGHEF18, e POLR2D. TERT codifica a subunidade de transcriptase reversa da telomerase necessária para manter o comprimento do telômero durante o crescimento do tumor. A ativação de mutações no promotor TERT tem sido encontrada como condutores em múltiplos tipos de câncer . Outros novos candidatos promissores incluem os promotores do SYF2 (detalhes na Fig. 3c), um fator de emenda do mRNA pensado para interagir com um regulador do ciclo celular , ARHGEF18, um fator de troca de nucleotídeos específicos de RhoA envolvidos na ativação de RhoA e motilidade celular , e POLR2D (Fig. 3d), uma subunidade da RNA polimerase, que contém mutações muito próximas do local de início da transcrição (TSS) em amostras de melanoma .
Em uma coorte de 18 gliomas de grau inferior, além do promotor TERT, OncodriveFML identifica o promotor do SPN com um viés FM altamente significativo (Fig. 3e). A expressão de ambos os genes é significativamente maior em amostras com mutações em seus promotores do que em amostras não mutantes (Fig. 3f), o que dá base à idéia de que estas mutações são positivamente selecionadas durante a tumorigenese. O SPN é normalmente produzido apenas por glóbulos brancos, onde regula funções como adesão celular, sinalização intracelular, apoptose, migração e proliferação. Sua expressão ectópica em tumores sólidos tem sido relatada e proposta como um alvo para a imunoterapia. Em resumo, além de produzir uma taxa muito baixa de resultados falso positivos na detecção de elementos promotores de drivers putativos, OncodriveFML é capaz de identificar promotores já conhecidos e putativos interessantes com mutações de drivers, mesmo com uma frequência de mutação muito baixa. Toda a lista de promotores de drivers putativos (e outros elementos não-codificadores) aparece no arquivo Additional file 3.
Among top-ranking FM biased 5′ regiões UTR, encontramos a do TBC1D12 (Fig. 3g). Este gene codifica uma proteína GTPase-activadora das proteínas da família Rab. 5′ As mutações UTR são encontradas recurrentemente perto do códon inicial (Fig. 3h) e são detectadas em amostras de diferentes tipos de tumor. Detectamo-la também como FM tendenciosa em coortes do conjunto de dados do WG-608 (Fig. 3i). A proximidade das mutações do códon inicial sugere que elas podem ter um efeito no controle translacional. Estas mutações foram relatadas recentemente como significativamente redundantes por , com 15% das amostras de tumor na bexiga contendo mutações usando dados de todo o exôma.
OncodriveFML descobre genes com mutações de driver em regiões intrônicas de emenda
A seguir analisamos com OncodriverFML as regiões intrônicas dos genes codificadores, especificamente, os 50 bps do limite exon-intron (intron-50 bps) usando CADD como uma estrutura de pontuação funcional para identificar genes com mutações de driver intron-splicing. Na coorte pan-cancerígena, do conjunto de dados WG-505, OncodriveFML identifica uma lista restrita de genes supressores tumorais bem conhecidos -TP53, STK11 e NF1 – como altamente tendenciosos FM em suas mutações intron-complicadoras (Fig. 4a-b). TP53 contém 16 mutações dentro dos primeiros 50 bps de seus introns, sete das quais aparecem em amostras de câncer de mama, enquanto as outras são distribuídas por coortes de outros tipos de tumor (incluindo GBM, CRC, LUSC, SKCM, LUAD) (Fig. 4b). Curiosamente, oito dessas mutações estão dentro dos primeiros 2 bps do limite intron-exon. STK11 é uma proteína quinase serina/treonina conhecida por atuar como supressor tumoral no controle da atividade dos membros da família da proteína quinase ativada por AMP (AMPK), desempenhando assim um papel em vários processos, como metabolismo celular, polaridade celular, apoptose e resposta de dano ao DNA, muitas vezes com mutações inativadoras nos adenocarcinomas pulmonares. A maioria das mutações (4 em 6) observadas na coorte pan-cancerígena do conjunto de dados WG-505 que se enquadram nos primeiros 50 bps de seus introns correspondem de fato a amostras de adenocarcinoma pulmonar e todas estão muito próximas do limite intron-exon (Fig. 4c).
OncodriveFML identifica o condutor putativo 3′ UTRs
Nexterior, empregamos OncodriveFML para identificar genes condutores em mutações nas suas regiões 3′ UTRs. Neste caso, utilizamos o impacto das mutações na estrutura secundária do RNA computado pelo RNAsnp como escore FI para calcular o viés FM das mutações . Na coorte pan-cancerígena do conjunto de dados WG-505, OncodriveFML identificou BORA e CHAF1B como genes propulsores putativos das mutações em suas 3′ regiões UTR (Fig. 4d-h). As mutações que contribuem para o viés FM computado para o CHAF1B no conjunto de dados do WG-505 aparecem no BRCA, CRC, LUAD, e UCEC. Por outro lado, na coorte pan-cancerígena do conjunto de dados do WG-608, onde também aparece como significativamente enviesada FM, mutações aparecem em amostras BRCA e STAD (Fig. 4e). CHAF1B é um fator de montagem da cromatina implicado na replicação e reparo do DNA . BORA é um ativador Aurora cinase, envolvido na maturação do centrossoma, na montagem do fuso e na localização assimétrica da proteína durante a mitose .
OncodriveFML identifica lncRNAs putativos
A seguir empregamos OncodriveFML para explorar o potencial de um grupo de lncRNAs coletados da literatura cujas funções biológicas foram estabelecidas (arquivo adicional 4). Os lncRNAs mutantes entre estes (entre coortes no WG-505 e WG-608) foram assim analisados por OncodriveFML e aqueles significativamente tendenciosos para FM em pelo menos uma coorte aparecem no arquivo Adicional 4. Como no caso de 3′ UTRs, calculamos o viés FM usando uma métrica FI que estima o impacto da mutação na estrutura secundária do RNA . Verificamos que MALAT1, um gene lncRNA previamente demonstrado estar envolvido na tumorigenese dos adenocarcinomas pulmonares, exibe um viés FM ligeiramente significativo em coortes tanto do WG-505 (valor de p 0,0138 no KIRC) quanto do WG-608 (valor de p 0,0104 no pan-câncer). Além disso, detectamos um acúmulo maior que o esperado de mutações somáticas de alto impacto funcional no MIAT, uma transcrição não-codificadora associada ao infarto do miocárdio no conjunto de dados WG-505 (valor de p 0,0281 no CRC e valor de p 0,0163 no pan-cancer).
OncodriveFML detecta seleção positiva da seqüência de um painel de genes
Finalmente, analisamos a lista de mutações somáticas detectadas em um painel de genes sequenciados em alta cobertura através de 234 biópsias de epiderme exposta ao sol para ilustrar o uso de OncodriveFML na tarefa de detecção de genes sob seleção positiva no caso de a maioria das mutações na amostra não estarem disponíveis para o método. OncodriveFML detecta nove genes com um valor q de viés FM <0,1 (Fig. 5a e b), que incluem os cinco genes identificados pelos autores usando uma abordagem dn/ds modificada (NOTCH1, NOTCH2, FAT1, TP53, RBM10) e quatro outros drivers de boa fé de tumorigenese (NOTCH3, ARID2, KMT2D, ARID1A). Seis desses nove genes são detectados como condutores de carcinoma espinocelular cutâneo (CCCC), o tipo de tumor que se desenvolve com maior freqüência na malignização da epiderme exposta ao sol. Os resultados revelam o potencial do OncodriveFML em identificar genes sob seleção positiva entre aqueles sequenciados como parte de um painel.
Disponibilizamos o OncodriveFML aos investigadores da genómica do cancro tanto para descarregar e instalar o código como para correr através de uma aplicação web (http://www.intogen.org/oncodrivefml).