OncodriveFML: un marco general para identificar regiones codificantes y no codificantes con mutaciones conductoras del cáncer | Genome Biology

OncodriveFML computes a local FM bias
OncodriveFML detecta genes codificadores de impulsores
OncodriveFML detecta elementos no codificantes conductores
OncodriveFML descubre promotores putativos y 5′ UTRs
OncodriveFML descubre genes con mutaciones conductoras en las regiones intrónicas de empalme
OncodriveFML identifica putativo conductor 3′ UTRs
OncodriveFML identifica lncRNAs putativos
OncodriveFML detecta selección positiva a partir de la secuencia de un panel de genes

OncodriveFML computes a local FM bias

El fundamento de OncodriveFML es que la observación de mutaciones somáticas en un elemento genómico (gen codificante, promotor, UTR, lncRNA, etc) a lo largo de los tumores, cuya puntuación media de impacto es significativamente mayor que la esperada para dicho elemento constituye una señal de que estas mutaciones han sufrido una selección positiva durante la tumorigénesis. Esto, a su vez, se considera una indicación directa de que este elemento impulsa la tumorigénesis. Llamamos a esta desviación de la puntuación media de impacto observada de la mutación somática en un elemento genómico con respecto a su valor esperado, el sesgo de mutación funcional, o sesgo FM. Para medir el sesgo FM de un elemento concreto, OncodriveFML debe (1) sea capaz de calcular una puntuación relevante del impacto previsto de las mutaciones en el elemento genómico; y (2) simule los procesos mutacionales para calcular la puntuación media de impacto esperada.

Cualquier enfoque para calcular el impacto de las mutaciones, por muy diferente que sea según el tipo de elemento genómico analizado, puede servir para calcular su sesgo FM observado (Fig. 1a). Por ejemplo, en las mutaciones en los genes codificadores de proteínas, se podría medir el impacto previsto en la estructura y función de las proteínas, mientras que en los genes de ARN o UTRs, se podría computar el impacto de las mutaciones en la estructura secundaria del ARN, que se sabe que es clave para su función. También en los UTRs, una medida útil de la IF de las mutaciones podría ser su efecto sobre la unión de los microARNs (miARNs) a sus sitios objetivo. En el caso de los promotores y potenciadores, puede evaluarse el efecto de las mutaciones sobre los sitios de unión de los factores de transcripción existentes o la creación de otros nuevos. También pueden ser útiles las puntuaciones combinadas que tienen en cuenta varias características para medir el IF, como el CADD ,. Los únicos requisitos del enfoque de puntuación de FI es que sea relevante para la función del elemento genómico en estudio y que pueda calcularse para todas las posibles mutaciones en el elemento. Aquí presentamos implementaciones de OncodriveFML que utilizan varias métricas de puntuación de FI.

OncodriveFML consta de tres pasos ilustrados en la Fig. 1b-d. En el primer paso, se calcula la puntuación media de FI del conjunto de mutaciones somáticas observadas en el elemento de interés en una cohorte de tumores (Fig. 1b). En el segundo paso, se muestrean aleatoriamente conjuntos de mutaciones del mismo tamaño que el número de mutaciones observadas en el elemento, a partir del universo de todas las variantes que puede sostener (Fig. 1c). Para modelar con precisión los procesos mutacionales en el tipo de tumor de interés, el muestreo se realiza siguiendo la probabilidad de mutación de los diferentes trinucleótidos, que puede ser calculada a partir de las mutaciones observadas en cada muestra, en la cohorte analizada en su conjunto, o precalculada a partir de cohortes tumorales previamente analizadas del mismo tipo o similar. Este muestreo aleatorio se itera un número de veces (por ejemplo, 10.000 veces) para generar las puntuaciones de impacto promedio locales esperadas. Por último, OncodriveFML compara la puntuación de impacto media observada para cada elemento con su puntuación de impacto media local esperada resultante del muestreo y calcula un sesgo de FM local, en forma de un valor p empírico que mide la desviación de la puntuación media observada con respecto al fondo esperado (Fig. 1d). Los elementos con un sesgo local de FM significativo después de la corrección por la tasa de falsos descubrimientos se consideran probables impulsores.

OncodriveFML detecta genes codificadores de impulsores

Para probar su validez, aplicamos OncodriveFML a la detección de impulsores entre todos los genes humanos codificadores de proteínas utilizando el conjunto de mutaciones somáticas detectadas por la secuenciación del exoma completo a través de los tumores de 19 cohortes, (estos y todos los conjuntos de datos de mutaciones somáticas empleados aquí se describen en el archivo adicional 1). En primer lugar, a través de gráficos cuantil-cuantil (QQ) que comparan la distribución esperada y observada de los valores p del sesgo de FM (Fig. 2a y archivo adicional 2, sección A), demostramos que este último sigue la distribución homogénea esperada de la hipótesis nula, con la excepción de los pocos casos que corresponden a genes con un sesgo de FM significativo. Entre los genes mejor clasificados identificados por OncodriveFML en las cuatro cohortes presentadas como ejemplos en la Fig. 2b y c, hay genes cancerígenos bien conocidos, como TP53, KEAP1, ARID2 y RUNX1. Las mutaciones observadas en estos genes muestran un claro sesgo hacia un alto IF (Fig. 2b; lista completa en el archivo adicional 3).

En segundo lugar, como un indicador de la tasa de verdaderos positivos del método, calculamos el enriquecimiento de pliegues en la proporción de genes de cáncer conocidos (genes en el Censo de Genes de Cáncer (CGC) ) entre sus genes de clasificación superior. Encontramos que OncodriveFML se comporta mejor en esta métrica que la versión original de OncodriveFM , MutSigCV , y e-Driver (Fig. 2c y archivo adicional 2, sección A) en las 19 cohortes de tumores analizadas. También comparamos los resultados de OncodriveFML con una versión más reciente de MutSigCV ejecutada por sus autores , encontrando que hay un importante solapamiento entre los genes identificados por ambos métodos y que cada método identifica genes cancerígenos verdaderos adicionales pasados por alto por el otro, subrayando la complementariedad de los dos enfoques (archivo adicional 2, sección A). A continuación, aplicamos la prueba de sesgo de OncodriveFML a conjuntos de datos aleatorios de mutaciones, construidos reorganizando las mutaciones observadas dentro de cada genoma, siguiendo las tasas de trinucleótidos y las restricciones de número de mutaciones por muestra y por región. El número de genes detectados como posibles impulsores dentro de estos conjuntos de datos aleatorios de mutaciones actuaría como un indicador de la tasa de elementos falsos positivos detectados por la prueba de sesgo de FM. Realizamos este análisis en las 19 cohortes de tumores de exoma completo que constituyen el conjunto de datos WE-4482. OncodriveFML no encuentra ningún gen significativo en este conjunto de datos (puntos grises en la Fig. 2a), como se espera de un método preciso con un bajo número de falsos positivos. La lista completa de candidatos a conductor aparece en el archivo adicional 3. En conjunto, los resultados presentados en esta sección demuestran que OncodriveFML identifica los genes conductores putativos que codifican proteínas con una sensibilidad que supera a cinco métodos ampliamente empleados y desarrollados para esta tarea, al tiempo que mantiene una tasa de falsos positivos muy baja.

OncodriveFML detecta elementos no codificantes conductores

Una de las características más interesantes de OncodriveFML es su aplicabilidad a la detección de elementos genómicos no codificantes conductores. Por lo tanto, a continuación probamos su rendimiento en la identificación de promotores putativos, 5′ UTR, regiones intrónicas de empalme y 3′ UTR de genes codificantes que contenían mutaciones a través de 22 cohortes de tumores con datos de genoma completo secuenciados por TCGA u otros proyectos (conjuntos de datos WG-505 y WG-608, respectivamente, en el archivo adicional 1), así como dos cohortes pancancerosas resultantes de agrupar las mutaciones detectadas en todas las cohortes de cada conjunto de datos (Figs. 3 y 4). Nuestro objetivo principal era probar OncodriveFML en la identificación de elementos no codificantes putativos y comparar su rendimiento con otros dos métodos recientemente publicados para el mismo efecto. Debido a la ausencia total de un estándar de oro curado de elementos conductores no codificantes, limitamos la comparación a la evaluación de la tasa de falsos positivos detectados por cada método mediante el análisis de los gráficos QQ de sus distribuciones observadas y esperadas de valores p y el análisis de conjuntos de datos aleatorios. Utilizamos el CADD para puntuar el FI de las mutaciones que se producen en todos los elementos no codificantes mencionados, con la excepción de las 3′ UTR, donde utilizamos la puntuación proporcionada por RNAsnp a tal efecto (véase más adelante). Al igual que en el caso de los genes codificantes, las distribuciones observadas y esperadas de los valores p del sesgo FM de las cohortes 22 y pan-cáncer se correlacionan muy bien, y cuando se aplica al conjunto de datos de mutaciones aleatorias muestra un buen control de los falsos positivos (Fig. 3a). En este sentido, OncodriveFML se compara favorablemente con dos métodos recientemente publicados en la identificación de elementos putativos no codificantes en las cohortes de los conjuntos de datos WG-505 y WG-608 (archivo adicional 2, sección B). En las siguientes secciones, describimos en detalle los impulsores candidatos más interesantes de cada tipo de elementos no codificantes identificados como significativamente sesgados por FM.

OncodriveFML descubre promotores putativos y 5′ UTRs

En la cohorte pan-cáncer, que comprende 505 tumores, las regiones promotoras con el sesgo FM más significativo comprenden una lista corta de interesantes impulsores candidatos, como los de TERT (detalles en la Fig. 3b), SYF2, ARGHEF18 y POLR2D. TERT codifica la subunidad de la transcriptasa inversa de la telomerasa, necesaria para mantener la longitud de los telómeros durante el crecimiento del tumor. Se han encontrado mutaciones activadoras en el promotor de TERT como impulsoras de múltiples tipos de cáncer. Otros candidatos prometedores incluyen los promotores de SYF2 (detalles en la Fig. 3c), un factor de empalme de ARNm que se cree que interactúa con un regulador del ciclo celular, ARHGEF18, un factor de intercambio de nucleótidos de guanina específico de Rho que participa en la activación de RhoA y la motilidad celular, y POLR2D (Fig. 3d), una subunidad de la ARN polimerasa, que contiene mutaciones muy cercanas al sitio de inicio de la transcripción (TSS) en las muestras de melanoma .

En una cohorte de 18 gliomas de grado inferior, además del promotor de TERT, OncodriveFML identifica el promotor de SPN con un sesgo de FM altamente significativo (Fig. 3e). La expresión de ambos genes es significativamente mayor en las muestras que presentan mutaciones en sus promotores que en las muestras no mutadas (Fig. 3f), lo que da fundamento a la idea de que estas mutaciones son seleccionadas positivamente durante la tumorigénesis. La NPS es producida normalmente sólo por los glóbulos blancos, donde regula funciones como la adhesión célula-célula, la señalización intracelular, la apoptosis, la migración y la proliferación. Se ha informado de su expresión ectópica en tumores sólidos y se ha propuesto como diana para la inmunoterapia. En resumen, además de producir una tasa muy baja de resultados falsos positivos en la detección de elementos promotores putativos, OncodriveFML es capaz de identificar promotores ya conocidos y putativos interesantes con mutaciones en el conductor, incluso con una frecuencia mutacional muy baja. La lista completa de promotores putativos (y otros elementos no codificantes) aparece en el archivo adicional 3.

Entre las regiones 5′ UTR sesgadas por FM de mayor rango, encontramos la de TBC1D12 (Fig. 3g). Este gen codifica una proteína activadora de GTPasas para las proteínas de la familia Rab. Las mutaciones en el 5′ UTR se encuentran recurrentemente cerca del codón de inicio (Fig. 3h) y se detectan en muestras de diferentes tipos de tumores. Lo detectamos también como FM sesgada en cohortes del conjunto de datos WG-608 (Fig. 3i). La proximidad de las mutaciones al codón de inicio sugiere que podrían tener un efecto sobre el control traslacional. Estas mutaciones fueron reportadas recientemente como significativamente redundantes por , con el 15 % de las muestras de tumores de vejiga con mutaciones usando datos de exoma completo.

OncodriveFML descubre genes con mutaciones conductoras en las regiones intrónicas de empalme

A continuación, analizamos con OncodriverFML las regiones intrónicas de los genes codificantes, en concreto, los 50 bps del límite exón-intrón (intrón-50 bps) utilizando CADD como marco de puntuación funcional para identificar genes con mutaciones conductoras de empalme de intrones. En la cohorte de cánceres, del conjunto de datos WG-505, OncodriveFML identifica una lista corta de genes supresores de tumores bien conocidos -TP53, STK11 y NF1- como altamente sesgados por FM en sus mutaciones de empalme de intrones (Fig. 4a-b). TP53 contiene 16 mutaciones dentro de los primeros 50 bps de sus intrones, siete de las cuales aparecen en muestras de cáncer de mama, mientras que las otras se distribuyen en las cohortes de otros tipos de tumores (incluyendo GBM, CRC, LUSC, SKCM, LUAD) (Fig. 4b). Curiosamente, ocho de estas mutaciones se encuentran dentro de los primeros 2 bps del límite intrón-exón. STK11 es una proteína quinasa de serina/treonina conocida por actuar como supresor tumoral en el control de la actividad de los miembros de la familia de la proteína quinasa activada por AMP (AMPK), desempeñando así un papel en varios procesos como el metabolismo celular, la polaridad celular, la apoptosis y la respuesta al daño del ADN, a menudo con mutaciones inactivadoras en los adenocarcinomas de pulmón. La mayoría de las mutaciones (4 de 6) observadas en la cohorte de cáncer del conjunto de datos WG-505 que caen dentro de los primeros 50 bps de sus intrones corresponden, de hecho, a muestras de adenocarcinoma de pulmón y todas están muy cerca del límite intrón-exón (Fig. 4c).

OncodriveFML identifica putativo conductor 3′ UTRs

A continuación, empleamos OncodriveFML para identificar los genes conductores sobre las mutaciones en sus regiones 3′ UTR. En este caso, utilizamos el impacto de las mutaciones en la estructura secundaria del ARN calculado por RNAsnp como puntuación FI para calcular el sesgo FM de las mutaciones . En la cohorte de cánceres del conjunto de datos WG-505, OncodriveFML identificó a BORA y CHAF1B como genes conductores putativos a partir de las mutaciones en sus regiones 3′ UTR (Fig. 4d-h). Las mutaciones que contribuyen al sesgo FM calculado para CHAF1B en el conjunto de datos WG-505 aparecen en BRCA, CRC, LUAD y UCEC. Por otro lado, en la cohorte pan-cáncer del conjunto de datos WG-608, donde también aparece como significativamente sesgada por FM, las mutaciones aparecen en las muestras BRCA y STAD (Fig. 4e). CHAF1B es un factor de ensamblaje de la cromatina implicado en la replicación y reparación del ADN. BORA es un activador de la quinasa Aurora, implicado en la maduración del centrosoma, el ensamblaje del huso y la localización asimétrica de proteínas durante la mitosis.

OncodriveFML identifica lncRNAs putativos

A continuación empleamos OncodriveFML para explorar el potencial de un grupo de lncRNAs recogidos de la literatura cuyas funciones biológicas han sido establecidas (archivo adicional 4). Los lncRNAs mutados entre estos (a través de cohortes en los conjuntos de datos WG-505 y WG-608) fueron así analizados por OncodriveFML y aquellos significativamente sesgados por FM en al menos una cohorte aparecen en el archivo adicional 4. Como en el caso de las 3′ UTRs, calculamos el sesgo de FM utilizando una métrica FI que estima el impacto de la mutación en la estructura secundaria del ARN . Encontramos que MALAT1, un gen lncRNA que ha demostrado previamente estar implicado en la tumorigénesis de los adenocarcinomas de pulmón , presenta un sesgo FM ligeramente significativo en las cohortes de los conjuntos de datos WG-505 (valor p 0,0138 en KIRC) y WG-608 (valor p 0,0104 en pan-cáncer). Además, detectamos una acumulación superior a la esperada de mutaciones somáticas de alto impacto funcional en MIAT, un transcrito no codificador de proteínas asociado al infarto de miocardio en el conjunto de datos WG-505 (valor p 0,0281 en KIRC y valor p 0,0163 en pan-cáncer).

OncodriveFML detecta selección positiva a partir de la secuencia de un panel de genes

Por último, analizamos la lista de mutaciones somáticas detectadas en un panel de genes secuenciados a alta cobertura a través de 234 biopsias de epidermis expuestas al sol para ilustrar el uso de OncodriveFML en la tarea de detectar genes bajo selección positiva en el caso de que la mayoría de las mutaciones de la muestra no estén disponibles para el método. OncodriveFML detecta nueve genes con un valor q de sesgo FM <0,1 (Fig. 5a y b), que incluyen los cinco genes identificados por los autores utilizando un enfoque dn/ds modificado (NOTCH1, NOTCH2, FAT1, TP53, RBM10) y otros cuatro impulsores de buena fe de la tumorigénesis (NOTCH3, ARID2, KMT2D, ARID1A). Seis de estos nueve genes se detectan como impulsores del carcinoma cutáneo de células escamosas (cSCC), el tipo de tumor que se desarrolla con mayor frecuencia tras la malignización de la epidermis expuesta al sol. Los resultados revelan el potencial de OncodriveFML para identificar genes bajo selección positiva entre los secuenciados como parte de un panel.

Hemos puesto OncodriveFML a disposición de los investigadores en genómica del cáncer tanto para descargar e instalar el código como para ejecutarlo a través de una aplicación web (http://www.intogen.org/oncodrivefml).

OncodriveFML: a general framework to identify coding and non-coding regions with cancer driver mutations