OncodriveFML : un cadre général pour identifier les régions codantes et non codantes avec des mutations cancérigènes | Genome Biology

OncodriveFML calcule un biais FM local
OncodriveFML détecte les gènes codants pilotes
OncodriveFML détecte les éléments non codants pilotes
OncodriveFML découvre des promoteurs pilotes putatifs et des 5′ UTR
OncodriveFML découvre des gènes avec des mutations pilotes dans les régions introniques d’épissage
OncodriveFML identifie les 3′ UTR pilotes putatifs
OncodriveFML identifie des lncRNA putatifs
OncodriveFML détecte une sélection positive à partir de la séquence d’un panel de gènes

OncodriveFML calcule un biais FM local

Le raisonnement derrière OncodriveFML est que l’observation de mutations somatiques sur un élément génomique (gène codant, promoteur, UTR, lncRNA, etc) à travers les tumeurs, dont le score d’impact moyen est significativement plus élevé que prévu pour ledit élément constitue un signal que ces mutations ont subi une sélection positive pendant la tumorigenèse. Ceci, à son tour, est considéré comme une indication directe que cet élément dirige la tumorigenèse. Nous appelons cet écart du score d’impact moyen observé de la mutation somatique dans un élément génomique par rapport à sa valeur attendue, le biais de mutation fonctionnelle, ou biais FM. Pour mesurer le biais FM d’un élément particulier, OncodriveFML doit : (1) être capable de calculer un score pertinent de l’impact prédit des mutations dans l’élément génomique ; et (2) simuler les processus de mutation pour calculer le score d’impact moyen attendu.

Toute approche pour calculer l’impact des mutations, aussi différente soit-elle selon le type d’élément génomique analysé, peut servir à calculer son biais FM observé (figure 1a). Par exemple, dans le cas de mutations dans des gènes codant pour des protéines, on pourrait mesurer l’impact prévu sur la structure et la fonction des protéines, tandis que dans les gènes d’ARN ou les UTR, on pourrait calculer l’impact des mutations sur la structure secondaire de l’ARN, dont on sait qu’elle est essentielle à leur fonction. Toujours dans les UTR, une mesure utile de l’IF des mutations pourrait être leur effet sur la liaison des microARN (miRNA) à leurs sites cibles. Dans le cas des promoteurs et des amplificateurs, l’effet des mutations sur les sites de liaison des facteurs de transcription existants ou la création de nouveaux sites peut être évalué. Les scores combinés qui prennent en compte plusieurs caractéristiques pour mesurer l’IF, tels que CADD , peuvent également être utiles. Les seules exigences de l’approche de notation de l’IF sont qu’elle soit pertinente pour la fonction de l’élément génomique étudié et qu’elle puisse être calculée pour toutes les mutations possibles de l’élément. Nous présentons ici des implémentations d’OncodriveFML qui utilisent plusieurs mesures de notation FI.

OncodriveFML consiste en trois étapes illustrées dans les Fig. 1b-d. Dans la première étape, le score FI moyen de l’ensemble des mutations somatiques observées dans l’élément d’intérêt à travers une cohorte de tumeurs est calculé (Fig. 1b). Dans la deuxième étape, des ensembles de mutations de la même taille que le nombre de mutations observées dans l’élément sont échantillonnés de manière aléatoire à partir de l’univers de toutes les variantes qu’il peut éventuellement supporter (Fig. 1c). Pour modéliser avec précision les processus mutationnels dans le type de tumeur considéré, l’échantillonnage est effectué en fonction de la probabilité de mutation des différents tri-nucléotides, qui peut être soit calculée à partir des mutations observées dans chaque échantillon, dans la cohorte analysée dans son ensemble, soit pré-calculée à partir de cohortes de tumeurs précédemment analysées de type identique ou similaire. Cet échantillonnage aléatoire est itéré un certain nombre de fois (par exemple 10 000 fois) pour générer des scores d’impact moyens locaux attendus. Enfin, OncodriveFML compare le score d’impact moyen observé pour chaque élément à son score d’impact moyen local attendu résultant de l’échantillonnage et calcule un biais FM local, sous la forme d’une valeur p empirique qui mesure la déviation du score moyen observé par rapport au fond attendu (Fig. 1d). Les éléments présentant un biais FM local significatif après la correction du taux de fausses découvertes sont considérés comme des pilotes probables.

OncodriveFML détecte les gènes codants pilotes

Pour tester sa validité, nous avons appliqué OncodriveFML à la détection des pilotes parmi tous les gènes codants de protéines humaines en utilisant l’ensemble des mutations somatiques détectées par séquençage de l’exome entier à travers les tumeurs de 19 cohortes, (ces ensembles et tous les ensembles de données de mutations somatiques employés ici sont décrits dans le fichier supplémentaire 1). Tout d’abord, grâce à des graphiques quantile-quantile (QQ) comparant la distribution attendue et observée des valeurs p du biais FM (Fig. 2a et Additional file 2, section A), nous démontrons que cette dernière suit la distribution homogène attendue de l’hypothèse nulle, à l’exception des quelques cas qui correspondent à des gènes présentant un biais FM significatif. Parmi les gènes les mieux classés identifiés par OncodriveFML dans les quatre cohortes présentées à titre d’exemple dans les Fig. 2b et c, on retrouve des gènes cancéreux bien connus, tels que TP53, KEAP1, ARID2 et RUNX1. Les mutations observées dans ces gènes présentent un biais clair vers un FI élevé (Fig. 2b ; liste complète dans le fichier additionnel 3).

Deuxièmement, en tant qu’indicateur du taux de vrais positifs de la méthode, nous avons calculé l’enrichissement de la proportion de gènes cancéreux connus (gènes du Cancer Gene Census (CGC)) parmi les gènes les mieux classés. Nous avons constaté qu’OncodriveFML est plus performant dans cette mesure que la version originale d’OncodriveFM , MutSigCV , et e-Driver (Fig. 2c et fichier additionnel 2, section A) dans les 19 cohortes de tumeurs analysées. Nous avons également comparé les résultats d’OncodriveFML avec une version plus récente de MutSigCV exécutée par ses auteurs, et avons constaté qu’il existe un chevauchement important entre les gènes identifiés par les deux méthodes et que chaque méthode identifie des gènes cancéreux supplémentaires manqués par l’autre, ce qui souligne la complémentarité des deux approches (Additional file 2, section A). Nous avons ensuite appliqué le test de biais OncodriveFML FM à des ensembles de données aléatoires de mutations, construits en remaniant les mutations observées dans chaque génome, en respectant les taux de tri-nucléotides et les contraintes de nombre de mutations par échantillon et par région. Le nombre de gènes détectés comme conducteurs putatifs dans ces ensembles de données aléatoires de mutations servirait d’indicateur du taux de faux positifs détectés par le test de biais FM. Nous avons effectué cette analyse sur les 19 cohortes de tumeurs de l’exome entier qui constituent l’ensemble de données WE-4482. OncodriveFML ne trouve aucun gène significatif dans ce jeu de données (points gris dans la Fig. 2a), comme attendu pour une méthode précise avec un faible nombre de faux positifs. La liste complète des candidats conducteurs figure dans le fichier additionnel 3. Dans l’ensemble, les résultats présentés dans cette section démontrent qu’OncodriveFML identifie les gènes pilotes codant pour des protéines putatives avec une sensibilité qui surpasse celle de cinq méthodes largement employées développées pour cette tâche, tout en maintenant un très faible taux de faux positifs.

OncodriveFML détecte les éléments non codants pilotes

L’une des caractéristiques les plus intéressantes d’OncodriveFML est son applicabilité à la détection des éléments génomiques non codants pilotes. Par conséquent, nous avons ensuite testé ses performances dans l’identification des régions promotrices, 5′ UTR, introniques d’épissage et 3′ UTR putatives de gènes codants contenant des mutations à travers 22 cohortes de tumeurs avec des données de génome entier séquencées par TCGA ou d’autres projets (ensembles de données WG-505 et WG-608, respectivement, dans le fichier supplémentaire 1), ainsi que deux cohortes pan-cancéreuses résultant du regroupement des mutations détectées dans toutes les cohortes de chaque ensemble de données (Fig. 3 et 4). Notre objectif principal était de tester OncodriveFML pour l’identification d’éléments non codants conducteurs putatifs et de comparer ses performances avec celles de deux autres méthodes récemment publiées à cet effet. En raison de l’absence totale d’un étalon-or curé des éléments non codants du conducteur, nous avons limité la comparaison à l’évaluation du taux de faux positifs détectés par chaque méthode par l’analyse des diagrammes QQ de leurs distributions observées et attendues des valeurs p et l’analyse des ensembles de données randomisées. Nous avons utilisé la méthode CADD pour évaluer l’IF des mutations survenant dans tous les éléments non codants susmentionnés, à l’exception des 3′ UTR, où nous avons utilisé le score fourni par RNAsnp à cet effet (voir ci-dessous). Comme pour les gènes codants, les distributions observées et attendues des valeurs p du biais FM des 22 cohortes et de la cohorte pan-cancéreuse sont très bien corrélées, et lorsqu’elles sont appliquées à un ensemble de données de mutation aléatoire, elles montrent un bon contrôle des faux positifs (Fig. 3a). À cet égard, OncodriveFML se compare favorablement à deux méthodes récemment publiées pour l’identification d’éléments non codants putatifs dans les cohortes des ensembles de données WG-505 et WG-608 (fichier supplémentaire 2, section B). Dans les sections suivantes, nous décrivons en détail les conducteurs candidats les plus intéressants de chaque type d’éléments non codants identifiés comme significativement biaisés par la FM.

OncodriveFML découvre des promoteurs pilotes putatifs et des 5′ UTR

Dans la cohorte pan-cancer, comprenant 505 tumeurs, les régions promotrices présentant le biais FM le plus significatif comprennent une liste restreinte de promoteurs candidats intéressants, tels que ceux de TERT (détails dans la Fig. 3b), SYF2, ARGHEF18 et POLR2D. TERT code la sous-unité transcriptase inverse de la télomérase, nécessaire au maintien de la longueur des télomères pendant la croissance tumorale. Des mutations activatrices du promoteur de TERT ont été trouvées comme moteurs dans de multiples types de cancer. D’autres nouveaux candidats prometteurs incluent les promoteurs de SYF2 (détails dans la Fig. 3c), un facteur d’épissage de l’ARNm dont on pense qu’il interagit avec un régulateur du cycle cellulaire, ARHGEF18, un facteur d’échange de guanine nucléotide spécifique de Rho impliqué dans l’activation de RhoA et la motilité cellulaire, et POLR2D (Fig. 3d), une sous-unité de l’ARN polymérase, qui contient des mutations très proches du site de début de transcription (TSS) dans les échantillons de mélanomes .

Dans une cohorte de 18 gliomes de bas grade, en plus du promoteur de TERT, OncodriveFML identifie le promoteur de SPN avec un biais FM très significatif (Fig. 3e). L’expression des deux gènes est significativement plus élevée dans les échantillons portant des mutations dans leurs promoteurs que dans les échantillons non mutés (Fig. 3f), ce qui permet d’étayer l’idée que ces mutations sont sélectionnées positivement pendant la tumorigenèse. Le SPN est normalement produit uniquement par les globules blancs où il régule des fonctions telles que l’adhésion cellule-cellule, la signalisation intracellulaire, l’apoptose, la migration et la prolifération. Son expression ectopique dans les tumeurs solides a été signalée et proposée comme une cible pour l’immunothérapie. En résumé, en plus de produire un très faible taux de résultats faussement positifs dans la détection d’éléments promoteurs putatifs, OncodriveFML est capable d’identifier des promoteurs déjà connus et putatifs intéressants avec des mutations du conducteur, même à une fréquence de mutation très faible. La liste complète des promoteurs conducteurs putatifs (et autres éléments non codants) figure dans le fichier additionnel 3.

Parmi les régions 5′ UTR biaisées par la FM les mieux classées, nous avons trouvé celle de TBC1D12 (Fig. 3g). Ce gène code pour une protéine d’activation de la GTPase pour les protéines de la famille Rab. Des mutations 5′ UTR sont trouvées de manière récurrente près du codon d’initiation (Fig. 3h) et sont détectées dans des échantillons de différents types de tumeurs. Nous les avons également détectées comme biais FM dans les cohortes de l’ensemble de données WG-608 (Fig. 3i). La proximité des mutations avec le codon de départ suggère qu’elles pourraient avoir un effet sur le contrôle de la traduction. Ces mutations ont récemment été signalées comme étant significativement redondantes par , avec 15 % des échantillons de tumeurs de la vessie portant des mutations en utilisant les données de l’exome entier.

OncodriveFML découvre des gènes avec des mutations pilotes dans les régions introniques d’épissage

Nous avons ensuite analysé avec OncodriverFML les régions introniques des gènes codants, plus précisément, les 50 bps de la limite exon-intron (intron-50 bps) en utilisant CADD comme cadre de notation fonctionnelle pour identifier les gènes avec des mutations pilotes d’épissage d’intron. Dans la cohorte pan-cancer de l’ensemble de données WG-505, OncodriveFML identifie une liste restreinte de gènes suppresseurs de tumeurs bien connus – TP53, STK11 et NF1 – comme étant fortement biaisés par la FM dans leurs mutations d’épissage d’intron (Fig. 4a-b). TP53 contient 16 mutations dans les 50 premiers bps de ses introns, dont sept apparaissent dans des échantillons de cancer du sein, tandis que les autres sont distribuées dans les cohortes d’autres types de tumeurs (y compris GBM, CRC, LUSC, SKCM, LUAD) (Fig. 4b). Il est intéressant de noter que huit de ces mutations se trouvent dans les 2 premiers bps de la limite intron-exon. La STK11 est une sérine/thréonine-protéine kinase connue pour agir comme suppresseur de tumeur dans le contrôle de l’activité des membres de la famille de la protéine kinase activée par l’AMP (AMPK), jouant ainsi un rôle dans divers processus tels que le métabolisme cellulaire, la polarité cellulaire, l’apoptose et la réponse aux lésions de l’ADN, et portant souvent des mutations inactivatrices dans les adénocarcinomes pulmonaires. La plupart des mutations (4 sur 6) observées dans la cohorte pan-cancéreuse de l’ensemble de données WG-505 tombant dans les 50 premiers bps de ses introns correspondent en effet à des échantillons d’adénocarcinome pulmonaire et toutes sont à proximité immédiate de la limite intron-exon (Fig. 4c).

OncodriveFML identifie les 3′ UTR pilotes putatifs

Puis, nous avons employé OncodriveFML pour identifier les gènes pilotes lors de mutations dans leurs régions 3′ UTR. Dans ce cas, nous avons utilisé l’impact des mutations sur la structure secondaire de l’ARN calculée par RNAsnp comme score FI pour calculer le biais FM des mutations . Dans la cohorte pan-cancéreuse de l’ensemble de données WG-505, OncodriveFML a identifié BORA et CHAF1B comme des gènes conducteurs putatifs à partir des mutations dans leurs régions 3′ UTR (Fig. 4d-h). Les mutations contribuant au biais de FM calculé pour CHAF1B dans l’ensemble de données WG-505 apparaissent dans BRCA, CRC, LUAD et UCEC. D’autre part, dans la cohorte pan-cancéreuse de l’ensemble de données WG-608, où il apparaît également comme significativement biaisé par le FM, des mutations apparaissent dans les échantillons BRCA et STAD (Fig. 4e). CHAF1B est un facteur d’assemblage de la chromatine impliqué dans la réplication et la réparation de l’ADN. BORA est un activateur de la kinase Aurora, impliqué dans la maturation du centrosome, l’assemblage du fuseau et la localisation asymétrique des protéines au cours de la mitose .

OncodriveFML identifie des lncRNA putatifs

Nous avons ensuite employé OncodriveFML pour explorer le potentiel d’un groupe de lncRNAs collectés dans la littérature dont les fonctions biologiques ont été établies (Additional file 4). Les lncRNA mutés parmi ceux-ci (à travers les cohortes des jeux de données WG-505 et WG-608) ont ainsi été analysés par OncodriveFML et ceux significativement biaisés par la FM dans au moins une cohorte apparaissent dans le fichier additionnel 4. Comme dans le cas des 3′ UTR, nous avons calculé le biais FM en utilisant une métrique FI qui estime l’impact de la mutation sur la structure secondaire de l’ARN . Nous avons constaté que MALAT1, un gène lncRNA dont il a été démontré précédemment qu’il était impliqué dans la tumorigenèse des adénocarcinomes pulmonaires, présente un biais FM légèrement significatif dans les cohortes des ensembles de données WG-505 (valeur p de 0,0138 dans KIRC) et WG-608 (valeur p de 0,0104 dans pan-cancer). En outre, nous avons détecté une accumulation plus importante que prévu de mutations somatiques à fort impact fonctionnel dans MIAT, un transcrit non codant pour une protéine associé à l’infarctus du myocarde dans l’ensemble de données WG-505 (valeur p 0,0281 dans KIRC et valeur p 0,0163 dans pan-cancer).

OncodriveFML détecte une sélection positive à partir de la séquence d’un panel de gènes

Enfin, nous avons analysé la liste des mutations somatiques détectées dans un panel de gènes séquencés à haute couverture à travers 234 biopsies d’épiderme exposé au soleil pour illustrer l’utilisation d’OncodriveFML sur la tâche de détection de gènes sous sélection positive dans le cas où la plupart des mutations de l’échantillon sont indisponibles pour la méthode. OncodriveFML détecte neuf gènes avec une valeur q de biais FM <0,1 (Fig. 5a et b), qui incluent les cinq gènes identifiés par les auteurs à l’aide d’une approche dn/ds modifiée (NOTCH1, NOTCH2, FAT1, TP53, RBM10) et quatre autres moteurs de tumorigenèse de bonne foi (NOTCH3, ARID2, KMT2D, ARID1A). Six de ces neuf gènes sont détectés comme moteurs du carcinome épidermoïde cutané (cSCC), le type de tumeur qui se développe le plus fréquemment lors de la malignisation de l’épiderme exposé au soleil. Les résultats révèlent le potentiel d’OncodriveFML dans l’identification de gènes sous sélection positive parmi ceux séquencés dans le cadre d’un panel.

Nous avons mis OncodriveFML à la disposition des chercheurs en génomique du cancer à la fois pour télécharger et installer le code et pour l’exécuter via une application web (http://www.intogen.org/oncodrivefml).

OncodriveFML : un cadre général pour identifier les régions codantes et non codantes avec des mutations de conducteur de cancer