OncodriveFML: a general framework to identify coding and non-coding regions with cancer driver mutations

OncodriveFML computes a local FM bias

Zasadą OncodriveFML jest to, że obserwacja mutacji somatycznych na elemencie genomowym (genie kodującym, promotorze, UTR, lncRNA, itp.) w różnych guzach, których średni wynik wpływu jest znacznie większy niż oczekiwany dla tego elementu, stanowi sygnał, że mutacje te przeszły pozytywną selekcję w trakcie nowotworzenia. To z kolei jest uważane za bezpośrednie wskazanie, że element ten napędza nowotworzenie. Nazywamy to odchylenie obserwowanego średniego wyniku wpływu mutacji somatycznych w cechach genomowych od jego wartości oczekiwanej, funkcjonalnym uprzedzeniem mutacji lub uprzedzeniem FM. Aby zmierzyć FM bias danego elementu, OncodriveFML musi: (1) być w stanie obliczyć odpowiedni wynik przewidywanego wpływu mutacji w elemencie genomowym; oraz (2) symulować procesy mutacyjne, aby obliczyć oczekiwany średni wynik wpływu.

Każde podejście do obliczania wpływu mutacji, jakkolwiek różne w zależności od rodzaju analizowanego elementu genomowego, może służyć do obliczenia jego obserwowanego FM bias (Rys. 1a). Na przykład w mutacjach w genach kodujących białka można zmierzyć przewidywany wpływ na strukturę i funkcję białek, natomiast w genach RNA lub UTR można obliczyć wpływ mutacji na strukturę drugorzędową RNA, o której wiadomo, że jest kluczowa dla ich funkcji. Również w UTR, użyteczną miarą FI mutacji może być ich wpływ na wiązanie mikroRNA (miRNA) do miejsc docelowych. W przypadku promotorów i enhancerów można ocenić wpływ mutacji na istniejące miejsca wiązania czynników transkrypcyjnych lub tworzenie nowych. Użyteczne mogą być również łączone wyniki, które uwzględniają kilka cech do pomiaru FI, takie jak CADD. Jedynymi wymaganiami stawianymi punktacji FI jest to, aby była ona istotna dla funkcji badanego elementu genomowego i aby można ją było obliczyć dla wszystkich możliwych mutacji w tym elemencie. Poniżej przedstawiamy implementacje OncodriveFML, które wykorzystują kilka metryk punktacji FI.

Rys. 1

Podejście OncodriveFML do wykrywania sygnałów selekcji pozytywnej. a Wpływ funkcjonalny (FI) mutacji może być obliczany w różny sposób dla różnych typów elementów genomowych. c Zestawy mutacji są losowo próbkowane z analizowanego elementu i otrzymuje się wynik FI każdej symulowanej mutacji. d Średnia FI mutacji obserwowanych w elemencie (czerwone kropki) jest porównywana z rozkładem średnich FI losowo wygenerowanych mutacji (wykresy skrzypiec) w celu uzyskania empirycznej wartości p. Po lewej stronie pokazano przykład wysoce istotnej wartości p, podczas gdy wykres skrzypiec po prawej stronie ilustruje przypadek nieistotny

OncodriveFML składa się z trzech kroków zilustrowanych na Rys. 1b-d. W pierwszym kroku obliczany jest średni wynik FI dla zbioru mutacji somatycznych obserwowanych w interesującym nas elemencie w całej kohorcie nowotworów (Rys. 1b). W drugim kroku, zestawy mutacji o takiej samej wielkości jak liczba mutacji zaobserwowanych w elemencie są losowo próbkowane z uniwersum wszystkich wariantów, które może on ewentualnie utrzymać (Rys. 1c). Aby dokładnie modelować procesy mutacyjne w interesującym nas typie nowotworu, próbkowanie odbywa się zgodnie z prawdopodobieństwem mutacji różnych trójnukleotydów, które może być obliczone na podstawie mutacji obserwowanych w każdej próbce, w kohorcie analizowanej jako całość, lub wstępnie obliczone na podstawie wcześniej analizowanych kohort nowotworów tego samego lub podobnego typu. To losowe próbkowanie jest iterowane wiele razy (np. 10,000 razy), aby wygenerować lokalne oczekiwane średnie wyniki wpływu. Na koniec OncodriveFML porównuje średni wynik wpływu zaobserwowany dla każdego elementu do jego lokalnego oczekiwanego średniego wyniku wpływu wynikającego z próbkowania i oblicza lokalny błąd FM, w formie empirycznej wartości p, która mierzy odchylenie zaobserwowanego średniego wyniku od oczekiwanego tła (Rys. 1d). Elementy z istotnym lokalnym FM bias po korekcie o współczynnik fałszywego odkrycia są uznawane za prawdopodobnych kierowców.

OncodriveFML wykrywa geny kodujące sterowniki

Aby przetestować jego poprawność, zastosowaliśmy OncodriveFML do wykrywania sterowników wśród wszystkich ludzkich genów kodujących białka, używając zestawu mutacji somatycznych wykrytych przez sekwencjonowanie całego eksomu w guzach 19 kohort (te i wszystkie zestawy danych mutacji somatycznych zastosowane tutaj są opisane w pliku dodatkowym 1). Po pierwsze, poprzez wykresy kwantyl-kwantyl (QQ) porównujące oczekiwany i obserwowany rozkład wartości p FM bias (Fig. 2a i plik dodatkowy 2, sekcja A), wykazujemy, że ten ostatni jest zgodny z oczekiwanym homogenicznym rozkładem hipotezy zerowej, z wyjątkiem kilku przypadków, które odpowiadają genom o znaczącym FM bias. Wśród genów o najwyższej randze zidentyfikowanych przez OncodriveFML w czterech kohortach przedstawionych jako przykłady na Rys. 2b i c, znajdują się dobrze znane geny nowotworowe, takie jak TP53, KEAP1, ARID2 i RUNX1. Mutacje obserwowane w tych genach wykazują wyraźną tendencję do wysokiego FI (ryc. 2b; cała lista w pliku dodatkowym 3).

Fig. 2

Wyniki zastosowania OncodriveFML do identyfikacji genów kodujących białka sterujące w czterech kohortach nowotworów. a Wykresy kwantyl-kwantyl (QQ) porównujące oczekiwany i obserwowany rozkład wartości p dla FM bias genów. Szare kropki oznaczają wartości p uzyskane na randomizowanym zbiorze danych, który służy jako kontrola negatywna. Nazwy w kolorze czerwonym oznaczają geny z wartością q FM bias poniżej 0,1, natomiast nazwy w kolorze czarnym oznaczają geny z wartością q bias FM bias poniżej 0,25. Nazwy pogrubione oznaczają geny anotowane w CGC (Cancer Gene Census). b Mutation needle-plots pokazujące rozkład mutacji wzdłuż sekwencji CDS wybranych genów. Kolor kółek jest zgodny ze skalą punktacji FI CADD. Oś y wskazuje liczbę próbek nowotworów w kohortach, w których zaobserwowano mutacje w każdej pozycji. Zachowanie się skali CADD FI score w całym CDS pokazano poniżej igły-plot. c Fałdowy wzrost odsetka genów CGC wśród zestawów ze wzrastającą liczbą genów o najwyższym rankingu wykrytych czterema metodami: OncodriveFML, OncodriveFM, MutSigCV i e-Driver. (Zobacz szczegóły w tekście.) Wykresy QQ i wykresy wzrostu proporcji CGC dla innych 15 kohort nowotworów są dostępne w pliku dodatkowym 2, sekcja A

Po drugie, jako przybliżenie współczynnika prawdziwych pozytywów metody, obliczyliśmy wzbogacenie w proporcji znanych genów nowotworowych (genów w Cancer Gene Census (CGC) ) wśród genów o najwyższym rankingu. Stwierdziliśmy, że OncodriveFML wypada lepiej w tej metryce niż oryginalna wersja OncodriveFM , MutSigCV i e-Driver (ryc. 2c i plik dodatkowy 2, sekcja A) we wszystkich 19 analizowanych kohortach nowotworów. Porównaliśmy również wyniki OncodriveFML z nowszą wersją MutSigCV uruchomioną przez jej autorów, stwierdzając, że geny zidentyfikowane przez obie metody w znacznym stopniu się pokrywają, a każda z metod identyfikuje dodatkowe prawdziwe geny nowotworowe pominięte przez drugą, co podkreśla komplementarność obu podejść (plik dodatkowy 2, sekcja A). Następnie zastosowaliśmy test stronniczości OncodriveFML FM do randomizowanych zestawów danych mutacji, zbudowanych przez przetasowanie mutacji obserwowanych w każdym genomie, zgodnie ze wskaźnikami tri-nukleotydów i ograniczeniami liczby mutacji na próbkę i na region. Liczba genów wykrytych jako domniemane czynniki sprawcze w tych losowych zestawach mutacji działałaby jako przybliżenie wskaźnika elementów fałszywie pozytywnych wykrytych przez test FM bias. Przeprowadziliśmy tę analizę na 19 kohortach guzów full-exome, które tworzą zbiór danych WE-4482. OncodriveFML nie znajduje żadnego znaczącego genu w tym zbiorze danych (szare kropki na Rys. 2a), zgodnie z oczekiwaniami dla dokładnej metody z niską liczbą fałszywych pozytywów. Cała lista kandydatów na kierowców znajduje się w pliku dodatkowym 3. Podsumowując, wyniki przedstawione w tej sekcji pokazują, że OncodriveFML identyfikuje potencjalne geny kodujące białka z czułością przewyższającą pięć szeroko stosowanych metod opracowanych do tego zadania, zachowując przy tym bardzo niski współczynnik fałszywych pozytywów.

OncodriveFML wykrywa elementy niekodujące

Jedną z najbardziej interesujących cech OncodriveFML jest możliwość zastosowania go do wykrywania niekodujących elementów genomowych. Dlatego przetestowaliśmy jego wydajność w identyfikacji prawdopodobnego promotora, regionów 5′ UTR, intronów splice’owych i 3′ UTR genów kodujących zawierających mutacje w 22 kohortach nowotworowych z danymi dotyczącymi całych genomów, zsekwencjonowanych przez TCGA lub inne projekty (zestawy danych WG-505 i WG-608, odpowiednio, w pliku dodatkowym 1), a także w dwóch kohortach pannowotworowych, powstałych w wyniku połączenia mutacji wykrytych we wszystkich kohortach każdego zestawu danych (ryc. 3 i 4). 3 i 4). Naszym głównym celem było przetestowanie OncodriveFML w identyfikacji elementów niekodujących i porównanie jego wydajności z innymi dwiema niedawno opublikowanymi metodami do tego samego celu. Ze względu na całkowity brak złotego standardu niekodujących elementów sterownika, ograniczyliśmy porównanie do oceny odsetka fałszywych pozytywów wykrytych przez każdą z metod poprzez analizę wykresów QQ ich obserwowanych i oczekiwanych rozkładów wartości p oraz analizę randomizowanych zestawów danych. Użyliśmy CADD do oceny FI mutacji występujących we wszystkich wyżej wymienionych elementach niekodujących, z wyjątkiem 3′ UTR, gdzie użyliśmy oceny dostarczonej przez RNAsnp w tym celu (patrz poniżej). Podobnie jak w przypadku genów kodujących, obserwowane i oczekiwane rozkłady wartości p FM bias dla kohorty 22- i pannowotworowej bardzo dobrze korelują ze sobą, a po zastosowaniu do randomizowanego zbioru danych mutacji wykazują dobrą kontrolę nad fałszywymi pozytywami (ryc. 3a). Pod tym względem OncodriveFML wypada korzystnie w porównaniu z dwiema ostatnio opublikowanymi metodami identyfikacji putatywnych elementów niekodujących w kohortach zarówno WG-505, jak i WG-608 (plik dodatkowy 2, sekcja B). W kolejnych sekcjach opisujemy szczegółowo najciekawsze czynniki kandydujące dla każdego typu elementów niekodujących zidentyfikowanych jako istotnie FM biased.

Ryc. 3

Wyniki zastosowania OncodriveFML do identyfikacji promotorów i 5′ UTR. Wyniki OncodriveFML są zilustrowane na mutacjach znalezionych w kohorcie pannowotworowej (a-d) oraz kohorcie glejaków niższego stopnia (e, f) i raków urotelialnych pęcherza moczowego (g-i) ze zbioru danych WG-505. a, e, g Wykresy QQ porównujące oczekiwany i obserwowany rozkład wartości p FM bias promotorów i 5′ UTR zmutowanych w odpowiednich kohortach. b-d, h Wykresy igłowe mutacji wybranych promotorów i 5′ UTR, ze zbliżeniem na mutacje zlokalizowane odpowiednio w pobliżu miejsca startu transkrypcji (TSS) lub 5 bps 5′ UTR bliżej CDS. f Porównanie ekspresji dwóch genów o znacząco FM biased promotorach w kohorcie glejaków niższego stopnia w próbkach z mutacjami w promotorze i próbkach niezmutowanych. W boxplotach ekspresja genów w próbkach zmutowanych (po lewej) jest porównywana z ekspresją w próbkach niezmutowanych (po prawej). Wartości ekspresji podawane są w RPKM (Reads Per Kilobase of transcript per Million mapped reads) na osi y, a liczba próbek (zmutowanych i prawidłowych) w każdym zestawie oznaczona jest kropkami na boxplotach. Istotność ekspresji różnicowej pomiędzy zmutowanymi i niezmutowanymi próbkami jest podana na górze każdego wykresu (test Wilcoxona rank-sum). I. Znaczenie 5′ UTR genu TBC1D12 w kilku kohortach zarówno zbiorów danych WG-505, jak i WG-608

Fig. 4

Results of the application of OncodriveFML to identify driver splice intronic regions and 3′ UTRs. Wyniki OncodriveFML są zilustrowane na mutacjach znalezionych w kohorcie pannowotworowej zbioru danych WG-505. a, d Wykresy QQ porównujące oczekiwany i obserwowany rozkład wartości p FM bias regionów intronowych splotów i 3′ UTR zmutowanych w kohorcie pannowotworowej. b, c, f-h Wykresy igłowe mutacji wybranych regionów intronowych splotów i 3′ UTR. e Znaczenie 3′ UTR genu CHAF1B w kilku kohortach zarówno w zbiorze danych WG-505, jak i WG-608

OncodriveFML odkrywa promotory i 5′ UTR genu CHAF1B

W kohorcie pannowotworowej, obejmującej 505 guzów, regiony promotorowe z najbardziej znaczącym odchyleniem FM zawierają krótką listę interesujących kandydatów na kierowców, takich jak TERT (szczegóły na ryc. 3b). 3b), SYF2, ARGHEF18 i POLR2D. TERT koduje podjednostkę odwrotnej transkryptazy telomerazy, niezbędną do utrzymania długości telomerów podczas wzrostu nowotworu. Mutacje aktywujące w promotorze TERT zostały odkryte jako czynniki sprawcze w wielu typach nowotworów. Inne obiecujące nowe kandydatury obejmują promotory SYF2 (szczegóły na ryc. 3c), czynnika splicingowego mRNA, który prawdopodobnie oddziałuje z regulatorem cyklu komórkowego, ARHGEF18, specyficznego dla Rho czynnika wymieniającego nukleotydy guaninowe, zaangażowanego w aktywację RhoA i ruchliwość komórek, oraz POLR2D (ryc. 3d), podjednostka polimerazy RNA, która zawiera mutacje bardzo blisko miejsca startu transkrypcji (TSS) w próbkach czerniaka .

W kohorcie 18 glejaków niższego stopnia, oprócz promotora TERT, OncodriveFML identyfikuje promotor SPN z wysoce znaczącym FM bias (ryc. 3e). Ekspresja obu genów jest znacząco wyższa w próbkach noszących mutacje w ich promotorach niż w próbkach niezmutowanych (ryc. 3f), co daje podstawy do przypuszczenia, że mutacje te są pozytywnie selekcjonowane w procesie nowotworzenia. SPN jest normalnie produkowana wyłącznie przez białe krwinki, gdzie reguluje funkcje takie jak adhezja komórka-komórka, sygnalizacja wewnątrzkomórkowa, apoptoza, migracja i proliferacja. Jego ektopowa ekspresja w guzach litych została opisana i zaproponowana jako cel dla immunoterapii. Podsumowując, OncodriveFML jest w stanie zidentyfikować już znane i potencjalnie interesujące promotory z mutacjami, nawet przy bardzo niskiej częstotliwości mutacji. Cała lista promotorów (i innych elementów niekodujących) znajduje się w pliku dodatkowym 3.

Wśród regionów 5′ UTR o najwyższej randze, w których wykryto mutacje FM, znaleźliśmy ten należący do TBC1D12 (ryc. 3g). Gen ten koduje białko aktywujące GTPazę dla białek z rodziny Rab. Mutacje 5′ UTR powtarzają się w pobliżu kodonu startowego (ryc. 3h) i są wykrywane w próbkach różnych typów nowotworów. Wykryliśmy je również jako FM biased w kohortach zestawu danych WG-608 (ryc. 3i). Bliskość mutacji do kodonu startowego sugeruje, że mogą one mieć wpływ na kontrolę translacji. Mutacje te zostały niedawno zgłoszone jako znacząco nadmiarowe przez , z 15% próbek guzów pęcherza moczowego noszących mutacje przy użyciu danych całego eksomu.

OncodriveFML odkrywa geny z mutacjami sterującymi w intronowych regionach splicingu

Ponownie przeanalizowaliśmy za pomocą OncodriverFML intronowe regiony genów kodujących, a konkretnie 50 bps od granicy ekson-intron (intron-50 bps), używając CADD jako ram funkcjonalnej punktacji do identyfikacji genów z mutacjami sterującymi splicingiem intronów. W kohorcie pannowotworowej, w zbiorze danych WG-505, OncodriveFML identyfikuje krótką listę dobrze znanych genów supresorowych nowotworów – TP53, STK11 i NF1 – jako geny o wysokim stopniu uprzedzenia FM w ich mutacjach intronowo-splicingowych (Rys. 4a-b). TP53 zawiera 16 mutacji w pierwszych 50 bps swoich intronów, z których siedem pojawia się w próbkach raka piersi, podczas gdy pozostałe są rozproszone w kohortach innych typów nowotworów (w tym GBM, CRC, LUSC, SKCM, LUAD) (ryc. 4b). Co ciekawe, osiem z tych mutacji znajduje się w obrębie pierwszych 2 bps od granicy intron-ekson. STK11 jest serynowo-treoninową kinazą białkową, o której wiadomo, że działa jako supresor nowotworu w kontroli aktywności członków rodziny AMP-activated protein kinase (AMPK), odgrywając tym samym rolę w różnych procesach, takich jak metabolizm komórkowy, polarność komórek, apoptoza i odpowiedź na uszkodzenia DNA, często nosząc mutacje inaktywujące w gruczolakorakach płuc. Większość mutacji (4 z 6) zaobserwowanych w kohorcie pannowotworowej zbioru danych WG-505, mieszczących się w pierwszych 50 bps intronów, rzeczywiście odpowiada próbkom gruczolakoraka płuc i wszystkie znajdują się w bliskiej odległości od granicy intron-ekson (ryc. 4c).

OncodriveFML identyfikuje 3′ UTR genów będących sterownikami

Następnie zastosowaliśmy OncodriveFML do identyfikacji genów będących sterownikami po mutacjach w ich regionach 3′ UTR. W tym przypadku użyliśmy wpływu mutacji na strukturę drugorzędową RNA obliczoną przez RNAsnp jako wynik FI, aby obliczyć FM bias mutacji. W kohorcie pannowotworowej zbioru danych WG-505, OncodriveFML zidentyfikował BORA i CHAF1B jako prawdopodobne geny kierujące na podstawie mutacji w ich regionach 3′ UTR (ryc. 4d-h). Mutacje przyczyniające się do obliczonego FM bias dla CHAF1B w zbiorze danych WG-505 występują w BRCA, CRC, LUAD i UCEC. Z drugiej strony, w kohorcie pannowotworowej zbioru danych WG-608, gdzie również występuje jako znacząco FM biased, mutacje pojawiają się w próbkach BRCA i STAD (ryc. 4e). CHAF1B jest czynnikiem gromadzącym chromatynę, zaangażowanym w replikację i naprawę DNA. BORA jest aktywatorem kinazy Aurora, zaangażowanym w dojrzewanie centrosomu, montaż wrzeciona i asymetryczną lokalizację białek podczas mitozy.

OncodriveFML identyfikuje putatywne lncRNA

Następnie zastosowaliśmy OncodriveFML do zbadania potencjału grupy lncRNA zebranych z literatury, których funkcje biologiczne zostały ustalone (plik dodatkowy 4). Zmutowane lncRNA wśród nich (przez kohorty w zbiorach danych WG-505 i WG-608) zostały więc przeanalizowane przez OncodriveFML, a te, które znacząco FM biased w co najmniej jednej kohorcie pojawiają się w pliku dodatkowym 4. Podobnie jak w przypadku 3′ UTR, obliczyliśmy FM bias przy użyciu metryki FI, która szacuje wpływ mutacji na strukturę drugorzędową RNA. Stwierdziliśmy, że MALAT1, gen lncRNA wcześniej wykazany jako zaangażowany w nowotworzenie gruczolakoraków płuc, wykazuje nieznacznie znaczące FM bias w kohortach zarówno zestawu danych WG-505 (wartość p 0,0138 w KIRC), jak i WG-608 (wartość p 0,0104 w pan-cancer). Ponadto, wykryliśmy większe niż oczekiwano nagromadzenie mutacji somatycznych o wysokim wpływie funkcjonalnym w MIAT, transkrypcie niekodującym białka, związanym z zawałem serca w zbiorze danych WG-505 (p wartość 0,0281 w KIRC i p wartość 0,0163 w pannowotworach).

OncodriveFML wykrywa pozytywną selekcję z sekwencji panelu genów

Na koniec przeanalizowaliśmy listę mutacji somatycznych wykrytych w panelu genów zsekwencjonowanych przy wysokim pokryciu w 234 biopsjach naskórka poddanego działaniu promieni słonecznych, aby zilustrować zastosowanie OncodriveFML do wykrywania genów poddanych pozytywnej selekcji w przypadku, gdy większość mutacji w próbce jest niedostępna dla metody. OncodriveFML wykrywa dziewięć genów z FM bias q-value <0.1 (ryc. 5a i b), wśród których znajduje się pięć genów zidentyfikowanych przez autorów przy użyciu zmodyfikowanego podejścia dn/ds (NOTCH1, NOTCH2, FAT1, TP53, RBM10) oraz cztery inne geny będące w dobrej wierze czynnikami napędzającymi nowotworzenie (NOTCH3, ARID2, KMT2D, ARID1A). Sześć z tych dziewięciu genów jest wykrywanych jako czynniki sterujące rakiem kolczystokomórkowym skóry (cSCC), typem nowotworu, który rozwija się częściej w wyniku złośliwej transformacji naskórka wystawionego na działanie promieni słonecznych. Wyniki te ujawniają potencjał OncodriveFML w identyfikacji genów poddanych pozytywnej selekcji wśród tych sekwencjonowanych w ramach panelu.

Fig. 5

Wyniki zastosowania OncodriveFML do mutacji somatycznych zidentyfikowanych w panelu genów w 234 biopsjach skóry prawidłowej. a wartość p vs. liczba mutacji 74 genów zsekwencjonowanych w panelu. Geny zidentyfikowane jako istotne przy q-value <0.1 (czerwone kropki) są oznaczone ich nazwą, podczas gdy geny zidentyfikowane jako istotne przy q-value <0.25 są oznaczone jako zielone kropki. b Mutation needle-plots of the most significant genes

Badaczom genomiki nowotworów udostępniliśmy OncodriveFML zarówno do pobrania i zainstalowania kodu, jak i do uruchomienia poprzez aplikację webową (http://www.intogen.org/oncodrivefml).

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.