OncodriveFML: A General framework to identify coding and non-coding regions with cancer driver mutations

OncodriveFML computes a local FM bias

OncodriveFMLの背景には、腫瘍全体のゲノム要素(コーディング遺伝子、プロモーター、UTR、lncRNAなど)に体細胞変異が観察されて、平均インパクトスコアがその要素の予想よりかなり大きいことが、これらの変異は腫瘍形成中に正の選択を受けているシグナルとなることが理論的根拠であるとされています。 これは、順番に、この要素が腫瘍形成を駆動することを示す直接的な指標とみなされる。 ゲノム特徴における体細胞突然変異の平均影響スコアの期待値からの乖離を、機能的突然変異バイアス、またはFMバイアスと呼ぶ。 OncodriveFMLは、特定の要素のFMバイアスを測定するために、以下の機能を必要とします。 (

変異の影響を計算するアプローチは、解析対象のゲノム要素の種類によって異なるが、観察されたFMバイアスを計算する目的にかなう場合がある(図1a)。 例えば、タンパク質をコードする遺伝子の変異では、タンパク質の構造や機能に対する予測される影響を測定することができ、RNA遺伝子やUTRでは、その機能の鍵となることが知られているRNA二次構造への変異の影響を計算することができる。 また、UTRにおいても、変異がマイクロRNA(miRNA)の標的部位への結合に及ぼす影響を、有用な指標とすることができるかもしれない。 プロモーターやエンハンサーの場合、既存の転写因子結合部位に対する変異の影響や、新たな結合部位の創出を評価することができる。 また、CADD のような複数の特徴を考慮した複合的なスコアも有用であろう。 FIスコアリング手法の唯一の要件は、研究対象のゲノム要素の機能に関連し、要素内のすべての可能な変異に対して計算できることである。 図1

OncodriveFMLによる正の選択のシグナルを検出するアプローチ。 c 解析対象の要素から変異セットをランダムにサンプリングし、各シミュレーション変異のFIスコアを求める。 d 要素で観察された変異のFI平均(赤い点)をランダムに生成した変異のFI平均の分布(バイオリンプロット)と比較し、経験的p値を求める。 左は有意なp値の例、右は有意でない場合のバイオリンプロットである

OncodriveFMLは図1b〜dに示す3つのステップで構成されている。 最初のステップでは、腫瘍コホート全体にわたって関心のある要素で観察された体細胞突然変異のセットの平均FIスコアが計算される(図1b)。 第二段階では、その要素で観察された変異の数と同じ大きさの変異のセットが、その要素が維持し得るすべての変異の宇宙からランダムにサンプリングされます(図1c)。 この確率は、各サンプルで観察された変異、解析中のコホート全体で観察された変異、または以前に解析された同一または類似のタイプの腫瘍コホートから事前に計算されたものです。 このランダムサンプリングを何回か(例えば10,000回)繰り返して、局所的な予想平均影響スコアを生成します。 最後に、OncodriveFMLは、各要素で観測された平均インパクトスコアと、サンプリングから得られたローカルな予想平均インパクトスコアを比較し、予想バックグラウンドからの観測平均スコアの偏差を測定する経験的p値の形で、ローカルFMバイアスを計算します(図1d)。 2601>

OncodriveFML detects driver coding genes

その妥当性を検証するために、19のコホートの腫瘍全体にわたって全エクソームシーケンスによって検出された体細胞変異のセット(これらとここで採用した体細胞変異のすべてのデータセットについては追加ファイル1に記載)を使用して、すべてのヒトタンパク質コード化遺伝子中のドライバーの検出にOncodriveFMLを適用した。 まず、FMバイアスのp値の予想分布と実測分布を比較するQQプロット(図2aおよび追加ファイル2、セクションA)により、有意なFMバイアスを持つ遺伝子に対応するいくつかのケースを除き、後者は帰無仮説の予想される均質分布に従うことを実証する。 図2bとcに例として示した4つのコホートにおいてOncodriveFMLによって同定されたトップランキング遺伝子の中には、TP53、KEAP1、ARID2、RUNX1などのよく知られたがん遺伝子が含まれている。 これらの遺伝子で観察される変異は、高FIに明らかに偏っている(図2b、全リストは追加ファイル3参照)

Fig. 2

OncodriveFML を適用して腫瘍の 4 コホートにわたってドライバータンパク質コーディング遺伝子を特定した結果。 a 遺伝子の FM バイアス p 値の予想分布と観察分布を比較する分位-分位 (QQ) プロットです。 灰色の点は、ネガティブコントロールとして機能するランダム化されたデータセットで得られたp値を示す。 赤色はFMバイアスのq値が0.1以下の遺伝子、黒色はFMバイアスのq値が0.25以下の遺伝子を示している。 太字はCancer Gene Census (CGC)でアノテーションされた遺伝子を示す。 b Mutation needle-plotは、選択した遺伝子のCDSの配列に沿って変異が分布していることを示す。 円の色はFI CADDスコアスケールに従っている。 Y軸は各位置で変異が観察されたコホート内の腫瘍サンプルの数を示している。 CDS 全体の CADD FI スコアの挙動をニードルプロットの下に示す。 c 4 つの方法で検出されたトップランキング遺伝子の数が増えるにつれて、セット間の CGC 遺伝子の割合が 1 倍に増加する。 OncodriveFML、OncodriveFM、MutSigCV、e-Driverの4つの方法で検出された上位ランキング遺伝子の数が増えるにつれて、セット中のCGC遺伝子の割合が1倍増加する。 (QQプロットとCGC比率の増加倍率グラフは、他の15のコホートの腫瘍について、追加ファイル2、セクションA

次に、手法の真陽性率の代理として、そのトップランク遺伝子における既知のがん遺伝子(Cancer Gene Census (CGC) にある遺伝子)の割合の増加倍率を計算した。 OncodriveFMLは、解析した19の腫瘍コホートにおいて、オリジナル版のOncodriveFM、MutSigCV、e-Driverよりもこの指標で優れていることがわかった(図2cおよび追加ファイル2、セクションA)。 また、OncodriveFMLの結果を著者らが実行したMutSigCVの新バージョンと比較したところ、両手法で同定された遺伝子には重要な重複があり、それぞれの手法では他方で見逃された真のがん遺伝子をさらに同定しており、両手法の補完性が強調された(追加ファイル2、セクションA)。 次に、OncodriveFML FM bias testを、各ゲノム内で観測された変異をトリヌクレオチドの割合とサンプルごと、領域ごとの変異数の制約に従ってシャッフルして構築した、変異のランダム化データセットに適用しました。 これらのランダムな変異データセット内でドライバーと推定される遺伝子の数は、FMバイアステストによって検出される偽陽性要素の割合の代理として機能することになる。 我々は、WE-4482データセットを構成する19の全エクソーム腫瘍コホートについて、この解析を実施した。 OncodriveFMLは、偽陽性の数が少なく正確な手法として期待されるように、このデータセットに有意な遺伝子を発見しませんでした(図2aのグレーの点)。 ドライバー候補の全リストはAdditional file 3に掲載されている。 このセクションで紹介した結果をまとめると、OncodriveFMLは、非常に低い偽陽性率を維持しながら、このタスクのために開発された広く使われている5つの方法を凌ぐ感度で、タンパク質コード化ドライバー遺伝子の候補を同定していることがわかる。 そこで次に、TCGAや他のプロジェクトで全ゲノムデータを解読した22の腫瘍コホート(それぞれAdditional file 1のデータセットWG-505とWG-608)、および各データセットの全コホートで検出した変異をプールした2つの汎癌コホートで、変異を含むコーディング遺伝子の推定ドライバープロモーター、5UTR、スプライシングイントロン、3UTR領域同定のパフォーマンスを検証した(Fig.1)。 3および4)。 私たちの主な目的は、OncodriveFMLをドライバーと思われるノンコーディングエレメントの同定に使用し、最近発表された他の2つの方法とその性能を比較することでした。 非コード化ドライバー要素のキュレーションされたゴールドスタンダードが全く存在しないため、我々は、p値の観察分布と期待分布のQQプロットの分析およびランダム化データセットの分析を通じて、各手法で検出される偽陽性の割合の評価に比較を限定した。 我々は、3′UTRを除いて、すべての前述の非コード化要素で発生した変異のFIをスコアするためにCADDを使用し、その効果にRNAsnpが提供するスコアを使用した(下記を参照)。 コーディング遺伝子と同様に、22および汎癌コホートのFMバイアスp値の観測分布と期待分布は非常によく相関しており、無作為化変異データセットに適用すると、偽陽性をうまく制御できることが分かります(図3a)。 この点で、OncodriveFMLは、WG-505とWG-608の両データセットのコホートにおける推定非コード要素の同定において、最近発表された二つの手法と比較して優れている(追加ファイル2、セクションB)。 以下のセクションでは、有意にFMバイアスがかかっていると同定された非コード化要素の各タイプの最も興味深いドライバー候補について詳細に説明する。

Fig. 3

OncodriveFMLを適用してドライバープロモーターと5′UTRを特定した結果を示す。 汎癌コホート(a~d)およびWG-505データセットの低悪性度グリオーマ(e、f)および膀胱尿路上皮癌(g~i)のコホート全体で見つかった変異についてOncodriveFMLの結果を説明する。 b-d, h 転写開始点(TSS)の近傍に位置する変異、または5′UTRのCDSに近い5bpsに注目した、選択したプロモーターと5′UTRのMutation needle-plot f プロモーターに変異を持つサンプルと変異のないサンプルにおける、低悪性度グリオーマコホートの著しくFMバイアスを持つ二つの遺伝子の発現を比較したものです。 ボックスプロットでは、変異したサンプル(左側)の遺伝子発現を変異していないサンプル(右側)の遺伝子発現と比較している。 発現量はY軸にRPKM(Reads Per Kilobase of transcript per Million mapped reads)をとり、各セットに含まれるサンプル数(変異型と正常型)はボックスプロット上のドットで示されている。 変異サンプルと非変異サンプル間の発現差の有意性は、各プロットの上部に報告されている(Wilcoxon rank-sum検定)。 I. WG-505とWG-608の両データセットのいくつかのコホートにおけるTBC1D12遺伝子の5′UTRの有意性

Fig.2. 4

Driver splice intronic regionと3′UTRを特定するためにOncodriveFMLを適用した結果。 WG-505データセットの汎癌コホート全体で見つかった変異についてOncodriveFMLの結果を説明する。 a, d 汎癌コホートで変異したスプライスイントロニック領域と3′UTRのFMバイアスp値の予想分布と観察分布を比較するQQプロット。 e WG-505とWG-608の両データセットのいくつかのコホートにおけるCHAF1B遺伝子の3′UTRの意義

OncodriveFML uncoversative driver promoters and 5′ UTRs

In the pan-cancer cohort.は、汎癌コンソーシアムにおいて、CHAF1Bのプロモーターを発見し、その3′UTRを変異させた。 505の腫瘍からなるプロモーター領域は、最も顕著なFMバイアスを持ち、TERT(詳細は図参照)のような興味深いドライバー候補のショートリストを構成しています。 3b)、SYF2、ARGHEF18、POLR2Dなどである。 TERTは、腫瘍の成長過程でテロメアの長さを維持するために必要なテロメラーゼの逆転写酵素サブユニットをコードしている。 TERTプロモーターの活性化変異は、様々なタイプの癌のドライバーとして発見されている。 その他の有望な新規候補としては、細胞周期制御因子と相互作用すると考えられているmRNAスプライシング因子SYF2(詳細は図3c)、RhoA活性化と細胞運動に関与するRho特異的グアニンヌクレオチド交換因子ARHGEF18、POLR2D(図3)のプロモーターがある。 3d)、RNAポリメラーゼのサブユニットであり、メラノーマサンプルでは転写開始点(TSS)のごく近くに変異がある。

低悪性度グリオーマ18個のコホートでは、TERTプロモーターに加えて、OncodriveFMLは非常に大きなFMバイアスをもってSPNのプロモーターを特定する(図3e)。 両遺伝子の発現は、プロモーターに変異があるサンプルでは、変異のないサンプルに比べ有意に高く(図3f)、これらの変異が腫瘍形成時に正の選択を受けるという考え方の根拠となるものである。 SPNは通常白血球のみで産生され、細胞間接着、細胞内シグナル伝達、アポトーシス、遊走、増殖などの機能を制御している。 固形癌におけるその異所性発現が報告されており、免疫療法のターゲットとして提案されている 。 OncodriveFMLは、ドライバと考えられるプロモーターエレメントの検出において、非常に低い誤検出率に加え、非常に低い変異頻度でもドライバ変異を持つ既知のプロモーターや興味深いプロモーターを同定することができます。 FMバイアスのかかった5′UTR領域のうち、TBC1D12の領域が上位にランクインしている(図3g)。 この遺伝子は、Rabファミリータンパク質のGTPase活性化タンパク質をコードしています。 5′ UTRの変異は、開始コドン近傍に繰り返し見られ(図3h)、異なる腫瘍型のサンプルで検出される。 また、WG-608データセットのコホートではFMの偏りとして検出された(図3i)。 この変異は開始コドンに近いことから、翻訳制御に影響を及ぼしている可能性が示唆される。 これらの変異は、最近、全エクソームデータを用いて、膀胱腫瘍サンプルの15 %が変異を持つ、有意に冗長であると報告された。

OncodriveFML uniscover genes with driver mutations in splice intronic regions

次に、OncodriverFMLを用いてコーディング遺伝子のイントロン領域、特にエクソン-イントロン境界から50bps(イントロン-50bps)を機能スコアの枠組みとして、イントロンスプライシング変異のドライバー遺伝子を発見するためにCADDで解析を行った。 WG-505データセットの汎癌コホートにおいて、OncodriveFMLは、よく知られた癌抑制遺伝子であるTP53、STK11、NF1の短いリストを、イントロンスプライシング変異において高度にFMバイアスのかかったものとして特定した(図4a-b)。 TP53はイントロンの最初の50bpsに16の変異があり、そのうちの7つは乳がんサンプルに現れ、他のものは他の腫瘍型(GBM、CRC、LUSC、SKCM、LUADなど)のコホートに分布している(図4b)。 興味深いことに、これらの変異のうち8つはイントロン-エクソン境界の最初の2bps以内である。 STK11は、AMP活性化プロテインキナーゼ(AMPK)ファミリーメンバーの活性制御において腫瘍抑制因子として働くことが知られているセリン/スレオニンプロテインキナーゼであり、それによって細胞代謝、細胞極性、アポトーシス、DNA損傷応答などの様々なプロセスに役割を果たしているが、肺腺癌ではしばしば不活性化変異を持つことがある。 WG-505データセットの汎癌コホートで観察されたイントロンの最初の50bps内にある変異のほとんど(6個中4個)は、確かに肺腺癌のサンプルに対応し、すべてがイントロン-イオン境界に近接している(Fig. 2601>

OncodriveFML identifies putative driver 3′ UTRs

次に、OncodriveFMLを用いて、3′UTR領域の変異によるドライバー遺伝子を同定しました。 この場合、RNAsnpで計算したRNA二次構造への変異の影響をFIスコアとして使用し、変異のFMバイアスを計算した 。 WG-505データセットの汎癌コホートにおいて、OncodriveFMLはBORAとCHAF1Bをその3′UTR領域の変異から推定ドライバー遺伝子として同定した(Fig. 4d-h). WG-505データセットにおけるCHAF1Bの計算されたFMバイアスに寄与する変異は、BRCA、CRC、LUAD、UCECに現れている。 一方、WG-608データセットの汎癌コホートでは、これも有意にFMバイアスがかかっており、変異はBRCAとSTADのサンプルに現れている(図4e)。 CHAF1Bは、DNA複製とDNA修復に関与するクロマチンアセンブリ因子である。 BORAはオーロラキナーゼ活性化因子であり、中心体の成熟、紡錘体の組み立て、有糸分裂時の非対称なタンパク質局在に関与している。 これらのうち変異したlncRNA(WG-505およびWG-608データセットのコホート全体)をOncodriveFMLで解析し、少なくとも一つのコホートで有意にFMバイアスがかかったものを追加ファイル4で示した。 3′UTRの場合と同様に、変異がRNA二次構造に与える影響を推定するFI指標を用いてFMバイアスを計算した。 その結果、肺腺癌の腫瘍形成に関与することが示されているlncRNA遺伝子MALAT1は、WG-505(KIRCのp値0.0138)およびWG-608(p値0.0104、汎癌)データセットの両方のコホートでわずかに有意なFMバイアスを示していることが判明しました。 さらに、WG-505データセットでは、心筋梗塞に関連する非タンパク質コーディング転写産物であるMIATにおいて、機能的影響の高い体細胞突然変異の予想以上の蓄積が検出された(CRCではp値0.0281、汎癌ではp値0.0163)。

OncodriveFML detects positive selection from a gene panel

最後に、サンプル中のほとんどの変異が手法に利用できない場合、ポジティブセレクション下にある遺伝子を検出するタスクに対するOncodriveFMLの使用を説明するために、日光にさらされた表皮の234生検全体でハイカバレッジで配列決定した遺伝子パネルに検出された体細胞変異リストを解析しました。 OncodriveFMLはFMバイアスq値<0.1の9つの遺伝子を検出した(図5a、b)。この中には著者らが修正dn/ds法を用いて同定した5つの遺伝子(NOTCH1, NOTCH2, FAT1, TP53, RBM10)とその他の腫瘍形成の真正ドライバー4つ(NOTCH3、 ARID2, KMT2D, ARID1A)を含んでいる。 これらの9つの遺伝子のうち6つは、日光にさらされた表皮の悪性化に伴ってより頻繁に発生する腫瘍タイプである皮膚扁平上皮癌(cSCC)のドライバーとして検出されました。 この結果は、パネルとして配列決定された遺伝子の中から、ポジティブセレクションを受けた遺伝子を特定するOncodriveFMLの可能性を示している。 5

正常皮膚の生検234例の遺伝子パネルで確認された体細胞変異にOncodriveFMLを適用した結果。 q値<0.1で有意と同定された遺伝子(赤い点)はその名前で、q値<0.25で有意と同定された遺伝子は緑の点で示されている。 b 最も有意な遺伝子の変異針プロット

OncodriveFMLは、がんゲノム研究者がコードをダウンロードしてインストールし、ウェブアプリケーション(http://www.intogen.org/oncodrivefml)で実行できるようにした。

コメントを残す

メールアドレスが公開されることはありません。