癌癥可以由多種不同的基因突變引發、驅動,但這些突變往往集中于有限的通路或信號傳遞過程。由于驅動基因突變提供的預后信息有限,全面了解不同的基因突變如何干擾中樞通路對精準醫療和識別特異性生物標志物至關重要。
近日,美國科羅拉多大學醫學院的研究團隊在Genome Biology發表了題為“Widespread redundancy in -omics profiles of cancer mutation states”的文章。研究團隊比較分析了TCGA泛癌癥圖譜中的組學數據類型,并評估其作為癌癥基因突變的多變量功能讀數(readouts)的作用。
分析結果表明,相對于癌癥類型校正基線,基因表達數據能夠對大多數基因的突變狀態提供良好的預測;對于多數基因而言,多種數據類型幾乎具有同等有效的預測能力。與使用單一數據類型的性能最高的模型相比,將數據類型組合到單個多組學模型中進行突變預測的方法幾乎沒有性能優勢。這一研究結果對未來指導癌癥功能基因組學的研究具有深遠意義。
圖1. 整體研究模式圖。來源:Genome Biology
癌癥相關基因的選擇可以改善預測能力
研究團隊評估了幾種不同基因集的基因表達數據對突變狀態的預測性能,并將其作為基線。先前實驗已評估了TCGA中前50個最容易突變的基因,此次,研究團隊試圖將其擴展到更廣泛的基因集列表中(圖2)。為評估使用已知的癌癥相關基因是否有助于提高預測性能,研究團隊從前期的研究結果和數據庫中總結了268個癌癥相關基因。
結果顯示,來自癌癥相關基因集的基因比隨機選擇的基因或通過總突變數選擇的基因更具可預測性。選定的癌癥相關基因集中約45%的基因具有統計學顯著的可預測性;隨機基因集中僅有5.22%的基因、突變最多的基因集中29.9%的基因有顯著可預測性。
上述結果表明,依據對目標基因參與的癌癥途徑和過程的先驗知識來選擇突變預測的目標基因,而不是通過隨機或僅基于突變頻率,可以提高預測性能,能夠從基因表達數據中識別出具有更高可預測性的突變。
比較不同數據集的預測性能
接下來,研究團隊比較了TCGA泛癌圖譜中五種可用的功能數據類型(因為有兩個DNA甲基化平臺,所以共六個readouts)。在總結癌癥相關基因集中的所有基因時觀察到,與其他數據類型相比,基因表達數據往往能產生更好的預測。
此外,在個體基因水平上,相對于置換基線,33/217個基因的突變可從RPPA數據顯著預測,microRNA數據中有25/217個基因,突變特征數據中有2/217個基因。
圖3. 不同數據集的預測性能比較。來源:Genome Biology
在構建描述每個基因在不同數據類型中的預測性能熱圖時,研究團隊發現許多基因可以被多種數據類型很好地預測。在至少被一種數據類型進行良好預測的86個基因中,60.5%能夠被多種數據類型成功預測,這意味著多組學readouts包含相應基因中存在/不存在突變的可檢測特征。
上述結果表明,對于許多具有明確功能特征的強大驅動基因,不同的組學數據可以提供相似的信息內容,因此數據類型選擇并不重要。在大多數情況下,相較不同的數據類型,這些基因往往是影響較大的預測因素。
圖4. 不同數據集的預測性能比較。來源:Genome Biology
簡單的多組學集成性能優化有限
最后,研究團隊訓練了“多組學”分類器,并在不同癌癥類型中預測了6個經充分研究和廣泛突變的驅動基因,即EGFR、IDH1、KRAS、PIK3CA、SETD2和TP53。對于6個目標基因,最好的單組分類器和最好的多組學分類器之間的性能相當,并無顯著差異。
此外,在不同的分類器和數據類型中,研究團隊發現了基于目標基因的不同模式。例如,對于IDH1和TP53,無論數據類型如何,性能都是相對一致的,這表明其基線性能較高,數據的增加幾乎沒有改進的空間;對于EGFR、KRAS和PIK3CA,整合基因表達和甲基化數據的預測性能與基因表達數據的預測性能相同或更差。
總體而言,與最佳單個數據類型相比,以相對簡單的方式組合數據類型,幾乎沒有改善預測能力。
圖5. 單數據和多組學數據預測性能的比較。來源:Genome Biology
加硒教授微信:623296388,送食療電子書,任選一本