<td id="gi8ie"></td>
  • <li id="gi8ie"><option id="gi8ie"></option></li>
  • <td id="gi8ie"><option id="gi8ie"></option></td>
    <td id="gi8ie"><noscript id="gi8ie"></noscript></td>
  • <table id="gi8ie"><option id="gi8ie"></option></table>
    愛硒健康網丨癌癥腫瘤治療助手

    癌癥突變組學特征數據冗余普遍存在!簡單的多組學集成無法有效提高突變預測性能

    癌癥可以由多種不同的基因突變引發、驅動,但這些突變往往集中于有限的通路或信號傳遞過程。由于驅動基因突變提供的預后信息有限,全面了解不同的基因突變如何干擾中樞通路對精準醫療和識別特異性生物標志物至關重要。

    癌癥基因組圖譜(The Cancer Genome Atlas, TCGA)項目中的泛癌圖譜為33種癌癥類型的數萬個樣本提供了統一處理的多平臺組學數據。在這些公開數據的支持下,越來越多的研究將癌癥中驅動基因突變與下游基因表達變化關聯,用于探究遺傳變異的功能效應。
     
    雖然蛋白質組學數據可以更直接地對應某些癌癥表型和通路異常,但腫瘤細胞系中基因表達和蛋白質豐度之間的相關性有限。因此,整合不同的數據模式或結合多種數據模式可能比僅僅依靠基因表達作為功能特征鑒別依據更有效。但基于目前的突變相關數據集,真的是這樣嗎?

    近日,美國科羅拉多大學醫學院的研究團隊在Genome Biology發表了題為“Widespread redundancy in -omics profiles of cancer mutation states”的文章。研究團隊比較分析了TCGA泛癌癥圖譜中的組學數據類型,并評估其作為癌癥基因突變的多變量功能讀數(readouts)的作用。

    分析結果表明,相對于癌癥類型校正基線,基因表達數據能夠對大多數基因的突變狀態提供良好的預測;對于多數基因而言,多種數據類型幾乎具有同等有效的預測能力與使用單一數據類型的性能最高的模型相比,將數據類型組合到單個多組學模型中進行突變預測的方法幾乎沒有性能優勢這一研究結果對未來指導癌癥功能基因組學的研究具有深遠意義。

    文章發表在Genome Biology

     
    主要研究內容

    研究團隊從TCGA泛癌圖譜的癌癥樣本中收集了五種不同的數據類型,包括基因表達數據(RNA-seq)、DNA甲基化(27K和450K)、蛋白質豐度(RPPA數據)、microRNA表達數據和體細胞突變數據。

     
    為了將這些不同的數據類型與突變狀態的變化相關聯,研究團隊使用彈性網絡回歸算法預測癌癥基因中是否存在突變,并將readouts作為預測特征(圖1)。在泛癌環境中,研究團隊評估了所得的突變狀態分類器,并比較了不同數據類型的預測性能。

    圖1. 整體研究模式圖。來源:Genome Biology


    癌癥相關基因的選擇可以改善預測能力

    研究團隊評估了幾種不同基因集的基因表達數據對突變狀態的預測性能,并將其作為基線。先前實驗已評估了TCGA中前50個最容易突變的基因,此次,研究團隊試圖將其擴展到更廣泛的基因集列表中(圖2)。為評估使用已知的癌癥相關基因是否有助于提高預測性能,研究團隊從前期的研究結果和數據庫中總結了268個癌癥相關基因

    結果顯示,來自癌癥相關基因集的基因比隨機選擇的基因或通過總突變數選擇的基因更具可預測性。選定的癌癥相關基因集中約45%的基因具有統計學顯著的可預測性;隨機基因集中僅有5.22%的基因、突變最多的基因集中29.9%的基因有顯著可預測性。

    上述結果表明,依據對目標基因參與的癌癥途徑和過程的先驗知識來選擇突變預測的目標基因,而不是通過隨機或僅基于突變頻率,可以提高預測性能,能夠從基因表達數據中識別出具有更高可預測性的突變

    圖2.三個基因集的總體性能分布。來源:Genome Biology

    比較不同數據集的預測性能

    接下來,研究團隊比較了TCGA泛癌圖譜中五種可用的功能數據類型(因為有兩個DNA甲基化平臺,所以共六個readouts)在總結癌癥相關基因集中的所有基因時觀察到與其他數據類型相比,基因表達數據往往能產生更好的預測

    此外,在個體基因水平上,相對于置換基線,33/217個基因的突變可從RPPA數據顯著預測,microRNA數據中有25/217個基因,突變特征數據中有2/217個基因

    圖3. 不同數據集的預測性能比較。來源:Genome Biology

    在構建描述每個基因在不同數據類型中的預測性能熱圖時,研究團隊發現許多基因可以被多種數據類型很好地預測。在至少被一種數據類型進行良好預測的86個基因中,60.5%能夠被多種數據類型成功預測,這意味著多組學readouts包含相應基因中存在/不存在突變的可檢測特征

    上述結果表明,對于許多具有明確功能特征的強大驅動基因,不同的組學數據可以提供相似的信息內容,因此數據類型選擇并不重要。在大多數情況下,相較不同的數據類型,這些基因往往是影響較大的預測因素。

    圖4. 不同數據集的預測性能比較。來源:Genome Biology

    簡單的多組學集成性能優化有限

    最后,研究團隊訓練了“多組學”分類器,并在不同癌癥類型中預測了6個經充分研究和廣泛突變的驅動基因,即EGFR、IDH1、KRAS、PIK3CA、SETD2TP53對于6個目標基因,最好的單組分類器和最好的多組學分類器之間的性能相當,并無顯著差異

    此外,在不同的分類器和數據類型中,研究團隊發現了基于目標基因的不同模式。例如,對于IDH1TP53,無論數據類型如何,性能都是相對一致的,這表明其基線性能較高,數據的增加幾乎沒有改進的空間對于EGFR、KRASPIK3CA,整合基因表達和甲基化數據的預測性能與基因表達數據的預測性能相同或更差

    總體而言,與最佳單個數據類型相比,以相對簡單的方式組合數據類型,幾乎沒有改善預測能力

    圖5. 單數據和多組學數據預測性能的比較。來源:Genome Biology


    結 語

    綜上所述,該研究對TCGA泛癌癥圖譜中的數據類型進行了大規模比較,并整合了不同癌癥類型和驅動基因的結果。結果顯示,相對于基線模型,基因表達數據可以最有效地捕捉突變狀態的特征。
     
    此外,多組學建模分析結果表明,由于基因表達和DNA甲基化捕獲的突變狀態信息是高度冗余的,添加數據類型并不會導致分類器性能的提高。
     

    參考文獻:
     

    1. Crawford et al. Widespread redundancy in -omics profiles of cancer mutation statesGenome Biology (2022) 23:137.
     

    2. Weinstein JN, et al. The Cancer Genome Atlas Pan-Cancer analysis project. Nat Genet. 2013;45(10):1113–20.
     

    3. The Cancer Genome Atlas (TCGA) Research Network. TCGA Pan-Cancer Atlas. Webpage. 2022. https://gdc.cancer.gov/about-data/publications/pancanatlas. Accessed 7 Dec 2020.

    END

    加硒教授微信:623296388,送食療電子書,任選一本

    分享到:更多 ()

    評論 搶沙發

    • 昵稱 (必填)
    • 郵箱 (必填)
    • 網址
    日本女优名字