腫瘤

Cancer Cell:基於上千例泛癌多組學數據,CPTAC發布蛋白基因組學共享數據資源

作者:測序中國 來源:測序中國 日期:2023-08-31
導讀

         導讀 全麵的分子分析正在從根本上改變癌症研究。近年來,癌症基因組圖譜(TCGA)和國際癌症基因組聯盟(ICGC)提供了數萬個腫瘤的基因組目錄,為研究驅動腫瘤發生的突變奠定了基礎。蛋白質是負責代謝、信號轉導的主要分子,蛋白質基因組學分析是實現癌症精準治療的有力方法,能夠將基因組突變及其對細胞生理的影響聯係起來。但目前領域內並未產生廣泛、無偏倚的蛋白組學數據,蛋白質及其修飾數據仍嚴重缺乏。 臨床蛋白

關鍵字:  全麵的分子分析 

        導讀

        全麵的分子分析正在從根本上改變癌症研究。近年來,癌症基因組圖譜(TCGA)和國際癌症基因組聯盟(ICGC)提供了數萬個腫瘤的基因組目錄,為研究驅動腫瘤發生的突變奠定了基礎。蛋白質是負責代謝、信號轉導的主要分子,蛋白質基因組學分析是實現癌症精準治療的有力方法,能夠將基因組突變及其對細胞生理的影響聯係起來。但目前領域內並未產生廣泛、無偏倚的蛋白組學數據,蛋白質及其修飾數據仍嚴重缺乏。

        臨床蛋白質組腫瘤分析聯盟(CPTAC)於2006年啟動,是一項旨在通過應用大規模蛋白質組和基因組分析或蛋白質組學來加速了解癌症的長期研究計劃。CPTAC始於美國國家癌症研究所(NCI)發起的癌症蛋白質組學技術計劃(CPTC),該計劃為期五年,耗資1.04億美元,主要致力於開發和評估蛋白質組學工具和實驗流程。

        近日,CPTAC團隊在Cancer Cell發表了題為“Proteogenomic data and resources for pan-cancer analysis”的文章,對來自10個隊列的1000多個腫瘤的基因組、轉錄組、蛋白質組學和臨床數據進行整合分析,並創建了一個強大的共享數據集用於科學分析。該文章概述了CPTAC泛癌研究團隊在數據協調、數據傳播和幫助生物發現的計算資源方麵所做出的努力,並討論了多組學數據整合和分析的挑戰。

        主要研究內容

        CPTAC主要從臨床隊列中生成全麵的蛋白質組學和基因組學數據。目前,CPTAC數據集包括10個前瞻性腫瘤隊列,包含基因組學、轉錄組學、蛋白質組學和磷酸化蛋白質組學分析,並提供了標準的臨床/人口統計數據和組織學圖像,例如性別、年齡、腫瘤分級及分期等。此外,為實現泛癌綜合分析,保持一致性和可重複性,研究團隊創建了一個數據集框架,對所有蛋白質基因組數據進行了重新處理。

        CPTAC數據集是癌症研究的重要資源,基於該數據集進行深度科學探究和數據再分析是研究的一個初衷。為促進數據共享,CPTAC團隊還提出了數據協調的計算方法和多種傳播機製,以共享原始及處理後的數據。

        數據共享和集成分析

        CPTAC計劃生成的蛋白質基因組數據通過基因組數據共享(GDC)和蛋白質組學數據共享(PDC)進行公開傳播。作為NCI雲資源的組成部分,GDC、PDC與其他NCI研究數據共享資源完全集成,促進基於雲的蛋白質組、基因組和成像數據分析。PDC主要由CPTAC項目驅動,通過強大的數據模型來組織數據,保持數據和相關元數據的一致性和完整性,並提供了一個界麵以過濾、查詢、搜索和可視化蛋白質基因組數據。

        除主題數據庫外,NCI的癌症研究數據共享還包含一個與數據類型無關的資源,即癌症數據服務(CDS)。存儲在CDS中的CPTAC數據包括用於泛癌症分析的所有統一的蛋白質基因組數據,以及衍生分子數據。

        CPTAC由具有不同數據類型專長的多個小組組成,對同一組數據應用不同的軟件工具可能會導致不同的結果。因此,基準測試對於工具的評估和選擇非常重要。為比較蛋白質組學數據量化的不同方法,研究團隊開發了OmicsEV,通過十多個評價指標來全麵評估數據深度、數據規範化、批處理效應、生物信號、平台重現性和多組學一致性。

        程序數據存取

        簡化數據訪問可以顯著消除使用障礙,並提高數據透明度和可重現性。CPTAC團隊開發了一個軟件包,將最終的定量數據表作為數據幀變量直接融入到編程環境中,可與SciKit-learn、PyTorch等常見的機器學習和可視化包集成。

        此外,研究團隊還將CPTAC數據集連接到其他大型公共數據集中,以擴展其效用。除利用Bioconductor中眾多可用的軟件工具外,用戶通過TCGAbiolinks工具也可以輕鬆訪問TCGA、GENIE和MET500等資源的分子數據。

        用於數據可視化和分析的Web門戶

        CPTAC團隊創建了多個門戶網站,用於可視化及探索泛癌蛋白基因組數據。其中,每個網站均可從數據概要中提取適當的數據集,用於泛癌分析。

        1PepQuery

        PepQuery(http://www.pepquery.org)允許使用MS/MS數據對基因組突變進行快速和簡單的蛋白質組學驗證。近期,研究團隊還引入了一種新的數據索引算法來提高搜索速度,並擴展了PepQuery Web服務器的數據集。在該網站,用戶可用感興趣的新肽或DNA序列直接查詢CPTAC和其他MS/MS數據,以尋找支持的肽譜匹配(PSM)。

        2LinkedOmics和LinkedOmicsKB

        LinkedOmics(http://www.linkedomics.org)是一個數據分析門戶網站,允許使用來自TCGA和CPTAC的癌症多組學數據表征任何目標臨床或分子特征。對於每一項CPTAC研究,數據庫存儲了超50萬個屬性的數據。使用三個分析模塊可挖掘上述數據,以揭示遺傳突變的結果,表征基因和PTM功能。

        LinkedOmicsKB(https://kb.linkedomics.org)是基於LinkedOmics開發的新知識門戶網站,通過一次查詢即可獲得單個基因和表型的預先計算結果,具有用戶友好的可視化功能,便於理解。

        3PTMcosmos

        PTMcosmos(https://ptmcosmos.wustl.edu/)是一個交互式的Web門戶網站,旨在對人類PTM進行分類和可視化。該網站允許人們能夠查詢現有PTM位點相關文獻、腫瘤和正常樣本之間的豐度差異以及蛋白質結構上的PTM突變簇。

        4ProTrackPath

        ProTrackPath(http://pancan.cptac-data-view.org/)可用於訪問泛癌隊列中的通路富集評分。ProTrackPath可通過單樣本基因集富集分析(ssGSEA)計算不同癌症類型的通路富集評分;用戶指定一個通路數據庫並選擇一組通路進行可視化,最終可生成一個交互式熱圖。

        結 語

        綜上所述,研究團隊重新處理了來自CPTAC的10個癌症隊列的數據,創建了一個泛癌蛋白基因組數據集;並介紹了用於創建該數據概要的方法、數據訪問的方法以及泛癌症多組學數據分析的關鍵等。目前,CPTAC數據庫資源已公開共享,研究團隊希望其能推進癌症診斷和治療。

        參考文獻:

        Li Y, Dou Y, et.al,. Proteogenomic data and resources for pan-cancer analysis. Cancer Cell. 2023 Aug 14;41(8):1397-1406.

        https://www.cell.com/cancer-cell/fulltext/S1535-6108(23)00219-2

分享:

評論

我要跟帖
發表
回複 小鴨梨
發表

copyright©醫學論壇網 版權所有,未經許可不得複製、轉載或鏡像

京ICP證120392號  京公網安備110105007198  京ICP備10215607號-1  (京)網藥械信息備字(2022)第00160號
//站內統計 //百度統計 //穀歌統計 //站長統計
*我要反饋: 姓    名: 郵    箱: