
精準醫(yī)學之貝瑞和康基因組“大數據之路”
自基因測序技術被發(fā)明以來,建設人類基因組數據庫一直是各國基因組研究中心的核心內容之一,人類基因組數據庫的宗旨是為從事人類基因組研究的科學家和醫(yī)護人員提供人類基因組信息。目前國際上人類基因組數據大多來源于西方白種人,然而不同人種的進化差異會導致明顯的易感基因差異、特異性位點突變頻率不同、基因突變表觀差異等,因此在我國分子診斷與精準醫(yī)學飛速發(fā)展的背景下,建立高質量的中國人群基因組數據庫已經成為當下制約分子醫(yī)學發(fā)展的重要壁壘。今年兩會上,委員也建議應盡快建立精準醫(yī)學資源庫,整合共享醫(yī)療大數據,促進精準醫(yī)學更好的發(fā)展。
貝瑞和康作為致力于將高通量測序技術實現臨床轉化的行業(yè)領導者,早在2015年8月14日宣布與云計算服務平臺提供商阿里云達成合作,共同打造以海量的中國人群基因組數據為核心的數據云,實現對個人基因組數據的精準解讀。該項目由美國貝勒醫(yī)學院、現任職貝瑞和康CIO的于福利教授牽頭,參與“神州基因組數據云”項目的研究人員達到了100多人,由醫(yī)學、分子生物學、遺傳學、計算機編程等研究領域的博士組成。項目組分成三個團隊,一個是貝瑞和康的研究團隊,一個是于福利在貝勒實驗室的團隊,另外一個則是專門做高性能運算的阿里云團隊。
神州基因組數據云,是一個知識密集型項目。
阿里云擁有批量計算服務的強大能力,貝瑞和康則深耕基因檢測多年已積累超過百萬人群基因組數據,此次選取其中四十萬人份數據作為“神州基因組數據云”項目的第一階段數據,旨在借助云計算對該數據資源進行深入挖掘,進一步揭示中國人群遺傳突變分布,提升中國人遺傳疾病診斷的效率和精準程度。
當基因測序成本迅速下降以后,擁有數據量的多少不再是行業(yè)里唯一的競爭優(yōu)勢,而是否能夠將海量的大數據進行解讀,轉換成具體能夠應用的有效信息,才是測序企業(yè)發(fā)展的核心競爭力。光有云計算能力和基因組數據還不夠,分析和注釋技術是能否達成項目目標的內在核心驅動力。該項目發(fā)布一年后,也即2016年8月24日貝瑞和康公布了為基因數據分析開發(fā)的兩大核心專利技術:Verita Trekker?變異位點檢測系統(tǒng)和Enliven?變異位點注釋系統(tǒng)。
Verita Trekker?經過嚴格的基因型質量控制,SNP 檢測的靈敏度達99.00%,特異性達99.99%,真陽性率達99.90%;Indel 檢測的真陽性率達88.00%;家系樣本基因型真陽性率大于99.90%;各項指標均屬國際業(yè)界一流水平。而Enliven?則通過統(tǒng)計學計算和文本挖掘方法整合國際權威的超過50個數據庫和預測算法,其中也包括“神州基因組數據云”項目所產生的中國人特有基因信息數據庫。同時,支持千萬篇文獻的即時查找,全面覆蓋基因、變異、表型、疾病信息,參考權威文獻、美國醫(yī)學遺傳學學會(ACMG)標準與實際基因型-表型對應,在這樣完善的體系和先進的算法的保障下,能夠出具可靠的變異致病性結果,為科研工作者和臨床醫(yī)生更好的研究和制定精準醫(yī)療方案提供幫助。
在Verita Trekker?和Enliven?兩大核心技術共同驅動下的“神州基因組數據云”項目取得了階段性的重要成果。2016年9月8日,貝瑞和康已完成世界首個中國人群基因組數據庫建設,填補了國際基因數據庫中缺少中國人群特有基因組數據信息的空白。
同年9月23日,在第十九屆全國臨床腫瘤學大會暨CSCO學術年會上,貝瑞和康進一步展示了該項目的重要成果應用。這其中包括與北京大學腫瘤醫(yī)院解云濤教授合作的“中國人遺傳性乳腺癌基因突變圖譜項目”,以及中國40萬人基因組大數據項目在臨床應用層面上所取得的階段性成果,結果顯示中國人乳腺癌基因突變和其他人種相比具有顯著性差異。
項目由解云濤教授和于福利教授共同展示,可以看到采用Enliven?變異位點注釋系統(tǒng)對美國國家衛(wèi)生研究院的相關項目中的BRCA1、BRCA2基因的2152個位點進行注釋,將注釋結果與以往報告結果對比,PPV(陽性預測值)達到99.3%,充分驗證了Enliven?注釋和解讀能力的準確性。在此基礎上,貝瑞和康將自建的中國人基因組數據庫與萬例婦科腫瘤患者的基因數據進行整合,建設成為全球最大的婦科腫瘤基因組數據庫。
現在,神州基因組數據云項目仍在進行中,中國人群的基因組大數據正在成倍累積增長。受益于測序成本下降,降低獲得大量數據的難度,因此只要在數據解讀能力上快速突破,中國非常有可能在生物基因信息解讀這一領域實現彎道超車。
“神州基因組數據云”項目的另一層意義則與我國醫(yī)療政策中正在力推的分級診療政策息息相關。通過與專家合作,大數據體系為90%以上的醫(yī)院提供解讀能力,這將對基層臨床產生重要的指導意義??梢韵胂?,在三四線城市,醫(yī)生利用該數據云平臺分析基因測序數據,在當地可以獲得同樣質量的檢測分析,獲得和在大城市大醫(yī)院同等質量的報告,就能夠進一步促進實現分級診療。于福利教授展望道。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數據處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數據庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數據分析師:表結構數據 “獲取 - 加工 - 使用” 全流程的賦能者 表結構數據(如數據庫表、Excel 表、CSV 文件)是企業(yè)數字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數據分析師:解鎖表結構數據特征價值的專業(yè)核心 表結構數據(以 “行 - 列” 規(guī)范存儲的結構化數據,如數據庫表、Excel 表、 ...
2025-09-17Excel 導入數據含缺失值?詳解 dropna 函數的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數據時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數據分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數據差異是否 “ ...
2025-09-16CDA 數據分析師:掌控表格結構數據全功能周期的專業(yè)操盤手 表格結構數據(以 “行 - 列” 存儲的結構化數據,如 Excel 表、數據 ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數據分析師:激活表格結構數據價值的核心操盤手 表格結構數據(如 Excel 表格、數據庫表)是企業(yè)最基礎、最核心的數據形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數據爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數據的科學計數法問題 為幫助 Python 數據從業(yè)者解決pd.read_csv讀取長浮點數據時的科學計數法問題 ...
2025-09-12CDA 數據分析師:業(yè)務數據分析步驟的落地者與價值優(yōu)化者 業(yè)務數據分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數據把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數據驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數據分析師與戰(zhàn)略 / 業(yè)務數據分析:概念辨析與協(xié)同價值 在數據驅動決策的體系中,“戰(zhàn)略數據分析”“業(yè)務數據分析” 是企業(yè) ...
2025-09-11Excel 數據聚類分析:從操作實踐到業(yè)務價值挖掘 在數據分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數據中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數據解讀到決策支撐的價值導向 統(tǒng)計模型作為數據分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10