
健康大數據產業(yè)重構“方法論”
“2015年,‘互聯(lián)網+’和大數據成為國家戰(zhàn)略,當一門科學成為國家戰(zhàn)略的時候,我們總有好奇心研究一下,大數據到底幫我們解決了哪些實際問題?”在近日召開的2017大數據發(fā)展促進委員會年會上,中軟國際數據服務線咨詢服務總監(jiān)陳濤叩響了大數據從業(yè)者的心頭之問。
在陳濤看來,互聯(lián)網幫人們解決了連接的問題,而連接實現了數據的在線流動,“數據的在線流動則提供了很多不能直接感受到和看到的信息,它加快了我們認知這個世界的速度?!?
但在健康大數據領域,這種“流動性的魅力”似乎打了折扣。中國疾病預防控制中心慢病中心主任助理蔣煒坦言,“醫(yī)療健康這個行業(yè)一直都沒有跟數據分開過,但是近幾年大數據的發(fā)展,反而讓醫(yī)療行業(yè)在大數據面前顯得比較茫然。”
這是為什么?“大數據想要打破我們原來采用抽樣手段通過整體數據來反映健康和醫(yī)療全貌的傳統(tǒng)?!笔Y煒道出了醫(yī)療大數據近年來發(fā)展中遇到的困惑,在這種情況下,舊的“數據方法論”難以為繼,而新的“健康大數據應用體系”尚未成熟,健康大數據產業(yè)如何打破僵局?
嚴重的數據“孤島”問題
所謂健康大數據,是指無法在可承受的時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的健康數據的集合,蔣煒介紹道。
“健康大數據構架中數據信息的來源渠道、數據信息種類和大數據庫的建設與常規(guī)大數據是相同的。從數據信息的來源渠道看,很多健康大數據來源于電子病例、居民健康檔案、國家臨床中心的相關數據、公共衛(wèi)生及物聯(lián)網數據庫等?!笔Y煒認為,正是這種數據種類的龐雜造成了健康大數據的復雜性,甚至成為目前整個健康大數據發(fā)展的瓶頸,而這種瓶頸在海量數據收集之后更加凸顯。
蔣煒把問題歸結為三個方面:數據“孤島”現象;數據標準不統(tǒng)一;大數據技術未能有效利用,“從2010年左右醫(yī)療行業(yè)提出大數據至今,一直都沒有很好地解決”。
目前醫(yī)療大數據的孤島現象非常嚴重,“橫向來講,所有的醫(yī)院都有自己的數據,我們力推醫(yī)院數據打通,但是將近20年了一直沒有達成成果”。蔣煒分析,縱向來講,由于個人健康信息分為很多類型,從國家層面收集信息就意味著從上到下按不同的類型在地方做不同的數據平臺,“各套縱向體系之間的信息沒有形成很好的互聯(lián)互通,大數據很難得以應用,而且造成很多數據資源的浪費”。
此外,蔣煒還表示,在一些信息化水平較高的地區(qū),比如東部沿海地區(qū),或由于企業(yè)自身原因,或受制于當時的基礎條件,每個地區(qū)在建設信息化平臺時的標準不統(tǒng)一,當多元數據類型歸集于同一數據庫時,從清洗到達到可預算標準的過程需要消耗巨大的工作量。
業(yè)務導向的價值變現
針對大數據分散、總體價值難以變現的問題,陳濤給出了自己的看法。他表示,就目前而言,“大數據還沒有厲害到無所不能的程度”。大數據解決的是相關性,并不能解決因果性的問題。他舉了個例子,“如果來分析北京交通的擁堵情況,數據能夠幫助我們找到很多相關的因素,比如道路建設情況、地鐵路線、公交路線設計等。但是數據并沒有告訴我們這些因素的成因,以及我們如何利用這些因素來解決交通擁堵的問題,最終數據還需要人來處理加工,從而支持決策的作出。”
陳濤認為,基于這種理解,可以梳理出數據的一些獨有特性:業(yè)務附著性、真實性、價值不確定性及可復制性。
“數據從業(yè)務中來,最終又反饋給業(yè)務,支撐業(yè)務的改進和創(chuàng)新。大數據應用實際上要做的一件很基礎的事情就是先要樹立業(yè)務及相關的業(yè)務流程。”陳濤表示,“其次,數據可以被當成一種實證方法,既然是實證方法,就必須要真實,虛假數據毫無疑義?!钡悵膊恢M言具體實踐中存在的掣肘,“靠數據本身以及數據所存在的IT信息系統(tǒng)并不能保證信息的真實性,因為數據和人的活動是緊密關聯(lián)的,保證數據的真實性一定要人為制定很多流程制度”。
談及數據資產時,很多人會關注,既然數據是資產,是不是可以交易、變現或者“賣錢”?陳濤表示,數據和一般性的商品之間還是有很多區(qū)別的,一是數據歸屬權問題,二是“數據的角度”。陳濤所謂的數據的角度,即“它是不是可以以等價交換的方式來支撐”。陳濤解釋道,“比如手機上的位置信息,它是數據。對于滴滴打車和外賣公司來講,它們可以根據這個數據為我提供服務;對于公安部門來講,這個信息可以幫他們快速找到想找的人,但同樣的數據對于其他人可能毫無疑義。數據根據其角色不同、場景不同、目的不同,我們很難認為它的價值像商品一樣具有等價交換價值的唯一性?!?
此外,數據的可復制性和流動性也是其特性之一,陳濤說:“如果有一天我們發(fā)現數據真的成為資產了,真的可以變現的時候,安全非常重要?!?
基于這四個特性,大數據應用其實涉及到一整套完整的方法論。具體到醫(yī)療健康大數據行業(yè),其應用價值的體現也要遵循這樣的路徑。
建設規(guī)范化交互平臺
事實上,經過一系列探索之后,健康大數據的應用之路開始逐漸變得清晰。在這個過程中,全球智能穿戴設備已經突破1億件,我國目前擁有移動醫(yī)療用戶2.93億。正如蔣煒所言,“大家都迫切希望利用移動技術得到醫(yī)療健康服務”,移動醫(yī)療終端為健康大數據的采集和處理帶來了新的思路。
可穿戴設備能實現諸多人體生命特征相關數據的采集和連續(xù)采集。通過大數據、云計算、物聯(lián)網等技術應用,實時采集大量的用戶健康數據信息和行為習慣,已經成為智慧醫(yī)療獲取信息的重要途徑。蔣煒表示,這些數據有望與電子病例、公共衛(wèi)生大數據進行有效銜接,加以人工智能分析,從而推進覆蓋全周期的預防、治療、康復、保健的一體化健康服務發(fā)展模式,重構健康產業(yè)生態(tài)鏈。
盡管可穿戴設備發(fā)展蓬勃,但蔣煒認為目前依然存在數據采集單一導致的健康數據分析、健康服務提供不精確和行業(yè)數據標準不統(tǒng)一導致的數據難以共享的問題?!澳呐率峭恢悄艽┐髟O備,根據廠商自己的利益和價值取向,設備的數據標準也不一樣,當數據真正拿來利用的時候,往往得不到醫(yī)療機構的認可。”蔣煒說,“對于健康數據來講,它的保鮮期很短?!?
“從整個行業(yè)來講,需要一個規(guī)范化的平臺?!笔Y煒認為,這個平臺要有兩大功能,一個是匯總不同智能硬件的健康數據,集合成用戶的整體運動健康數據電子檔案,為醫(yī)療數據接入、慢病管理等提供可操作的健康數據依據;二是將同一用戶多維度的排重數據,反向傳輸給智能硬件廠家,用來精確算法,優(yōu)化產品,從而形成用戶健康信息閉環(huán)?;诖?,中國疾病預防控制中心和中國信息通信研究院標準所正在共同探索建立健康管理信息交互平臺。
為什么要做這個平臺?蔣煒表示,首先,針對數據來源的問題,力圖使用平臺去衡量、支持可穿戴健康設備采集數據的質量標準,開展健康服務評估。其次,融合各個采集設備的數據孤島,實現數據共享,通過大數據算法提高健康醫(yī)療服務準確性。再次,面對大量的運動健康、身體指標、醫(yī)療信息等數據,提供技術、服務、用戶等行業(yè)交流平臺,推動我國智能健康醫(yī)療大數據的發(fā)展,實現移動醫(yī)療健康大數據的真正價值。
蔣煒最后講述了平臺建設的時間表,“2017年底一期試運行,2018年正式發(fā)布,預計2018年底實現300家移動健康設備平臺接入”。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數據處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數據庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數據分析師:表結構數據 “獲取 - 加工 - 使用” 全流程的賦能者 表結構數據(如數據庫表、Excel 表、CSV 文件)是企業(yè)數字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數據分析師:解鎖表結構數據特征價值的專業(yè)核心 表結構數據(以 “行 - 列” 規(guī)范存儲的結構化數據,如數據庫表、Excel 表、 ...
2025-09-17Excel 導入數據含缺失值?詳解 dropna 函數的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數據時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數據分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數據差異是否 “ ...
2025-09-16CDA 數據分析師:掌控表格結構數據全功能周期的專業(yè)操盤手 表格結構數據(以 “行 - 列” 存儲的結構化數據,如 Excel 表、數據 ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數據分析師:激活表格結構數據價值的核心操盤手 表格結構數據(如 Excel 表格、數據庫表)是企業(yè)最基礎、最核心的數據形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數據爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數據的科學計數法問題 為幫助 Python 數據從業(yè)者解決pd.read_csv讀取長浮點數據時的科學計數法問題 ...
2025-09-12CDA 數據分析師:業(yè)務數據分析步驟的落地者與價值優(yōu)化者 業(yè)務數據分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數據把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數據驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數據分析師與戰(zhàn)略 / 業(yè)務數據分析:概念辨析與協(xié)同價值 在數據驅動決策的體系中,“戰(zhàn)略數據分析”“業(yè)務數據分析” 是企業(yè) ...
2025-09-11Excel 數據聚類分析:從操作實踐到業(yè)務價值挖掘 在數據分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數據中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數據解讀到決策支撐的價值導向 統(tǒng)計模型作為數據分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10