
醫(yī)療大數(shù)據(jù)的“茍且”與遠(yuǎn)方
醫(yī)療人工智能的基礎(chǔ),是醫(yī)療大數(shù)據(jù)的挖掘和應(yīng)用。有關(guān)醫(yī)療大數(shù)據(jù),這是這幾年互聯(lián)網(wǎng)醫(yī)療領(lǐng)域流傳最廣的故事。雖然每一家創(chuàng)業(yè)公司的模式千差萬(wàn)別,但無(wú)一例外都會(huì)有一條:對(duì)大數(shù)據(jù)的挖掘和應(yīng)用,雖然關(guān)于如何實(shí)現(xiàn)的部分往往語(yǔ)焉不詳。這充分反映了兩個(gè)問(wèn)題:所有人都意識(shí)到了醫(yī)療大數(shù)據(jù)開(kāi)發(fā)的價(jià)值,但開(kāi)發(fā)的路徑卻難度很高。
于是,我們聽(tīng)到的第一代醫(yī)療大數(shù)據(jù)的故事就變成了以下這個(gè)樣子:
▍有關(guān)數(shù)據(jù)來(lái)源
中國(guó)互聯(lián)網(wǎng)醫(yī)療可以說(shuō)是白手起家,至今為止仍然不受傳統(tǒng)醫(yī)療體系待見(jiàn)。所以,早期的醫(yī)療大數(shù)據(jù)基本上都只能來(lái)自互聯(lián)網(wǎng)醫(yī)療公司自身的積累。這里的“早期”既指時(shí)間上的早期,又包括開(kāi)發(fā)思路上的早期。那么,早期的數(shù)據(jù)來(lái)源大概有這么幾類(lèi)(歡迎補(bǔ)充):
在線(xiàn)咨詢(xún)類(lèi)公司——這類(lèi)公司既有綜合型的,又有垂直型的。數(shù)據(jù)積累的方式上主要是通過(guò)醫(yī)患在線(xiàn)問(wèn)診的方式,建立患者個(gè)人的電子健康檔案;
智能硬件類(lèi)公司——純粹的智能硬件在醫(yī)療領(lǐng)域的應(yīng)用日漸式微,但越來(lái)越多的醫(yī)療服務(wù)開(kāi)始結(jié)合智能硬件,比如血糖、血壓、體溫、心律等,數(shù)據(jù)積累方式主要是對(duì)用戶(hù)體征數(shù)據(jù)的檢測(cè);
基因檢測(cè)類(lèi)公司——基因檢測(cè)在近兩年日趨火爆,主要是受到檢測(cè)成本降低和精準(zhǔn)醫(yī)療的推動(dòng),門(mén)檻大大降低,使得越來(lái)越多的普通用戶(hù)能夠消費(fèi)基因檢測(cè)。
科研工具類(lèi)公司——雖然與醫(yī)患資源類(lèi)公司一樣是收集患者的疾病數(shù)據(jù),但科研類(lèi)公司收集數(shù)據(jù)的形式、應(yīng)用明顯不同,科研機(jī)構(gòu)在數(shù)據(jù)積累過(guò)程中發(fā)揮了主導(dǎo)作用。
▍有關(guān)數(shù)據(jù)應(yīng)用
在醫(yī)療大數(shù)據(jù)版本一的故事里面,之所以是早期,主要還是因?yàn)殚_(kāi)發(fā)利用方式的早期。在這個(gè)階段,雖然關(guān)于醫(yī)療大數(shù)據(jù)、人工智能已經(jīng)有了概念,但在此時(shí)能接受這樣故事的人畢竟還太少,也太遙遠(yuǎn)。于是,版本一里面應(yīng)用醫(yī)療大數(shù)據(jù)的方式基本有這么積累:
服務(wù)于醫(yī)療本身——長(zhǎng)期以來(lái),患者個(gè)人是不掌握自己的醫(yī)療數(shù)據(jù)的?;ヂ?lián)網(wǎng)醫(yī)療出現(xiàn)后,用戶(hù)可以通過(guò)手機(jī)來(lái)收集自己的健康數(shù)據(jù),幫助醫(yī)生更好的了解自身的健康歷史;
服務(wù)于醫(yī)藥企業(yè)——藥企對(duì)數(shù)據(jù)的需求既強(qiáng)烈又多元,包括市場(chǎng)營(yíng)銷(xiāo)需求、新藥研發(fā)需求、應(yīng)用反饋需求等。因此,鑒于藥企買(mǎi)單欲望強(qiáng)烈,很多數(shù)據(jù)應(yīng)用商都主動(dòng)向藥企考慮;
服務(wù)于保險(xiǎn)公司——這一點(diǎn)中美有些差異,美國(guó)保險(xiǎn)公司對(duì)數(shù)據(jù)的應(yīng)用主要是對(duì)醫(yī)療服務(wù)質(zhì)量和費(fèi)用的控制,而在我國(guó),保險(xiǎn)公司對(duì)數(shù)據(jù)的應(yīng)用則主要是設(shè)計(jì)新的保險(xiǎn)產(chǎn)品。
▍有關(guān)應(yīng)用現(xiàn)狀
其實(shí)在版本一的故事里,已經(jīng)有一些有了很好的應(yīng)用效果,比如藥物警戒,用醫(yī)療數(shù)據(jù)來(lái)彌補(bǔ)臨床數(shù)據(jù)的缺陷,及時(shí)反饋藥品不良反應(yīng)、治療效果等;再比如保險(xiǎn)控費(fèi),用醫(yī)療大數(shù)據(jù)控制服務(wù)質(zhì)量和費(fèi)用,控制和減少保險(xiǎn)欺詐行為等。這些領(lǐng)域之所有比較好的應(yīng)用,主要是因?yàn)樗幤蠛捅kU(xiǎn)公司的商業(yè)驅(qū)動(dòng)力更強(qiáng)。當(dāng)然,這也僅是在美國(guó)。
雖然我們前面羅列了不少有關(guān)醫(yī)療數(shù)據(jù)的來(lái)源和積累,但實(shí)際當(dāng)中,這些案例都或多或少存在著問(wèn)題。甚至由于這些問(wèn)題的存在,版本一里面這些比較淺層次的數(shù)據(jù)應(yīng)用都還處于非常遙遠(yuǎn)的階段。
數(shù)據(jù)的完整和有效性——互聯(lián)網(wǎng)醫(yī)療畢竟是新興事物,用戶(hù)有接受程度和使用習(xí)慣的問(wèn)題,而且硬件設(shè)備也存在功能和精準(zhǔn)度的問(wèn)題。這使得數(shù)據(jù)收集面臨著不完整且缺乏連續(xù)性的問(wèn)題,而且大多數(shù)硬件設(shè)備沒(méi)有取得醫(yī)療資質(zhì),采集的數(shù)據(jù)也無(wú)法做醫(yī)療級(jí)應(yīng)用。
數(shù)據(jù)處于割裂的狀態(tài)——互聯(lián)網(wǎng)醫(yī)療產(chǎn)品主要收集的是患者在醫(yī)院的健康數(shù)據(jù),而對(duì)醫(yī)院內(nèi)的數(shù)據(jù)鞭長(zhǎng)莫及。加上醫(yī)院與互聯(lián)網(wǎng)醫(yī)療無(wú)法打通,這導(dǎo)致了醫(yī)療數(shù)據(jù)在院內(nèi)院外割裂存在的狀況。而且由于醫(yī)院本身信息孤島的問(wèn)題,患者在不同醫(yī)院求醫(yī)的數(shù)據(jù)也是碎片化存在。
數(shù)據(jù)規(guī)模仍然非常小——作為大數(shù)據(jù)應(yīng)用,目前的醫(yī)療數(shù)據(jù)采集規(guī)模根本達(dá)不到“大”的程度。一個(gè)是很多創(chuàng)業(yè)公司的數(shù)據(jù)都是從頭積累,再一個(gè)是市場(chǎng)認(rèn)知度仍然有限,最典型的就是基因檢測(cè),很多公司的樣本量還處在幾十個(gè)、幾百個(gè)的水平。這使得目前的醫(yī)療數(shù)據(jù)基本無(wú)法實(shí)現(xiàn)商業(yè)化。
當(dāng)然還有一個(gè)問(wèn)題,段院長(zhǎng)在他的文章里也指出了,就是醫(yī)療大數(shù)據(jù)并沒(méi)有被認(rèn)真對(duì)待,或者說(shuō)掛羊頭賣(mài)狗肉。我國(guó)的大多數(shù)互聯(lián)網(wǎng)醫(yī)療公司打的仍然是醫(yī)院號(hào)源的主意,仍然是一種快速變現(xiàn)的心態(tài),也無(wú)怪乎令人感嘆,“我們多數(shù)的移動(dòng)醫(yī)療創(chuàng)新公司還在拼命的靠補(bǔ)貼靠地推在拉用戶(hù),在做掛號(hào)黃牛的生意,真的令人很失望?!?
故 事
版 本 二
關(guān)于醫(yī)療大數(shù)據(jù),最令人興奮的應(yīng)用無(wú)疑還是在臨床方面。比如時(shí)下最熱門(mén)的精準(zhǔn)醫(yī)療幾乎火到?jīng)]朋友。但精準(zhǔn)醫(yī)療因?yàn)橄鄬?duì)初級(jí)還跟數(shù)據(jù)應(yīng)用關(guān)系不大,主要是取決于兩點(diǎn):要么是技術(shù)上取得特別重大的突破,要么是概念上找到特別唬人的方法。另外一個(gè)醫(yī)療大數(shù)據(jù)在臨床上的應(yīng)用,則是臨床輔助診斷,或者更遙遠(yuǎn)一點(diǎn),人工智能醫(yī)生。
在臨床上發(fā)揮機(jī)器的作用,首先需要對(duì)臨床數(shù)據(jù)的有效挖掘利用。傳統(tǒng)的公立醫(yī)院在這一點(diǎn)上是完全指望不上的,根本原因在于沒(méi)有任何激勵(lì)機(jī)制的存在。而早期醫(yī)療大數(shù)據(jù)的應(yīng)用之所以對(duì)醫(yī)院敬而遠(yuǎn)之,主要是開(kāi)發(fā)難度太高。
受限于信息化程度,醫(yī)院往往處于信息孤島的封閉狀態(tài),內(nèi)部信息系統(tǒng)紛繁復(fù)雜標(biāo)準(zhǔn)不一,而且有大量的病例數(shù)據(jù)以紙質(zhì)狀態(tài)存在。數(shù)據(jù)清洗要實(shí)現(xiàn)標(biāo)準(zhǔn)化、結(jié)構(gòu)化的難度非常大,而且還需要打通院內(nèi)院外數(shù)據(jù)的流動(dòng)。
當(dāng)然,這里還必須提到數(shù)據(jù)安全。美國(guó)已經(jīng)不止一次爆出醫(yī)療數(shù)據(jù)泄露或受到攻擊的案例。而來(lái)自Ponemon推出的一份報(bào)告《2013年數(shù)據(jù)泄露成本研究》顯示,醫(yī)療行業(yè)的數(shù)據(jù)泄露成本最高,平均每個(gè)患者的醫(yī)療信息泄露帶來(lái)的信息安全管理成本高達(dá)233美元,遠(yuǎn)高于零售業(yè)的78美元。而當(dāng)大量商業(yè)公司在明目張膽的打著靠數(shù)據(jù)賺錢(qián)旗號(hào)的時(shí)候,臨床數(shù)據(jù)的開(kāi)發(fā)確實(shí)需要非常謹(jǐn)慎。
▍新數(shù)據(jù)來(lái)源
不過(guò)臨床數(shù)據(jù)開(kāi)發(fā)的遲滯,仍然是造成我們的醫(yī)療大數(shù)據(jù)推進(jìn)緩慢的一個(gè)重要因素。所以,在版本二的故事里,我們看到了已經(jīng)有創(chuàng)業(yè)公司努力在臨床數(shù)據(jù)上進(jìn)行探索。(歡迎補(bǔ)充)
臨床數(shù)據(jù)的聚合 ——醫(yī)院內(nèi)的醫(yī)療數(shù)據(jù)也是分散的,HIS、LIS、PACS等系統(tǒng)里都儲(chǔ)存不同類(lèi)型的病例數(shù)據(jù)。因?yàn)檫@些系統(tǒng)來(lái)自不同廠(chǎng)商,數(shù)據(jù)標(biāo)準(zhǔn)不一,醫(yī)院內(nèi)部也缺乏完整、連續(xù)的數(shù)據(jù)資料。所以,在醫(yī)院實(shí)現(xiàn)數(shù)據(jù)聚合成為臨床數(shù)據(jù)開(kāi)發(fā)的一個(gè)小前提。已經(jīng)有創(chuàng)業(yè)公司在這方面探索,并得到了資本市場(chǎng)的認(rèn)可。
臨床數(shù)據(jù)的開(kāi)放——當(dāng)然還不是公立醫(yī)院數(shù)據(jù)的開(kāi)放,而且公立醫(yī)院目前的信息系統(tǒng)也很難支持開(kāi)放。不過(guò),已經(jīng)有很多創(chuàng)業(yè)公司在嘗試臨床數(shù)據(jù)開(kāi)放,甚至直接開(kāi)辦醫(yī)院、診所來(lái)重構(gòu)底層信息系統(tǒng)。再加上很多SaaS模式的診所管理系統(tǒng)的出現(xiàn),就為醫(yī)療數(shù)據(jù)的共享以及與智能硬件設(shè)備的對(duì)接創(chuàng)造了條件。
臨床數(shù)據(jù)去中心——很多人相信,醫(yī)院只是時(shí)代的產(chǎn)物,會(huì)逐漸消失,所以醫(yī)療數(shù)據(jù)也未必一定要在醫(yī)療機(jī)構(gòu)內(nèi)產(chǎn)生。隨著新技術(shù)和數(shù)據(jù)采集方式的進(jìn)步,包括診療數(shù)據(jù)、研發(fā)數(shù)據(jù)等,都在逐漸突破醫(yī)療機(jī)構(gòu)的邊界,進(jìn)入人們的客廳、日常生活。這種數(shù)據(jù)采集的量和周期,都是醫(yī)院內(nèi)數(shù)據(jù)采集所無(wú)法比擬的。
▍應(yīng)用和問(wèn)題
這些在臨床數(shù)據(jù)開(kāi)發(fā)方面的努力,為未來(lái)人工智能的研發(fā)創(chuàng)造了可能??峙乱策€只是限于可能,距離真正的應(yīng)用還有一段距離。當(dāng)然,在A(yíng)lphaGo完勝李世石以后,人工智能所展示出的進(jìn)步速度讓所有人驚艷。說(shuō)不定五年后,機(jī)器人醫(yī)生就真的出現(xiàn)在社區(qū)診所了。但是眼下的問(wèn)題恐怕還是必須要克服:
數(shù)據(jù)解讀——圍棋棋盤(pán)的可能性畢竟是可以窮盡的,但目前的人工智能還無(wú)法解決未知因素的問(wèn)題。尤其是在醫(yī)療領(lǐng)域,不僅是未知因素的問(wèn)題,甚至還有無(wú)知因素的問(wèn)題。很多因素不僅醫(yī)療數(shù)據(jù)的采集范圍之外,更是在人類(lèi)的認(rèn)知范圍之外。不要說(shuō)癌癥這種人類(lèi)尚未攻克的疾病,絕大多數(shù)疾病都存在著相當(dāng)多的未知因素。
數(shù)據(jù)規(guī)模——醫(yī)療數(shù)據(jù)的應(yīng)用前提條件是數(shù)據(jù)規(guī)模要足夠大。其實(shí),這一點(diǎn)中國(guó)的情況要比美國(guó)好多了。比如說(shuō),中國(guó)一家三甲醫(yī)院的數(shù)據(jù)量幾乎抵得上美國(guó)一個(gè)州的量。但問(wèn)題是,有能力、有條件、有機(jī)會(huì)開(kāi)發(fā)應(yīng)用這些數(shù)據(jù)的機(jī)會(huì)太少。財(cái)大氣粗的保險(xiǎn)公司在醫(yī)院面前都毫無(wú)談判能力,遑論弱小的互聯(lián)網(wǎng)醫(yī)療公司。恐怕只能指望高瞻遠(yuǎn)矚的醫(yī)院院長(zhǎng),發(fā)揮鯰魚(yú)效應(yīng)。
數(shù)據(jù)監(jiān)管——對(duì)于政府監(jiān)管來(lái)說(shuō),醫(yī)療數(shù)據(jù)的應(yīng)用是個(gè)新問(wèn)題。起碼至今,究竟醫(yī)療數(shù)據(jù)歸誰(shuí)所有的問(wèn)題都沒(méi)有明確。而一旦醫(yī)療數(shù)據(jù)被濫用,危害是極大的。一個(gè)非常簡(jiǎn)單的道理,你的銀行卡密碼可以修改,但你的基因信息能修改么?雖然現(xiàn)在對(duì)基因的解讀能力有限,但是只要樣本成功采集一次,就可以無(wú)限檢測(cè)。所以如果你的基因數(shù)據(jù)泄露了,后果會(huì)是怎樣呢?
最后,可能還是野心的問(wèn)題。如果已經(jīng)收集到了一批數(shù)據(jù),馬上就能商業(yè)變現(xiàn),就能掙大錢(qián),有幾個(gè)人還愿意去搞什么人工智能呢?
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話(huà)題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10