
數(shù)據(jù)挖掘常用算法及其在醫(yī)學大數(shù)據(jù)研究中的應用
醫(yī)院信息化的發(fā)展及云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等在醫(yī)療領(lǐng)域的應用,為醫(yī)學數(shù)據(jù)的獲取、存儲及處理提供了極大便利。數(shù)據(jù)挖掘也隨著計算機技術(shù)得到了廣泛應用,從而提高了數(shù)據(jù)利用效率,拓展了知識發(fā)現(xiàn)的廣度與深度。目前,醫(yī)院已積累了大量醫(yī)療相關(guān)數(shù)據(jù)。醫(yī)學大數(shù)據(jù)與數(shù)據(jù)挖掘的結(jié)合,能夠幫助人們從存儲的大體量、高復雜的醫(yī)學數(shù)據(jù)中提取有價值信息,加速醫(yī)學成果轉(zhuǎn)化,為醫(yī)療行業(yè)開拓一個新的時代。介紹了醫(yī)學數(shù)據(jù)挖掘中常用算法及其在醫(yī)學大數(shù)據(jù)中的研究成果,以期為今后醫(yī)學大數(shù)據(jù)的挖掘利用提供參考。
數(shù)據(jù)挖掘是指從數(shù)據(jù)庫中,提取隱含在其中的人們事先未知、潛在的有用的信息和知識的過程。數(shù)據(jù)挖掘已有較多成熟方法,并在醫(yī)學大數(shù)據(jù)挖掘中取得了一定成果。本研究對數(shù)據(jù)挖掘的常用算法及在醫(yī)學大數(shù)據(jù)中的應用進行綜述。
數(shù)據(jù)挖掘分類及常用算法
預測型數(shù)據(jù)挖掘預測型數(shù)據(jù)挖掘是從歷史數(shù)據(jù)中發(fā)現(xiàn)的已知結(jié)果,推斷或預測未知數(shù)據(jù)的可能值,有預測和回歸兩種類型。常用算法有線性回歸、Logistic回歸、K-NN算法、決策樹(DT)、人工神經(jīng)網(wǎng)絡(ANN)、支持向量機(SVM)及各種集成算法等。
回歸回歸是指確定響應變量和一個或多個自變量之間依賴關(guān)系以構(gòu)建預測模型。Kirkland等利用Logistic回歸建立模型,對采集的病人臨床指標等數(shù)據(jù)建立了疾病惡化預警模型,可對病人未來2-12小時可能出現(xiàn)的疾病惡化風險進行預測。Escobar等基于14家醫(yī)院的電子病歷數(shù)據(jù),同樣采用Logistic回歸建立模型,用于病人非計劃轉(zhuǎn)入ICU的預測。
分類分類是指基于已知所屬類別的歷史數(shù)據(jù)的特征描述預先定義好的類別,構(gòu)建預測類別的模型,再根據(jù)待查數(shù)據(jù)的相關(guān)特征與這些類別相應特征之間的相似程度,確定待查數(shù)據(jù)應劃歸入的類別,可用于預測性研究。Meng等[5]應用了Logistic回歸、ANN及決策樹三種分類算法建立了糖尿病預測模型。
描述型數(shù)據(jù)挖掘描述型數(shù)據(jù)挖掘是識別數(shù)據(jù)中的模式或關(guān)系,旨在探索被分析數(shù)據(jù)的內(nèi)在性質(zhì),常用方法有關(guān)聯(lián)規(guī)則、序列規(guī)則和聚類。
關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則通過從大量數(shù)據(jù)中,發(fā)現(xiàn)數(shù)據(jù)之間某些未知的、潛在的且有實際意義的關(guān)聯(lián)或聯(lián)系,并以關(guān)聯(lián)規(guī)則的形式表現(xiàn)出來。關(guān)聯(lián)規(guī)則應用于醫(yī)學研究,可以從醫(yī)療信息中揭示疾病發(fā)生、發(fā)展規(guī)律以及醫(yī)學診斷、醫(yī)學圖像、癥狀與用藥等某些內(nèi)在聯(lián)系,為疾病診斷和健康管理提供參考。李準等基于Apriori算法,對某綜合性醫(yī)院電子病歷中不同的冠心病診斷結(jié)果與用藥情況進行關(guān)聯(lián)規(guī)則挖掘,發(fā)現(xiàn)不同藥品對不同診斷的治療效果及冠心病危險因素。Qin Li等將Apriori算法用于高血壓、房顫、血脂異常等8項高風險因素與中風之間關(guān)聯(lián)性挖掘,提供了可行的中風預防、早期診斷和早期治療方式。
序列規(guī)則序列規(guī)則可挖掘相對時間或其他模式出現(xiàn)頻率較高的模式,通過對時間序列數(shù)據(jù)挖掘,可獲得與時間密切相關(guān)的信息,實現(xiàn)知識獲取。王晨等將非線性時間序列分析中的算法引入胎兒心電信號處理,成功實現(xiàn)胎兒心電信號與母體生物電信號的分離,對提高胎兒心電監(jiān)護有很好的輔助作用。馮冰等認為時間序列在預測傳染病發(fā)病中較好的效果,并建立了兩種季節(jié)時間序列模型對某市細菌性痢疾月發(fā)病率預測效果進行對比研究,預測效果與實際情況基本一致。
聚類分析聚類可將整個數(shù)據(jù)集分成幾個數(shù)據(jù)組,屬于同一組的實例盡可能地相似,而屬于不同組的實例則盡可能不同,常用算法如K-means和TwoStep等。張勃等將K-means應用于冠脈光學相干斷層成像的圖像斑塊分割,實現(xiàn)多區(qū)域斑塊精確分割,為醫(yī)生快速精確地讀取圖像和評估患者病情提供依據(jù)。TwoStep相比其他聚類的一個突出優(yōu)點是,能夠自動選擇最佳分組數(shù)而無需預先設置,如楊美潔將TwoStep聚類算法用于電子病歷中高血壓患者數(shù)據(jù)聚類分析,得到了高血壓重要的預測變量。
數(shù)據(jù)挖掘過程大致包括6個步驟:數(shù)據(jù)選擇、數(shù)據(jù)清洗、數(shù)據(jù)賦值、數(shù)據(jù)轉(zhuǎn)化、數(shù)據(jù)挖掘和結(jié)果解釋與評估。數(shù)據(jù)選擇包括數(shù)據(jù)源、數(shù)據(jù)類型、特征變量等的選擇,其中,特征變量選擇至關(guān)重要,許多分析建模探索往往始于數(shù)以百計甚至更多的變量,但通常來說,只有少數(shù)變量真正與目標變量有關(guān),有助于降低模型訓練時間和存儲空間,提高模型的精度。研究者在建立預警模型時,以Logistic回歸從眾多變量中篩選了特異性較高的變量用于模型建立;Khiabani等[20]則以filter 和wrapper兩種變量選擇法分別從55個變量中篩選特征變量,用于前驅(qū)糖尿病預測研究,并將預測結(jié)果與全變量模型的預測結(jié)果進行了對比,發(fā)現(xiàn)經(jīng)過特征變量篩選的預測模型的精確性優(yōu)于全變量模型。
數(shù)據(jù)挖掘在醫(yī)學大數(shù)據(jù)研究中的應用
數(shù)據(jù)挖掘在醫(yī)學大數(shù)據(jù)研究中已取得了較多成果,通過文獻檢索,總結(jié)了三方面的應用現(xiàn)狀。
疾病早期預警醫(yī)療領(lǐng)域往往需要更精確的實時預警工具,而基于數(shù)據(jù)挖掘的疾病早期預警模型的建立,有助于提高疾病的早期診斷、預警和監(jiān)護,同時,也有利于醫(yī)療機構(gòu)采取預防和控制措施,減少疾病惡化及并發(fā)癥的發(fā)生。
疾病早期預警,首先要收集與疾病相關(guān)的指標數(shù)據(jù)或危險因素,然后建立模型,從而發(fā)現(xiàn)隱含在數(shù)據(jù)之中的發(fā)病機制和病情之間的聯(lián)系。Forkan等采集日常監(jiān)測的心率、舒張壓、收縮壓、平均血壓、呼吸率、血氧飽和度等生命體征數(shù)據(jù),以J48決策樹、隨機森林樹及序列最小優(yōu)化算法等建立疾病預警模型,用于遠程家庭監(jiān)測,識別未曾診斷過的疾病發(fā)生,并將監(jiān)測結(jié)果發(fā)送到醫(yī)療急救機構(gòu),實現(xiàn)生命體征大數(shù)據(jù)、病人及醫(yī)療機構(gòu)的完整銜接,以降低突發(fā)疾病及死亡的發(fā)生率。Easton等利用貝葉斯分類算法建立了中風后遺癥死亡預測模型,認為中風后遺癥死亡概率與中風發(fā)生后的時間長短成函數(shù)關(guān)系,有助于中風后遺癥患者的后續(xù)監(jiān)護。Tayefi等基于決策樹算法建立了冠心病預測模型,該模型發(fā)現(xiàn)hs-CRP作為新的冠心病預測標志物,比傳統(tǒng)的標志物(如FBG、LDL)更具特異性。
慢性病研究糖尿病、高血壓、心血管疾病等慢性病正在影響著人們的健康,識別慢性病危險因素并建立預警模型有助于降低慢性疾病并發(fā)癥的發(fā)生。Alagugowr等建立的心臟病預警系統(tǒng),從心臟病大數(shù)據(jù)庫中提取特征指標,通過K-means聚類算法識別出心臟病危險因素,又以Apriori算法挖掘高頻危險因素與心臟病危險等級之間的關(guān)聯(lián)規(guī)則。Ilayaraja等則以高頻項集尋找心臟病危險因素并識別病人風險程度,該方法能夠回避無意義項集的產(chǎn)生,從而解決了以往研究中項集數(shù)量多、所需存儲空間大等問題。CH Jen等對慢性疾病并發(fā)癥風險識別的研究分三個步驟,首先,選擇健康人群體檢數(shù)據(jù)和慢性病患者相關(guān)疾病數(shù)據(jù),以帶有序列前項選擇的線性判別分析來尋找相關(guān)疾病的特征變量;然后,以K-NN對特征變量進行分類處理;最后,將K-NN算法的分類結(jié)果應用于慢性疾病預警模型的建立。Aljumah等先后以回歸分析和SVM用于預測和判斷糖尿病不同治療方式與不同年齡組之間的最佳匹配,為患者選擇最佳治療方式提供依據(jù)。Perveen等對糖尿病的預測研究,采用患者人口學數(shù)據(jù)和臨床指標數(shù)據(jù),并分別用Adaboost集成算法、Bagging算法及決策樹三種算法來建立預測模型,認為Adaboost集成算法的精確性更高。
輔助醫(yī)學診斷醫(yī)學數(shù)據(jù)不僅體量大,而且錯綜復雜、相互關(guān)聯(lián)。對大量醫(yī)學數(shù)據(jù)的分析,挖掘出有價值的診斷規(guī)則,將對疾病診斷提供參考。Yang等基于決策樹算法和Apriori算法,對肺癌病理報告與臨床信息之間的關(guān)聯(lián)性進行了研究,為肺癌病理分期診斷提供依據(jù),從而可回避診斷中需要手術(shù)方法獲取病理組織。Becerra-Garcia等應用SVM、K-NN和CART三種算法對眼球電圖進行信號預處理、脈沖檢測和脈沖分類,為研究臨床眼球電圖檢查中非自發(fā)掃視眼球運動的識別提供依據(jù)。彭玉蘭等對某醫(yī)院5年的乳腺超聲數(shù)據(jù)進行了關(guān)聯(lián)規(guī)則挖掘,建立乳腺病理診斷與超聲診斷之間的關(guān)聯(lián)規(guī)則,并開發(fā)了乳腺超聲數(shù)據(jù)庫數(shù)據(jù)檢索系統(tǒng),便于醫(yī)生快速獲得超聲診斷和病理診斷的各種診斷信息和病例信息。
醫(yī)學大數(shù)據(jù)挖掘已呈現(xiàn)廣闊的發(fā)展前景和巨大的應用價值,將為疾病研究、臨床及管理決策、醫(yī)療服務個性化及圖像識別等眾多領(lǐng)域帶來更多支持。麥肯錫在其報告中指出,大數(shù)據(jù)分析可以幫助美國醫(yī)療服務業(yè)一年創(chuàng)造3000億美元的附加價值,而美國醫(yī)療協(xié)會也稱,改善醫(yī)療衛(wèi)生事業(yè)的關(guān)鍵在于大數(shù)據(jù)。目前,醫(yī)院大數(shù)據(jù)中心、區(qū)域性衛(wèi)生信息平臺、國家醫(yī)療大數(shù)據(jù)中心的建立以及衛(wèi)生信息互聯(lián)互通標準和共享規(guī)范的制定,為數(shù)據(jù)存儲和共享、推動醫(yī)學大數(shù)據(jù)的應用提供了更多支撐。未來,醫(yī)學大數(shù)據(jù)挖掘將不斷更新,探索新的研究領(lǐng)域,推動研究成果轉(zhuǎn)化。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10