
“每天一個(gè)數(shù)據(jù)分析師”在第九期有幸采訪了李敏,她是管理科學(xué)與工程專業(yè)博士生,同時(shí)是中國(guó)首批數(shù)據(jù)建模師(CDA 2),目前在上海某三甲醫(yī)院工作。
DA:您是如何入行的?
李敏:2005年跟隨先生舉家搬遷并成為新上海人,到上海后由原來從事優(yōu)生優(yōu)育的技術(shù)人員轉(zhuǎn)到醫(yī)院的行政管理部門,不適應(yīng),決心成為專業(yè)管理人士。于是從撰寫醫(yī)院管理論文、開展課題開始一步一步走,要發(fā)表醫(yī)學(xué)論文就離不開統(tǒng)計(jì)分析,越學(xué)越深入,自然而然就學(xué)習(xí)到數(shù)據(jù)挖掘技術(shù)了。后期又借助管理科學(xué)與工程專業(yè)博士學(xué)習(xí)深入接觸數(shù)據(jù)挖掘行業(yè)。同時(shí),非常幸運(yùn)的是,在我整個(gè)轉(zhuǎn)型期遇到了“指點(diǎn)的高人、相助的貴人”。
DA:您的工作經(jīng)歷,目前的工作職責(zé)(做哪塊),工作中曾做過的數(shù)據(jù)分析實(shí)例,以及您的職業(yè)規(guī)劃?
李敏:我是生在醫(yī)院、長(zhǎng)在醫(yī)院、工作在醫(yī)院,目前主要從事醫(yī)院內(nèi)部數(shù)據(jù)挖掘工作,曾經(jīng)做過患者畫像和患者疾病關(guān)聯(lián)規(guī)劃分析。我希望能致力于醫(yī)院數(shù)據(jù)挖掘工作,玩轉(zhuǎn)醫(yī)院內(nèi)部數(shù)據(jù),成為醫(yī)療行業(yè)優(yōu)秀數(shù)據(jù)分析師。
DA:能否給我們講講您在工作中遇到的印象深刻的困難及其背景成因?
李敏:大數(shù)據(jù)包括結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),通常數(shù)據(jù)量都非常大,處理起來相當(dāng)復(fù)雜。在我的數(shù)據(jù)挖掘工作中,獲取和使用高質(zhì)量數(shù)據(jù)非常重要。在我看來,高質(zhì)量的數(shù)據(jù)主要有以下特征:(1)數(shù)據(jù)源可信。數(shù)據(jù)源有內(nèi)部和外部,外部數(shù)據(jù)源(如網(wǎng)上的社交媒體數(shù)據(jù))的數(shù)據(jù)有多值得信任?(2)不是“臟數(shù)據(jù)”。臟數(shù)據(jù)指不準(zhǔn)確、不完整、錯(cuò)誤的數(shù)據(jù),包括雜亂的數(shù)據(jù)、拼寫錯(cuò)誤的單詞、壞掉的傳感器、不恰當(dāng)?shù)臉?biāo)準(zhǔn)、某種程度上被破壞的數(shù)據(jù)、重復(fù)的數(shù)據(jù)。(3)“信燥比”不低??捎眯畔?信號(hào))可能占數(shù)據(jù)中較大的比例,噪音不多。
數(shù)據(jù)清洗、字段擴(kuò)充后,我們?cè)谶M(jìn)入患者疾病關(guān)聯(lián)規(guī)則分析時(shí),遇到了很大的困難。我們發(fā)現(xiàn)疾病診斷名稱在500種以上,各患者患病各不相同,患病總不能像大家在超市商場(chǎng)那樣一購(gòu)買就購(gòu)買一車子商品吧?
DA:這個(gè)問題最終是如何解決的呢?能否向廣大同行分享一下思路?
李敏:為解決這個(gè)問題,首先,我們根據(jù)關(guān)聯(lián)規(guī)則挖掘出兩個(gè)子問題:1.找出事物數(shù)據(jù)庫(kù)中所有大于等于用戶指定的最小支持度的頻繁項(xiàng)集。2.利用頻繁項(xiàng)集生成所有的關(guān)聯(lián)規(guī)則,根據(jù)用戶設(shè)定的最小置信度進(jìn)行取舍,最后得到強(qiáng)關(guān)聯(lián)規(guī)則。
第二步,根據(jù)C.H.Cai等人的加權(quán)關(guān)聯(lián)規(guī)則,即給每個(gè)項(xiàng)目分配了一個(gè)反應(yīng)其重要程度的權(quán)值,并給出了項(xiàng)目集和規(guī)則的加權(quán)支持度,從而擴(kuò)展了現(xiàn)有的關(guān)聯(lián)規(guī)則問題模型。
第三步,在加權(quán)關(guān)聯(lián)規(guī)則算法計(jì)算支持度時(shí),既要考慮規(guī)則中所有項(xiàng)目在數(shù)據(jù)庫(kù)中同時(shí)出現(xiàn)的頻率,也要考慮所有項(xiàng)目的加權(quán)值。關(guān)聯(lián)規(guī)則算法中,以Agrawal R.等人提出的Apriori算法最為著名,即一個(gè)頻繁項(xiàng)目集的任一個(gè)集必定也是頻繁項(xiàng)目集,它是通過項(xiàng)目集元素?cái)?shù)目不斷增長(zhǎng)來逐步完成頻繁項(xiàng)目集發(fā)現(xiàn)的——首先產(chǎn)生1-頻繁項(xiàng)集L1,然后是2-頻繁項(xiàng)集L2,直到不再能擴(kuò)展頻繁項(xiàng)集的元素?cái)?shù)目而算法停止。在第K次循環(huán)中,過程先產(chǎn)生K-候選項(xiàng)集的集合CK,然后通過掃描數(shù)據(jù)庫(kù)生成支持度,并測(cè)試產(chǎn)生K-頻繁項(xiàng)集LK。
Apriori算法主要包括三個(gè)步驟:(1)由頻繁K-1項(xiàng)集通過自連接產(chǎn)生長(zhǎng)度為K的候選K項(xiàng)集CK。(2)對(duì)至少有一個(gè)非頻繁子集的候選項(xiàng)進(jìn)行剪枝。(3)掃描所有的事務(wù)來獲得候選項(xiàng)集的支持度。
因此,我們首先找出前6名主要診斷的疾病名;再確定常見20種輔助診斷疾病名,最后倒入Apriori算法,從而找到了比較有趣的規(guī)則,如肝炎后肝硬化患者與高血壓、糖尿病高度相關(guān),這更需要中國(guó)加快遠(yuǎn)程病人監(jiān)控的研究與應(yīng)用。
DA:請(qǐng)問您對(duì)希望從事數(shù)據(jù)分析行業(yè)的職場(chǎng)人有哪些建議?
李敏:在我們開始大數(shù)據(jù)之旅前,我們需要深刻理解以下內(nèi)容與步驟:
(1)理解目標(biāo),明確受益點(diǎn)或明確項(xiàng)目開始。成立一個(gè)可以發(fā)展成為一個(gè)專門用來幫助各個(gè)部門進(jìn)行最佳的大數(shù)據(jù)實(shí)踐的團(tuán)隊(duì)。
(2)建立路線圖。路線圖就是行動(dòng)計(jì)劃,確保路線圖有一個(gè)合理的、可實(shí)現(xiàn)的基準(zhǔn)。
(3)發(fā)現(xiàn)數(shù)據(jù)。這個(gè)數(shù)據(jù)策略和計(jì)劃應(yīng)當(dāng)是找到一條能過利用數(shù)據(jù)來產(chǎn)生可預(yù)測(cè)業(yè)務(wù)產(chǎn)生的途徑。
(4)清楚缺少什么數(shù)據(jù)。當(dāng)開始決定需要什么和缺少什么時(shí),鼓勵(lì)團(tuán)隊(duì)突破思維定勢(shì)是非常有益。
(5)理解可選技術(shù)方案。讓團(tuán)隊(duì)對(duì)這些技術(shù)擁有足夠深刻的理解有利于團(tuán)隊(duì)做出明智的選擇。(6)規(guī)劃大數(shù)據(jù)安全,應(yīng)防范公司外部和內(nèi)部的數(shù)據(jù)安全風(fēng)險(xiǎn)。
(7)規(guī)劃大數(shù)據(jù)管理策略。信息管理的意義在于建立一種能夠被員工、合作者和用戶信任的信息資源。
(8)規(guī)劃數(shù)據(jù)管家,如建立使用數(shù)據(jù)倉(cāng)庫(kù)。
(9)持續(xù)測(cè)試。不能假設(shè)數(shù)據(jù)總是對(duì)的,要持續(xù)測(cè)試數(shù)據(jù)和團(tuán)隊(duì)對(duì)業(yè)務(wù)的理解。
(10)學(xué)習(xí)最佳實(shí)踐和利用模式。隨著大數(shù)據(jù)的成熟,我們將能夠獲取更多被驗(yàn)證過的最佳實(shí)踐,用來增強(qiáng)我們的策略,使計(jì)劃執(zhí)行得更成功。
另外,我們還需要注意以下事情:
(1)要將所有業(yè)務(wù)單元都涵蓋在大數(shù)據(jù)戰(zhàn)略中。
(2)要評(píng)估所有的大數(shù)據(jù)分發(fā)模型。
(3)要將傳統(tǒng)數(shù)據(jù)源作為大數(shù)據(jù)戰(zhàn)略的一部分。
(4)要計(jì)劃持久化元數(shù)據(jù)。
(5)不要依賴于單一的大數(shù)據(jù)分析方法。
(6)不要在準(zhǔn)備充分之前就膨脹。
(7)不要忽略數(shù)據(jù)集成的需求。
(8)不要忘記安全地管理數(shù)據(jù)。
(9)不要忽略數(shù)據(jù)的管理效率。
DA:請(qǐng)您推薦一些平時(shí)在網(wǎng)絡(luò)上學(xué)習(xí)專業(yè)知識(shí)的平臺(tái)吧。
李敏:最早接觸數(shù)據(jù)挖掘是跟隨在人大經(jīng)濟(jì)論壇(現(xiàn)為經(jīng)管之家)學(xué)習(xí),從SPSS開始學(xué)起,最終通過數(shù)據(jù)挖掘技術(shù)學(xué)習(xí)并獲得中國(guó)首批數(shù)據(jù)建模師資格(CDA 2)。平時(shí)一直關(guān)注“CDA數(shù)據(jù)分析師”欄目,上面信息新、內(nèi)容大多比較專業(yè),對(duì)從事數(shù)據(jù)挖掘技術(shù)人員是非常不錯(cuò)的選擇,并會(huì)推薦國(guó)外一些專業(yè)網(wǎng)站學(xué)習(xí)。高校圖書館也是一種選擇,我曾花了整整2天時(shí)間,把某高校圖書館關(guān)于數(shù)據(jù)挖掘的圖書全部鎖定放置書架的位置、圖書種類、數(shù)量;曾在2天時(shí)間內(nèi)泛讀20本書。當(dāng)然還必須花些時(shí)間精讀數(shù)據(jù)挖掘的理論、操作書籍并不斷上機(jī)練習(xí)。
另外再推薦幾個(gè)數(shù)據(jù)資源網(wǎng):
(1)大數(shù)據(jù)會(huì)議。The Data Warehousing Institute(TDWI),贊助很多關(guān)于數(shù)據(jù)倉(cāng)庫(kù)和大數(shù)據(jù)的會(huì)議、研討會(huì)和教育論壇。Big Data Conference:大數(shù)據(jù)的分析和應(yīng)用。Big Data Retail Forum:一個(gè)為關(guān)注向零售商和消費(fèi)品生產(chǎn)商提供實(shí)時(shí)信息分析的公司服務(wù)的會(huì)議。Hadoop World:O,Reilly 贊助的會(huì)議。
(2)開放數(shù)據(jù)基會(huì)。www.opendatafoundation.org.這是一個(gè)致力于推進(jìn)全球元數(shù)據(jù)標(biāo)準(zhǔn)和發(fā)展開源統(tǒng)計(jì)數(shù)據(jù)的非營(yíng)利性組織,專注于提高在經(jīng)濟(jì)學(xué)、財(cái)政、醫(yī)療、教育、勞動(dòng)、社會(huì)科學(xué)、技術(shù)、農(nóng)業(yè)、發(fā)展和環(huán)境等領(lǐng)域中的元數(shù)據(jù)。
(3)供應(yīng)商的網(wǎng)站,主要是看公司的思想領(lǐng)袖博客。
Google:http://research.google.com
Amazon:http://aws.amazon.com/big-data
IBM:http://bigdatauniversity.com/
http://www-01.ibm.com/software/data/digdata
SAS institute:http://www.sas.com
DA:平時(shí)工作之余都做些什么呢?有什么特長(zhǎng)愛好呢?
李敏:我的一大愛好是旅游,希望游遍世界各地、吃遍世界美食。另外就是唱歌了,我是上海市醫(yī)務(wù)系統(tǒng)天使合唱團(tuán)的女高音。
DA:最后,方便留下您的聯(lián)系方式以便交流嗎?(建議大家直接在后臺(tái)提問,我們會(huì)統(tǒng)一整理并反饋給被訪者,這樣彼此都能節(jié)約時(shí)間提高效率。)
李敏:QQ:2307931184
Tel:18916269881
Email:minliji@aliyun.com
DA:謝謝您。今天的采訪到此結(jié)束,我們?cè)贂?huì)。
后記:這是“每天一個(gè)數(shù)據(jù)分析師”的第九期采訪,非常感謝受訪的各位老師以及訂閱讀者向我們提出的各種建議,我們期待更多的聲音!我們計(jì)劃每天采訪一個(gè)數(shù)據(jù)分析師(覆蓋各行各業(yè)),聽TA在從業(yè)路上的故事,講TA在工作中遇到的種種困難以及采取的解決方案。歡迎大家踴躍推薦或者自薦。聯(lián)系我們請(qǐng)直接在微信留言或發(fā)郵件到:adaaday@pinggu.org。
簡(jiǎn)介:我們是經(jīng)管之家(原人大經(jīng)濟(jì)論壇)CDA數(shù)據(jù)分析師培訓(xùn)旗下的公眾賬號(hào)“每天一個(gè)數(shù)據(jù)分析師“。旨在通過采訪數(shù)據(jù)分析師來講述數(shù)據(jù)分析在各行業(yè)應(yīng)用情況或其他重要問題,藉此展示分析師自身水平和風(fēng)采,打造個(gè)人品牌,助力升職加薪和求職。同時(shí)也讓社會(huì)公眾了解數(shù)據(jù)分析師這個(gè)群體。每一篇頭條專訪將會(huì)給您帶來大量關(guān)注,這是為您精心打造的炫麗舞臺(tái),請(qǐng)善用這個(gè)共同的平臺(tái)。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10