
“每天一個(gè)數(shù)據(jù)分析師”在第九期有幸采訪了李敏,她是管理科學(xué)與工程專業(yè)博士生,同時(shí)是中國(guó)首批數(shù)據(jù)建模師(CDA 2),目前在上海某三甲醫(yī)院工作。
DA:您是如何入行的?
李敏:2005年跟隨先生舉家搬遷并成為新上海人,到上海后由原來(lái)從事優(yōu)生優(yōu)育的技術(shù)人員轉(zhuǎn)到醫(yī)院的行政管理部門(mén),不適應(yīng),決心成為專業(yè)管理人士。于是從撰寫(xiě)醫(yī)院管理論文、開(kāi)展課題開(kāi)始一步一步走,要發(fā)表醫(yī)學(xué)論文就離不開(kāi)統(tǒng)計(jì)分析,越學(xué)越深入,自然而然就學(xué)習(xí)到數(shù)據(jù)挖掘技術(shù)了。后期又借助管理科學(xué)與工程專業(yè)博士學(xué)習(xí)深入接觸數(shù)據(jù)挖掘行業(yè)。同時(shí),非常幸運(yùn)的是,在我整個(gè)轉(zhuǎn)型期遇到了“指點(diǎn)的高人、相助的貴人”。
DA:您的工作經(jīng)歷,目前的工作職責(zé)(做哪塊),工作中曾做過(guò)的數(shù)據(jù)分析實(shí)例,以及您的職業(yè)規(guī)劃?
李敏:我是生在醫(yī)院、長(zhǎng)在醫(yī)院、工作在醫(yī)院,目前主要從事醫(yī)院內(nèi)部數(shù)據(jù)挖掘工作,曾經(jīng)做過(guò)患者畫(huà)像和患者疾病關(guān)聯(lián)規(guī)劃分析。我希望能致力于醫(yī)院數(shù)據(jù)挖掘工作,玩轉(zhuǎn)醫(yī)院內(nèi)部數(shù)據(jù),成為醫(yī)療行業(yè)優(yōu)秀數(shù)據(jù)分析師。
DA:能否給我們講講您在工作中遇到的印象深刻的困難及其背景成因?
李敏:大數(shù)據(jù)包括結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),通常數(shù)據(jù)量都非常大,處理起來(lái)相當(dāng)復(fù)雜。在我的數(shù)據(jù)挖掘工作中,獲取和使用高質(zhì)量數(shù)據(jù)非常重要。在我看來(lái),高質(zhì)量的數(shù)據(jù)主要有以下特征:(1)數(shù)據(jù)源可信。數(shù)據(jù)源有內(nèi)部和外部,外部數(shù)據(jù)源(如網(wǎng)上的社交媒體數(shù)據(jù))的數(shù)據(jù)有多值得信任?(2)不是“臟數(shù)據(jù)”。臟數(shù)據(jù)指不準(zhǔn)確、不完整、錯(cuò)誤的數(shù)據(jù),包括雜亂的數(shù)據(jù)、拼寫(xiě)錯(cuò)誤的單詞、壞掉的傳感器、不恰當(dāng)?shù)臉?biāo)準(zhǔn)、某種程度上被破壞的數(shù)據(jù)、重復(fù)的數(shù)據(jù)。(3)“信燥比”不低??捎眯畔?信號(hào))可能占數(shù)據(jù)中較大的比例,噪音不多。
數(shù)據(jù)清洗、字段擴(kuò)充后,我們?cè)谶M(jìn)入患者疾病關(guān)聯(lián)規(guī)則分析時(shí),遇到了很大的困難。我們發(fā)現(xiàn)疾病診斷名稱在500種以上,各患者患病各不相同,患病總不能像大家在超市商場(chǎng)那樣一購(gòu)買就購(gòu)買一車子商品吧?
DA:這個(gè)問(wèn)題最終是如何解決的呢?能否向廣大同行分享一下思路?
李敏:為解決這個(gè)問(wèn)題,首先,我們根據(jù)關(guān)聯(lián)規(guī)則挖掘出兩個(gè)子問(wèn)題:1.找出事物數(shù)據(jù)庫(kù)中所有大于等于用戶指定的最小支持度的頻繁項(xiàng)集。2.利用頻繁項(xiàng)集生成所有的關(guān)聯(lián)規(guī)則,根據(jù)用戶設(shè)定的最小置信度進(jìn)行取舍,最后得到強(qiáng)關(guān)聯(lián)規(guī)則。
第二步,根據(jù)C.H.Cai等人的加權(quán)關(guān)聯(lián)規(guī)則,即給每個(gè)項(xiàng)目分配了一個(gè)反應(yīng)其重要程度的權(quán)值,并給出了項(xiàng)目集和規(guī)則的加權(quán)支持度,從而擴(kuò)展了現(xiàn)有的關(guān)聯(lián)規(guī)則問(wèn)題模型。
第三步,在加權(quán)關(guān)聯(lián)規(guī)則算法計(jì)算支持度時(shí),既要考慮規(guī)則中所有項(xiàng)目在數(shù)據(jù)庫(kù)中同時(shí)出現(xiàn)的頻率,也要考慮所有項(xiàng)目的加權(quán)值。關(guān)聯(lián)規(guī)則算法中,以Agrawal R.等人提出的Apriori算法最為著名,即一個(gè)頻繁項(xiàng)目集的任一個(gè)集必定也是頻繁項(xiàng)目集,它是通過(guò)項(xiàng)目集元素?cái)?shù)目不斷增長(zhǎng)來(lái)逐步完成頻繁項(xiàng)目集發(fā)現(xiàn)的——首先產(chǎn)生1-頻繁項(xiàng)集L1,然后是2-頻繁項(xiàng)集L2,直到不再能擴(kuò)展頻繁項(xiàng)集的元素?cái)?shù)目而算法停止。在第K次循環(huán)中,過(guò)程先產(chǎn)生K-候選項(xiàng)集的集合CK,然后通過(guò)掃描數(shù)據(jù)庫(kù)生成支持度,并測(cè)試產(chǎn)生K-頻繁項(xiàng)集LK。
Apriori算法主要包括三個(gè)步驟:(1)由頻繁K-1項(xiàng)集通過(guò)自連接產(chǎn)生長(zhǎng)度為K的候選K項(xiàng)集CK。(2)對(duì)至少有一個(gè)非頻繁子集的候選項(xiàng)進(jìn)行剪枝。(3)掃描所有的事務(wù)來(lái)獲得候選項(xiàng)集的支持度。
因此,我們首先找出前6名主要診斷的疾病名;再確定常見(jiàn)20種輔助診斷疾病名,最后倒入Apriori算法,從而找到了比較有趣的規(guī)則,如肝炎后肝硬化患者與高血壓、糖尿病高度相關(guān),這更需要中國(guó)加快遠(yuǎn)程病人監(jiān)控的研究與應(yīng)用。
DA:請(qǐng)問(wèn)您對(duì)希望從事數(shù)據(jù)分析行業(yè)的職場(chǎng)人有哪些建議?
李敏:在我們開(kāi)始大數(shù)據(jù)之旅前,我們需要深刻理解以下內(nèi)容與步驟:
(1)理解目標(biāo),明確受益點(diǎn)或明確項(xiàng)目開(kāi)始。成立一個(gè)可以發(fā)展成為一個(gè)專門(mén)用來(lái)幫助各個(gè)部門(mén)進(jìn)行最佳的大數(shù)據(jù)實(shí)踐的團(tuán)隊(duì)。
(2)建立路線圖。路線圖就是行動(dòng)計(jì)劃,確保路線圖有一個(gè)合理的、可實(shí)現(xiàn)的基準(zhǔn)。
(3)發(fā)現(xiàn)數(shù)據(jù)。這個(gè)數(shù)據(jù)策略和計(jì)劃應(yīng)當(dāng)是找到一條能過(guò)利用數(shù)據(jù)來(lái)產(chǎn)生可預(yù)測(cè)業(yè)務(wù)產(chǎn)生的途徑。
(4)清楚缺少什么數(shù)據(jù)。當(dāng)開(kāi)始決定需要什么和缺少什么時(shí),鼓勵(lì)團(tuán)隊(duì)突破思維定勢(shì)是非常有益。
(5)理解可選技術(shù)方案。讓團(tuán)隊(duì)對(duì)這些技術(shù)擁有足夠深刻的理解有利于團(tuán)隊(duì)做出明智的選擇。(6)規(guī)劃大數(shù)據(jù)安全,應(yīng)防范公司外部和內(nèi)部的數(shù)據(jù)安全風(fēng)險(xiǎn)。
(7)規(guī)劃大數(shù)據(jù)管理策略。信息管理的意義在于建立一種能夠被員工、合作者和用戶信任的信息資源。
(8)規(guī)劃數(shù)據(jù)管家,如建立使用數(shù)據(jù)倉(cāng)庫(kù)。
(9)持續(xù)測(cè)試。不能假設(shè)數(shù)據(jù)總是對(duì)的,要持續(xù)測(cè)試數(shù)據(jù)和團(tuán)隊(duì)對(duì)業(yè)務(wù)的理解。
(10)學(xué)習(xí)最佳實(shí)踐和利用模式。隨著大數(shù)據(jù)的成熟,我們將能夠獲取更多被驗(yàn)證過(guò)的最佳實(shí)踐,用來(lái)增強(qiáng)我們的策略,使計(jì)劃執(zhí)行得更成功。
另外,我們還需要注意以下事情:
(1)要將所有業(yè)務(wù)單元都涵蓋在大數(shù)據(jù)戰(zhàn)略中。
(2)要評(píng)估所有的大數(shù)據(jù)分發(fā)模型。
(3)要將傳統(tǒng)數(shù)據(jù)源作為大數(shù)據(jù)戰(zhàn)略的一部分。
(4)要計(jì)劃持久化元數(shù)據(jù)。
(5)不要依賴于單一的大數(shù)據(jù)分析方法。
(6)不要在準(zhǔn)備充分之前就膨脹。
(7)不要忽略數(shù)據(jù)集成的需求。
(8)不要忘記安全地管理數(shù)據(jù)。
(9)不要忽略數(shù)據(jù)的管理效率。
DA:請(qǐng)您推薦一些平時(shí)在網(wǎng)絡(luò)上學(xué)習(xí)專業(yè)知識(shí)的平臺(tái)吧。
李敏:最早接觸數(shù)據(jù)挖掘是跟隨在人大經(jīng)濟(jì)論壇(現(xiàn)為經(jīng)管之家)學(xué)習(xí),從SPSS開(kāi)始學(xué)起,最終通過(guò)數(shù)據(jù)挖掘技術(shù)學(xué)習(xí)并獲得中國(guó)首批數(shù)據(jù)建模師資格(CDA 2)。平時(shí)一直關(guān)注“CDA數(shù)據(jù)分析師”欄目,上面信息新、內(nèi)容大多比較專業(yè),對(duì)從事數(shù)據(jù)挖掘技術(shù)人員是非常不錯(cuò)的選擇,并會(huì)推薦國(guó)外一些專業(yè)網(wǎng)站學(xué)習(xí)。高校圖書(shū)館也是一種選擇,我曾花了整整2天時(shí)間,把某高校圖書(shū)館關(guān)于數(shù)據(jù)挖掘的圖書(shū)全部鎖定放置書(shū)架的位置、圖書(shū)種類、數(shù)量;曾在2天時(shí)間內(nèi)泛讀20本書(shū)。當(dāng)然還必須花些時(shí)間精讀數(shù)據(jù)挖掘的理論、操作書(shū)籍并不斷上機(jī)練習(xí)。
另外再推薦幾個(gè)數(shù)據(jù)資源網(wǎng):
(1)大數(shù)據(jù)會(huì)議。The Data Warehousing Institute(TDWI),贊助很多關(guān)于數(shù)據(jù)倉(cāng)庫(kù)和大數(shù)據(jù)的會(huì)議、研討會(huì)和教育論壇。Big Data Conference:大數(shù)據(jù)的分析和應(yīng)用。Big Data Retail Forum:一個(gè)為關(guān)注向零售商和消費(fèi)品生產(chǎn)商提供實(shí)時(shí)信息分析的公司服務(wù)的會(huì)議。Hadoop World:O,Reilly 贊助的會(huì)議。
(2)開(kāi)放數(shù)據(jù)基會(huì)。www.opendatafoundation.org.這是一個(gè)致力于推進(jìn)全球元數(shù)據(jù)標(biāo)準(zhǔn)和發(fā)展開(kāi)源統(tǒng)計(jì)數(shù)據(jù)的非營(yíng)利性組織,專注于提高在經(jīng)濟(jì)學(xué)、財(cái)政、醫(yī)療、教育、勞動(dòng)、社會(huì)科學(xué)、技術(shù)、農(nóng)業(yè)、發(fā)展和環(huán)境等領(lǐng)域中的元數(shù)據(jù)。
(3)供應(yīng)商的網(wǎng)站,主要是看公司的思想領(lǐng)袖博客。
Google:http://research.google.com
Amazon:http://aws.amazon.com/big-data
IBM:http://bigdatauniversity.com/
http://www-01.ibm.com/software/data/digdata
SAS institute:http://www.sas.com
DA:平時(shí)工作之余都做些什么呢?有什么特長(zhǎng)愛(ài)好呢?
李敏:我的一大愛(ài)好是旅游,希望游遍世界各地、吃遍世界美食。另外就是唱歌了,我是上海市醫(yī)務(wù)系統(tǒng)天使合唱團(tuán)的女高音。
DA:最后,方便留下您的聯(lián)系方式以便交流嗎?(建議大家直接在后臺(tái)提問(wèn),我們會(huì)統(tǒng)一整理并反饋給被訪者,這樣彼此都能節(jié)約時(shí)間提高效率。)
李敏:QQ:2307931184
Tel:18916269881
Email:minliji@aliyun.com
DA:謝謝您。今天的采訪到此結(jié)束,我們?cè)贂?huì)。
后記:這是“每天一個(gè)數(shù)據(jù)分析師”的第九期采訪,非常感謝受訪的各位老師以及訂閱讀者向我們提出的各種建議,我們期待更多的聲音!我們計(jì)劃每天采訪一個(gè)數(shù)據(jù)分析師(覆蓋各行各業(yè)),聽(tīng)TA在從業(yè)路上的故事,講TA在工作中遇到的種種困難以及采取的解決方案。歡迎大家踴躍推薦或者自薦。聯(lián)系我們請(qǐng)直接在微信留言或發(fā)郵件到:adaaday@pinggu.org。
簡(jiǎn)介:我們是經(jīng)管之家(原人大經(jīng)濟(jì)論壇)CDA數(shù)據(jù)分析師培訓(xùn)旗下的公眾賬號(hào)“每天一個(gè)數(shù)據(jù)分析師“。旨在通過(guò)采訪數(shù)據(jù)分析師來(lái)講述數(shù)據(jù)分析在各行業(yè)應(yīng)用情況或其他重要問(wèn)題,藉此展示分析師自身水平和風(fēng)采,打造個(gè)人品牌,助力升職加薪和求職。同時(shí)也讓社會(huì)公眾了解數(shù)據(jù)分析師這個(gè)群體。每一篇頭條專訪將會(huì)給您帶來(lái)大量關(guān)注,這是為您精心打造的炫麗舞臺(tái),請(qǐng)善用這個(gè)共同的平臺(tái)。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03