99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀疾病診斷名稱500種以上,各患者患病各不相同,巧用Apriori算法找患者疾病關(guān)聯(lián)
疾病診斷名稱500種以上,各患者患病各不相同,巧用Apriori算法找患者疾病關(guān)聯(lián)
2016-03-02
收藏

“每天一個(gè)數(shù)據(jù)分析師”在第九期有幸采訪了李敏,她是管理科學(xué)與工程專業(yè)博士生,同時(shí)是中國(guó)首批數(shù)據(jù)建模師(CDA 2),目前在上海某三甲醫(yī)院工作。


DA:您是如何入行的?


李敏:2005年跟隨先生舉家搬遷并成為新上海人,到上海后由原來(lái)從事優(yōu)生優(yōu)育的技術(shù)人員轉(zhuǎn)到醫(yī)院的行政管理部門(mén),不適應(yīng),決心成為專業(yè)管理人士。于是從撰寫(xiě)醫(yī)院管理論文、開(kāi)展課題開(kāi)始一步一步走,要發(fā)表醫(yī)學(xué)論文就離不開(kāi)統(tǒng)計(jì)分析,越學(xué)越深入,自然而然就學(xué)習(xí)到數(shù)據(jù)挖掘技術(shù)了。后期又借助管理科學(xué)與工程專業(yè)博士學(xué)習(xí)深入接觸數(shù)據(jù)挖掘行業(yè)。同時(shí),非常幸運(yùn)的是,在我整個(gè)轉(zhuǎn)型期遇到了“指點(diǎn)的高人、相助的貴人”。


DA:您的工作經(jīng)歷,目前的工作職責(zé)(做哪塊),工作中曾做過(guò)的數(shù)據(jù)分析實(shí)例,以及您的職業(yè)規(guī)劃?


李敏:我是生在醫(yī)院、長(zhǎng)在醫(yī)院、工作在醫(yī)院,目前主要從事醫(yī)院內(nèi)部數(shù)據(jù)挖掘工作,曾經(jīng)做過(guò)患者畫(huà)像和患者疾病關(guān)聯(lián)規(guī)劃分析。我希望能致力于醫(yī)院數(shù)據(jù)挖掘工作,玩轉(zhuǎn)醫(yī)院內(nèi)部數(shù)據(jù),成為醫(yī)療行業(yè)優(yōu)秀數(shù)據(jù)分析師。


DA:能否給我們講講您在工作中遇到的印象深刻的困難及其背景成因?


李敏:大數(shù)據(jù)包括結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),通常數(shù)據(jù)量都非常大,處理起來(lái)相當(dāng)復(fù)雜。在我的數(shù)據(jù)挖掘工作中,獲取和使用高質(zhì)量數(shù)據(jù)非常重要。在我看來(lái),高質(zhì)量的數(shù)據(jù)主要有以下特征:(1)數(shù)據(jù)源可信。數(shù)據(jù)源有內(nèi)部和外部,外部數(shù)據(jù)源(如網(wǎng)上的社交媒體數(shù)據(jù))的數(shù)據(jù)有多值得信任?(2)不是“臟數(shù)據(jù)”。臟數(shù)據(jù)指不準(zhǔn)確、不完整、錯(cuò)誤的數(shù)據(jù),包括雜亂的數(shù)據(jù)、拼寫(xiě)錯(cuò)誤的單詞、壞掉的傳感器、不恰當(dāng)?shù)臉?biāo)準(zhǔn)、某種程度上被破壞的數(shù)據(jù)、重復(fù)的數(shù)據(jù)。(3)“信燥比”不低??捎眯畔?信號(hào))可能占數(shù)據(jù)中較大的比例,噪音不多。


數(shù)據(jù)清洗、字段擴(kuò)充后,我們?cè)谶M(jìn)入患者疾病關(guān)聯(lián)規(guī)則分析時(shí),遇到了很大的困難。我們發(fā)現(xiàn)疾病診斷名稱在500種以上,各患者患病各不相同,患病總不能像大家在超市商場(chǎng)那樣一購(gòu)買就購(gòu)買一車子商品吧?


DA:這個(gè)問(wèn)題最終是如何解決的呢?能否向廣大同行分享一下思路?


李敏:為解決這個(gè)問(wèn)題,首先,我們根據(jù)關(guān)聯(lián)規(guī)則挖掘出兩個(gè)子問(wèn)題:1.找出事物數(shù)據(jù)庫(kù)中所有大于等于用戶指定的最小支持度的頻繁項(xiàng)集。2.利用頻繁項(xiàng)集生成所有的關(guān)聯(lián)規(guī)則,根據(jù)用戶設(shè)定的最小置信度進(jìn)行取舍,最后得到強(qiáng)關(guān)聯(lián)規(guī)則。


第二步,根據(jù)C.H.Cai等人的加權(quán)關(guān)聯(lián)規(guī)則,即給每個(gè)項(xiàng)目分配了一個(gè)反應(yīng)其重要程度的權(quán)值,并給出了項(xiàng)目集和規(guī)則的加權(quán)支持度,從而擴(kuò)展了現(xiàn)有的關(guān)聯(lián)規(guī)則問(wèn)題模型。


第三步,在加權(quán)關(guān)聯(lián)規(guī)則算法計(jì)算支持度時(shí),既要考慮規(guī)則中所有項(xiàng)目在數(shù)據(jù)庫(kù)中同時(shí)出現(xiàn)的頻率,也要考慮所有項(xiàng)目的加權(quán)值。關(guān)聯(lián)規(guī)則算法中,以Agrawal R.等人提出的Apriori算法最為著名,即一個(gè)頻繁項(xiàng)目集的任一個(gè)集必定也是頻繁項(xiàng)目集,它是通過(guò)項(xiàng)目集元素?cái)?shù)目不斷增長(zhǎng)來(lái)逐步完成頻繁項(xiàng)目集發(fā)現(xiàn)的——首先產(chǎn)生1-頻繁項(xiàng)集L1,然后是2-頻繁項(xiàng)集L2,直到不再能擴(kuò)展頻繁項(xiàng)集的元素?cái)?shù)目而算法停止。在第K次循環(huán)中,過(guò)程先產(chǎn)生K-候選項(xiàng)集的集合CK,然后通過(guò)掃描數(shù)據(jù)庫(kù)生成支持度,并測(cè)試產(chǎn)生K-頻繁項(xiàng)集LK。


Apriori算法主要包括三個(gè)步驟:(1)由頻繁K-1項(xiàng)集通過(guò)自連接產(chǎn)生長(zhǎng)度為K的候選K項(xiàng)集CK。(2)對(duì)至少有一個(gè)非頻繁子集的候選項(xiàng)進(jìn)行剪枝。(3)掃描所有的事務(wù)來(lái)獲得候選項(xiàng)集的支持度。


因此,我們首先找出前6名主要診斷的疾病名;再確定常見(jiàn)20種輔助診斷疾病名,最后倒入Apriori算法,從而找到了比較有趣的規(guī)則,如肝炎后肝硬化患者與高血壓、糖尿病高度相關(guān),這更需要中國(guó)加快遠(yuǎn)程病人監(jiān)控的研究與應(yīng)用。


DA:請(qǐng)問(wèn)您對(duì)希望從事數(shù)據(jù)分析行業(yè)的職場(chǎng)人有哪些建議?


李敏:在我們開(kāi)始大數(shù)據(jù)之旅前,我們需要深刻理解以下內(nèi)容與步驟:

(1)理解目標(biāo),明確受益點(diǎn)或明確項(xiàng)目開(kāi)始。成立一個(gè)可以發(fā)展成為一個(gè)專門(mén)用來(lái)幫助各個(gè)部門(mén)進(jìn)行最佳的大數(shù)據(jù)實(shí)踐的團(tuán)隊(duì)。

(2)建立路線圖。路線圖就是行動(dòng)計(jì)劃,確保路線圖有一個(gè)合理的、可實(shí)現(xiàn)的基準(zhǔn)。

(3)發(fā)現(xiàn)數(shù)據(jù)。這個(gè)數(shù)據(jù)策略和計(jì)劃應(yīng)當(dāng)是找到一條能過(guò)利用數(shù)據(jù)來(lái)產(chǎn)生可預(yù)測(cè)業(yè)務(wù)產(chǎn)生的途徑。

(4)清楚缺少什么數(shù)據(jù)。當(dāng)開(kāi)始決定需要什么和缺少什么時(shí),鼓勵(lì)團(tuán)隊(duì)突破思維定勢(shì)是非常有益。

(5)理解可選技術(shù)方案。讓團(tuán)隊(duì)對(duì)這些技術(shù)擁有足夠深刻的理解有利于團(tuán)隊(duì)做出明智的選擇。(6)規(guī)劃大數(shù)據(jù)安全,應(yīng)防范公司外部和內(nèi)部的數(shù)據(jù)安全風(fēng)險(xiǎn)。

(7)規(guī)劃大數(shù)據(jù)管理策略。信息管理的意義在于建立一種能夠被員工、合作者和用戶信任的信息資源。

(8)規(guī)劃數(shù)據(jù)管家,如建立使用數(shù)據(jù)倉(cāng)庫(kù)。

(9)持續(xù)測(cè)試。不能假設(shè)數(shù)據(jù)總是對(duì)的,要持續(xù)測(cè)試數(shù)據(jù)和團(tuán)隊(duì)對(duì)業(yè)務(wù)的理解。

(10)學(xué)習(xí)最佳實(shí)踐和利用模式。隨著大數(shù)據(jù)的成熟,我們將能夠獲取更多被驗(yàn)證過(guò)的最佳實(shí)踐,用來(lái)增強(qiáng)我們的策略,使計(jì)劃執(zhí)行得更成功。


另外,我們還需要注意以下事情:

(1)要將所有業(yè)務(wù)單元都涵蓋在大數(shù)據(jù)戰(zhàn)略中。

(2)要評(píng)估所有的大數(shù)據(jù)分發(fā)模型。

(3)要將傳統(tǒng)數(shù)據(jù)源作為大數(shù)據(jù)戰(zhàn)略的一部分。

(4)要計(jì)劃持久化元數(shù)據(jù)。

(5)不要依賴于單一的大數(shù)據(jù)分析方法。

(6)不要在準(zhǔn)備充分之前就膨脹。

(7)不要忽略數(shù)據(jù)集成的需求。

(8)不要忘記安全地管理數(shù)據(jù)。

(9)不要忽略數(shù)據(jù)的管理效率。


DA:請(qǐng)您推薦一些平時(shí)在網(wǎng)絡(luò)上學(xué)習(xí)專業(yè)知識(shí)的平臺(tái)吧。


李敏:最早接觸數(shù)據(jù)挖掘是跟隨在人大經(jīng)濟(jì)論壇(現(xiàn)為經(jīng)管之家)學(xué)習(xí),從SPSS開(kāi)始學(xué)起,最終通過(guò)數(shù)據(jù)挖掘技術(shù)學(xué)習(xí)并獲得中國(guó)首批數(shù)據(jù)建模師資格(CDA 2)。平時(shí)一直關(guān)注“CDA數(shù)據(jù)分析師”欄目,上面信息新、內(nèi)容大多比較專業(yè),對(duì)從事數(shù)據(jù)挖掘技術(shù)人員是非常不錯(cuò)的選擇,并會(huì)推薦國(guó)外一些專業(yè)網(wǎng)站學(xué)習(xí)。高校圖書(shū)館也是一種選擇,我曾花了整整2天時(shí)間,把某高校圖書(shū)館關(guān)于數(shù)據(jù)挖掘的圖書(shū)全部鎖定放置書(shū)架的位置、圖書(shū)種類、數(shù)量;曾在2天時(shí)間內(nèi)泛讀20本書(shū)。當(dāng)然還必須花些時(shí)間精讀數(shù)據(jù)挖掘的理論、操作書(shū)籍并不斷上機(jī)練習(xí)。


另外再推薦幾個(gè)數(shù)據(jù)資源網(wǎng):

(1)大數(shù)據(jù)會(huì)議。The Data Warehousing Institute(TDWI),贊助很多關(guān)于數(shù)據(jù)倉(cāng)庫(kù)和大數(shù)據(jù)的會(huì)議、研討會(huì)和教育論壇。Big Data Conference:大數(shù)據(jù)的分析和應(yīng)用。Big Data Retail Forum:一個(gè)為關(guān)注向零售商和消費(fèi)品生產(chǎn)商提供實(shí)時(shí)信息分析的公司服務(wù)的會(huì)議。Hadoop World:O,Reilly 贊助的會(huì)議。


(2)開(kāi)放數(shù)據(jù)基會(huì)。www.opendatafoundation.org.這是一個(gè)致力于推進(jìn)全球元數(shù)據(jù)標(biāo)準(zhǔn)和發(fā)展開(kāi)源統(tǒng)計(jì)數(shù)據(jù)的非營(yíng)利性組織,專注于提高在經(jīng)濟(jì)學(xué)、財(cái)政、醫(yī)療、教育、勞動(dòng)、社會(huì)科學(xué)、技術(shù)、農(nóng)業(yè)、發(fā)展和環(huán)境等領(lǐng)域中的元數(shù)據(jù)。


(3)供應(yīng)商的網(wǎng)站,主要是看公司的思想領(lǐng)袖博客。

Google:http://research.google.com

Amazon:http://aws.amazon.com/big-data

IBM:http://bigdatauniversity.com/

http://www-01.ibm.com/software/data/digdata

SAS institute:http://www.sas.com


DA:平時(shí)工作之余都做些什么呢?有什么特長(zhǎng)愛(ài)好呢?


李敏:我的一大愛(ài)好是旅游,希望游遍世界各地、吃遍世界美食。另外就是唱歌了,我是上海市醫(yī)務(wù)系統(tǒng)天使合唱團(tuán)的女高音。


DA:最后,方便留下您的聯(lián)系方式以便交流嗎?(建議大家直接在后臺(tái)提問(wèn),我們會(huì)統(tǒng)一整理并反饋給被訪者,這樣彼此都能節(jié)約時(shí)間提高效率。)


李敏:QQ:2307931184

Tel:18916269881

Email:minliji@aliyun.com


DA:謝謝您。今天的采訪到此結(jié)束,我們?cè)贂?huì)。


后記:這是“每天一個(gè)數(shù)據(jù)分析師”的第九期采訪,非常感謝受訪的各位老師以及訂閱讀者向我們提出的各種建議,我們期待更多的聲音!我們計(jì)劃每天采訪一個(gè)數(shù)據(jù)分析師(覆蓋各行各業(yè)),聽(tīng)TA在從業(yè)路上的故事,講TA在工作中遇到的種種困難以及采取的解決方案。歡迎大家踴躍推薦或者自薦。聯(lián)系我們請(qǐng)直接在微信留言或發(fā)郵件到:adaaday@pinggu.org。


簡(jiǎn)介:我們是經(jīng)管之家(原人大經(jīng)濟(jì)論壇)CDA數(shù)據(jù)分析師培訓(xùn)旗下的公眾賬號(hào)“每天一個(gè)數(shù)據(jù)分析師“。旨在通過(guò)采訪數(shù)據(jù)分析師來(lái)講述數(shù)據(jù)分析在各行業(yè)應(yīng)用情況或其他重要問(wèn)題,藉此展示分析師自身水平和風(fēng)采,打造個(gè)人品牌,助力升職加薪和求職。同時(shí)也讓社會(huì)公眾了解數(shù)據(jù)分析師這個(gè)群體。每一篇頭條專訪將會(huì)給您帶來(lái)大量關(guān)注,這是為您精心打造的炫麗舞臺(tái),請(qǐng)善用這個(gè)共同的平臺(tái)。

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }