
大數(shù)據(jù)挖掘是個(gè)什么鬼?先搞定以下五大關(guān)系
數(shù)據(jù)科學(xué)家”作為一個(gè)新興的名詞,他們主要是采用科學(xué)方法、運(yùn)用數(shù)據(jù)挖掘工具來(lái)做大數(shù)據(jù)洞察的工程師。一個(gè)優(yōu)秀的數(shù)據(jù)科學(xué)家需要具備諸如數(shù)據(jù)采集、模型算法、數(shù)學(xué)軟件、分析預(yù)測(cè)、市場(chǎng)應(yīng)用等多方面的素質(zhì)。如果你也想成為一名數(shù)據(jù)科學(xué)家,那么可以先從本文介紹的數(shù)據(jù)挖掘過(guò)程中的五個(gè)關(guān)系開(kāi)始,一點(diǎn)點(diǎn)探索整個(gè)數(shù)據(jù)挖掘的藍(lán)圖。
1.樣本與總量
相信大家讀書(shū)的時(shí)候,數(shù)學(xué)老師曾經(jīng)扔給你一批樣本數(shù)據(jù),然后讓你去根據(jù)課堂上的知識(shí)做個(gè)分析或者建個(gè)模型,當(dāng)時(shí)大家心里有沒(méi)有想過(guò),自己拿這么點(diǎn)數(shù)據(jù)分析出來(lái)的結(jié)果到底能用到實(shí)際中去么?其實(shí)平常工作學(xué)習(xí)中,我們?cè)?a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘或建模的時(shí)候,采用的往往是樣本數(shù)據(jù)而非總體數(shù)據(jù)。以貸款業(yè)務(wù)為例,一個(gè)P2P貸款公司只有曾在其公司有過(guò)貸款行為的客戶(hù)的數(shù)據(jù),而這些客戶(hù)是所有貸款客戶(hù)的一個(gè)樣本。那么,有很多人就會(huì)擔(dān)心這樣一個(gè)問(wèn)題:采用這樣的樣本數(shù)據(jù)訓(xùn)練模型是否會(huì)對(duì)結(jié)果造成影響?
這個(gè)問(wèn)題的答案取決于樣本大小和樣本偏差。 首先來(lái)聊聊樣本大小。
假設(shè)我們要做一個(gè)信用評(píng)分模型,這個(gè)模型以某一客戶(hù)群體的數(shù)據(jù)作為訓(xùn)練樣本。假設(shè)每個(gè)客戶(hù)由性別和職業(yè)兩個(gè)變量來(lái)描述,如果性別有2種取值,而職業(yè)有18種取值,則描述這個(gè)客戶(hù)群體的特征分布需要2*18=36個(gè)參數(shù)。在這種情況下,如果僅有幾百個(gè)樣本,那么樣本量恐怕是不足夠的。
一般來(lái)說(shuō),描述客戶(hù)群體的維度越多,需要的樣本量也越大。如果每個(gè)客戶(hù)由K個(gè)變量表示,而每個(gè)變量有V種取值,則描述這個(gè)群體的特征分布需要O(K^V)個(gè)參數(shù),需要樣本量至少為10^2~10^3*O(K^V)。 再來(lái)聊聊樣本偏差。
如果所抽取的樣本不是隨機(jī)的,那么無(wú)論其選擇的樣本量有多大,則根據(jù)這些樣本數(shù)據(jù)所估計(jì)的參數(shù)就不能準(zhǔn)確反映所研究的總體性質(zhì)的分布,這種情況下樣本存在偏差。
樣本偏差在實(shí)際問(wèn)題中是不可避免的。還是以貸款業(yè)務(wù)為例,一個(gè)針對(duì)大學(xué)生群體的P2P公司的樣本數(shù)據(jù)與貸款客戶(hù)的總體數(shù)據(jù)是有偏差的。如果用存在偏差的樣本訓(xùn)練風(fēng)險(xiǎn)評(píng)分模型,那么其在總客戶(hù)群體上的表現(xiàn)可能一般。這種情況下,可以通過(guò)對(duì)樣本加權(quán)重的方法來(lái)調(diào)整其特征分布,從而修正樣本偏差。
2.數(shù)據(jù)質(zhì)量與模型選擇
聊完數(shù)據(jù)樣本的問(wèn)題,我們接著看看數(shù)據(jù)質(zhì)量和模型選擇的關(guān)系。人們常說(shuō)garbage in garbage out. 所以有人要說(shuō):“數(shù)據(jù)質(zhì)量最重要!模型是浮云”這個(gè)時(shí)候,每天研究各種模型算法的人抬頭看一眼那哥們兒,怒火中燒。那么這兩者到底什么關(guān)系呢?其實(shí),數(shù)據(jù)質(zhì)量和模型選擇是實(shí)現(xiàn)準(zhǔn)確預(yù)測(cè)的關(guān)鍵。數(shù)據(jù)質(zhì)量決定了預(yù)測(cè)準(zhǔn)確性的上限,而模型選擇(包括參數(shù)調(diào)優(yōu))決定了如何達(dá)到上限。數(shù)據(jù)質(zhì)量包括三個(gè)方面:一個(gè)是數(shù)據(jù)的長(zhǎng)度,即有多少數(shù)據(jù)能夠供我們分析使用,另外一個(gè)是數(shù)據(jù)的寬度,即數(shù)據(jù)的信息量是否全面。最后一個(gè)是數(shù)據(jù)的飽和度,即對(duì)于每一個(gè)研究的單元對(duì)象,其信息是否都真實(shí)反應(yīng)了本體,而不存在大量缺失。訓(xùn)練數(shù)據(jù)集的質(zhì)量直接決定了模型的可靠程度,故數(shù)據(jù)質(zhì)量測(cè)試、數(shù)據(jù)清洗是在建立模型之前不可或缺的一步。
為了實(shí)現(xiàn)某一個(gè)商業(yè)目標(biāo),有很多模型可以作為候選。例如解決最常見(jiàn)的分類(lèi)預(yù)測(cè)問(wèn)題時(shí),有非常多的備選的模型:線性回歸模型(邏輯回歸)、概率圖模型(Tree-augmented na?ve bayes)、深度學(xué)習(xí)模型等。然后可以通過(guò)KS、AUC等指標(biāo),調(diào)整模型中的參數(shù),從而提高其表現(xiàn)。在數(shù)據(jù)挖掘競(jìng)賽中,單個(gè)模型表現(xiàn)往往中庸,而一個(gè)廣泛采用的策略是通過(guò)多模型混合來(lái)提升預(yù)測(cè)的穩(wěn)定性和表現(xiàn)。
然而,相對(duì)數(shù)學(xué)模型,數(shù)據(jù)質(zhì)量乃是最關(guān)鍵的要素。一個(gè)數(shù)據(jù)挖掘工程師可能80%的時(shí)間用在篩選變量和清洗數(shù)據(jù)上。在現(xiàn)實(shí)環(huán)境中,我們首要的是經(jīng)常問(wèn)這樣一個(gè)問(wèn)題:“where is the data?”
3.模型準(zhǔn)確性和模型可解釋性
有時(shí)候會(huì)發(fā)生這樣一個(gè)場(chǎng)景:建模型的人欣喜若狂的拿著個(gè)評(píng)分卡模型去給業(yè)務(wù)部門(mén)看,驕傲的說(shuō)了一通自己的模型有多牛逼,能如何準(zhǔn)確地發(fā)現(xiàn)潛在風(fēng)險(xiǎn)違約客戶(hù)。結(jié)果業(yè)務(wù)部門(mén)的人一臉困惑的問(wèn)了一句:“我拿你這個(gè)結(jié)果拒絕了客戶(hù)的話,我要怎么跟客戶(hù)解釋原因?”這里模型的準(zhǔn)確性指的是能否準(zhǔn)確地發(fā)現(xiàn)潛在風(fēng)險(xiǎn)違約客戶(hù),而模型的可解釋性指的是如何理解模型評(píng)分,即,如果一個(gè)客戶(hù)的信用評(píng)分為400分,那么是什么造成了他的分?jǐn)?shù)比較低的。
通常情況下,模型的準(zhǔn)確性和模型的可解釋性是不可兼得的。模型越簡(jiǎn)單,則其越容易理解,但簡(jiǎn)單的模型預(yù)測(cè)準(zhǔn)確性往往不好,例如,決策樹(shù)模型可以讓人一目了然的知道哪個(gè)群體的人存在風(fēng)險(xiǎn),但其表現(xiàn)往往在所有模型中墊底。而一些非參數(shù)模型(如隨機(jī)森林等),其規(guī)則復(fù)雜到難以用自然語(yǔ)言描述,無(wú)法直觀的被人理解,但其預(yù)測(cè)效果卻很優(yōu)秀。
那么,在兩者不可兼得的情況下,我們應(yīng)該更重視模型的準(zhǔn)確性還是其可解釋性?相信很多人會(huì)認(rèn)為準(zhǔn)確性更重要。的確,在大多數(shù)數(shù)據(jù)挖掘競(jìng)賽中,模型算法是通過(guò)其準(zhǔn)確性來(lái)衡量?jī)?yōu)劣的。這很容易理解,如果一個(gè)P2P借貸公司完全依靠評(píng)分卡模型來(lái)做準(zhǔn)入審核,那么模型的準(zhǔn)確性會(huì)直接影響到貸后的違約率,直接決定了這個(gè)公司的CEO是要跑路還是走向人生巔峰。
然而實(shí)際情況是,評(píng)分卡模型僅僅是其準(zhǔn)入審核的一個(gè)環(huán)節(jié),在初篩之后,風(fēng)控專(zhuān)家會(huì)對(duì)評(píng)分卡模型不能有效分辨好壞的客戶(hù)進(jìn)行人工審核。人工審核的過(guò)程不僅會(huì)全面收集客戶(hù)的信息,更需要通過(guò)話術(shù)策略有效的鑒別客戶(hù)所提供信息是否虛假。例如,在照會(huì)過(guò)程中,風(fēng)控人員可能會(huì)故意將客戶(hù)提供的一些資料說(shuō)錯(cuò)而觀察其反應(yīng)等。
在這種情況下,模型的可解釋性就變的尤為重要。設(shè)想,如果一個(gè)評(píng)分卡模型不僅能告訴風(fēng)控人員客戶(hù)的潛在違約率,更可以幫風(fēng)控人員在錯(cuò)綜復(fù)雜的客戶(hù)數(shù)據(jù)中梳理出一條明晰的調(diào)查線索,告訴風(fēng)控專(zhuān)家應(yīng)該著重調(diào)查客戶(hù)的哪個(gè)方面以及客戶(hù)之前提供的信息有哪些初看起來(lái)正常但實(shí)際自相矛盾的地方,這將對(duì)提高風(fēng)險(xiǎn)控制能力有很大作用。
4.統(tǒng)計(jì)分析和數(shù)據(jù)挖掘
統(tǒng)計(jì)分析與數(shù)據(jù)挖掘都是商業(yè)智能的一方面。統(tǒng)計(jì)分析是運(yùn)用統(tǒng)計(jì)方法,基于假設(shè)分布和假設(shè)檢驗(yàn)的理論方法,總結(jié)數(shù)據(jù)與基礎(chǔ)群體之間的聯(lián)系并做預(yù)測(cè)。數(shù)據(jù)挖掘是基于訓(xùn)練(Training)、驗(yàn)證(Validation)、測(cè)試(Test)數(shù)據(jù)集的關(guān)聯(lián),通過(guò)算法,搜索出隱藏于其中的信息。統(tǒng)計(jì)分析需要更多的概率分布假定,而數(shù)據(jù)挖掘更注重驗(yàn)證結(jié)果的可靠性。但是兩者往往互通互容、相互支持,之間并沒(méi)有明確的界限。
5.當(dāng)前模型和模型迭代
人類(lèi)的行為模式在科技發(fā)展的今天是在不斷演變的,所以當(dāng)前模型只能反應(yīng)出過(guò)去的歷史規(guī)律和判斷,且一般都有一個(gè)有效期。模型迭代是保證模型有效性的必然步驟。
在迭代模型的過(guò)程中,需要在風(fēng)險(xiǎn)管理階段對(duì)上一階段的執(zhí)行情況作出判斷、規(guī)劃下一步的執(zhí)行內(nèi)容、評(píng)估風(fēng)險(xiǎn)及控制時(shí)間與資源。
最后,送給大家三句秘籍:
在最終的分析中,所有知識(shí)皆為歷史
在抽象的意義下,所有科學(xué)皆為數(shù)學(xué)
在理性的世界里,所有判斷皆為統(tǒng)計(jì)
這三句秘籍可不是我說(shuō)的,是來(lái)自印度的傳奇數(shù)學(xué)家拉曼努楊。我想,只有那些優(yōu)秀的“數(shù)據(jù)科學(xué)家”,方能深切體會(huì)上面三句話的含義。在漫漫歷史長(zhǎng)河里,所有的判斷結(jié)論皆為概率存在,這也是這個(gè)世界之所以迷人的終極原因。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03