
大數(shù)據(jù)挖掘是個(gè)什么鬼?先搞定以下五大關(guān)系
數(shù)據(jù)科學(xué)家”作為一個(gè)新興的名詞,他們主要是采用科學(xué)方法、運(yùn)用數(shù)據(jù)挖掘工具來(lái)做大數(shù)據(jù)洞察的工程師。一個(gè)優(yōu)秀的數(shù)據(jù)科學(xué)家需要具備諸如數(shù)據(jù)采集、模型算法、數(shù)學(xué)軟件、分析預(yù)測(cè)、市場(chǎng)應(yīng)用等多方面的素質(zhì)。如果你也想成為一名數(shù)據(jù)科學(xué)家,那么可以先從本文介紹的數(shù)據(jù)挖掘過(guò)程中的五個(gè)關(guān)系開(kāi)始,一點(diǎn)點(diǎn)探索整個(gè)數(shù)據(jù)挖掘的藍(lán)圖。
1.樣本與總量
相信大家讀書(shū)的時(shí)候,數(shù)學(xué)老師曾經(jīng)扔給你一批樣本數(shù)據(jù),然后讓你去根據(jù)課堂上的知識(shí)做個(gè)分析或者建個(gè)模型,當(dāng)時(shí)大家心里有沒(méi)有想過(guò),自己拿這么點(diǎn)數(shù)據(jù)分析出來(lái)的結(jié)果到底能用到實(shí)際中去么?其實(shí)平常工作學(xué)習(xí)中,我們?cè)?a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘或建模的時(shí)候,采用的往往是樣本數(shù)據(jù)而非總體數(shù)據(jù)。以貸款業(yè)務(wù)為例,一個(gè)P2P貸款公司只有曾在其公司有過(guò)貸款行為的客戶的數(shù)據(jù),而這些客戶是所有貸款客戶的一個(gè)樣本。那么,有很多人就會(huì)擔(dān)心這樣一個(gè)問(wèn)題:采用這樣的樣本數(shù)據(jù)訓(xùn)練模型是否會(huì)對(duì)結(jié)果造成影響?
這個(gè)問(wèn)題的答案取決于樣本大小和樣本偏差。 首先來(lái)聊聊樣本大小。
假設(shè)我們要做一個(gè)信用評(píng)分模型,這個(gè)模型以某一客戶群體的數(shù)據(jù)作為訓(xùn)練樣本。假設(shè)每個(gè)客戶由性別和職業(yè)兩個(gè)變量來(lái)描述,如果性別有2種取值,而職業(yè)有18種取值,則描述這個(gè)客戶群體的特征分布需要2*18=36個(gè)參數(shù)。在這種情況下,如果僅有幾百個(gè)樣本,那么樣本量恐怕是不足夠的。
一般來(lái)說(shuō),描述客戶群體的維度越多,需要的樣本量也越大。如果每個(gè)客戶由K個(gè)變量表示,而每個(gè)變量有V種取值,則描述這個(gè)群體的特征分布需要O(K^V)個(gè)參數(shù),需要樣本量至少為10^2~10^3*O(K^V)。 再來(lái)聊聊樣本偏差。
如果所抽取的樣本不是隨機(jī)的,那么無(wú)論其選擇的樣本量有多大,則根據(jù)這些樣本數(shù)據(jù)所估計(jì)的參數(shù)就不能準(zhǔn)確反映所研究的總體性質(zhì)的分布,這種情況下樣本存在偏差。
樣本偏差在實(shí)際問(wèn)題中是不可避免的。還是以貸款業(yè)務(wù)為例,一個(gè)針對(duì)大學(xué)生群體的P2P公司的樣本數(shù)據(jù)與貸款客戶的總體數(shù)據(jù)是有偏差的。如果用存在偏差的樣本訓(xùn)練風(fēng)險(xiǎn)評(píng)分模型,那么其在總客戶群體上的表現(xiàn)可能一般。這種情況下,可以通過(guò)對(duì)樣本加權(quán)重的方法來(lái)調(diào)整其特征分布,從而修正樣本偏差。
2.數(shù)據(jù)質(zhì)量與模型選擇
聊完數(shù)據(jù)樣本的問(wèn)題,我們接著看看數(shù)據(jù)質(zhì)量和模型選擇的關(guān)系。人們常說(shuō)garbage in garbage out. 所以有人要說(shuō):“數(shù)據(jù)質(zhì)量最重要!模型是浮云”這個(gè)時(shí)候,每天研究各種模型算法的人抬頭看一眼那哥們兒,怒火中燒。那么這兩者到底什么關(guān)系呢?其實(shí),數(shù)據(jù)質(zhì)量和模型選擇是實(shí)現(xiàn)準(zhǔn)確預(yù)測(cè)的關(guān)鍵。數(shù)據(jù)質(zhì)量決定了預(yù)測(cè)準(zhǔn)確性的上限,而模型選擇(包括參數(shù)調(diào)優(yōu))決定了如何達(dá)到上限。數(shù)據(jù)質(zhì)量包括三個(gè)方面:一個(gè)是數(shù)據(jù)的長(zhǎng)度,即有多少數(shù)據(jù)能夠供我們分析使用,另外一個(gè)是數(shù)據(jù)的寬度,即數(shù)據(jù)的信息量是否全面。最后一個(gè)是數(shù)據(jù)的飽和度,即對(duì)于每一個(gè)研究的單元對(duì)象,其信息是否都真實(shí)反應(yīng)了本體,而不存在大量缺失。訓(xùn)練數(shù)據(jù)集的質(zhì)量直接決定了模型的可靠程度,故數(shù)據(jù)質(zhì)量測(cè)試、數(shù)據(jù)清洗是在建立模型之前不可或缺的一步。
為了實(shí)現(xiàn)某一個(gè)商業(yè)目標(biāo),有很多模型可以作為候選。例如解決最常見(jiàn)的分類預(yù)測(cè)問(wèn)題時(shí),有非常多的備選的模型:線性回歸模型(邏輯回歸)、概率圖模型(Tree-augmented na?ve bayes)、深度學(xué)習(xí)模型等。然后可以通過(guò)KS、AUC等指標(biāo),調(diào)整模型中的參數(shù),從而提高其表現(xiàn)。在數(shù)據(jù)挖掘競(jìng)賽中,單個(gè)模型表現(xiàn)往往中庸,而一個(gè)廣泛采用的策略是通過(guò)多模型混合來(lái)提升預(yù)測(cè)的穩(wěn)定性和表現(xiàn)。
然而,相對(duì)數(shù)學(xué)模型,數(shù)據(jù)質(zhì)量乃是最關(guān)鍵的要素。一個(gè)數(shù)據(jù)挖掘工程師可能80%的時(shí)間用在篩選變量和清洗數(shù)據(jù)上。在現(xiàn)實(shí)環(huán)境中,我們首要的是經(jīng)常問(wèn)這樣一個(gè)問(wèn)題:“where is the data?”
3.模型準(zhǔn)確性和模型可解釋性
有時(shí)候會(huì)發(fā)生這樣一個(gè)場(chǎng)景:建模型的人欣喜若狂的拿著個(gè)評(píng)分卡模型去給業(yè)務(wù)部門(mén)看,驕傲的說(shuō)了一通自己的模型有多牛逼,能如何準(zhǔn)確地發(fā)現(xiàn)潛在風(fēng)險(xiǎn)違約客戶。結(jié)果業(yè)務(wù)部門(mén)的人一臉困惑的問(wèn)了一句:“我拿你這個(gè)結(jié)果拒絕了客戶的話,我要怎么跟客戶解釋原因?”這里模型的準(zhǔn)確性指的是能否準(zhǔn)確地發(fā)現(xiàn)潛在風(fēng)險(xiǎn)違約客戶,而模型的可解釋性指的是如何理解模型評(píng)分,即,如果一個(gè)客戶的信用評(píng)分為400分,那么是什么造成了他的分?jǐn)?shù)比較低的。
通常情況下,模型的準(zhǔn)確性和模型的可解釋性是不可兼得的。模型越簡(jiǎn)單,則其越容易理解,但簡(jiǎn)單的模型預(yù)測(cè)準(zhǔn)確性往往不好,例如,決策樹(shù)模型可以讓人一目了然的知道哪個(gè)群體的人存在風(fēng)險(xiǎn),但其表現(xiàn)往往在所有模型中墊底。而一些非參數(shù)模型(如隨機(jī)森林等),其規(guī)則復(fù)雜到難以用自然語(yǔ)言描述,無(wú)法直觀的被人理解,但其預(yù)測(cè)效果卻很優(yōu)秀。
那么,在兩者不可兼得的情況下,我們應(yīng)該更重視模型的準(zhǔn)確性還是其可解釋性?相信很多人會(huì)認(rèn)為準(zhǔn)確性更重要。的確,在大多數(shù)數(shù)據(jù)挖掘競(jìng)賽中,模型算法是通過(guò)其準(zhǔn)確性來(lái)衡量?jī)?yōu)劣的。這很容易理解,如果一個(gè)P2P借貸公司完全依靠評(píng)分卡模型來(lái)做準(zhǔn)入審核,那么模型的準(zhǔn)確性會(huì)直接影響到貸后的違約率,直接決定了這個(gè)公司的CEO是要跑路還是走向人生巔峰。
然而實(shí)際情況是,評(píng)分卡模型僅僅是其準(zhǔn)入審核的一個(gè)環(huán)節(jié),在初篩之后,風(fēng)控專家會(huì)對(duì)評(píng)分卡模型不能有效分辨好壞的客戶進(jìn)行人工審核。人工審核的過(guò)程不僅會(huì)全面收集客戶的信息,更需要通過(guò)話術(shù)策略有效的鑒別客戶所提供信息是否虛假。例如,在照會(huì)過(guò)程中,風(fēng)控人員可能會(huì)故意將客戶提供的一些資料說(shuō)錯(cuò)而觀察其反應(yīng)等。
在這種情況下,模型的可解釋性就變的尤為重要。設(shè)想,如果一個(gè)評(píng)分卡模型不僅能告訴風(fēng)控人員客戶的潛在違約率,更可以幫風(fēng)控人員在錯(cuò)綜復(fù)雜的客戶數(shù)據(jù)中梳理出一條明晰的調(diào)查線索,告訴風(fēng)控專家應(yīng)該著重調(diào)查客戶的哪個(gè)方面以及客戶之前提供的信息有哪些初看起來(lái)正常但實(shí)際自相矛盾的地方,這將對(duì)提高風(fēng)險(xiǎn)控制能力有很大作用。
4.統(tǒng)計(jì)分析和數(shù)據(jù)挖掘
統(tǒng)計(jì)分析與數(shù)據(jù)挖掘都是商業(yè)智能的一方面。統(tǒng)計(jì)分析是運(yùn)用統(tǒng)計(jì)方法,基于假設(shè)分布和假設(shè)檢驗(yàn)的理論方法,總結(jié)數(shù)據(jù)與基礎(chǔ)群體之間的聯(lián)系并做預(yù)測(cè)。數(shù)據(jù)挖掘是基于訓(xùn)練(Training)、驗(yàn)證(Validation)、測(cè)試(Test)數(shù)據(jù)集的關(guān)聯(lián),通過(guò)算法,搜索出隱藏于其中的信息。統(tǒng)計(jì)分析需要更多的概率分布假定,而數(shù)據(jù)挖掘更注重驗(yàn)證結(jié)果的可靠性。但是兩者往往互通互容、相互支持,之間并沒(méi)有明確的界限。
5.當(dāng)前模型和模型迭代
人類的行為模式在科技發(fā)展的今天是在不斷演變的,所以當(dāng)前模型只能反應(yīng)出過(guò)去的歷史規(guī)律和判斷,且一般都有一個(gè)有效期。模型迭代是保證模型有效性的必然步驟。
在迭代模型的過(guò)程中,需要在風(fēng)險(xiǎn)管理階段對(duì)上一階段的執(zhí)行情況作出判斷、規(guī)劃下一步的執(zhí)行內(nèi)容、評(píng)估風(fēng)險(xiǎn)及控制時(shí)間與資源。
最后,送給大家三句秘籍:
在最終的分析中,所有知識(shí)皆為歷史
在抽象的意義下,所有科學(xué)皆為數(shù)學(xué)
在理性的世界里,所有判斷皆為統(tǒng)計(jì)
這三句秘籍可不是我說(shuō)的,是來(lái)自印度的傳奇數(shù)學(xué)家拉曼努楊。我想,只有那些優(yōu)秀的“數(shù)據(jù)科學(xué)家”,方能深切體會(huì)上面三句話的含義。在漫漫歷史長(zhǎng)河里,所有的判斷結(jié)論皆為概率存在,這也是這個(gè)世界之所以迷人的終極原因。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10