
作者 | 小天
數(shù)據(jù)挖掘,英文名叫Data mining,一般是指從大型數(shù)據(jù)庫(kù)中將隱藏的預(yù)測(cè)信息抽取出來的過程,而更為精確的解釋則是“從數(shù)據(jù)中挖掘知識(shí)”。
這個(gè)概念乍眼一看有點(diǎn)懵,小天舉個(gè)栗子解釋,相信就比較容易理解:
假如某東需要預(yù)測(cè)用戶在未來5天內(nèi)的購(gòu)買需求,以達(dá)到精準(zhǔn)營(yíng)銷的目的,那么此時(shí)完全可以借助數(shù)據(jù)挖掘實(shí)現(xiàn)。
通過數(shù)據(jù)挖掘技術(shù)和機(jī)器學(xué)習(xí)算法,在以某東真實(shí)的用戶、商品和行為數(shù)據(jù)(脫敏后)為基礎(chǔ)的情況下,構(gòu)建一個(gè)用戶購(gòu)買商品的預(yù)測(cè)模型,輸出高潛用戶和目標(biāo)商品的匹配結(jié)果,從而提供高質(zhì)量的目標(biāo)群體,實(shí)現(xiàn)精準(zhǔn)營(yíng)銷。
也就是說,我們能夠從海量的數(shù)據(jù)中挖掘出有用知識(shí)服務(wù)于我們的工作。
而就目前而言,數(shù)據(jù)挖掘大致上是可以分為四個(gè)層次:純粹數(shù)據(jù)加工、傻瓜式挖掘、較為自由的挖掘以及算法拆解和開發(fā)。
(一)純粹數(shù)據(jù)加工
這一層次主要側(cè)重于變量的加工和預(yù)處理,主要的加工工具就是大家比較熟悉的SQL和SAS base。
從源系統(tǒng)或數(shù)據(jù)倉(cāng)庫(kù),對(duì)相關(guān)數(shù)據(jù)進(jìn)行提取、加工、衍生處理,生成各種業(yè)務(wù)表。緊接著,以客戶號(hào)為主鍵,將這些業(yè)務(wù)表整合匯總出一張大寬表,而這張寬表就是所謂的“客戶畫像”。
(二)傻瓜式挖掘
傻瓜式操作的優(yōu)點(diǎn)就是讓數(shù)據(jù)挖掘變得入手快且簡(jiǎn)單,但是,眾所周知傻瓜式操作必然存在缺陷,比如挖掘的過程會(huì)很單調(diào)無趣,沒辦法批量運(yùn)算模型等等。而較為典型的工具有SAS EM和clementine。
這兩種工具已經(jīng)嵌入了很多較為傳統(tǒng)成熟的算法、模塊和節(jié)點(diǎn)(如大家很熟悉的神經(jīng)網(wǎng)絡(luò)以及前幾天小天提到的決策樹等)。只需鼠標(biāo)的托拉拽,基本上就可以滿足你挖掘數(shù)據(jù)的需求。
因此,在熟練操作這些工具的情況下,若想進(jìn)一步提升建議需要拋棄它們。
(三)較為自由的挖掘
在這個(gè)層次,典型的工具就是R和Python這兩個(gè)開源工具,前者是統(tǒng)計(jì)學(xué)家開發(fā)的,而后者則是計(jì)算機(jī)學(xué)家開發(fā)的。
它們不但有較多前沿且成熟的算法包調(diào)用,還能對(duì)既有的算法包進(jìn)行修改調(diào)整,以適應(yīng)分析需求,十分的靈活。此外,Python在文本、社會(huì)網(wǎng)絡(luò)方面的處理,功能比較強(qiáng)大。
(四)算法拆解和自行開發(fā)
到了這一層次,說明你們已經(jīng)擁有了重新編寫算法代碼的能力,比如用自己的代碼實(shí)現(xiàn)邏輯回歸運(yùn)算過程,甚至根據(jù)業(yè)務(wù)需求和數(shù)據(jù)特點(diǎn),更改其中一些假定和條件,以提高模型運(yùn)算的擬合效果。
一般而言,大多數(shù)人會(huì)利用python、c、c++進(jìn)行算法拆解和開發(fā)。
可以看到,四個(gè)層次中出現(xiàn)最多的就是python,因此可以這么說掌握了python,掌握數(shù)據(jù)挖掘也就不在話下了!
而根據(jù)當(dāng)前互聯(lián)網(wǎng)的招聘和對(duì)技能的需求來說,當(dāng)你已經(jīng)順利度過前三個(gè)層次的時(shí)候,建模分析師的職位是妥妥的,如果再更進(jìn)一步到達(dá)了第四層次,相信你就是當(dāng)之無愧的算法工程師了!
那么,怎么才能更好地掌握數(shù)據(jù)挖掘,最高效的學(xué)習(xí)路徑應(yīng)該是什么樣的呢?
此時(shí),我們最先要做的就是了解數(shù)據(jù)挖掘的大致流程。
(一)數(shù)據(jù)讀取
既然是叫數(shù)據(jù)挖掘,那么可以看出數(shù)據(jù)是重中之重,因此第一步就應(yīng)該把數(shù)據(jù)讀取出來。
(二)特征理解分析
數(shù)據(jù)讀出來了,但并不代表這些數(shù)據(jù)都是有用的,因此需要根據(jù)數(shù)據(jù)的特征進(jìn)行理解和分析,考慮變量與結(jié)果的關(guān)系,最后繪圖得出結(jié)論,輔助判斷,進(jìn)而選出有價(jià)值的數(shù)據(jù)。
(三)數(shù)據(jù)清洗與預(yù)處理
選出了有價(jià)值的數(shù)據(jù)就可以馬上建立模型了吧?別想太多,還得先清洗和預(yù)處理數(shù)據(jù)。雖然這一步看似很簡(jiǎn)單,但是實(shí)際上它是整個(gè)數(shù)據(jù)挖掘過程中最耗時(shí)的,大概占了70-80%的時(shí)間。
如何對(duì)數(shù)據(jù)進(jìn)行恰當(dāng)?shù)奶幚硎沟米罱K能夠獲取最合適的數(shù)據(jù)是這一步需要解決的。請(qǐng)記住,數(shù)據(jù)決定了模型的上限。
(四)建立模型
完成了最重要的第三步之后,就可以開始建模了,通過多種算法的對(duì)比以及參考他人的策略進(jìn)行建模與優(yōu)化,最終得出合適的模型。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10