
說說什么是數據挖掘
好吧,這樣的定義方式比較抽象,但這也是業(yè)界認可度最高的一種解釋了。對于如何開發(fā)一個大數據環(huán)境下完整的數據挖掘項目,業(yè)界至今仍沒有統(tǒng)一的規(guī)范。說白了,大家都聽說過大數據、數據挖掘等概念,然而真正能做而且做好的公司并不是很多。
數據挖掘背后的哲學思想
在過去很多年,首要原則模型(first-principle models)是科學工程領域最為經典的模型。
比如你要想知道某輛車從啟動到速度穩(wěn)定行駛的距離,那么你會先統(tǒng)計從啟動到穩(wěn)定耗費的時間、穩(wěn)定后的速度、加速度等參數;然后運用牛頓第二定律(或者其他物理學公式)建立模型;最后根據該車多次實驗的結果列出方程組從而計算出模型的各個參數。通過該過程,你就相當于學習到了一個知識
--- 某輛車從啟動到速度穩(wěn)定行駛的具體模型。此后往該模型輸入車的啟動參數便可自動計算出該車達到穩(wěn)定速度前行駛的距離。
然而,在數據挖掘的思想中,知識的學習是不需要通過具體問題的專業(yè)知識建模。如果之前已經記錄下了100輛型號性能相似的車從啟動到速度穩(wěn)定行駛的距離,那么我就能夠對這100個數據求均值,從而得到結果。顯然,這一過程是是直接面向數據的,或者說我們是直接從數據開發(fā)模型的。
這其實是模擬了人的原始學習過程 --- 比如你要預測一個人跑100米要多久時間,你肯定是根據之前了解的他(研究對象)這樣體型的人跑100米用的多少時間做一個估計,而不會使用牛頓定律來算。
數據挖掘的起源
由于數據挖掘理論涉及到的面很廣,它實際上起源于多個學科。如建模部分主要起源于統(tǒng)計學和機器學習。統(tǒng)計學方法以模型為驅動,常常建立一個能夠產生數據的模型;而機器學習則以算法為驅動,讓計算機通過執(zhí)行算法來發(fā)現知識。仔細想想,"學習"本身就有算法的意思在里面嘛。
然而數據挖掘除了建模外,還有不少其他要做的工作(本文后面會一一講到),因此涉及到不少其他知識,如下圖所示:
數據挖掘的基本任務
數據挖掘的兩大基本目標是預測和描述數據。其中前者的計算機建模及實現過程通常被稱為監(jiān)督學習(supervised learning),后者的則通常被稱為無監(jiān)督學習(supervised learning)。往更細分,數據挖掘的目標可以劃分為以下這些:
預測主要包括分類 - 將樣本劃分到幾個預定義類之一,回歸 - 將樣本映射到一個真實值預測變量上;描述主要包括聚類 - 將樣本劃分為不同類(無預定義類),關聯規(guī)則發(fā)現 - 發(fā)現數據集中不同特征的相關性。本系列其他文章將會分別對這些工作深入進行講解,如果讀者是第一次接觸這些概念請不要糾結。
數據挖掘的基本流程
從形式上來說,數據挖掘的開發(fā)流程是迭代式的。開發(fā)人員通過如下幾個階段對數據進行迭代式處理:
其中,
1. 解讀需求
絕大多數的數據挖掘工程都是針對具體領域的,因此數據挖掘工作人員不應該沉浸在自己的世界里YY算法模型,而應該多和具體領域的專家交流合作以正確的解讀出項目需求。這種合作應當貫穿整個項目生命周期。
2. 搜集數據
在大型公司,數據搜集大都是從其他業(yè)務系統(tǒng)數據庫提取。很多時候我們是對數據進行抽樣,在這種情況下必須理解數據的抽樣過程是如何影響取樣分布,以確保評估模型環(huán)節(jié)中用于訓練(train)和檢驗(test)模型的數據來自同一個分布。
3. 預處理數據
預處理數據可主要分為數據準備和數據歸約兩部分。其中前者包含了缺失值處理、異常值處理、歸一化、平整化、時間序列加權等;而后者主要包含維度歸約、值歸約、以及案例歸約。后面兩篇博文將分別講解數據準備和數據歸約。
4. 評估模型
確切來說,這一步就是在不同的模型之間做出選擇,找到最優(yōu)模型。很多人認為這一步是數據挖掘的全部,但顯然這是以偏概全的,甚至絕大多數情況下這一步耗費的時間和精力在整個流程里是最少的。
5. 解釋模型
數據挖掘模型在大多數情況下是用來輔助決策的,人們顯然不會根據"黑箱模型"來制定決策。如何針對具體環(huán)境對模型做出合理解釋也是一項非常重要的任務。
數據挖掘的工程架構
回到本文開頭提到的那個問題,“如何開發(fā)一個大數據環(huán)境下完整的數據挖掘項目?”。這個問題每個公司有自己的答案,這里僅以A公司的情況進行介紹。
在A公司的數據引擎團隊中,主要人員分成A、B、C、D四個大組。這四個大組的分工非常明確,如下圖所示:
圖中的這些個數據引擎架構在一個基于維度建模的云數據倉庫之上,并對上層應用提供算法支撐、推薦支撐、可視化支撐等等。這里也能看出A公司的數據挖掘工程架構主要由三大塊組成:底層數據倉庫、中間數據引擎、高層可視化/前端輸出。很多小伙伴問我,你是一名數據挖掘工程師呀,可為什么你前面的博文都是數據倉庫和數據可視化呢?我想如果他們看到這里想必不會有此疑問了:)。
至于這些引擎的具體作用、開發(fā)方法,體系結構等則由于涉及公司秘密不能深入細說,請各位讀者見諒。
小結
數據挖掘涵蓋的面非常大,本文僅旨在讓讀者對數據挖掘有一個感性的認識。關于什么是數據挖掘如果讀者還不清楚的話也不要糾結,跟著本系列一起學習一定能有所收獲并會最終發(fā)現:數據挖掘是一門非常有趣的學問,比單純的寫代碼要有意思多了。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
MySQL 大表拆分與關聯查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數據庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數據分析師:表結構數據 “獲取 - 加工 - 使用” 全流程的賦能者 表結構數據(如數據庫表、Excel 表、CSV 文件)是企業(yè)數字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數據分析師:解鎖表結構數據特征價值的專業(yè)核心 表結構數據(以 “行 - 列” 規(guī)范存儲的結構化數據,如數據庫表、Excel 表、 ...
2025-09-17Excel 導入數據含缺失值?詳解 dropna 函數的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數據時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數據分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數據差異是否 “ ...
2025-09-16CDA 數據分析師:掌控表格結構數據全功能周期的專業(yè)操盤手 表格結構數據(以 “行 - 列” 存儲的結構化數據,如 Excel 表、數據 ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數據分析師:激活表格結構數據價值的核心操盤手 表格結構數據(如 Excel 表格、數據庫表)是企業(yè)最基礎、最核心的數據形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數據爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數據的科學計數法問題 為幫助 Python 數據從業(yè)者解決pd.read_csv讀取長浮點數據時的科學計數法問題 ...
2025-09-12CDA 數據分析師:業(yè)務數據分析步驟的落地者與價值優(yōu)化者 業(yè)務數據分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數據把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數據驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數據分析師與戰(zhàn)略 / 業(yè)務數據分析:概念辨析與協(xié)同價值 在數據驅動決策的體系中,“戰(zhàn)略數據分析”“業(yè)務數據分析” 是企業(yè) ...
2025-09-11Excel 數據聚類分析:從操作實踐到業(yè)務價值挖掘 在數據分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數據中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數據解讀到決策支撐的價值導向 統(tǒng)計模型作為數據分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數據分析師:商業(yè)數據分析實踐的落地者與價值創(chuàng)造者 商業(yè)數據分析的價值,最終要在 “實踐” 中體現 —— 脫離業(yè)務場景的分 ...
2025-09-10