商業(yè)和生活中,我們處處能夠看到數據挖掘的影子:
Target 百貨分析16歲的少女買無香型沐浴露之后,判斷她懷孕了;
語言學家通過記錄自己孩子出生到3歲每天每秒鐘的狀態(tài)數據,發(fā)現語言記憶和周遭環(huán)境相關性更大;
調查局通過數據分析和挖掘發(fā)現改善公共環(huán)境有助于降低犯罪率。
今天我們將從以下幾個方面來揭開數據挖掘的神秘面紗。
數據挖掘涉及的學科?

首先我們可以看出,數據分析與挖掘位于中間,也就是紅點的位置,而旁邊有很多交叉的學科。
數據庫系統(tǒng)是現在比較普及的一種存儲數據信息的方式,也就是電子檔案的方式。統(tǒng)計學是一種傳統(tǒng)的數據分析方法,它的起源比較早。模式識別、機器學習和人工智能與數據挖掘的交集點不多。機器學習,它本身是我們人類在研究人工智能的一種分析方法,提出了一些計算機的算法,而這些算法是和數據分析、數據挖掘是有交集的,比如前段時間比較火熱的Alphago在人工神經網絡方面的成功應用,而這些算法目前也逐漸應用在了商業(yè)范圍內。
總體來說,數據分析與數據挖掘肯定是一門高度交叉的學科,而且包含的知識點,領域特別廣,是綜合社會科學和自然科學的一種交叉的一種學問。
1:建模流程、建模技術、業(yè)務場景的理解。
道,是放在最上層的東西,不管是什么學科,什么學問。而具體在數據挖掘領域,道著眼于對于整個數據挖掘的整套基本流程和建模技術、業(yè)務三者結合的深刻了解。需要大量的經驗積累形成自己的一套思路和方法。
2:數據挖掘的標準流程化的步驟。
目前比較成熟的數據挖掘標準化流程如KDD(Knowledge Discovery inDatabase),CRISP-DM(Cross-industryStandard Process For Data Mining)。
3:數據挖掘的具體建模方法。
描述性(無監(jiān)督學習)
用處:分析具有多個屬性的數據集,找出潛在的模式,沒有因變量
場景:觀察個體之間的相似程度,例如根據年齡、性別、收入等因素進行客戶細分;根據客戶對多個產品的購買,發(fā)現產品之間的相關性,做精準商品推薦。
主要算法:聚類、關聯(lián)分析、因子分析、主成份分析、社交網絡分析、…
預測性(有監(jiān)督學習)
用處:用一個或多個自變量預測因變量的值
場景:客戶是否會違約是一個因變量,可以用客戶的性別、年齡、收入、職位、經濟狀況、歷史信用狀況等因素進行預測
主要算法:決策樹、線性回歸、Logistic回歸、支持向量機、神經網絡、判別分析、…
4器以成事:建模的具體工具。
傳統(tǒng)商業(yè)分析工具SAS,SPSS,開源類工具R,Python,Weka,Hadoop,Spark等。現在各種軟件越來越智能化,越來越接近傻瓜化。但是軟件的智能化不等于整個數據分析的智能化與自動化,如果沒有對業(yè)務的深刻理解,建立的模型就沒有說服力。關于軟件的使用和選擇,記住三點:
一、只要能達到目標的軟件就是好軟件;
二、你研究領域啥軟件好用啥軟件就是好軟件;
三、不要妄想用一個軟件解決一切問題。
![C9DGDIP93I]{R@L2%5XUAT0.png C9DGDIP93I]{R@L2%5XUAT0.png](http://1075.edu.jg.com.cn:81/forum/201609/14/100844lxvopkwknwhnllbx.png)








暫無數據