商業(yè)和生活中,我們處處能夠看到數(shù)據(jù)挖掘的影子:
Target 百貨分析16歲的少女買(mǎi)無(wú)香型沐浴露之后,判斷她懷孕了;
語(yǔ)言學(xué)家通過(guò)記錄自己孩子出生到3歲每天每秒鐘的狀態(tài)數(shù)據(jù),發(fā)現(xiàn)語(yǔ)言記憶和周遭環(huán)境相關(guān)性更大;
調(diào)查局通過(guò)數(shù)據(jù)分析和挖掘發(fā)現(xiàn)改善公共環(huán)境有助于降低犯罪率。
今天我們將從以下幾個(gè)方面來(lái)揭開(kāi)數(shù)據(jù)挖掘的神秘面紗。
數(shù)據(jù)挖掘涉及的學(xué)科?

首先我們可以看出,數(shù)據(jù)分析與挖掘位于中間,也就是紅點(diǎn)的位置,而旁邊有很多交叉的學(xué)科。
數(shù)據(jù)庫(kù)系統(tǒng)是現(xiàn)在比較普及的一種存儲(chǔ)數(shù)據(jù)信息的方式,也就是電子檔案的方式。統(tǒng)計(jì)學(xué)是一種傳統(tǒng)的數(shù)據(jù)分析方法,它的起源比較早。模式識(shí)別、機(jī)器學(xué)習(xí)和人工智能與數(shù)據(jù)挖掘的交集點(diǎn)不多。機(jī)器學(xué)習(xí),它本身是我們?nèi)祟?lèi)在研究人工智能的一種分析方法,提出了一些計(jì)算機(jī)的算法,而這些算法是和數(shù)據(jù)分析、數(shù)據(jù)挖掘是有交集的,比如前段時(shí)間比較火熱的Alphago在人工神經(jīng)網(wǎng)絡(luò)方面的成功應(yīng)用,而這些算法目前也逐漸應(yīng)用在了商業(yè)范圍內(nèi)。
總體來(lái)說(shuō),數(shù)據(jù)分析與數(shù)據(jù)挖掘肯定是一門(mén)高度交叉的學(xué)科,而且包含的知識(shí)點(diǎn),領(lǐng)域特別廣,是綜合社會(huì)科學(xué)和自然科學(xué)的一種交叉的一種學(xué)問(wèn)。
1:建模流程、建模技術(shù)、業(yè)務(wù)場(chǎng)景的理解。
道,是放在最上層的東西,不管是什么學(xué)科,什么學(xué)問(wèn)。而具體在數(shù)據(jù)挖掘領(lǐng)域,道著眼于對(duì)于整個(gè)數(shù)據(jù)挖掘的整套基本流程和建模技術(shù)、業(yè)務(wù)三者結(jié)合的深刻了解。需要大量的經(jīng)驗(yàn)積累形成自己的一套思路和方法。
2:數(shù)據(jù)挖掘的標(biāo)準(zhǔn)流程化的步驟。
目前比較成熟的數(shù)據(jù)挖掘標(biāo)準(zhǔn)化流程如KDD(Knowledge Discovery inDatabase),CRISP-DM(Cross-industryStandard Process For Data Mining)。
3:數(shù)據(jù)挖掘的具體建模方法。
描述性(無(wú)監(jiān)督學(xué)習(xí))
用處:分析具有多個(gè)屬性的數(shù)據(jù)集,找出潛在的模式,沒(méi)有因變量
場(chǎng)景:觀(guān)察個(gè)體之間的相似程度,例如根據(jù)年齡、性別、收入等因素進(jìn)行客戶(hù)細(xì)分;根據(jù)客戶(hù)對(duì)多個(gè)產(chǎn)品的購(gòu)買(mǎi),發(fā)現(xiàn)產(chǎn)品之間的相關(guān)性,做精準(zhǔn)商品推薦。
主要算法:聚類(lèi)、關(guān)聯(lián)分析、因子分析、主成份分析、社交網(wǎng)絡(luò)分析、…
預(yù)測(cè)性(有監(jiān)督學(xué)習(xí))
用處:用一個(gè)或多個(gè)自變量預(yù)測(cè)因變量的值
場(chǎng)景:客戶(hù)是否會(huì)違約是一個(gè)因變量,可以用客戶(hù)的性別、年齡、收入、職位、經(jīng)濟(jì)狀況、歷史信用狀況等因素進(jìn)行預(yù)測(cè)
主要算法:決策樹(shù)、線(xiàn)性回歸、Logistic回歸、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、判別分析、…
4器以成事:建模的具體工具。
傳統(tǒng)商業(yè)分析工具SAS,SPSS,開(kāi)源類(lèi)工具R,Python,Weka,Hadoop,Spark等。現(xiàn)在各種軟件越來(lái)越智能化,越來(lái)越接近傻瓜化。但是軟件的智能化不等于整個(gè)數(shù)據(jù)分析的智能化與自動(dòng)化,如果沒(méi)有對(duì)業(yè)務(wù)的深刻理解,建立的模型就沒(méi)有說(shuō)服力。關(guān)于軟件的使用和選擇,記住三點(diǎn):
一、只要能達(dá)到目標(biāo)的軟件就是好軟件;
二、你研究領(lǐng)域啥軟件好用啥軟件就是好軟件;
三、不要妄想用一個(gè)軟件解決一切問(wèn)題。
![C9DGDIP93I]{R@L2%5XUAT0.png C9DGDIP93I]{R@L2%5XUAT0.png](http://1075.edu.jg.com.cn:81/forum/201609/14/100844lxvopkwknwhnllbx.png)








暫無(wú)數(shù)據(jù)