磨刀不誤砍柴工。在學(xué)習(xí)
數(shù)據(jù)挖掘之前應(yīng)該明白幾點(diǎn):
數(shù)據(jù)挖掘目前在中國(guó)的尚未流行開(kāi),猶如屠龍之技。
數(shù)據(jù)初期的準(zhǔn)備通常占整個(gè)
數(shù)據(jù)挖掘項(xiàng)目工作量的70%左右。
數(shù)據(jù)挖掘本身融合了統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)和
機(jī)器學(xué)習(xí)等學(xué)科,并不是新的技術(shù)。
數(shù)據(jù)挖掘技術(shù)更適合業(yè)務(wù)人員學(xué)習(xí)(相比技術(shù)人員學(xué)習(xí)業(yè)務(wù)來(lái)的更高效)
數(shù)據(jù)挖掘適用于傳統(tǒng)的BI(報(bào)表、OLAP等)無(wú)法支持的領(lǐng)域。
數(shù)據(jù)挖掘項(xiàng)目通常需要重復(fù)一些毫無(wú)技術(shù)含量的工作。
一、目前國(guó)內(nèi)的
數(shù)據(jù)挖掘人員工作領(lǐng)域大致可分為三類(lèi)。
數(shù)據(jù)分析師:在擁有行業(yè)數(shù)據(jù)的電商、金融、電信、咨詢(xún)等行業(yè)里做業(yè)務(wù)咨詢(xún),商務(wù)智能,出分析報(bào)告。
數(shù)據(jù)挖掘工程師:在多媒體、電商、搜索、社交等大數(shù)據(jù)相關(guān)行業(yè)里做
機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)和分析。
科學(xué)研究方向:在高校、科研單位、企業(yè)研究院等高大上科研機(jī)構(gòu)研究新算法效率改進(jìn)及未來(lái)應(yīng)用。
二、說(shuō)說(shuō)各工作領(lǐng)域需要掌握的技能。
(1).數(shù)據(jù)分析師
需要有深厚的數(shù)理統(tǒng)計(jì)基礎(chǔ),但是對(duì)程序開(kāi)發(fā)能力不做要求。
需要熟練使用主流的
數(shù)據(jù)挖掘(或
統(tǒng)計(jì)分析)工具如Business Analytics and Business Intelligence Software(SAS)、SPSS、EXCEL等。
需要對(duì)與所在行業(yè)有關(guān)的一切核心數(shù)據(jù)有深入的理解,以及一定的數(shù)據(jù)敏感性培養(yǎng)。
經(jīng)典圖書(shū)推薦:《概率論與數(shù)理統(tǒng)計(jì)》、《統(tǒng)計(jì)學(xué)》推薦David Freedman版、《業(yè)務(wù)建模與
數(shù)據(jù)挖掘》、《
數(shù)據(jù)挖掘導(dǎo)論》、《SAS編程與
數(shù)據(jù)挖掘商業(yè)案例》、《Clementine
數(shù)據(jù)挖掘方法及應(yīng)用 》、《Excel 2007 VBA參考大全》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等。
(2).
數(shù)據(jù)挖掘工程師
需要理解主流
機(jī)器學(xué)習(xí)算法的原理和應(yīng)用。
需要熟悉至少一門(mén)編程語(yǔ)言如(Python、C、C++、Java、Delphi等)。
需要理解數(shù)據(jù)庫(kù)原理,能夠熟練操作至少一種數(shù)據(jù)庫(kù)(Mysql、
SQL、DB2、Oracle等),能夠明白MapReduce的原理操作以及熟練使用
Hadoop系列工具更好。
經(jīng)典圖書(shū)推薦:《
數(shù)據(jù)挖掘概念與技術(shù)》、《
機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》、《人工智能及其應(yīng)用》、《數(shù)據(jù)庫(kù)系統(tǒng)概論》、《算法導(dǎo)論》、《Web
數(shù)據(jù)挖掘》、《 Python標(biāo)準(zhǔn)庫(kù)》、《thinking in Java》、《Thinking in C++》、《數(shù)據(jù)結(jié)構(gòu)》等。
(3).科學(xué)研究方向
需要深入學(xué)習(xí)
數(shù)據(jù)挖掘的理論基礎(chǔ),包括
關(guān)聯(lián)規(guī)則挖掘 (
Apriori和FPTree)、分類(lèi)算法(C4.5、
KNN、Logistic Regression、
SVM等) 、聚類(lèi)算法 (
Kmeans、Spectral Clustering)。目標(biāo)可以先吃透
數(shù)據(jù)挖掘10大算法各自的使用情況和優(yōu)缺點(diǎn)。
相對(duì)SAS、SPSS來(lái)說(shuō)
R語(yǔ)言更適合科研人員The R Project for Statistical Computing,因?yàn)镽軟件是完全免費(fèi)的,而且開(kāi)放的社區(qū)環(huán)境提供多種附加工具包支持,更適合進(jìn)行統(tǒng)計(jì)計(jì)算分析研究。雖然目前在國(guó)內(nèi)流行度不高,但是強(qiáng)烈推薦。
可以嘗試改進(jìn)一些主流算法使其更加快速高效,例如實(shí)現(xiàn)
Hadoop平臺(tái)下的
SVM云算法調(diào)用平臺(tái)--web 工程調(diào)用hadoop集群。
需要廣而深的閱讀世界著名會(huì)議論文跟蹤熱點(diǎn)技術(shù)。如KDD,ICML,IJCAI,Association for the Advancement of Artificial Intelligence,ICDM 等等;還有
數(shù)據(jù)挖掘相關(guān)領(lǐng)域期刊:ACM Transactions on Knowledge Discovery from Data,IEEE Transactions on Knowledge and Data Engineering,Journal of Machine Learning Research Homepage,IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等。
可以嘗試參加
數(shù)據(jù)挖掘比賽培養(yǎng)全方面解決實(shí)際問(wèn)題的能力。如Sig KDD ,Kaggle: Go from Big Data to Big Analytics等。
可以嘗試為一些開(kāi)源項(xiàng)目貢獻(xiàn)自己的代碼,比如Apache Mahout: Scalable machine learning and data mining ,myrrix等(具體可以在SourceForge或GitHub.上發(fā)現(xiàn)更多好玩的項(xiàng)目)。
經(jīng)典圖書(shū)推薦:《
機(jī)器學(xué)習(xí)》 《模式分類(lèi)》《統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)》《統(tǒng)計(jì)學(xué)習(xí)方法》《
數(shù)據(jù)挖掘實(shí)用
機(jī)器學(xué)習(xí)技術(shù)》《
R語(yǔ)言實(shí)踐》,英文素質(zhì)是科研人才必備的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。
三、以下是通信行業(yè)
數(shù)據(jù)挖掘工程師的工作感受。
真正從
數(shù)據(jù)挖掘項(xiàng)目實(shí)踐的角度講,溝通能力對(duì)挖掘的興趣愛(ài)好是最重要的,有了愛(ài)好才可以愿意鉆研,有了不錯(cuò)的溝通能力,才可以正確理解業(yè)務(wù)問(wèn)題,才能正確把業(yè)務(wù)問(wèn)題轉(zhuǎn)化成挖掘問(wèn)題,才可以在相關(guān)不同專(zhuān)業(yè)人才之間清楚表達(dá)你的意圖和想法,取得他們的理解和支持。所以我認(rèn)為溝通能力和興趣愛(ài)好是個(gè)人的
數(shù)據(jù)挖掘的核心競(jìng)爭(zhēng)力,是很難學(xué)到的;而其他的相關(guān)專(zhuān)業(yè)知識(shí)誰(shuí)都可以學(xué),算不上個(gè)人發(fā)展的核心競(jìng)爭(zhēng)力。
說(shuō)到這里可能很多
數(shù)據(jù)倉(cāng)庫(kù)專(zhuān)家、程序員、統(tǒng)計(jì)師等等都要扔磚頭了,對(duì)不起,我沒(méi)有別的意思,你們的專(zhuān)業(yè)對(duì)于
數(shù)據(jù)挖掘都很重要,大家本來(lái)就是一個(gè)整體的,但是作為單獨(dú)一個(gè)個(gè)體的人來(lái)說(shuō),精力有限,時(shí)間有限,不可能這些領(lǐng)域都能掌握,在這種情況下,選擇最重要的核心,我想應(yīng)該是
數(shù)據(jù)挖掘技能和相關(guān)業(yè)務(wù)能力吧(從另外的一個(gè)極端的例子,我們可以看, 比如一個(gè)迷你型的挖掘項(xiàng)目,一個(gè)懂得市場(chǎng)營(yíng)銷(xiāo)和
數(shù)據(jù)挖掘技能的人應(yīng)該可以勝任。這其中他雖然不懂
數(shù)據(jù)倉(cāng)庫(kù),但是簡(jiǎn)單的Excel就足以勝任高打6萬(wàn)個(gè)樣本的數(shù)據(jù)處理;他雖然不懂專(zhuān)業(yè)的展示展現(xiàn)技能,但是只要他自己看的懂就行了,這就無(wú)需什么展示展現(xiàn);前面說(shuō)過(guò),統(tǒng)計(jì)技能是應(yīng)該掌握的,這對(duì)一個(gè)人的迷你項(xiàng)目很重要;他雖然不懂編程,但是專(zhuān)業(yè)挖掘工具和挖掘技能足夠讓他操練的;這樣在迷你項(xiàng)目中,一個(gè)懂得挖掘技能和市場(chǎng)營(yíng)銷(xiāo)業(yè)務(wù)能力的人就可以圓滿(mǎn)完成了,甚至在一個(gè)數(shù)據(jù)源中根據(jù)業(yè)務(wù)需求可以無(wú)窮無(wú)盡的挖掘不同的項(xiàng)目思路,試問(wèn)就是這個(gè)迷你項(xiàng)目,單純的一個(gè)
數(shù)據(jù)倉(cāng)庫(kù)專(zhuān)家、單純的一個(gè)程序員、單純的一個(gè)展示展現(xiàn)技師、甚至單純的一個(gè)挖掘技術(shù)專(zhuān)家,都是無(wú)法勝任的)。這從另一個(gè)方面也說(shuō)明了為什么溝通能力的重要,這些個(gè)完全不同的專(zhuān)業(yè)領(lǐng)域,想要有效有機(jī)地整合在一起進(jìn)行
數(shù)據(jù)挖掘項(xiàng)目實(shí)踐,你說(shuō)沒(méi)有好的溝通能力行嗎?
數(shù)據(jù)挖掘能力只能在項(xiàng)目實(shí)踐的熔爐中提升、升華,所以跟著項(xiàng)目學(xué)挖掘是最有效的捷徑。國(guó)外學(xué)習(xí)挖掘的人都是一開(kāi)始跟著老板做項(xiàng)目,剛開(kāi)始不懂不要緊,越不懂越知道應(yīng)該學(xué)什么,才能學(xué)得越快越有效果。我不知道國(guó)內(nèi)的
數(shù)據(jù)挖掘學(xué)生是怎樣學(xué)的,但是從網(wǎng)上的一些論壇看,很多都是紙上談兵,這樣很浪費(fèi)時(shí)間,很沒(méi)有效率。
另外現(xiàn)在國(guó)內(nèi)關(guān)于
數(shù)據(jù)挖掘的概念都很混亂,很多BI只是局限在報(bào)表的展示和簡(jiǎn)單的
統(tǒng)計(jì)分析,卻也號(hào)稱(chēng)是
數(shù)據(jù)挖掘;另一方面,國(guó)內(nèi)真正規(guī)模化實(shí)施
數(shù)據(jù)挖掘的行業(yè)是屈指可數(shù)(銀行、保險(xiǎn)公司、移動(dòng)通訊),其他行業(yè)的應(yīng)用就只能算是小規(guī)模的,比如很多大學(xué)都有些相關(guān)的挖掘課題、挖掘項(xiàng)目,但都比較分散,而且都是處于摸索階段,但是我相信
數(shù)據(jù)挖掘在中國(guó)一定是好的前景,因?yàn)檫@是歷史發(fā)展的必然。
講到移動(dòng)方面的實(shí)踐案例,如果你是來(lái)自移動(dòng)的話(huà),你一定知道國(guó)內(nèi)有家叫華院分析的公司(申明,我跟這家公司沒(méi)有任何關(guān)系,我只是站在
數(shù)據(jù)挖掘者的角度分析過(guò)中國(guó)大多數(shù)的號(hào)稱(chēng)
數(shù)據(jù)挖掘服務(wù)公司,覺(jué)得華院還不錯(cuò),比很多徒有虛名的大公司來(lái)得更實(shí)際),他們的業(yè)務(wù)現(xiàn)在已經(jīng)覆蓋了絕大多數(shù)中國(guó)省級(jí)移動(dòng)公司的分析挖掘項(xiàng)目,你上網(wǎng)搜索一下應(yīng)該可以找到一些詳細(xì)的資料吧。我對(duì)華院分析印象最深的一點(diǎn)就是2002年這個(gè)公司白手起家,自己不懂不要緊,一邊自學(xué)一邊開(kāi)始拓展客戶(hù),到現(xiàn)在在中國(guó)的移動(dòng)通訊市場(chǎng)全面開(kāi)花,的確佩服佩服呀。他們最開(kāi)始都是用EXCEL處理數(shù)據(jù),用肉眼比較選擇比較不同的模型,你可以想象這其中的艱難吧。
至于移動(dòng)通訊的具體的
數(shù)據(jù)挖掘的應(yīng)用,那太多了,比如不同話(huà)費(fèi)套餐的制訂、客戶(hù)流失模型、不同服務(wù)交叉銷(xiāo)售模型、不同客戶(hù)對(duì)優(yōu)惠的彈性分析、客戶(hù)群體細(xì)分模型、不同客戶(hù)生命周期模型、渠道選擇模型、惡意欺詐預(yù)警模型,太多了,記住,從客戶(hù)的需求出發(fā),從實(shí)踐中的問(wèn)題出發(fā),移動(dòng)中可以發(fā)現(xiàn)太多的挖掘項(xiàng)目。最后告訴你一個(gè)秘密,當(dāng)你
數(shù)據(jù)挖掘能力提升到一定程度時(shí),你會(huì)發(fā)現(xiàn)無(wú)論什么行業(yè),其實(shí)
數(shù)據(jù)挖掘的應(yīng)用有大部分是重合的相似的,這樣你會(huì)覺(jué)得更輕松
CDA數(shù)據(jù)分析師考試相關(guān)入口一覽(建議收藏):
? 想報(bào)名CDA認(rèn)證考試,點(diǎn)擊>>>
“CDA報(bào)名”
了解CDA考試詳情;
? 想學(xué)習(xí)CDA考試教材,點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情;
? 想加入CDA考試題庫(kù),點(diǎn)擊>>> “CDA題庫(kù)” 了解CDA考試詳情;
? 想了解CDA考試含金量,點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情;