
數(shù)據(jù)挖掘工作總結(jié)(職業(yè)篇)
很多人不明白學(xué)習(xí)數(shù)據(jù)挖掘以后干什么,這個問題也經(jīng)常被問到。記得剛學(xué)數(shù)據(jù)挖掘的時候,有一個老師說學(xué)數(shù)據(jù)挖掘有什么用,你以后咋找工作。當(dāng)時聽了,覺得很詫異,不知道他為何有此一問。數(shù)據(jù)挖掘在國外是一份很不錯的工作。我喜歡數(shù)據(jù)挖掘,因為它很有趣。很高興以后就從事這方面的工作啦。寫論文之余,也考慮一下數(shù)據(jù)挖掘工程師的職業(yè)規(guī)劃。
以下是從網(wǎng)上找的一些相關(guān)資料介紹,和即將走上數(shù)據(jù)挖掘崗位或是想往這方面發(fā)展的朋友共享:
數(shù)據(jù)挖掘從業(yè)人員工作分析
1.數(shù)據(jù)挖掘從業(yè)人員的愿景:
數(shù)據(jù)挖掘就業(yè)的途徑從我看來有以下幾種,(注意:本文所說的數(shù)據(jù)挖掘不包括數(shù)據(jù)倉庫或數(shù)據(jù)庫管理員的角色)。
A:做科研(在高校、科研單位以及大型企業(yè),主要研究算法、應(yīng)用等)
B:算法工程師(在企業(yè)做數(shù)據(jù)挖掘及其相關(guān)程序算法的實現(xiàn)等)
C:數(shù)據(jù)分析師(在存在海量數(shù)據(jù)的企事業(yè)單位做咨詢、分析等)
2.數(shù)據(jù)挖掘從業(yè)人員切入點:
根據(jù)上面的從業(yè)方向來說說需要掌握的技能。
A:做科研:這里的科研相對來說比較概括,屬于技術(shù)型的相對高級級別,需要對開發(fā)、數(shù)據(jù)分析的必備基礎(chǔ)知識。
B:算法工程師:主要是實現(xiàn)數(shù)據(jù)挖掘現(xiàn)有的算法和研發(fā)新的算法以及根據(jù)實際需要結(jié)合核心算法做一些程序開發(fā)實現(xiàn)工作。要想扮演好這個角色,你不但需要熟悉至少一門編程語言如(C,C++,Java,Delphi等)和數(shù)據(jù)庫原理和操作,對數(shù)據(jù)挖掘基礎(chǔ)課程有所了解,讀過《數(shù)據(jù)挖掘概念與技術(shù)》(韓家煒著)、《人工智能及其應(yīng)用》。有一點了解以后,如果對程序比較熟悉的話并且時間允許,可以尋找一些開源的數(shù)據(jù)挖掘軟件研究分析,也可以參考如《數(shù)據(jù)挖掘:實用機器學(xué)習(xí)技術(shù)及Java實現(xiàn)》等一些教程。
C:數(shù)據(jù)分析師:需要有深厚的數(shù)理統(tǒng)計基礎(chǔ),可以不知道人工智能和計算機編程等相關(guān)技術(shù),但是需要熟練使用主流的數(shù)據(jù)挖掘(或統(tǒng)計分析)工具。從這個方面切入數(shù)據(jù)挖掘領(lǐng)域的話你需要學(xué)習(xí)《數(shù)理統(tǒng)計》、《概率論》、《統(tǒng)計學(xué)習(xí)基礎(chǔ):數(shù)據(jù)挖掘、推理與預(yù)測》、《金融數(shù)據(jù)挖掘》,《業(yè)務(wù)建模與數(shù)據(jù)挖掘》、《數(shù)據(jù)挖掘實踐 》等,當(dāng)然也少不了你使用的工具的對應(yīng)說明書了,如SPSS、SAS等廠商的《SAS數(shù)據(jù)挖掘與分析》、《數(shù)據(jù)挖掘Clementine應(yīng)用實務(wù)》、《EXCEL 2007數(shù)據(jù)挖掘完全手冊》等,如果多看一些如《數(shù)據(jù)挖掘原理》 等書籍那就更好了。
數(shù)據(jù)挖掘人員需具備以下基本條件,才可以完成數(shù)據(jù)挖掘項目中的相關(guān)任務(wù)。
一、專業(yè)技能
本科或碩士以上學(xué)歷,數(shù)據(jù)挖掘、統(tǒng)計學(xué)、數(shù)據(jù)庫相關(guān)專業(yè),熟練掌握關(guān)系數(shù)據(jù)庫技術(shù),具有數(shù)據(jù)庫系統(tǒng)開發(fā)經(jīng)驗;
熟練掌握常用的數(shù)據(jù)挖掘算法;
具備數(shù)理統(tǒng)計理論基礎(chǔ),并熟悉常用的統(tǒng)計工具軟件。
二、行業(yè)知識
具有相關(guān)的行業(yè)知識,或者能夠很快熟悉相關(guān)的行業(yè)知識
三、合作精神
具有良好的團(tuán)隊合作精神,能夠主動和項目中其他成員緊密合作
四、客戶關(guān)系能力
具有良好的客戶溝通能力,能夠明確闡述數(shù)據(jù)挖掘項目的重點和難點,善于調(diào)整客戶對數(shù)據(jù)挖掘的誤解和過高期望;
具有良好的知識轉(zhuǎn)移能力,能夠盡快地讓模型維護(hù)人員了解并掌握數(shù)據(jù)挖掘方法論及建模實施能力。
進(jìn)階能力要求
數(shù)據(jù)挖掘人員具備如下條件,可以提高數(shù)據(jù)挖掘項目的實施效率,縮短項目周期。
具有數(shù)據(jù)倉庫項目實施經(jīng)驗,熟悉數(shù)據(jù)倉庫技術(shù)及方法論
熟練掌握SQL語言,包括復(fù)雜查詢、性能調(diào)優(yōu)
熟練掌握ETL開發(fā)工具和技術(shù)
熟練掌握Microsoft Office軟件,包括Excel和PowerPoint中的各種統(tǒng)計圖形技術(shù)
善于將挖掘結(jié)果和客戶的業(yè)務(wù)管理相結(jié)合,根據(jù)數(shù)據(jù)挖掘的成果向客戶提供有價值的可行性操作方案
五、應(yīng)用及就業(yè)領(lǐng)域
當(dāng)前數(shù)據(jù)挖掘應(yīng)用主要集中在電信(客戶分析),零售(銷售預(yù)測),農(nóng)業(yè)(行業(yè)數(shù)據(jù)預(yù)測),網(wǎng)絡(luò)日志(網(wǎng)頁定制),銀行(客戶欺詐),電力(客戶呼叫),生物(基因),天體(星體分類),化工,醫(yī)藥等方面。
當(dāng)前它能解決的問題典型在于:數(shù)據(jù)庫營銷(Database Marketing)、客戶群體劃分(Customer Segmentation &Classification;)、背景分析(Profile Analysis)、交叉銷售(Cross-selling)等市場分析行為,以及客戶流失性分析(Churn Analysis)、客戶信用記分(Credit Scoring)、欺詐發(fā)現(xiàn)(Fraud Detection)等等,在許多領(lǐng)域得到了成功的應(yīng)用。如果你訪問著名的亞馬遜網(wǎng)上書店會發(fā)現(xiàn)當(dāng)你選中一本書后,會出現(xiàn)相關(guān)的推薦數(shù)目“Customers who bought this book alsobought”,這背后就是數(shù)據(jù)挖掘技術(shù)在發(fā)揮作用。
數(shù)據(jù)挖掘的對象是某一專業(yè)領(lǐng)域中積累的數(shù)據(jù);挖掘過程是一個人機交互、多次反復(fù)的過程;挖掘的結(jié)果要應(yīng)用于該專業(yè)。因此數(shù)據(jù)挖掘的整個過程都離不開應(yīng)用領(lǐng)域的專業(yè)知識。“Business First, techniquesecond”是數(shù)據(jù)挖掘的特點。因此學(xué)習(xí)數(shù)據(jù)挖掘不意味著丟棄原有專業(yè)知識和經(jīng)驗。相反,有其它行業(yè)背景是從事數(shù)據(jù)挖掘的一大優(yōu)勢。如有銷售,財務(wù),機械,制造,call center等工作經(jīng)驗的,通過學(xué)習(xí)數(shù)據(jù)挖掘,可以提升個人職業(yè)層次,在不改變原專業(yè)的情況下,從原來的事務(wù)型角色向分析型角色轉(zhuǎn)變。從80年代末的初露頭角到90年代末的廣泛應(yīng)用,以數(shù)據(jù)挖掘為核心的商業(yè)智能(BI)已經(jīng)成為IT及其它行業(yè)中的一個新寵。
重點介紹下對數(shù)據(jù)挖掘的幾個崗位
數(shù)據(jù)采集分析專員
職位介紹:數(shù)據(jù)采集分析專員的主要職責(zé)是把公司運營的數(shù)據(jù)收集起來,再從中挖掘出規(guī)律性的信息來指導(dǎo)公司的戰(zhàn)略方向。這個職位常被忽略,但相當(dāng)重要。由于數(shù)據(jù)庫技術(shù)最先出現(xiàn)于計算機領(lǐng)域,同時計算機數(shù)據(jù)庫具有海量存儲、查找迅速、分析半自動化等特點,數(shù)據(jù)采集分析專員最先出現(xiàn)于計算機行業(yè),后來隨著計算機應(yīng)用的普及擴(kuò)展到了各個行業(yè)。該職位一般提供給懂?dāng)?shù)據(jù)庫應(yīng)用和具有一定統(tǒng)計分析能力的人。有計算機特長的統(tǒng)計專業(yè)人員,或?qū)W過數(shù)據(jù)挖掘的計算機專業(yè)人員都可以勝任此工作,不過最好能夠?qū)λ谛袠I(yè)的市場情況具有一定的了解。
求職建議:由于很多公司追求短期利益而不注重長期戰(zhàn)略的現(xiàn)狀,目前國內(nèi)很多企業(yè)對此職位的重視程度不夠。但大型公司、外企對此職位的重視程度較高,隨著時間的推移該職位會有升溫的趨勢。另外,數(shù)據(jù)采集分析專員很容易獲得行業(yè)經(jīng)驗,他們在分析過程中能夠很輕易地把握該行業(yè)的市場情況、客戶習(xí)慣、渠道分布等關(guān)鍵情況,因此如果想在某行創(chuàng)業(yè),從數(shù)據(jù)采集分析專員干起是一個不錯的選擇。
市場/數(shù)據(jù)分析師
1、市場數(shù)據(jù)分析是現(xiàn)代市場營銷科學(xué)必不可少的關(guān)鍵環(huán)節(jié): Marketing/Data Analyst從業(yè)最多的行業(yè): Direct Marketing (直接面向客戶的市場營銷) 吧,自90年代以來,Direct Marketing越來越成為公司推銷其產(chǎn)品的主要手段。
根據(jù)加拿大市場營銷組織(Canadian MarketingAssociation)的統(tǒng)計數(shù)據(jù): 僅1999年一年 Direct Marketing就創(chuàng)造了470000 個工作機會。從1999至2000,工作職位又增加了30000個。為什么Direct Marketing需要這么多Analyst呢? 舉個例子, 隨著商業(yè)競爭日益加劇,公司希望能最大限度的從廣告中得到銷售回報, 他們希望能有更多的用戶來響應(yīng)他們的廣告。所以他們就必需要在投放廣告之前做大量的市場分析工作。
例如,根據(jù)自己的產(chǎn)品結(jié)合目標(biāo)市場顧客的家庭收入,教育背景和消費趨向分析出哪些地區(qū)的住戶或居民最有可能響應(yīng)公司的銷售廣告,購買自己的產(chǎn)品或成為客戶,從而廣告只針對這些特定的客戶群。這樣有的放矢的篩選廣告的投放市場既節(jié)省開銷又提高了銷售回報率。但是所有的這些分析都是基于數(shù)據(jù)庫,通過數(shù)據(jù)處理,挖掘,建模得出的,其間,市場分析師的工作是必不可少的。
2、行業(yè)適應(yīng)性強: 幾乎所有的行業(yè)都會應(yīng)用到數(shù)據(jù), 所以作為一名數(shù)據(jù)/市場分析師不僅僅可以在華人傳統(tǒng)的IT行業(yè)就業(yè),也可以在政府,銀行,零售,醫(yī)藥業(yè),制造業(yè)和交通傳輸?shù)阮I(lǐng)域服務(wù)。
算法工程師
應(yīng)該來說目前算法工程師基本上都集中在中大型企業(yè)中,因為一般小公司很少用到算法來解決問題,如果這公司就是做數(shù)據(jù)相關(guān)產(chǎn)業(yè)的。而算法一般的應(yīng)用場景有推薦、廣告、搜索等,所以大家常見的在廣告領(lǐng)域、個性化推薦方面是有不少的同仁。常見的要求是懂JAVA/PYTHON/R中其中一種,能夠知道常規(guī)的回歸、隨機森林、決策樹、GBDT等算法,能夠有行業(yè)背景最佳等。如果是deep learning方向可能對圖論、畫像識別等方面要求更高些。
求職建議:background稍微好一些,再把一些基本的算法都弄明白,能說清楚之間的區(qū)別和優(yōu)缺點,包括常見的一些應(yīng)用場景都有哪些。對于公司來說,特別是BAT這樣使用機器學(xué)習(xí)的公司,算法工程師是很重要的一塊資產(chǎn)。
現(xiàn)狀與前景
數(shù)據(jù)挖掘是適應(yīng)信息社會從海量的數(shù)據(jù)庫中提取信息的需要而產(chǎn)生的新學(xué)科。它是統(tǒng)計學(xué)、機器學(xué)習(xí)、數(shù)據(jù)庫、模式識別、人工智能等學(xué)科的交叉。在中國各重點院校中都已經(jīng)開了數(shù)據(jù)挖掘的課程或研究課題。比較著名的有中科院計算所、復(fù)旦大學(xué)、清華大學(xué)等。還有cda數(shù)據(jù)分析師協(xié)會等。另外,政府機構(gòu)和大型企業(yè)也開始重視這個領(lǐng)域。
據(jù)IDC對歐洲和北美62家采用了商務(wù)智能技術(shù)的企業(yè)的調(diào)查分析發(fā)現(xiàn),這些企業(yè)的3年平均投資回報率為401%,其中25%的企業(yè)的投資回報率超過600%。調(diào)查結(jié)果還顯示,一個企業(yè)要想在復(fù)雜的環(huán)境中獲得成功,高層管理者必須能夠控制極其復(fù)雜的商業(yè)結(jié)構(gòu),若沒有詳實的事實和數(shù)據(jù)支持,是很難辦到的。因此,隨著數(shù)據(jù)挖掘技術(shù)的不斷改進(jìn)和日益成熟,它必將被更多的用戶采用,使更多的管理者得到更多的商務(wù)智能。
根據(jù)IDC(International DataCorporation)預(yù)測說2004年估計BI行業(yè)市場在140億美元。現(xiàn)在,隨著我國加入WTO,我國在許多領(lǐng)域,如金融、保險等領(lǐng)域?qū)⒅鸩綄ν忾_放,這就意味著許多企業(yè)將面臨來自國際大型跨國公司的巨大競爭壓力。國外發(fā)達(dá)國家各種企業(yè)采用商務(wù)智能的水平已經(jīng)遠(yuǎn)遠(yuǎn)超過了我國。美國Palo Alto 管理集團(tuán)公司1999年對歐洲、北美和日本375家大中型企業(yè)的商務(wù)智能技術(shù)的采用情況進(jìn)行了調(diào)查。結(jié)果顯示,在金融領(lǐng)域,商務(wù)智能技術(shù)的應(yīng)用水平已經(jīng)達(dá)到或接近70%,在營銷領(lǐng)域也達(dá)到50%,并且在未來的3年中,各個應(yīng)用領(lǐng)域?qū)υ摷夹g(shù)的采納水平都將提高約50%。
現(xiàn)在,許多企業(yè)都把數(shù)據(jù)看成寶貴的財富,紛紛利用商務(wù)智能發(fā)現(xiàn)其中隱藏的信息,借此獲得巨額的回報。國內(nèi)暫時還沒有官方關(guān)于數(shù)據(jù)挖掘行業(yè)本身的市場統(tǒng)計分析報告,但是國內(nèi)數(shù)據(jù)挖掘在各個行業(yè)都有一定的研究。據(jù)國外專家預(yù)測,在今后的5—10年內(nèi),隨著數(shù)據(jù)量的日益積累以及計算機的廣泛應(yīng)用,數(shù)據(jù)挖掘將在中國形成一個產(chǎn)業(yè)。
眾所周知,IT就業(yè)市場競爭已經(jīng)相當(dāng)激烈,而數(shù)據(jù)處理的核心技術(shù)—數(shù)據(jù)挖掘更是得到了前所未有的重視。數(shù)據(jù)挖掘和商業(yè)智能技術(shù)位于整個企業(yè)IT-業(yè)務(wù)構(gòu)架的金字塔塔尖,目前國內(nèi)數(shù)據(jù)挖掘專業(yè)的人才培養(yǎng)體系尚不健全,人才市場上精通數(shù)據(jù)挖掘技術(shù)、商業(yè)智能的供應(yīng)量極小,而另一方面企業(yè)、政府機構(gòu)和和科研單位對此類人才的潛在需求量極大,供需缺口極大。如果能將數(shù)據(jù)挖掘技術(shù)與個人已有專業(yè)知識相結(jié)合,您必將開辟職業(yè)生涯的新天地!
職業(yè)薪酬
就目前來看,和大多IT業(yè)的職位一樣,數(shù)據(jù)挖掘方面的人才在國內(nèi)的需求工作也是低端飽和,高端緊缺。從BAT的招聘情況來看,數(shù)據(jù)挖掘領(lǐng)域相對來說門檻還是比較高的,但是薪酬福利也相對來說比較好,常見的比如騰訊、阿里都會給到年薪20W+。而厲害的資深算法專家年薪百萬也是常有的事情,所以大家在算法方面還是大有可能。另外隨著金融越來越互聯(lián)網(wǎng)化,大量的算法工程師會成為以后互聯(lián)網(wǎng)金融公司緊缺的人才。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03