
先來一波養(yǎng)眼圖~
4月10日,全都是美女的「數(shù)你最美」數(shù)據(jù)分析沙龍在北京蘇州街納什空間圓滿舉辦?,F(xiàn)場不僅有美女養(yǎng)眼,還有強大的干貨分享。
四位美女嘉賓在現(xiàn)場分享了自己在數(shù)據(jù)分析行業(yè)的成長經(jīng)歷,C君當然忍不住深入「搭訕」了一番。聊完之后,C君覺得,姑娘,如果你想成為一名數(shù)據(jù)分析師,就大膽地上吧。雖然這個行業(yè)男同胞們占了大半壁江山,但如果姑娘們有決心有毅力,完全可以成為一名優(yōu)秀而強大的從業(yè)者。在這一點上,男女并無差別。
四位嘉賓的PPT已經(jīng)可以提供下載,請在CDA數(shù)據(jù)分析師微信公眾號回復(fù)關(guān)鍵詞「美女」獲取下載鏈接和提取碼。
嘉賓的現(xiàn)場錄音整理將會搭配PPT以圖文形式陸續(xù)發(fā)布在CDA微信公眾號上,請持續(xù)關(guān)注。
本期分享第一篇:
如何在一年之內(nèi)成為一名數(shù)據(jù)挖掘工程師?
不管是數(shù)據(jù)分析師還是數(shù)據(jù)挖掘工程師,我們的目標都是認識數(shù)據(jù),從數(shù)據(jù)中發(fā)現(xiàn)需要的信息。
所需要的技能
做數(shù)據(jù)分析,統(tǒng)計的知識肯定是需要的,Excel、SPSS、R等是需要掌握的基本技能。
我是做數(shù)據(jù)挖掘的,所以重點講一下數(shù)據(jù)挖掘方面的技能。我本身是學(xué)數(shù)學(xué)專業(yè)的,接觸數(shù)學(xué)比較多。數(shù)據(jù)挖掘要從海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,這就需要一定的數(shù)學(xué)知識,最基本的比如線性代數(shù)、高等代數(shù)、凸優(yōu)化、概率論等。
舉個栗子,比如樸素貝葉斯算法需要概率方面的知識,SKM算法需要高等代數(shù)或者區(qū)間論方面的知識。當然,你可以直接套模型,R、Python這些工具有現(xiàn)成的算法包,可以直接套用。但如果你想深入學(xué)習(xí)這些算法,最好去學(xué)習(xí)一些數(shù)學(xué)知識,也會讓你以后的路走得更順暢。
我們經(jīng)常會用到的語言包括Python、Java、C或者C++,我自己用Python或者Java比較多。有時用MapReduce寫程序,再用Hadoop或者Hyp來處理數(shù)據(jù),如果用Python的話會和Spark相結(jié)合。
工作內(nèi)容
數(shù)據(jù)分析更偏向統(tǒng)計分析,出圖,作報告比較多,做一些展示。知乎上有一個叫團支書的答主,他就比較偏向于數(shù)據(jù)分析。
數(shù)據(jù)挖掘更偏向于建模型。比如,我們做一個百貨的數(shù)據(jù)分析。萬達電商的數(shù)據(jù)非常大,具體要做什么需要項目組自己來定。百貨數(shù)據(jù)能給我們的業(yè)務(wù)什么樣的推進,我們從這一點入手去思考。我們從中挑出一部分進行用戶分群。
消費者在商場購物消費會有一個刷卡的數(shù)據(jù)記錄,萬達會員卡的卡號信息以及購物記錄也會在數(shù)據(jù)中呈現(xiàn),數(shù)據(jù)體量是很大的。我們用這些數(shù)據(jù)做一個聚類,分成幾個用戶群,比如偏向親子的、時尚女裝和奢侈品的、汽車配飾的,分群之后再去給他們做推薦就相對更加容易。
我們做用戶分群會用到一些聚類模型,比如K-means、K-means++等,處理數(shù)據(jù)的維度特別大,是300w*142維,如果全部拿來聚類,效果不太好,因為有一些是沒有含義的,所以我們會進行降維。
降維一般會用到主成分分析,我們用的是深度學(xué)習(xí)的一個算法——Auto Encoder。它有一個輸入層,一個隱含層,一個輸出層,數(shù)據(jù)從輸入層進去時會進行編碼,從輸出層出來時解碼,比如我們把142維數(shù)據(jù)灌進去,在隱含層降成50維數(shù)據(jù),輸出還是142維數(shù)據(jù)。也就是說把一開始的142維數(shù)據(jù)投射到50維數(shù)據(jù)之后,再還原成142維,這142維與之前的142維數(shù)據(jù)之間的映射關(guān)系是一樣的,那么我們就可以用中間50維的數(shù)據(jù)做聚類分析。
最后我們得到了一個評價指標,你可以理解為這個指標數(shù)值越小越好,越小代表各個值離中心越近。如果不用深度學(xué)習(xí)算法,得出的評價指標是20萬左右,而降維之后得出的指標是600多,效果是很顯著的。
我講這個例子也是想告訴大家,如果你不具備數(shù)學(xué)知識,只是去套模型也可以做,但永遠只是停留在入門階段。大家如果想做數(shù)據(jù)挖掘工程師的話,我建議編程語言至少要會一門,數(shù)學(xué)方面至少需要線性代數(shù)、概率論和凸優(yōu)化的知識,了解一些機器學(xué)習(xí)算法的推導(dǎo),以及深度學(xué)習(xí)的算法。這個學(xué)習(xí)起來并不是特別難,我從畢業(yè)到現(xiàn)在有一年的時間,一些基本的算法已經(jīng)了解的差不多了。
發(fā)展的建議
每個人都有自己的偏好。有的人會說,數(shù)學(xué)太難了,我不想做挖掘,就想做一些數(shù)據(jù)分析,做一些酷炫的分析圖,這個當然可以。如果想要自己的職業(yè)生涯有長足發(fā)展的話,不要貪多貪雜,在某一個領(lǐng)域深入進去。你可以結(jié)合自己的興趣,在那一個領(lǐng)域成為專家。
提高自己的技術(shù)和業(yè)務(wù)能力。技術(shù)能力相對來說是比較好提高的,學(xué)R或者Python這類簡單的語言是很快的,Java或者C++會比較慢。當技術(shù)能力提高到一定程度的時候,就很難跟別人有技術(shù)上的差別了??赡芄ぷ饕荒甑臅r候你只會R,等兩三年之后相關(guān)的工具技術(shù)你都會了,這個時候你跟其他同事的區(qū)別就在于業(yè)務(wù)能力。
很多做技術(shù)的一開始會覺得技術(shù)就是特別牛特別厲害,但是光有技術(shù)并不能讓你成為公司的核心成員,必須要提高自己的業(yè)務(wù)能力。如果你做的技術(shù)出的結(jié)果跟業(yè)務(wù)不相關(guān),對公司無法產(chǎn)生效益,領(lǐng)導(dǎo)是不會要這個結(jié)果的,除非你是研究人員。
幾個小tips
學(xué)歷重要嗎?
校招渠道比較看重學(xué)歷,但是隨著工作經(jīng)驗的增加,你的技術(shù)達到了一定的水平,你是二本三本實際上和985畢業(yè)的人并沒有太大區(qū)別。當然,對于應(yīng)屆畢業(yè)生來說,學(xué)歷高學(xué)校好更有優(yōu)勢,這是大廠的敲門磚。
也有人會問需不需要考研??佳幸阋院蟮墓ぷ鞯缆方Y(jié)合起來,如果想做數(shù)據(jù)挖掘,就可以選擇考數(shù)學(xué)類專業(yè)的研究生,可以提高自己的競爭力。
以我的經(jīng)歷來說,我本科是在湖北一個很普通的學(xué)校,研究生報考武漢大學(xué)的計算數(shù)學(xué)專業(yè)。但因為兩分之差,調(diào)劑到了基礎(chǔ)數(shù)學(xué)。當時家人勸我服從調(diào)劑,好歹研究生是武大出來的。不過我的興趣不在基礎(chǔ)數(shù)學(xué),這個專業(yè)也并不能給我想要從事的數(shù)據(jù)挖掘加分,還不如先在工作中積累一些實踐經(jīng)驗,所以就放棄了讀研。如果我工作幾年之后需要提升能力,可以再去考個研究生,不一定非要現(xiàn)在就考。
轉(zhuǎn)行可不可以學(xué)?
現(xiàn)在這個行業(yè)越來越火,很多人想要轉(zhuǎn)行做數(shù)據(jù)分析。轉(zhuǎn)行學(xué)數(shù)據(jù)分析師是可以的,但最好先去看一下招聘單位的工作內(nèi)容,如果招聘要求懂PPT、Excel之類的就可以不要考慮了,因為這種通常招的是統(tǒng)計員,不是分析師,對你的職業(yè)道路不會有太大的幫助。如果要求會Python、R或者建模,你可以去嘗試一下。可能別人不一定會要你,但如果你表現(xiàn)出足夠的誠意和自學(xué)能力的話,依然有被錄用的機會。
我大學(xué)讀數(shù)學(xué)專業(yè)時只學(xué)了MATLAB,學(xué)了不到一年,當時在學(xué)校參加MATLAB建模比賽得了一等獎,覺得自己挺牛。但是在找工作時發(fā)現(xiàn)很多公司不用MATLAB或者SAS,因為比較貴,很多都會用開源的R。面試的時候,我說我不知道R是什么,領(lǐng)導(dǎo)說,給你兩個星期,學(xué)。后來在工作里一點點看書,也就入門了。
跳到第四個問題,選數(shù)據(jù)分析還是數(shù)據(jù)挖掘?
很多人覺得數(shù)據(jù)挖掘很厲害,但是一轉(zhuǎn)行就跳到數(shù)據(jù)挖掘是不太可能的。數(shù)據(jù)挖掘要求比較深的代碼功底。
一開始我也不會寫代碼,畢業(yè)之后我去了一家公司,Title是中級數(shù)據(jù)分析師,但干的是數(shù)據(jù)挖掘的事兒。剛?cè)肼毜囊粋€月內(nèi),老板讓我用Python出結(jié)果。之前沒學(xué)過Python,我邊學(xué)邊做,這樣把Python也學(xué)會了。后來在這家公司做過一個垃圾文本分類的項目,這個方面以前也沒有接觸過,就一邊查資料一邊自己做。一開始用公式套,但是準確率只有80%左右,我就開始看公式的推導(dǎo),看懂公式原理之后就知道某些地方是可以挑優(yōu)的,自己可以對算法做一些改進。不要只套公式,也要弄明白其中的公式推導(dǎo),搞懂源代碼,慢慢提高自己的代碼能力。
怎么選公司
大公司當然是最好的。大公司一般走校招,如果你通過校招進了大公司,但是非核心的崗位,比如百度搜索方面的挖掘,當然是最好的,如果進入不了這樣的崗位,不如去一些新發(fā)展起來的公司,比如美團、滴滴,這樣的公司有一定的數(shù)據(jù)量,也會有一些比較強的人。
第三類公司是創(chuàng)業(yè)公司。如果是剛畢業(yè)最好不要選創(chuàng)業(yè)公司,風(fēng)險比較大。你比較難以從表面上判斷這家公司能不能存活下來,有沒有牛人值得跟。而一些二線公司的業(yè)務(wù)骨干大多是從BAT過來的,具有比較豐富經(jīng)驗,跟著他們學(xué)習(xí)能讓自己快速成長。
怎么面試
一定要誠實。不要造假工作經(jīng)驗和年限,沒有必要,對自己也沒有好處。畢業(yè)生求職時可以表現(xiàn)得真誠一點,不能說一上手就能做很多工作,但是可以展示自己的學(xué)習(xí)能力。
我也不是一開始就做數(shù)據(jù)挖掘,也是在工作中慢慢轉(zhuǎn)。如果你真的想做這一行,就要有決心,不能著急。
講個小故事,當時想轉(zhuǎn)數(shù)據(jù)挖掘的時候,我不知道是選擇Java還是C++。當時我投了很多數(shù)據(jù)挖掘崗位,我知道面試通過的可能性不大,但我就跟面試官聊天,請教經(jīng)驗。我說自己是數(shù)學(xué)專業(yè)畢業(yè)的,想要轉(zhuǎn)做數(shù)據(jù)挖掘工程師,需要掌握哪些能力。面試官就畫了一個圖說,一個圓代表數(shù)學(xué),一個圓代表計算機,我們需要的就是兩個圓交叉的部分,如果編程語言求快的話可以先學(xué)Java;我接著問他需要看哪些資料等等,我們聊了差不多一個小時。其實很多老人帶新人是很樂于分享的,多看前人的經(jīng)驗,幫助自己成長,一定會在這個行業(yè)有所收獲。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03