
如何成為一名優(yōu)質(zhì)的數(shù)據(jù)科學(xué)家
開(kāi)隨著“數(shù)據(jù)驅(qū)動(dòng)”的價(jià)值越來(lái)越明顯,越來(lái)越多的企事業(yè)開(kāi)始組建或擴(kuò)大數(shù)據(jù)分析隊(duì)伍,“數(shù)據(jù)科學(xué)家”這個(gè)職位也越來(lái)越被大家關(guān)注。
? “數(shù)據(jù)科學(xué)家”是不是“統(tǒng)計(jì)師”更性感的版本?
? 起碼得有統(tǒng)計(jì)、應(yīng)用數(shù)學(xué)、計(jì)算機(jī)的背景?
? 干了5年的軟件開(kāi)發(fā),寫(xiě)SQL如反掌觀紋,換行做數(shù)據(jù)科學(xué)家很容易吧?
? 我們市場(chǎng)部也想更加“數(shù)字化”,但不懂編程,應(yīng)該如何起步?
數(shù)據(jù)科學(xué)家的定義
經(jīng)歷了一些不同階段的大數(shù)據(jù)項(xiàng)目之后,我意識(shí)到,在“數(shù)據(jù)科學(xué)家”這個(gè)角色沒(méi)定義好之前,“數(shù)據(jù)化”會(huì)遇到很多挑戰(zhàn)。這個(gè)角色的定義相當(dāng)模糊,造成很多混淆--很像對(duì)“數(shù)字化”本身的混淆。
我翻閱了一下招聘網(wǎng)站上數(shù)據(jù)科學(xué)家的職責(zé),有的專(zhuān)門(mén)通過(guò)統(tǒng)計(jì)和機(jī)器學(xué)習(xí)來(lái)建立預(yù)測(cè)模型,有的定義則更加寬泛。那么到底“數(shù)據(jù)科學(xué)家”具備什么樣的技能,能做哪些事?很多希望實(shí)現(xiàn)“數(shù)據(jù)驅(qū)動(dòng)”的企業(yè)對(duì)數(shù)據(jù)科學(xué)家的期望比較籠統(tǒng),并且在不斷修正中,這很正常,那么你,怎樣才能更好地為這一職位做好準(zhǔn)備?
網(wǎng)上已經(jīng)有很多種答案,本文并不想提出新的詮釋?zhuān)潜M量將最主流的觀點(diǎn)提供給大家,并結(jié)合現(xiàn)有的技術(shù),為有志于成為數(shù)據(jù)科學(xué)家的朋友,提供建議。
定義一:數(shù)據(jù)科學(xué)家起碼是統(tǒng)計(jì)師
“數(shù)據(jù)科學(xué)家是對(duì)統(tǒng)計(jì)師更性感的稱(chēng)謂” -Nate Silver
Nate Silver是個(gè)著名的統(tǒng)計(jì)師,憑借2008年美國(guó)總統(tǒng)競(jìng)選中,成功地預(yù)測(cè)了所有50個(gè)州里的49個(gè)州競(jìng)選結(jié)果,而一戰(zhàn)成名,并被《時(shí)代周刊》評(píng)為2009年度最有影響力的100人之一。
他說(shuō):“數(shù)據(jù)科學(xué)家是對(duì)統(tǒng)計(jì)師更性感的稱(chēng)謂。......,數(shù)據(jù)科學(xué)家(這個(gè)稱(chēng)謂)有點(diǎn)多余,人們不應(yīng)該批評(píng)“統(tǒng)計(jì)師”這個(gè)詞”。
不過(guò),數(shù)據(jù)本身在變化——越來(lái)越多,越來(lái)越快,種類(lèi)越來(lái)越豐富,統(tǒng)計(jì)師們用以前的辦法難以應(yīng)對(duì),所以數(shù)據(jù)科學(xué)家至少是比統(tǒng)計(jì)師們更善于編程的那些人。
定義二:數(shù)據(jù)科學(xué)家用編程和統(tǒng)計(jì),將數(shù)據(jù)更有用
隨著數(shù)據(jù)分析和業(yè)務(wù)需求的發(fā)展,以及分工的細(xì)化,這個(gè)稱(chēng)謂也在逐漸演化。 比如,Pandora的研究部門(mén)負(fù)責(zé)人Michael Hochester是這樣定義數(shù)據(jù)工程師的:
“數(shù)據(jù)科學(xué)家是一些能綜合運(yùn)用編程和統(tǒng)計(jì)技術(shù)的人,他們致力于通過(guò)各種方式讓將數(shù)據(jù)更發(fā)揮作用?!彼J(rèn)為數(shù)據(jù)科學(xué)家分為兩類(lèi):
A類(lèi): 分析型
主要像統(tǒng)計(jì)學(xué)家那樣,進(jìn)行靜態(tài)的數(shù)據(jù)分析,并能清洗數(shù)據(jù)。他們用不同辦法處理較大的數(shù)據(jù)集,可視化,非常熟悉某個(gè)領(lǐng)域,能很好解讀數(shù)據(jù)等等;分析型數(shù)據(jù)科學(xué)家也能通過(guò)寫(xiě)代碼來(lái)處理數(shù)據(jù),但不像工程師那樣專(zhuān)業(yè)。他們更擅長(zhǎng)實(shí)驗(yàn)設(shè)計(jì),預(yù)測(cè)、建模、統(tǒng)計(jì)推斷和其他統(tǒng)計(jì)工作。結(jié)論會(huì)更直白,而不是像P值和置信區(qū)間那么學(xué)術(shù)化。提煉出簡(jiǎn)潔有力的結(jié)論,并傳達(dá)給其他人,是數(shù)據(jù)科學(xué)家常常被低估而異常重要的職責(zé)之一。
B類(lèi): 搭建型
除了統(tǒng)計(jì)知識(shí)之外,搭建型數(shù)據(jù)科學(xué)家編程很強(qiáng),關(guān)注于用在線生產(chǎn)數(shù)據(jù)搭建模型,并和其他系統(tǒng)連接,實(shí)現(xiàn)自動(dòng)更新結(jié)果、或自動(dòng)和用戶(hù)互動(dòng),比如推薦系統(tǒng)(產(chǎn)品、你認(rèn)識(shí)的人、廣告、電影、查詢(xún)結(jié)果等等)。
一個(gè)好的分析師具備哪些特點(diǎn)?
我最喜歡這個(gè)問(wèn)題,網(wǎng)上的答案也五花八門(mén)。 有推薦一大堆技術(shù)的,有一大堆統(tǒng)計(jì)名詞的。 Monica Rogati的答案值得回味:她在《一個(gè)好的分析師由哪些條件組成?》里提出四點(diǎn):
1. 務(wù)實(shí)
技術(shù)和模型是否最優(yōu),遠(yuǎn)不如所帶來(lái)的影響更重要。 幾個(gè)星期的工作,是否能為公司帶來(lái)相應(yīng)收益,結(jié)論能帶來(lái)多大的改變? 務(wù)實(shí),意味著在開(kāi)始之前搞清楚:1)可能的,和最有可能的結(jié)果;2)所需的時(shí)間、人力和資源。
花幾個(gè)星期研究一個(gè)新算法,甚至學(xué)一個(gè)新技術(shù),很能帶來(lái)成就感。但對(duì)公司來(lái)講,是不是真的比一個(gè)基于簡(jiǎn)單的啟發(fā)法(Heuristics)的結(jié)論有用得多? 不考慮機(jī)會(huì)成本,就可能糾結(jié)于一個(gè)最多能帶來(lái)2%提升的難題,而忽略了能帶來(lái)20%提升的課題。
所以,當(dāng)產(chǎn)品經(jīng)理跟你講:“能不能幫忙把xxx產(chǎn)品今年的數(shù)據(jù)幫我匯總一下”,一定要問(wèn)問(wèn)用途,比如“為啥需要???”,“想看哪方面?”,對(duì)方也許關(guān)心渠道增長(zhǎng),或者想進(jìn)行捆綁營(yíng)銷(xiāo)。不清楚目的,而一頭扎進(jìn)各種報(bào)表,不僅費(fèi)時(shí)費(fèi)力,而且結(jié)論的針對(duì)性和深度有限。
2. 好奇
數(shù)據(jù)分析有點(diǎn)像偵探工作。 重大發(fā)現(xiàn)都是從蛛絲馬跡開(kāi)始,看似無(wú)關(guān)的線索可能有深藏其后的關(guān)聯(lián)。追,可能能獲得重要的洞察,不追……也沒(méi)人怪你。線索=數(shù)據(jù),多種來(lái)源、不同規(guī)范程度的數(shù)據(jù)。80%的精力都會(huì)耗費(fèi)在提取、清理和規(guī)范數(shù)據(jù)上,所以,缺乏好奇心,就很難堅(jiān)持追下去,而最終真相的價(jià)值可能超過(guò)最新最酷的機(jī)器學(xué)習(xí)算法。
3. 技術(shù)和解決問(wèn)題的能力
技術(shù)、能力和業(yè)務(wù)知識(shí),缺一不可。
技術(shù)意味著對(duì)統(tǒng)計(jì)、算法和軟件工具的熟悉。 并不非要有統(tǒng)計(jì)學(xué)的碩士學(xué)位,但起碼得明白最小二乘法之類(lèi)的基本統(tǒng)計(jì)方法和如何解讀結(jié)果。
能力意味著能解決實(shí)際問(wèn)題,能堅(jiān)持不懈地用各種技術(shù)進(jìn)行探索,靈活地編程,使用命令行,對(duì)不同數(shù)據(jù)源進(jìn)行清洗、轉(zhuǎn)換, 應(yīng)用不同的算法和模型。 計(jì)算機(jī)學(xué)位也不是必須的,實(shí)際上很多技術(shù)俠連正式的計(jì)算機(jī)課程都沒(méi)修過(guò)。
業(yè)務(wù)知識(shí)是指和具體領(lǐng)域、公司或部門(mén)相關(guān)的背景知識(shí)。比如分析醫(yī)療設(shè)備數(shù)據(jù)時(shí),如果了解哪些耗材配套哪些設(shè)備? 哪些醫(yī)院科室常做哪些檢測(cè)?就可以更明智地使用數(shù)據(jù)。
沒(méi)人能對(duì)所有這些都熟悉。好在信息時(shí)代讓學(xué)習(xí)變得更加簡(jiǎn)單。最快的途徑是邊做邊學(xué),比如自己做些小項(xiàng)目,并跟著有經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家學(xué)習(xí)。不同的公司所看重的技術(shù)、工具、業(yè)務(wù)知識(shí)也不同。 很多公司非??粗亟y(tǒng)計(jì)學(xué)基礎(chǔ),比如提供網(wǎng)絡(luò)游戲和社區(qū)的Twitch的數(shù)據(jù)科學(xué)家Brad Schumitsch談到:
“在Twitch, 我們的數(shù)據(jù)科學(xué)團(tuán)隊(duì)由三部分組成:統(tǒng)計(jì)、編程和產(chǎn)品知識(shí)。 我們從來(lái)不招統(tǒng)計(jì)學(xué)不強(qiáng)的人。你可以是個(gè)很強(qiáng)的程序員,但如果不懂貝葉斯定理, 我只能建議你去我們工程部。”
所以,不同企業(yè)或不同階段,對(duì)技術(shù)、能力和業(yè)務(wù)知識(shí)這三方面的側(cè)重不同。 Google的數(shù)據(jù)科學(xué)家可能有博士學(xué)位,對(duì)計(jì)算機(jī)和數(shù)學(xué)很有研究。電商領(lǐng)域的同樣崗位可能對(duì)電商非常熟悉,卻不一定經(jīng)過(guò)正式的數(shù)學(xué)或計(jì)算機(jī)培訓(xùn)。
4. 溝通能力
能不能把復(fù)雜的概念闡述得言簡(jiǎn)意賅,而不用專(zhuān)業(yè)術(shù)語(yǔ)? 能不能幾秒鐘之內(nèi)就做一個(gè)簡(jiǎn)明扼要的圖? 能不能忍住不把所有前提、場(chǎng)景、局限性都一股腦倒出來(lái),來(lái)保證結(jié)論的絕對(duì)正確?是不是覺(jué)得可視化和簡(jiǎn)潔的結(jié)論只是給不懂技術(shù)的人,或者不如你聰明的人看的?
我的大數(shù)據(jù)導(dǎo)師老丁曾是惠普全球運(yùn)營(yíng)報(bào)表部門(mén)的老大,當(dāng)時(shí)我負(fù)責(zé)此平臺(tái)開(kāi)源后的市場(chǎng)工作。宣傳資料做了兩版之后,老丁扔過(guò)來(lái)一句話“太技術(shù)”,等到第三版,老丁急了,扔過(guò)來(lái)一本乳品生產(chǎn)企業(yè)的宣傳冊(cè),說(shuō)“按這辦”。“乳品”vs“數(shù)據(jù)庫(kù)”,我有點(diǎn)懵......老丁是80年代放棄成為第二批計(jì)算機(jī)學(xué)科院士的機(jī)會(huì),毅然投入美帝數(shù)據(jù)庫(kù)一線工作幾十年的老IT了,那全局觀,那思路,不可能錯(cuò)啊。
N個(gè)月之后,我明白了。 宣傳也好,數(shù)據(jù)科學(xué)家也好,有一點(diǎn)是相同的:我們的結(jié)論不應(yīng)只追求正確,更重要的是簡(jiǎn)潔。讓別人徹底明白,才有可能及時(shí)促成行動(dòng)。
這個(gè)過(guò)程責(zé)任重大,所涉及到的前提、場(chǎng)景和局限性都很重要,但應(yīng)先等一等,不能一股腦拋給你的聽(tīng)眾。它們終究會(huì)被簡(jiǎn)化掉,由數(shù)據(jù)科學(xué)家主動(dòng)去簡(jiǎn)化,不比被以后的人隨意簡(jiǎn)化強(qiáng)嗎?
如何成為數(shù)據(jù)科學(xué)家?
數(shù)據(jù)科學(xué)家的收入和職業(yè)前景不錯(cuò),那么如何才能找到一份數(shù)據(jù)科學(xué)家的工作? 另一個(gè)相近的版本是,很多企業(yè)建立內(nèi)部數(shù)據(jù)科學(xué)部門(mén)的時(shí)機(jī)也逐漸成熟,如何培養(yǎng)內(nèi)部人員成為數(shù)據(jù)科學(xué)家?
網(wǎng)上能找到不少關(guān)于數(shù)據(jù)科學(xué)家方方面面技能的教程、課程或視頻,包括分析方法、開(kāi)源工具、編程語(yǔ)言等。如果英文較好,還能從InfoQ、Quora、StackOverflow等獲得不少?lài)?guó)外大牛的指點(diǎn)。不過(guò)許多攻略都是這樣:1)你需要A、B、C、D這些技能;2)這里是鏈接。Python的鏈接在這,R的鏈接在那,機(jī)器學(xué)習(xí)的視頻在最下面,再去安個(gè)Hadoop和Spark。 這是最常見(jiàn)的學(xué)習(xí)方式,但很費(fèi)時(shí)費(fèi)力,效果沒(méi)那么好。 很多培訓(xùn)用的是處理過(guò)的規(guī)范數(shù)據(jù),演示效果很好,但現(xiàn)實(shí)卻不太一樣。
實(shí)際上,大家更認(rèn)可“邊干邊學(xué)”的效果,可是在找到數(shù)據(jù)科學(xué)家的工作之前,怎么才能得到“干”的機(jī)會(huì)? Monica Rogati的《How Can I become a data scientist》和Tomi Mester的《How to get your first job in Data Science》都提出了很好的方法。
第一步 四種工具
如果你想從最基礎(chǔ)開(kāi)始,有四種工具比較常用。這些工具都是免費(fèi)的,Tomi Mester提供了一個(gè)英文的攻略:
Bash和命令行;
Python
R
有時(shí)需要Java
一般來(lái)說(shuō),不同的公司會(huì)選用其中兩到三種。好消息是,一旦學(xué)會(huì)一種,學(xué)其他的也很快。 總共花一兩周,選其中兩三種掌握基本使用,就可以進(jìn)入下一步。
Tomi的攻略需要安裝和連接到云上的虛機(jī)。這些服務(wù)國(guó)內(nèi)眾多的云服務(wù)商都能提供,可以直接選國(guó)內(nèi)的即可。 具體的安裝,如果自己不熟悉,也可以請(qǐng)朋友幫忙,不一定要花太多時(shí)間。
第二步 先定個(gè)小目標(biāo),比如動(dòng)手做幾個(gè)小項(xiàng)目
親手做些項(xiàng)目,不僅是最快最有效地的學(xué)習(xí)辦法,而且能讓你的簡(jiǎn)歷更引人注目,在面試時(shí)加分不少。
選個(gè)感興趣的題目
結(jié)合可以找到的數(shù)據(jù),選選自己感興趣的題目,比如空氣質(zhì)量、氣候變化、民航運(yùn)輸、旅游、醫(yī)療支出等等。網(wǎng)上有不少數(shù)據(jù)可以免費(fèi)或者很便宜地下載。除了國(guó)內(nèi)數(shù)據(jù),一些美國(guó)網(wǎng)站上也有很多世界范圍的公眾數(shù)據(jù),比如天氣、各國(guó)經(jīng)濟(jì)、疾病、自然災(zāi)害等等。 常用的網(wǎng)站有國(guó)家統(tǒng)計(jì)局(“國(guó)家數(shù)據(jù)”)、美國(guó)政府公開(kāi)數(shù)據(jù)Data.gov、Kaggle比賽的數(shù)據(jù)集、世界數(shù)據(jù)圖冊(cè)、CEIC、證監(jiān)會(huì)、新浪財(cái)經(jīng)、AWS公用數(shù)據(jù)集、數(shù)糧、機(jī)器學(xué)習(xí)的UCI數(shù)據(jù)集等等。 如果是公司支持的項(xiàng)目,還可以從公司IT部門(mén)拿到數(shù)據(jù)。 重要的是,應(yīng)該從容易上手的項(xiàng)目做起,找到數(shù)據(jù),爭(zhēng)取一周之內(nèi)得出結(jié)果。
發(fā)個(gè)微博或微信,看看反映
在動(dòng)手分析之前,先大概看看數(shù)據(jù),把你想做的項(xiàng)目和初步印象用一兩句話,在微博和微信上看看大家的反應(yīng)。既要現(xiàn)實(shí)一點(diǎn)(能在一個(gè)星期內(nèi)做出結(jié)果),又要保持樂(lè)觀(相信自己能做出來(lái),能找到些有趣的結(jié)論)。猜想一個(gè)可能的結(jié)果,不一定很準(zhǔn)確(甚至可以編編),并邀請(qǐng)大家反饋,比如Monica Rogati曾經(jīng)這么發(fā)微博:
“我用LinkedIn數(shù)據(jù)研究創(chuàng)業(yè)者,發(fā)現(xiàn)他們比想象的老,學(xué)物理的比學(xué)護(hù)理或神學(xué)的多。也許是因?yàn)轱L(fēng)投們很難投一個(gè)新的宗教吧?”
“我用Jawbone的數(shù)據(jù)研究天氣對(duì)運(yùn)動(dòng)的影響--紐約人沒(méi)有加州人那么容易受天氣變化的影響,你們覺(jué)得是因?yàn)榧~約人更強(qiáng),還是他們主要在室內(nèi)運(yùn)動(dòng)?”
“我結(jié)合BBC的訃告和維基,來(lái)看看2016這一年對(duì)名人來(lái)講,是不是真的很衰?!?
如果你想學(xué)習(xí)某種技術(shù)的話,還可以這么寫(xiě),比如:Shelby Sturgis:“我為老師和管理者做了個(gè)Web應(yīng)用,通過(guò)分析學(xué)校排名、考試分?jǐn)?shù)的變化和不同科目的成績(jī),來(lái)幫助他們提高教育質(zhì)量。我用了MySQL、Python、Javascript、Highcharts.js和D3.js,來(lái)存儲(chǔ)、分析和展示加州STAR考試數(shù)據(jù)?!?
“我用了TensorFlow來(lái)自動(dòng)對(duì)黑白照片上色和還原,幫奶奶做了這個(gè)拼貼圖--最棒的圣誕!”
想象自己在交流會(huì)和面試?yán)锓磸?fù)介紹,刊登在《今日美國(guó)》或《華爾街日?qǐng)?bào)》上。你會(huì)覺(jué)得無(wú)聊,難以講清還是覺(jué)得自己聰明,并感到自豪?如果答案是否定的,就重新再找,或者回到上一步,直到找到2-3個(gè)信服的想法。 問(wèn)問(wèn)其他人--這個(gè)有意思嗎? 你愿意面試做這個(gè)的人,來(lái)做數(shù)據(jù)分析的工作嗎?
除了找數(shù)據(jù)和粗略地了解相關(guān)的技術(shù)和工具,此時(shí)你還沒(méi)有寫(xiě)任何代碼,或者做任何具體分析。你可以很方便地多次重復(fù)這個(gè)階段,而不要太著急地一頭扎進(jìn)某些教程或者課程,花幾個(gè)月時(shí)間毫無(wú)所獲。
開(kāi)始干
分析數(shù)據(jù)。清洗。繪制圖表。重復(fù)??纯疵總€(gè)字段常見(jiàn)的前十個(gè)值。研究一下異常值??纯捶植记闆r。如果數(shù)據(jù)不是很零散,可以把類(lèi)似的值分組。分析相關(guān)度,處理缺失的數(shù)據(jù)。嘗試不同的聚類(lèi)和分類(lèi)算法。調(diào)試。找找為什么有的效果好,有的不好? 如果數(shù)據(jù)多的話,搭建AWS Data Pipeline。對(duì)非結(jié)構(gòu)化數(shù)據(jù)嘗試用不同的NLP庫(kù)??赡軙?huì)用到Spark,numpy, panda, nltk, 矩陣分解和TensorFlow。這些技術(shù)不是為了學(xué)而學(xué),而是因?yàn)榻鉀Q問(wèn)題必須用到。
找個(gè)懂統(tǒng)計(jì)學(xué)、軟件工具或業(yè)務(wù)分析的朋友,會(huì)有很大幫助。每周花一個(gè)小時(shí)或每?jī)芍芫垡淮?,都?huì)很快幫你理順?biāo)悸?,或者解決實(shí)際問(wèn)題。
做個(gè)偵探,提出新的問(wèn)題和新的方向。數(shù)據(jù)的收集方式是否合理? 引入另外的數(shù)據(jù)集會(huì)怎么樣?這應(yīng)該是個(gè)有趣的過(guò)程,偶爾遇到障礙時(shí),可以向網(wǎng)上、論壇、老師或做相同工作的朋友求助。 如果感覺(jué)不好玩,就重新找個(gè)題目。如果感覺(jué)很差,就重新思考要不要當(dāng)數(shù)據(jù)科學(xué)家。如果這部分不能讓你充滿(mǎn)干勁,你很難堅(jiān)持和干好真實(shí)數(shù)據(jù)工作中占80%的乏味的苦活。
表達(dá)
用簡(jiǎn)單的語(yǔ)言和干凈、說(shuō)服力強(qiáng)的圖表來(lái)一目了然地表達(dá)。 學(xué)會(huì)用可視化工具非常重要。 如果你建了個(gè)原型,可以做一個(gè)簡(jiǎn)潔、有趣的演示或視頻。把技術(shù)細(xì)節(jié)和代碼放在鏈接里。發(fā)出去,并收集反饋。公開(kāi)展示能讓你提高標(biāo)準(zhǔn),得到高質(zhì)量的代碼、表達(dá)和圖形結(jié)果。重復(fù)這一過(guò)程,逐漸就能形成自己的項(xiàng)目集,給招聘人員看,直到加入夢(mèng)寐以求的團(tuán)隊(duì)。
有沒(méi)有捷徑?
很多朋友從事市場(chǎng)、財(cái)務(wù)等工作,不具備統(tǒng)計(jì)學(xué)背景,更沒(méi)有編程經(jīng)驗(yàn),如何轉(zhuǎn)向數(shù)據(jù)科學(xué)?
2016年底,一個(gè)朋友帶給我一個(gè)很典型的場(chǎng)景:她在一家醫(yī)療儀器公司,負(fù)責(zé)市場(chǎng)工作,積累了不少的數(shù)據(jù),包括客戶(hù)、銷(xiāo)售、產(chǎn)品等方面,分別來(lái)自于CRM、財(cái)務(wù)和產(chǎn)品管理系統(tǒng)。最大的表100多G,維度也比較全面。公司希望能培養(yǎng)自己的數(shù)據(jù)科學(xué)家,她也很感興趣,問(wèn)題是,如何開(kāi)始?
一般來(lái)說(shuō),如果對(duì)Excel的統(tǒng)計(jì)函數(shù)(如sum, sumif, count,時(shí)間轉(zhuǎn)換等),vlookup和數(shù)據(jù)透視表比較熟悉,可以從可視化工具入手。如果公司有預(yù)算,可以考慮Tableau,Power BI等;也可以選用國(guó)內(nèi)帆軟、魔鏡等。 Tableau的教學(xué)視頻比較系統(tǒng),很容易從0基礎(chǔ)開(kāi)始。
同時(shí)可以快速翻閱幾本經(jīng)典書(shū),包括《深入淺出數(shù)據(jù)分析》、《統(tǒng)計(jì)學(xué)》、《R語(yǔ)言實(shí)戰(zhàn)》、《深入淺出Python》等。對(duì)數(shù)據(jù)分析本身的使命、基本概念、常見(jiàn)方法等獲得總體了解,能讓你更快地找到自己的目標(biāo),為自己的項(xiàng)目整理思路。
同樣重要的,要以自己的項(xiàng)目為主線,限定期限,避免為技術(shù)細(xì)節(jié),扎到浩瀚的資料里。遇到問(wèn)題再去Quora、知乎、Stackoverlow、微信群和相關(guān)工具的論壇問(wèn)問(wèn)題,項(xiàng)目進(jìn)展會(huì)快得多,有時(shí)候幾分鐘就會(huì)有人給你答案。 做完第一個(gè)項(xiàng)目之后,再逐漸用更復(fù)雜的指標(biāo)、算法或工具,再用一兩周時(shí)間做出下一個(gè)項(xiàng)目,以此類(lèi)推。
即使完全沒(méi)基礎(chǔ),也不用擔(dān)心?;c(diǎn)時(shí)間看看上面提到的書(shū)或可視化工具的教學(xué)視頻,大概了解數(shù)據(jù)分析的基本概念和方法,你就可以開(kāi)始選自己的題目,開(kāi)始探索數(shù)據(jù)科學(xué)家的星辰大海,迎接嶄新的未來(lái)。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10