99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀如何成為一名優(yōu)質(zhì)的數(shù)據(jù)科學(xué)家
如何成為一名優(yōu)質(zhì)的數(shù)據(jù)科學(xué)家
2017-09-05
收藏

如何成為一名優(yōu)質(zhì)的數(shù)據(jù)科學(xué)家

開(kāi)隨著“數(shù)據(jù)驅(qū)動(dòng)”的價(jià)值越來(lái)越明顯,越來(lái)越多的企事業(yè)開(kāi)始組建或擴(kuò)大數(shù)據(jù)分析隊(duì)伍,“數(shù)據(jù)科學(xué)家”這個(gè)職位也越來(lái)越被大家關(guān)注。

? “數(shù)據(jù)科學(xué)家”是不是“統(tǒng)計(jì)師”更性感的版本?

? 起碼得有統(tǒng)計(jì)、應(yīng)用數(shù)學(xué)、計(jì)算機(jī)的背景?

? 干了5年的軟件開(kāi)發(fā),寫(xiě)SQL如反掌觀紋,換行做數(shù)據(jù)科學(xué)家很容易吧?

? 我們市場(chǎng)部也想更加“數(shù)字化”,但不懂編程,應(yīng)該如何起步?

數(shù)據(jù)科學(xué)家的定義

經(jīng)歷了一些不同階段的大數(shù)據(jù)項(xiàng)目之后,我意識(shí)到,在“數(shù)據(jù)科學(xué)家”這個(gè)角色沒(méi)定義好之前,“數(shù)據(jù)化”會(huì)遇到很多挑戰(zhàn)。這個(gè)角色的定義相當(dāng)模糊,造成很多混淆--很像對(duì)“數(shù)字化”本身的混淆。

我翻閱了一下招聘網(wǎng)站上數(shù)據(jù)科學(xué)家的職責(zé),有的專(zhuān)門(mén)通過(guò)統(tǒng)計(jì)和機(jī)器學(xué)習(xí)來(lái)建立預(yù)測(cè)模型,有的定義則更加寬泛。那么到底“數(shù)據(jù)科學(xué)家”具備什么樣的技能,能做哪些事?很多希望實(shí)現(xiàn)“數(shù)據(jù)驅(qū)動(dòng)”的企業(yè)對(duì)數(shù)據(jù)科學(xué)家的期望比較籠統(tǒng),并且在不斷修正中,這很正常,那么你,怎樣才能更好地為這一職位做好準(zhǔn)備?

網(wǎng)上已經(jīng)有很多種答案,本文并不想提出新的詮釋?zhuān)潜M量將最主流的觀點(diǎn)提供給大家,并結(jié)合現(xiàn)有的技術(shù),為有志于成為數(shù)據(jù)科學(xué)家的朋友,提供建議。

定義一:數(shù)據(jù)科學(xué)家起碼是統(tǒng)計(jì)師

“數(shù)據(jù)科學(xué)家是對(duì)統(tǒng)計(jì)師更性感的稱(chēng)謂” -Nate Silver

Nate Silver是個(gè)著名的統(tǒng)計(jì)師,憑借2008年美國(guó)總統(tǒng)競(jìng)選中,成功地預(yù)測(cè)了所有50個(gè)州里的49個(gè)州競(jìng)選結(jié)果,而一戰(zhàn)成名,并被《時(shí)代周刊》評(píng)為2009年度最有影響力的100人之一。

他說(shuō):“數(shù)據(jù)科學(xué)家是對(duì)統(tǒng)計(jì)師更性感的稱(chēng)謂。......,數(shù)據(jù)科學(xué)家(這個(gè)稱(chēng)謂)有點(diǎn)多余,人們不應(yīng)該批評(píng)“統(tǒng)計(jì)師”這個(gè)詞”。

不過(guò),數(shù)據(jù)本身在變化——越來(lái)越多,越來(lái)越快,種類(lèi)越來(lái)越豐富,統(tǒng)計(jì)師們用以前的辦法難以應(yīng)對(duì),所以數(shù)據(jù)科學(xué)家至少是比統(tǒng)計(jì)師們更善于編程的那些人。

定義二:數(shù)據(jù)科學(xué)家用編程和統(tǒng)計(jì),將數(shù)據(jù)更有用

隨著數(shù)據(jù)分析和業(yè)務(wù)需求的發(fā)展,以及分工的細(xì)化,這個(gè)稱(chēng)謂也在逐漸演化。 比如,Pandora的研究部門(mén)負(fù)責(zé)人Michael Hochester是這樣定義數(shù)據(jù)工程師的:

“數(shù)據(jù)科學(xué)家是一些能綜合運(yùn)用編程和統(tǒng)計(jì)技術(shù)的人,他們致力于通過(guò)各種方式讓將數(shù)據(jù)更發(fā)揮作用?!彼J(rèn)為數(shù)據(jù)科學(xué)家分為兩類(lèi):

A類(lèi): 分析型

主要像統(tǒng)計(jì)學(xué)家那樣,進(jìn)行靜態(tài)的數(shù)據(jù)分析,并能清洗數(shù)據(jù)。他們用不同辦法處理較大的數(shù)據(jù)集,可視化,非常熟悉某個(gè)領(lǐng)域,能很好解讀數(shù)據(jù)等等;分析型數(shù)據(jù)科學(xué)家也能通過(guò)寫(xiě)代碼來(lái)處理數(shù)據(jù),但不像工程師那樣專(zhuān)業(yè)。他們更擅長(zhǎng)實(shí)驗(yàn)設(shè)計(jì),預(yù)測(cè)、建模、統(tǒng)計(jì)推斷和其他統(tǒng)計(jì)工作。結(jié)論會(huì)更直白,而不是像P值和置信區(qū)間那么學(xué)術(shù)化。提煉出簡(jiǎn)潔有力的結(jié)論,并傳達(dá)給其他人,是數(shù)據(jù)科學(xué)家常常被低估而異常重要的職責(zé)之一。

B類(lèi): 搭建型

除了統(tǒng)計(jì)知識(shí)之外,搭建型數(shù)據(jù)科學(xué)家編程很強(qiáng),關(guān)注于用在線生產(chǎn)數(shù)據(jù)搭建模型,并和其他系統(tǒng)連接,實(shí)現(xiàn)自動(dòng)更新結(jié)果、或自動(dòng)和用戶(hù)互動(dòng),比如推薦系統(tǒng)(產(chǎn)品、你認(rèn)識(shí)的人、廣告、電影、查詢(xún)結(jié)果等等)。

一個(gè)好的分析師具備哪些特點(diǎn)?

我最喜歡這個(gè)問(wèn)題,網(wǎng)上的答案也五花八門(mén)。 有推薦一大堆技術(shù)的,有一大堆統(tǒng)計(jì)名詞的。 Monica Rogati的答案值得回味:她在《一個(gè)好的分析師由哪些條件組成?》里提出四點(diǎn):

1. 務(wù)實(shí)

技術(shù)和模型是否最優(yōu),遠(yuǎn)不如所帶來(lái)的影響更重要。 幾個(gè)星期的工作,是否能為公司帶來(lái)相應(yīng)收益,結(jié)論能帶來(lái)多大的改變? 務(wù)實(shí),意味著在開(kāi)始之前搞清楚:1)可能的,和最有可能的結(jié)果;2)所需的時(shí)間、人力和資源。

花幾個(gè)星期研究一個(gè)新算法,甚至學(xué)一個(gè)新技術(shù),很能帶來(lái)成就感。但對(duì)公司來(lái)講,是不是真的比一個(gè)基于簡(jiǎn)單的啟發(fā)法(Heuristics)的結(jié)論有用得多? 不考慮機(jī)會(huì)成本,就可能糾結(jié)于一個(gè)最多能帶來(lái)2%提升的難題,而忽略了能帶來(lái)20%提升的課題。

所以,當(dāng)產(chǎn)品經(jīng)理跟你講:“能不能幫忙把xxx產(chǎn)品今年的數(shù)據(jù)幫我匯總一下”,一定要問(wèn)問(wèn)用途,比如“為啥需要???”,“想看哪方面?”,對(duì)方也許關(guān)心渠道增長(zhǎng),或者想進(jìn)行捆綁營(yíng)銷(xiāo)。不清楚目的,而一頭扎進(jìn)各種報(bào)表,不僅費(fèi)時(shí)費(fèi)力,而且結(jié)論的針對(duì)性和深度有限。

2. 好奇

數(shù)據(jù)分析有點(diǎn)像偵探工作。 重大發(fā)現(xiàn)都是從蛛絲馬跡開(kāi)始,看似無(wú)關(guān)的線索可能有深藏其后的關(guān)聯(lián)。追,可能能獲得重要的洞察,不追……也沒(méi)人怪你。線索=數(shù)據(jù),多種來(lái)源、不同規(guī)范程度的數(shù)據(jù)。80%的精力都會(huì)耗費(fèi)在提取、清理和規(guī)范數(shù)據(jù)上,所以,缺乏好奇心,就很難堅(jiān)持追下去,而最終真相的價(jià)值可能超過(guò)最新最酷的機(jī)器學(xué)習(xí)算法。

3. 技術(shù)和解決問(wèn)題的能力

技術(shù)、能力和業(yè)務(wù)知識(shí),缺一不可。

技術(shù)意味著對(duì)統(tǒng)計(jì)、算法和軟件工具的熟悉。 并不非要有統(tǒng)計(jì)學(xué)的碩士學(xué)位,但起碼得明白最小二乘法之類(lèi)的基本統(tǒng)計(jì)方法和如何解讀結(jié)果。

能力意味著能解決實(shí)際問(wèn)題,能堅(jiān)持不懈地用各種技術(shù)進(jìn)行探索,靈活地編程,使用命令行,對(duì)不同數(shù)據(jù)源進(jìn)行清洗、轉(zhuǎn)換, 應(yīng)用不同的算法和模型。 計(jì)算機(jī)學(xué)位也不是必須的,實(shí)際上很多技術(shù)俠連正式的計(jì)算機(jī)課程都沒(méi)修過(guò)。

業(yè)務(wù)知識(shí)是指和具體領(lǐng)域、公司或部門(mén)相關(guān)的背景知識(shí)。比如分析醫(yī)療設(shè)備數(shù)據(jù)時(shí),如果了解哪些耗材配套哪些設(shè)備? 哪些醫(yī)院科室常做哪些檢測(cè)?就可以更明智地使用數(shù)據(jù)。

沒(méi)人能對(duì)所有這些都熟悉。好在信息時(shí)代讓學(xué)習(xí)變得更加簡(jiǎn)單。最快的途徑是邊做邊學(xué),比如自己做些小項(xiàng)目,并跟著有經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家學(xué)習(xí)。不同的公司所看重的技術(shù)、工具、業(yè)務(wù)知識(shí)也不同。 很多公司非??粗亟y(tǒng)計(jì)學(xué)基礎(chǔ),比如提供網(wǎng)絡(luò)游戲和社區(qū)的Twitch的數(shù)據(jù)科學(xué)家Brad Schumitsch談到:

“在Twitch, 我們的數(shù)據(jù)科學(xué)團(tuán)隊(duì)由三部分組成:統(tǒng)計(jì)、編程和產(chǎn)品知識(shí)。 我們從來(lái)不招統(tǒng)計(jì)學(xué)不強(qiáng)的人。你可以是個(gè)很強(qiáng)的程序員,但如果不懂貝葉斯定理, 我只能建議你去我們工程部。”

所以,不同企業(yè)或不同階段,對(duì)技術(shù)、能力和業(yè)務(wù)知識(shí)這三方面的側(cè)重不同。 Google的數(shù)據(jù)科學(xué)家可能有博士學(xué)位,對(duì)計(jì)算機(jī)和數(shù)學(xué)很有研究。電商領(lǐng)域的同樣崗位可能對(duì)電商非常熟悉,卻不一定經(jīng)過(guò)正式的數(shù)學(xué)或計(jì)算機(jī)培訓(xùn)。

4. 溝通能力

能不能把復(fù)雜的概念闡述得言簡(jiǎn)意賅,而不用專(zhuān)業(yè)術(shù)語(yǔ)? 能不能幾秒鐘之內(nèi)就做一個(gè)簡(jiǎn)明扼要的圖? 能不能忍住不把所有前提、場(chǎng)景、局限性都一股腦倒出來(lái),來(lái)保證結(jié)論的絕對(duì)正確?是不是覺(jué)得可視化和簡(jiǎn)潔的結(jié)論只是給不懂技術(shù)的人,或者不如你聰明的人看的?

我的大數(shù)據(jù)導(dǎo)師老丁曾是惠普全球運(yùn)營(yíng)報(bào)表部門(mén)的老大,當(dāng)時(shí)我負(fù)責(zé)此平臺(tái)開(kāi)源后的市場(chǎng)工作。宣傳資料做了兩版之后,老丁扔過(guò)來(lái)一句話“太技術(shù)”,等到第三版,老丁急了,扔過(guò)來(lái)一本乳品生產(chǎn)企業(yè)的宣傳冊(cè),說(shuō)“按這辦”。“乳品”vs“數(shù)據(jù)庫(kù)”,我有點(diǎn)懵......老丁是80年代放棄成為第二批計(jì)算機(jī)學(xué)科院士的機(jī)會(huì),毅然投入美帝數(shù)據(jù)庫(kù)一線工作幾十年的老IT了,那全局觀,那思路,不可能錯(cuò)啊。

N個(gè)月之后,我明白了。 宣傳也好,數(shù)據(jù)科學(xué)家也好,有一點(diǎn)是相同的:我們的結(jié)論不應(yīng)只追求正確,更重要的是簡(jiǎn)潔。讓別人徹底明白,才有可能及時(shí)促成行動(dòng)。

這個(gè)過(guò)程責(zé)任重大,所涉及到的前提、場(chǎng)景和局限性都很重要,但應(yīng)先等一等,不能一股腦拋給你的聽(tīng)眾。它們終究會(huì)被簡(jiǎn)化掉,由數(shù)據(jù)科學(xué)家主動(dòng)去簡(jiǎn)化,不比被以后的人隨意簡(jiǎn)化強(qiáng)嗎?

如何成為數(shù)據(jù)科學(xué)家?

數(shù)據(jù)科學(xué)家的收入和職業(yè)前景不錯(cuò),那么如何才能找到一份數(shù)據(jù)科學(xué)家的工作? 另一個(gè)相近的版本是,很多企業(yè)建立內(nèi)部數(shù)據(jù)科學(xué)部門(mén)的時(shí)機(jī)也逐漸成熟,如何培養(yǎng)內(nèi)部人員成為數(shù)據(jù)科學(xué)家?

網(wǎng)上能找到不少關(guān)于數(shù)據(jù)科學(xué)家方方面面技能的教程、課程或視頻,包括分析方法、開(kāi)源工具、編程語(yǔ)言等。如果英文較好,還能從InfoQ、Quora、StackOverflow等獲得不少?lài)?guó)外大牛的指點(diǎn)。不過(guò)許多攻略都是這樣:1)你需要A、B、C、D這些技能;2)這里是鏈接。Python的鏈接在這,R的鏈接在那,機(jī)器學(xué)習(xí)的視頻在最下面,再去安個(gè)Hadoop和Spark。 這是最常見(jiàn)的學(xué)習(xí)方式,但很費(fèi)時(shí)費(fèi)力,效果沒(méi)那么好。 很多培訓(xùn)用的是處理過(guò)的規(guī)范數(shù)據(jù),演示效果很好,但現(xiàn)實(shí)卻不太一樣。

實(shí)際上,大家更認(rèn)可“邊干邊學(xué)”的效果,可是在找到數(shù)據(jù)科學(xué)家的工作之前,怎么才能得到“干”的機(jī)會(huì)? Monica Rogati的《How Can I become a data scientist》和Tomi Mester的《How to get your first job in Data Science》都提出了很好的方法。

第一步 四種工具

如果你想從最基礎(chǔ)開(kāi)始,有四種工具比較常用。這些工具都是免費(fèi)的,Tomi Mester提供了一個(gè)英文的攻略:

Bash和命令行;

Python

SQL

R

有時(shí)需要Java

一般來(lái)說(shuō),不同的公司會(huì)選用其中兩到三種。好消息是,一旦學(xué)會(huì)一種,學(xué)其他的也很快。 總共花一兩周,選其中兩三種掌握基本使用,就可以進(jìn)入下一步。

Tomi的攻略需要安裝和連接到云上的虛機(jī)。這些服務(wù)國(guó)內(nèi)眾多的云服務(wù)商都能提供,可以直接選國(guó)內(nèi)的即可。 具體的安裝,如果自己不熟悉,也可以請(qǐng)朋友幫忙,不一定要花太多時(shí)間。

第二步 先定個(gè)小目標(biāo),比如動(dòng)手做幾個(gè)小項(xiàng)目

親手做些項(xiàng)目,不僅是最快最有效地的學(xué)習(xí)辦法,而且能讓你的簡(jiǎn)歷更引人注目,在面試時(shí)加分不少。

選個(gè)感興趣的題目

結(jié)合可以找到的數(shù)據(jù),選選自己感興趣的題目,比如空氣質(zhì)量、氣候變化、民航運(yùn)輸、旅游、醫(yī)療支出等等。網(wǎng)上有不少數(shù)據(jù)可以免費(fèi)或者很便宜地下載。除了國(guó)內(nèi)數(shù)據(jù),一些美國(guó)網(wǎng)站上也有很多世界范圍的公眾數(shù)據(jù),比如天氣、各國(guó)經(jīng)濟(jì)、疾病、自然災(zāi)害等等。 常用的網(wǎng)站有國(guó)家統(tǒng)計(jì)局(“國(guó)家數(shù)據(jù)”)、美國(guó)政府公開(kāi)數(shù)據(jù)Data.gov、Kaggle比賽的數(shù)據(jù)集、世界數(shù)據(jù)圖冊(cè)、CEIC、證監(jiān)會(huì)、新浪財(cái)經(jīng)、AWS公用數(shù)據(jù)集、數(shù)糧、機(jī)器學(xué)習(xí)的UCI數(shù)據(jù)集等等。 如果是公司支持的項(xiàng)目,還可以從公司IT部門(mén)拿到數(shù)據(jù)。 重要的是,應(yīng)該從容易上手的項(xiàng)目做起,找到數(shù)據(jù),爭(zhēng)取一周之內(nèi)得出結(jié)果。

發(fā)個(gè)微博或微信,看看反映

在動(dòng)手分析之前,先大概看看數(shù)據(jù),把你想做的項(xiàng)目和初步印象用一兩句話,在微博和微信上看看大家的反應(yīng)。既要現(xiàn)實(shí)一點(diǎn)(能在一個(gè)星期內(nèi)做出結(jié)果),又要保持樂(lè)觀(相信自己能做出來(lái),能找到些有趣的結(jié)論)。猜想一個(gè)可能的結(jié)果,不一定很準(zhǔn)確(甚至可以編編),并邀請(qǐng)大家反饋,比如Monica Rogati曾經(jīng)這么發(fā)微博:

“我用LinkedIn數(shù)據(jù)研究創(chuàng)業(yè)者,發(fā)現(xiàn)他們比想象的老,學(xué)物理的比學(xué)護(hù)理或神學(xué)的多。也許是因?yàn)轱L(fēng)投們很難投一個(gè)新的宗教吧?”

“我用Jawbone的數(shù)據(jù)研究天氣對(duì)運(yùn)動(dòng)的影響--紐約人沒(méi)有加州人那么容易受天氣變化的影響,你們覺(jué)得是因?yàn)榧~約人更強(qiáng),還是他們主要在室內(nèi)運(yùn)動(dòng)?”

“我結(jié)合BBC的訃告和維基,來(lái)看看2016這一年對(duì)名人來(lái)講,是不是真的很衰?!?

如果你想學(xué)習(xí)某種技術(shù)的話,還可以這么寫(xiě),比如:Shelby Sturgis:“我為老師和管理者做了個(gè)Web應(yīng)用,通過(guò)分析學(xué)校排名、考試分?jǐn)?shù)的變化和不同科目的成績(jī),來(lái)幫助他們提高教育質(zhì)量。我用了MySQL、Python、Javascript、Highcharts.js和D3.js,來(lái)存儲(chǔ)、分析和展示加州STAR考試數(shù)據(jù)?!?

“我用了TensorFlow來(lái)自動(dòng)對(duì)黑白照片上色和還原,幫奶奶做了這個(gè)拼貼圖--最棒的圣誕!”

想象自己在交流會(huì)和面試?yán)锓磸?fù)介紹,刊登在《今日美國(guó)》或《華爾街日?qǐng)?bào)》上。你會(huì)覺(jué)得無(wú)聊,難以講清還是覺(jué)得自己聰明,并感到自豪?如果答案是否定的,就重新再找,或者回到上一步,直到找到2-3個(gè)信服的想法。 問(wèn)問(wèn)其他人--這個(gè)有意思嗎? 你愿意面試做這個(gè)的人,來(lái)做數(shù)據(jù)分析的工作嗎?

除了找數(shù)據(jù)和粗略地了解相關(guān)的技術(shù)和工具,此時(shí)你還沒(méi)有寫(xiě)任何代碼,或者做任何具體分析。你可以很方便地多次重復(fù)這個(gè)階段,而不要太著急地一頭扎進(jìn)某些教程或者課程,花幾個(gè)月時(shí)間毫無(wú)所獲。

開(kāi)始干

分析數(shù)據(jù)。清洗。繪制圖表。重復(fù)??纯疵總€(gè)字段常見(jiàn)的前十個(gè)值。研究一下異常值??纯捶植记闆r。如果數(shù)據(jù)不是很零散,可以把類(lèi)似的值分組。分析相關(guān)度,處理缺失的數(shù)據(jù)。嘗試不同的聚類(lèi)和分類(lèi)算法。調(diào)試。找找為什么有的效果好,有的不好? 如果數(shù)據(jù)多的話,搭建AWS Data Pipeline。對(duì)非結(jié)構(gòu)化數(shù)據(jù)嘗試用不同的NLP庫(kù)??赡軙?huì)用到Spark,numpy, panda, nltk, 矩陣分解和TensorFlow。這些技術(shù)不是為了學(xué)而學(xué),而是因?yàn)榻鉀Q問(wèn)題必須用到。

找個(gè)懂統(tǒng)計(jì)學(xué)、軟件工具或業(yè)務(wù)分析的朋友,會(huì)有很大幫助。每周花一個(gè)小時(shí)或每?jī)芍芫垡淮?,都?huì)很快幫你理順?biāo)悸?,或者解決實(shí)際問(wèn)題。

做個(gè)偵探,提出新的問(wèn)題和新的方向。數(shù)據(jù)的收集方式是否合理? 引入另外的數(shù)據(jù)集會(huì)怎么樣?這應(yīng)該是個(gè)有趣的過(guò)程,偶爾遇到障礙時(shí),可以向網(wǎng)上、論壇、老師或做相同工作的朋友求助。 如果感覺(jué)不好玩,就重新找個(gè)題目。如果感覺(jué)很差,就重新思考要不要當(dāng)數(shù)據(jù)科學(xué)家。如果這部分不能讓你充滿(mǎn)干勁,你很難堅(jiān)持和干好真實(shí)數(shù)據(jù)工作中占80%的乏味的苦活。

表達(dá)

用簡(jiǎn)單的語(yǔ)言和干凈、說(shuō)服力強(qiáng)的圖表來(lái)一目了然地表達(dá)。 學(xué)會(huì)用可視化工具非常重要。 如果你建了個(gè)原型,可以做一個(gè)簡(jiǎn)潔、有趣的演示或視頻。把技術(shù)細(xì)節(jié)和代碼放在鏈接里。發(fā)出去,并收集反饋。公開(kāi)展示能讓你提高標(biāo)準(zhǔn),得到高質(zhì)量的代碼、表達(dá)和圖形結(jié)果。重復(fù)這一過(guò)程,逐漸就能形成自己的項(xiàng)目集,給招聘人員看,直到加入夢(mèng)寐以求的團(tuán)隊(duì)。

有沒(méi)有捷徑?

很多朋友從事市場(chǎng)、財(cái)務(wù)等工作,不具備統(tǒng)計(jì)學(xué)背景,更沒(méi)有編程經(jīng)驗(yàn),如何轉(zhuǎn)向數(shù)據(jù)科學(xué)?

2016年底,一個(gè)朋友帶給我一個(gè)很典型的場(chǎng)景:她在一家醫(yī)療儀器公司,負(fù)責(zé)市場(chǎng)工作,積累了不少的數(shù)據(jù),包括客戶(hù)、銷(xiāo)售、產(chǎn)品等方面,分別來(lái)自于CRM、財(cái)務(wù)和產(chǎn)品管理系統(tǒng)。最大的表100多G,維度也比較全面。公司希望能培養(yǎng)自己的數(shù)據(jù)科學(xué)家,她也很感興趣,問(wèn)題是,如何開(kāi)始?

一般來(lái)說(shuō),如果對(duì)Excel的統(tǒng)計(jì)函數(shù)(如sum, sumif, count,時(shí)間轉(zhuǎn)換等),vlookup和數(shù)據(jù)透視表比較熟悉,可以從可視化工具入手。如果公司有預(yù)算,可以考慮Tableau,Power BI等;也可以選用國(guó)內(nèi)帆軟、魔鏡等。 Tableau的教學(xué)視頻比較系統(tǒng),很容易從0基礎(chǔ)開(kāi)始。

同時(shí)可以快速翻閱幾本經(jīng)典書(shū),包括《深入淺出數(shù)據(jù)分析》、《統(tǒng)計(jì)學(xué)》、《R語(yǔ)言實(shí)戰(zhàn)》、《深入淺出Python》等。對(duì)數(shù)據(jù)分析本身的使命、基本概念、常見(jiàn)方法等獲得總體了解,能讓你更快地找到自己的目標(biāo),為自己的項(xiàng)目整理思路。

同樣重要的,要以自己的項(xiàng)目為主線,限定期限,避免為技術(shù)細(xì)節(jié),扎到浩瀚的資料里。遇到問(wèn)題再去Quora、知乎、Stackoverlow、微信群和相關(guān)工具的論壇問(wèn)問(wèn)題,項(xiàng)目進(jìn)展會(huì)快得多,有時(shí)候幾分鐘就會(huì)有人給你答案。 做完第一個(gè)項(xiàng)目之后,再逐漸用更復(fù)雜的指標(biāo)、算法或工具,再用一兩周時(shí)間做出下一個(gè)項(xiàng)目,以此類(lèi)推。

即使完全沒(méi)基礎(chǔ),也不用擔(dān)心?;c(diǎn)時(shí)間看看上面提到的書(shū)或可視化工具的教學(xué)視頻,大概了解數(shù)據(jù)分析的基本概念和方法,你就可以開(kāi)始選自己的題目,開(kāi)始探索數(shù)據(jù)科學(xué)家的星辰大海,迎接嶄新的未來(lái)。


數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢(xún)
客服在線
立即咨詢(xún)
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶(hù)后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }