
大概是自帶了親和屬性,經(jīng)常會有很多機(jī)會聽到身邊同事、朋友,甚至一些僅有數(shù)面之緣的人分享他們對于職業(yè)的看法和困惑。前不久,身邊相熟的妹子,非常困惑地問我,為什么學(xué)了那么多軟件,還是做不好數(shù)據(jù)分析?
這樣的問題,不是第一次聽到。我經(jīng)歷過那種痛苦而糾結(jié)的過程。今天老師說SPSS常用,明天發(fā)現(xiàn)金融行業(yè)SAS才是王道?;仡^翻翻網(wǎng)絡(luò),原來R已經(jīng)鋪天蓋地。正當(dāng)痛苦地一遍遍寫代碼時,發(fā)現(xiàn)朋友圈已經(jīng)在刷“l(fā)ife is short,you need python”。我們拼命追趕,卻永遠(yuǎn)趕不上前輩們的腳步。到最后,疲憊不堪。
更何況統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫導(dǎo)論、數(shù)據(jù)挖掘導(dǎo)論、機(jī)器學(xué)習(xí)導(dǎo)論、關(guān)聯(lián)規(guī)則,每一本都厚的足以拍暈一個人的架勢。自從開始研究數(shù)據(jù)分析和挖掘,我看過的書已經(jīng)超過了大學(xué)四年的總和。真的等看完這些書,才入門的話,只能很遺憾地發(fā)現(xiàn),和你同期的人已經(jīng)遠(yuǎn)遠(yuǎn)地奔跑在了你看不見的世界里。
那么作為一個熱愛數(shù)據(jù)分析和挖掘(原諒我不喜歡說大數(shù)據(jù)這個詞,因?yàn)檫@不是一個行業(yè),只是一個被貼上了某種意味的標(biāo)簽),并且想要了解或者進(jìn)入這個領(lǐng)域的人,有沒有什么快速而有效的學(xué)習(xí)方法呢?我不敢確言,只想分享一下我自己行之有效的方法,僅供參考。為了避免誤人子弟,還是要非常認(rèn)真而嚴(yán)肅地說一句,對于一個分析師來說,我認(rèn)為最重要的品質(zhì)是,開放而獨(dú)立,開放地吸納新知識,獨(dú)立地去判斷取舍。
好了,那么我們就開始吧。
【數(shù)學(xué)之美,在于虐到無怨無悔】
對于數(shù)學(xué)系畢業(yè),并不從事研究相關(guān)工作的人來說,本科的實(shí)變函數(shù)、泛函分析,慢慢地就會變成遙遠(yuǎn)的傳說。唯一能夠想起來的時間,就是在和別人感嘆一下當(dāng)年痛并快樂著的大學(xué)生活。再加上理論和實(shí)際之間還是有些差距,所以畢業(yè)后,我?guī)缀跏潜茸x書時更認(rèn)真地重新研究了一遍計(jì)算數(shù)學(xué)相關(guān)的知識。以下是和數(shù)據(jù)分析相關(guān)的部分,學(xué)習(xí)的一些建議:
第一個友情提示,一定一定不要先拿出一本統(tǒng)計(jì)學(xué)教科書來學(xué)習(xí)!?。?/strong>據(jù)不完全統(tǒng)計(jì)(也就是我身邊的案例),我至少知道有4,5個小伙伴因?yàn)檫x擇了這樣的開始,最后徹底放棄了做數(shù)據(jù)分析的念頭。
以嚴(yán)謹(jǐn)著稱的特質(zhì),使得大部分的統(tǒng)計(jì)學(xué)教材都非常的系(sheng)統(tǒng)(se)。一個中心極限定理,可以證明半頁,于是能夠撐過三四個定理的,都已經(jīng)真的勇士。而即使是撐過了整本書的黃金圣斗士,掩卷之后,仔細(xì)想想,腦子里記得的,不是那些最能幫助你應(yīng)用的定理,反而是密密麻麻的公式。至于這些證明公式對你日常工作有什么用?好吧,很遺憾,完全沒用。
所以,如果想要給自己一個不那么痛苦的開始,建議先從一本科普類或者半娛樂性質(zhì)的書開始看起。比如,大名鼎鼎的“深入淺出”系列??吹竭@里,一定會有小伙伴想問,這個系列我查了,豆瓣上說太簡單了,只有淺出沒有深入。好吧,這個問題,我可以反問一下,你看書的目的是什么,是報(bào)一下書名就能震倒一片人,還是默默地get了一種實(shí)用技巧。come on,我們腳踏實(shí)地一點(diǎn)嘛。
深入淺出系列,關(guān)于數(shù)據(jù)分析基礎(chǔ)這部分,有兩本書《深入淺出統(tǒng)計(jì)學(xué)》和深入淺出數(shù)據(jù)分析》。相比之下,我覺得后一本寫的更不錯一點(diǎn),有案例,有應(yīng)用,而且?guī)缀趺總€案例都有個小轉(zhuǎn)折,差不多看了之后,在工作中還可以小試牛刀一下。
前一本,深入淺出統(tǒng)計(jì)學(xué),感覺略遜一籌。特別中文版本的翻譯。當(dāng)初看的時候,從頭改到尾,不只是語法錯法,居然數(shù)字也有錯的。所以,如果不是有看完一個系列強(qiáng)迫癥的小伙伴(比如我),這本可以選擇性放棄。因?yàn)榻酉聛恚視o你們推薦一本翻譯的棒棒的統(tǒng)計(jì)學(xué)書籍。
名字就叫《統(tǒng)計(jì)學(xué)(基本概念和方法)》,埃維森的版本。沒有太多生澀的公式和概念,幾乎相當(dāng)于一部統(tǒng)計(jì)學(xué)的百科全書,你可以茶余飯后讀一讀,絕對可以了解統(tǒng)計(jì)學(xué)大部分時候的樣子。
以我的角度,以上兩本書都看完,其實(shí)入門的部分就已經(jīng)算是完成了。當(dāng)然,我還看了好多七七八八的書,錦上添花有余,可對于急需快速入行的小伙伴,我們還是做些雪中送炭的事情吧。
當(dāng)然,數(shù)據(jù)分析和挖掘這一塊,理論的部分并沒有到此為止。想想前面列出來的一堆導(dǎo)論,都是不得不看,也舍不得不看的經(jīng)典之作。然而,還是那一句話,我們要做的是讓自己能夠順利入行,并且還有精力持續(xù)地區(qū)學(xué)習(xí)和進(jìn)步,而不是一下子把自己撐死。這種錯誤,我犯過,你們就不要再犯了。
學(xué)完這兩本書,我們下一步要做的就是開始實(shí)際地用工具進(jìn)行數(shù)據(jù)分析了。到底用哪些工具呢?喝咖啡(SAS,R,Python)是不是就一定比吃大蔥(Excel,SQL,SPSS)來的高級呢?那么請期待下一篇的工具選擇經(jīng)驗(yàn)分享篇——小叮當(dāng)?shù)陌賹毾洹?/span>
【小叮當(dāng)?shù)陌賹毾洹?/strong>
上一篇,我們講了數(shù)據(jù)分析入門的兩本神器。不知道小伙伴們,有沒有回去看過呢。不過,不管你們有沒有看,看沒看完,我們這一期都要一起來討論下數(shù)據(jù)分析的工具選擇了。
在工作和學(xué)習(xí)方面,我一直是個比較接近完美主義的人(注意,此處是貶義)。曾經(jīng)有一個階段,不進(jìn)行完一個階段,我就堅(jiān)決不肯進(jìn)行下一個階段。這樣的結(jié)果,當(dāng)然不是我每一步都很踏實(shí),而是就和很多人的單詞書一樣,被翻開的永遠(yuǎn)是字母A的那幾頁?!皃uma is a large cat-like animal which are found in America”,如果你知道這句話的出處,那么你一定已經(jīng)懂了。
鑒于有機(jī)智的英語老師發(fā)明了亂序背詞,所以我相信這并不是一個單一現(xiàn)象。而在學(xué)習(xí)數(shù)據(jù)分析時,這樣的習(xí)慣也是很致命的。因?yàn)槌3T诳催^概念之后,我們是很容易混淆和遺忘的。比如說,標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤之間的關(guān)系,教科書上往往會有一個非常言(bu)簡(ming)意(jue)賅(li)的概念,看完之后,你可以轉(zhuǎn)述去唬人了。但是我問你,標(biāo)準(zhǔn)誤和標(biāo)準(zhǔn)差的區(qū)別是什么?我們什么時候要用標(biāo)準(zhǔn)誤?標(biāo)準(zhǔn)誤常用么?很多人會默默地發(fā)現(xiàn),概念套不上啊。這就是學(xué)概念的后遺癥。我們都一樣。即使你的語文棒棒的,也還是無法拯救。
所以在看過概念之后,不管有沒有看完,不管有沒有理解,我們都快點(diǎn)來進(jìn)行下一個環(huán)節(jié)。只有你實(shí)際地遇到了這些問題,你才會明白,為什么那么多前輩,要研究如此多的概念、定理、模型和公式。非身受而不能感同。
在講到工具選擇之前,我們先把目前主流,或者說廣為人知的分析工具分個類。排名先后,既不代表popular的程度,也不代表好用的程度。
1)第一類:SQL大家庭
對于很多數(shù)據(jù)分析師,取數(shù)是基本功??梢苑幌潞芏鄶?shù)據(jù)分析崗位的招聘啟事,不管實(shí)際需不需要,都會把熟練掌握SQL這一條寫上來。當(dāng)然如果要求是精通SQL,通常我會在內(nèi)心默默地OS一下。就像很多人把"大數(shù)據(jù)"神話了一樣,也有很多人把SQL"狹隘化“了。什么是精通SQL,并不是說你能夠知道每一種情況怎么取數(shù),而是你知道每一種情況最快的取數(shù)方法,最優(yōu)化的公式。也不是你知道怎么用數(shù)據(jù)庫,而是你知道如何建立一個最好用的數(shù)據(jù)庫。關(guān)于這部分,有興趣的小伙伴可以看看《反式SQL》和《DBA手記》兩本書,你就會發(fā)現(xiàn),精通SQL,很多時候,是一種無知而無畏的表達(dá)。
當(dāng)然,我們這里要學(xué)習(xí)的SQL,并不是這么復(fù)雜。說白了,我們現(xiàn)在要學(xué)習(xí)的是取數(shù)。關(guān)于這部分內(nèi)容,在以后講到具體工具學(xué)習(xí)筆記的時候,我們再提。這里,我們還是先來說說學(xué)SQL取數(shù),要學(xué)習(xí)那些東西。
SQL是一種數(shù)據(jù)庫語言,而基于這種語言的軟件有很多,包括SAS的SQL模塊,R的SQL模塊,Oracle,My SQL和SQL Sever。對于,My SQL、SQL Sever和Oracle的異同,如果需要一個形象的比喻的話,那么大概可以形容為加多寶和王老吉之間的“愛恨情仇”。大部分人自學(xué)的話,是用開源免費(fèi)的My SQL,而一般公司是用付費(fèi)的SQL Sever要更多一些。需要強(qiáng)調(diào)下的是,My SQL,SQL Sever和Oracle其實(shí)都是有免費(fèi)版本的。
在這些軟件的選擇上,SAS和R的SQL模塊使用的是SQL最核心的語法語句,所以并不需要專門去掌握,大家可以把他當(dāng)做學(xué)過SQL之后,再去學(xué)習(xí)SAS和R的格外福利。而Oracel,在性能優(yōu)化上一直處于一個非常高大上的地位。但是對于我們這些”取數(shù)仔“而言,學(xué)會SQL的基本語句語法,再補(bǔ)充些My SQL和SQL Sever的額外語法,就已經(jīng)可以滿足大部分招聘啟事的“熟練使用SQL”的要求了。如果要對這部分推薦一本書,那必須是《SQL入門經(jīng)典》,目前已經(jīng)到了第五版。同樣地,無視評論里那些“本書非常簡單,零基礎(chǔ)的人可以看一下,會的就不用了”。要知道很多覺得書中內(nèi)容簡單的人,你隨便抽出一道課后習(xí)題,他也未必對答如流。一本優(yōu)秀的教程書不是寫的多高深,而是盡可能讓人讀起來引人入勝,用起來回味無窮。
一句話總結(jié):雖然我經(jīng)常說能用Excel做的事,我絕不用其他軟件。但是SQL這個東西,還是一定要學(xué)的。
2)第二類:Excel、Excel VBA
帶過我的一位前輩,曾經(jīng)說過一句話,“不會VBA,就不要說自己精通Excel”。VBA相當(dāng)于把Excel從一個辦公軟件,拉到了萬金油的地位。最印象深刻的一個例子是,以前團(tuán)隊(duì)曾經(jīng)有一個excel小達(dá)人,用vba編了一個游戲。
但是,還是那一句話,我們追求的不是完美,而是有效。對一個技術(shù)新人來說,要達(dá)到熟練運(yùn)用VBA,出神入化、睥睨群雄的程度,所需要的時間太多了。而同樣的時間,足夠你學(xué)會任何一種編程語言了。
所以這一類軟件里,請給自己先留一點(diǎn)遺憾,我們只學(xué)習(xí)Excel,包括但不限于數(shù)據(jù)表格,數(shù)據(jù)透視表,Excel統(tǒng)計(jì)分析工具箱,以及一些常用的公式。而如果想要快速地掌握Excel,有時候我們要給自己多一點(diǎn)壓力和挑戰(zhàn)。
比如說,同樣的一個單元格數(shù)據(jù),你可以選擇每次手動計(jì)算。也可以選擇費(fèi)點(diǎn)事,查查書或者度娘(其實(shí)強(qiáng)烈建議后者),做一個自動化的公式??赡茏龉降倪^程痛苦又糾結(jié),但是經(jīng)歷過這些之后,你會發(fā)現(xiàn)有種破繭成蝶的感覺。
一個好的分析師不一定什么都會,但是他一定知道自己最該會什么,又可以從哪里找到自己還不會的知識。
3)第三類:SPSS,SAS,Matlab,Stata,Eviews
把這兩個軟件放在一起,可能對于很多SAS的牛人來說,有點(diǎn)折價。誠然,都是數(shù)據(jù)分析軟件。但是SPSS的確相比而言,是最好學(xué)的一個,雖然用的好也是沒那么容易的。而我個人的話,也是建議先從SPSS學(xué)起,哪怕你聽說了各種關(guān)于SPSS要落伍,或者其他軟件如何牛的消息。
理由非常簡單。入門,當(dāng)然是要選最快的工具。Excel+SPSS,幾乎可以完成大部分?jǐn)?shù)據(jù)量不太大的分析工作了。而學(xué)會SPSS的時間,大約只要SAS的四分之一。還有一個更重要的理由是,SPSS有一套非常好的教材。感興趣的小伙伴,請百度搜索“張文彤”老師。他編寫了一套三本,從初中級,高級到案例分享。最好的地方,不是里面多詳細(xì)的介紹了SPSS的功能,教會你用這個軟件。而是其中穿插介紹了常用的數(shù)據(jù)分析相關(guān)的統(tǒng)計(jì)學(xué)模型,以及張老師的一些親身經(jīng)驗(yàn)技巧。即使使用SPSS很久的人,再讀一次,也會頗有收獲。
所以基于效益最大化原則,如果是完全一張白紙的初學(xué)者,建議還是從SPSS入手比較好。
接下的幾個軟件,當(dāng)然我會推薦SAS。理由很簡單,看招聘啟事。大部分的招聘啟事會說“熟悉SPSS,SAS,R等任一種分析工具”。顯然Matlab,Stata,Eviews這些都在“等”的范疇里面。Matlab作為計(jì)算數(shù)學(xué)專業(yè)的標(biāo)配,是我大學(xué)時候的必修課。一直是矩陣計(jì)算領(lǐng)域的翹楚。而Stata,作為一個結(jié)合了命令串口和簡化菜單的軟件,學(xué)習(xí)難度略高于SPSS,而低于SAS,在醫(yī)藥和生物領(lǐng)域比較常用。至于Eviews,據(jù)說是時間序列方面的專家。(用據(jù)說是因?yàn)檫@個軟件我的了解基本來源于度娘,謹(jǐn)慎而誠實(shí),必須是美德)那么,現(xiàn)在來講講,為什么推薦SAS。
第一個理由,常用,名氣大。這就好像同樣是五百強(qiáng)企業(yè),你說微軟,大家會“哇!好厲害”,星星眼崇拜ing。然后你說某某集團(tuán)(名字隱去,免得拉仇恨),大家會“恩?是民企么?”,瞬間自豪感就受到了挫敗。
第二個理由,持續(xù)性強(qiáng)。SAS這個軟件,本身其實(shí)是包羅萬象的。現(xiàn)在大家喜歡說我會用SAS,其實(shí)都是托大了。就好像說我會R一樣。SAS有很多模塊,我們平時用的最多的是Base SAS, 最多加上SAS/Graph,SAS/Stat。做挖掘會用SAS EG和SAS EM。其他還有一大堆,我都記不住。所以一旦開始學(xué)SAS,基本上等于你可以慢慢一直學(xué)下去。只要愿意,永遠(yuǎn)學(xué)不完。當(dāng)然R也是如此,會有源源不斷的包,保證你“活到老學(xué)到老”。
第三個理由,接口很好。SAS作為老牌的統(tǒng)計(jì)學(xué)軟件,一直處于一個比較高的地位。當(dāng)然,也一直有一個很高的價格。最神奇的是,他的收費(fèi)方式是租金制,每年要收續(xù)租費(fèi)。在一眾“一次付費(fèi),終身免費(fèi)”,甚至有的還“終身免費(fèi)”升級的軟件中,絕對是獨(dú)樹一幟。而如此有個性的軟件,在接口上卻還是很開放的,大部分主流數(shù)據(jù)庫接口和主流數(shù)據(jù)類語言都可以兼容。比如,我們之前提到的SAS下面的SQL模塊,絕對是已經(jīng)學(xué)會SQL的小伙伴們的福音。
那么有什么理由阻擋我們學(xué)習(xí)SAS呢?
其實(shí)只有一個,貴。因?yàn)橘F,所以很多公司,是不會使用SAS的。SAS公司在這一點(diǎn)上做的也非常到位,公司使用盜版,一定會被告。前不久才聽說四川有一家公司就被SAS公司給告了。很多公司不使用的結(jié)果就是你差不多只有去一個金融或者醫(yī)藥行業(yè)的企業(yè),才有機(jī)會真正實(shí)際運(yùn)用SAS。當(dāng)然,你自己拿臺電腦,悄悄地用,不要告訴我,我當(dāng)不知道。
對于不知道去哪里找“不要錢”的SAS的小伙伴,也有一些建議,當(dāng)然淘寶這個我沒說,你們也不要聽。官方的使用免費(fèi)SAS,有幾個途徑,一個是高校研究,大部分高校都會有一個用于研究的序列號,如果你能找到導(dǎo)師,真誠地表達(dá)學(xué)習(xí)的愿望,還是很可以獲得這個機(jī)會的。還有一個途徑是為SAS公司寫SAS相關(guān)的書籍,那么你可以完全免費(fèi)地使用SAS的模塊。當(dāng)然,后面這個需要SAS的審核認(rèn)證。
而對于SAS的學(xué)習(xí),推薦一本經(jīng)典書,《深入解析SAS》,購買請慎重,因?yàn)檎娴暮苤亍?雌饋砭秃涂凑f明書一樣,只不過是800多頁的說明書。一個好的消息,文字并不生澀,作者就是中國人,因而流暢度遠(yuǎn)超很多譯作。一個不好的消息是,目前為止,書里的數(shù)據(jù)集都沒有下載鏈接,有的可以自己輸入做好數(shù)據(jù)庫再使用,有的是sashelp數(shù)據(jù)庫里的示例文章,但是也有個別的,就只能看看程序代碼,無法實(shí)際運(yùn)用了。最后,不可避免的,書里還是有一些錯誤,我看的時候也是一邊看,一邊驗(yàn)證程序,一邊修改,或者補(bǔ)充更簡化的代碼。這個過程雖然痛苦,但是進(jìn)步也還是非??斓?。想想你可以給能寫出這種書的牛人糾錯,簡直不是站在巨人的肩膀,而是和巨人并肩作戰(zhàn)啊。
關(guān)于軟件的部分,這一期先到這里。下一期,我們將會聊到現(xiàn)在數(shù)據(jù)分析界的新寵R和Python,以及橫跨技術(shù)和數(shù)據(jù)兩個領(lǐng)域的萬能神器C++和Java。最后一期,我們再來看看傳說中大數(shù)據(jù)的核心——Hadoop家族。
(待續(xù)~)

本文由CDA作者庫成員Yuki原創(chuàng),并授權(quán)發(fā)布,轉(zhuǎn)載請獲得授權(quán)。
CDA作者庫凝聚原創(chuàng)力量,只做更有價值的分享。
如果你也想推薦優(yōu)質(zhì)文章,請微信添加trasn863為好友,或發(fā)送郵件至songpeiyang@pinggu.org
CDA數(shù)據(jù)分析師考試相關(guān)入口一覽(建議收藏):
? 想報(bào)名CDA認(rèn)證考試,點(diǎn)擊>>>
“CDA報(bào)名”
了解CDA考試詳情;
? 想學(xué)習(xí)CDA考試教材,點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情;
? 想加入CDA考試題庫,點(diǎn)擊>>> “CDA題庫” 了解CDA考試詳情;
? 想了解CDA考試含金量,點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情;