
本文由CDA數(shù)據(jù)分析師小編根據(jù)中國人民大學(xué)教授吳喜之在“2015年中國數(shù)據(jù)分析師行業(yè)峰會”的演講整理而成,如需轉(zhuǎn)載請注明出處
上午嘉賓的講課,講的東西大部分是給管理階層和領(lǐng)導(dǎo)階層說的。我是講給學(xué)生,給年輕人聽的。如果你管理階層再好,你找不到人也什么也沒有,而對于每個人來說最重要的就是把自己的價值提高,而不是地位。
這是一些調(diào)查的結(jié)果,數(shù)據(jù)科學(xué)家的年薪是多少,這是美國的。
程序員的平均年薪不是我們的目標(biāo),也不是成功的標(biāo)志,這是一種價值的標(biāo)志。怎么樣才能有價值?我說的可能有點過分,但是我必須這么說,現(xiàn)在的統(tǒng)計,特別數(shù)據(jù)統(tǒng)計問題很嚴(yán)重。
美國的一個調(diào)查報告說人才缺口很多,說明在美國培養(yǎng)這樣的人數(shù)也不夠,可以用大數(shù)據(jù)來做的缺少的更多。美國是這樣,中國將來肯定也是這樣,現(xiàn)在實際上有很多缺口?,F(xiàn)在就怕跳槽,怕找不著(工作),我們的成功不是要通過關(guān)系,不是通過老子有個什么樣的頭銜,我們要有能力,誰都想要你,這才是價值。我們要的是價值,而不是所謂的成功。
如果你擅長數(shù)學(xué),有很清晰的邏輯思維能力(文科的人是沒有的,但是可以訓(xùn)練,因為大部分知識都是自學(xué)的),并且對某個行業(yè)了如指掌,如果你有這樣的技能組合,就可能當(dāng)上數(shù)據(jù)科學(xué)家。曾經(jīng)LinkedIn有個投票顯示,數(shù)據(jù)分析和數(shù)據(jù)挖掘是最大的求職法寶。那些高科技團隊都有自己的數(shù)據(jù)科學(xué)團隊,而那些非科技公司和大公司也需要做這些東西,他們現(xiàn)在需要的是人才,你們就是要把自己做變成被需要的人才。
數(shù)據(jù)科學(xué)家專業(yè)人才干什么呢?對公司來說,他們可以挖掘新的信息,幫助公司開源節(jié)流,所以它需要的是人才,關(guān)鍵是人才。我們說數(shù)據(jù)科學(xué),科學(xué)意味著沒有權(quán)威,不要迷信那些權(quán)威,中國人喜歡崇拜權(quán)威。任何科學(xué)研究的目的是基于數(shù)據(jù),顛覆理論,這樣才能往前進。中國人從小學(xué)會的就是聽老師話,聽爸爸媽媽話,聽家長話,古人什么都好,現(xiàn)代人什么都不好,這樣一代不如一代,所以你必須要有科學(xué)精神。諾貝爾物理獎沒有一個是承認(rèn)過去怎么樣的,而是推翻過去的事情,這是科學(xué),是顛覆性的。
數(shù)據(jù)科學(xué)有很多很多定義,最基本的定義就是這個,就是Computer science,還有數(shù)學(xué)、統(tǒng)計、目標(biāo)、知識,這是最基本的,再說多了就過分了。
對于現(xiàn)在的你們來說,一般不會細(xì)到那種程度。我們應(yīng)該變成一個通才,哪個公司都應(yīng)該愿意要我們。清華大學(xué)之所以現(xiàn)在變成這個樣子,就是因為在1952年院系調(diào)整的時候,每一個專業(yè)就是一個生產(chǎn)線,弄的很細(xì)很細(xì),沒有一個更寬廣的視野。
主要是三部分:數(shù)學(xué)、統(tǒng)計、知識。
數(shù)學(xué)關(guān)鍵是邏輯而不是具體的方法,不是你怎么求多項式的根,而是它的基本邏輯,它的數(shù)學(xué)語言,這一點要懂。數(shù)學(xué)邏輯是各種學(xué)科當(dāng)中最嚴(yán)格的邏輯,無論你是學(xué)邏輯的,學(xué)物理的,學(xué)什么的,文科學(xué)邏輯的肯定是不如學(xué)物理的,學(xué)物理的邏輯肯定不如學(xué)數(shù)學(xué)的,所以你要跟學(xué)數(shù)學(xué)的辯論的話就很困難。文理分科造成沒有邏輯的文章,沒有邏輯的法官,現(xiàn)在法官錯判率那么高,他們中學(xué)平面幾何沒學(xué)好,基本的常識,基本的邏輯推理都不會。
統(tǒng)計學(xué)的是批判性思維。你們在統(tǒng)計學(xué)課本上學(xué)到的是70年前、100年前的知識,是前計算機時代的東西。那時候沒有那么多計算機,數(shù)據(jù)量不大,所以他做什么都用假定來做結(jié)論。中國在數(shù)據(jù)統(tǒng)計方面的研究大部分還是遵循著70年前、100年前的東西來做,你不能假定地球是方的,然后得出結(jié)論去發(fā)表,這沒有什么意義的,你必須根據(jù)現(xiàn)實生活的意義來做。
所以我們要學(xué)的也不是基于無法驗證的假定而形成的假設(shè)檢驗和區(qū)間估計。就像我說的你假設(shè)檢驗,什么顯著,0.05就是顯著。親子鑒定100個人有5個鑒定錯了,能接受嗎?能認(rèn)為這是小概率嗎?區(qū)間估計就更難說了。
這是我們所要學(xué)學(xué)習(xí)和了解的,最近20年發(fā)展而且仍然在發(fā)展的最新的經(jīng)濟學(xué)方法,這是最根本的。像我現(xiàn)在正在尋找經(jīng)典方法,比經(jīng)濟學(xué)法好的方法,我每天都在算數(shù)據(jù),我就想找這樣的例子。我舉個例子,對于做出貢獻性的方法,回歸什么的那一大堆方法,我如果做的話,我沒找到一個例子說用這些方法比神經(jīng)網(wǎng)絡(luò)做的更好的。所以說你不能從理論出發(fā),不能從你在數(shù)學(xué)雜志上發(fā)表出發(fā),一定要從數(shù)據(jù)出發(fā)。
有一個瑞士人到科學(xué)院講課,就講這些東西,底下科研的學(xué)究們,那么研究生們說,這個系數(shù)有什么意義啊?他說貢獻的變量的系數(shù),沒有任何意義,只要這個方法對預(yù)測好,那就是好。中國人學(xué)呆了。像回歸分析,在別的變量不變的時候,我這個量增加不增加?別的變量肯定不變的,特別經(jīng)濟統(tǒng)計,沒有兩個變量是完全不變的。
計算機科學(xué),不是一兩個盜版傻瓜軟件+點鼠標(biāo)就是計算機科學(xué)了。還加上網(wǎng)絡(luò)漫游能力和泛型編程能力,我說的這個泛型編程能力是計算機編程理念,我用了很多編程理念沒有一個是在課堂上學(xué)的,就是自己在編的時候自己領(lǐng)會。一切東西依賴于自學(xué),而不是依賴?yán)蠋?,這可能跟我的經(jīng)歷有關(guān)。
這是2015年的一個網(wǎng)站調(diào)查,用的最多的是R,這是2014年的,R在圖片當(dāng)中也是最多的,其他的軟件加起來是17%,底下這個是2014年,也是R,為什么是這樣?第一,它們是開源的,它們的代碼是公開的。
這是計算機的親和性,還有SQL,親和性很大,就是它的語言你懂一個,再學(xué)一個,直到后來一天一個就學(xué)下來了,真是這樣的,不是開玩笑。我不想說SAS,我在美國的第一個研究就是SAR,它的親和力小。實際上現(xiàn)在很多R,很多會R的都可以去做東西。這也是轉(zhuǎn)換性的,就是R跟Python轉(zhuǎn)化的多,所以第一學(xué)的編程語言應(yīng)該是R,然后Python,然后是其他的語言。其他點鼠標(biāo)的語言是用不著學(xué)的。
最根本的就是領(lǐng)域知識,你必須了解領(lǐng)域知識,你才能夠知道該怎么做。如果你僅僅是一個干巴巴的統(tǒng)計學(xué)家,就不會了解實際問題。
原來在醫(yī)學(xué)雜志發(fā)表的一個很有名的文章講,如果父母在嬰兒房間內(nèi)睡覺總是開著燈,嬰兒就會有高度近視。后來再發(fā)現(xiàn),凡是父母高度近視的,往往有給小孩開燈的習(xí)慣。到底什么造成小孩高度近視,現(xiàn)在你們知道的,但是當(dāng)時的人不知道,所以要有很深刻的領(lǐng)域知識,只有明白目標(biāo)領(lǐng)域知識的人才能明白它的意義,知道往哪個方向努力,去判斷分析結(jié)果的可能性。所以用數(shù)據(jù)來說話,其他的一切都是廢話,不要做一些莫名其妙假定,我每年看到很多很多的文章,包括一些大賽,好多比賽題目都是莫名其妙的假定,就連31個省市自治區(qū)的數(shù)據(jù)都假設(shè)是正態(tài)分布,這31個省市自治區(qū)的就不是樣本,更不用說是正態(tài)分布。
科學(xué),對年輕人來說就是要明白這些基本的東西,太花哨的東西就沒意義了。你離得越遠(yuǎn)看得越清楚,站得越高對全局的了解越好,不要太具體了,不要迷信這些炒作的新名詞、新概念。用自己的大腦,用常識判斷,想想合不合理。過去某個人的經(jīng)驗是他的經(jīng)驗,不是你的經(jīng)驗,他在特定環(huán)境、特定時間有作用,如果你要跟風(fēng)就意味著永遠(yuǎn)是跟隨,也絕對不會有出息。
個人要有快速的自學(xué)能力和對數(shù)據(jù)分析的愛好,我從來沒學(xué)過計算機,也沒學(xué)過計算機編程。英文都沒學(xué)過,全都是自學(xué)的,所以我對自學(xué)很相信?,F(xiàn)在我教的東西都是最近這幾年的東西,我現(xiàn)在實際上比一個全職教師教的課還多,但是我教的東西好多都是前一天網(wǎng)上才出現(xiàn)的,我看到覺得有價值,第二天就放到課堂上了。只有這樣,只有不斷的自學(xué),不斷的學(xué)習(xí)才能當(dāng)老師。如果你不斷的跟學(xué)生演示80年前的推導(dǎo)過程,只能顯示你的記憶力好,那不是好老師。
另外是不是做數(shù)據(jù)科學(xué)家的材料?你專長于任何特定變成語言相比,泛型變成技巧更重要。最重要的素質(zhì)就是能快速學(xué)習(xí)東西,在這個時代技術(shù)發(fā)展的突飛猛進,語言很快會過時,新的語言會迅速普及,所以學(xué)習(xí)東西快的人比單獨領(lǐng)域的專家更有前途。我要看你這個人的潛力,而不是你知道什么。知識再多你也超不過一個硬盤吧?但是硬盤沒有創(chuàng)造力。
如果你每天花大量的時間編程,分析控制面板上的數(shù)據(jù),獲得相關(guān)知識和信息,你對這樣的工作感興趣,你就適合干這行。現(xiàn)在我沒事就處理變成數(shù)據(jù)。如果僅僅是想拿高工資,那可能覺得這樣的日子就很苦了。實際上不光是這個工作,干任何工作,即使是坐牢你也要把它當(dāng)成樂趣,這個不是玩兒的。
真正適合干這一行的人,會在業(yè)余時間里編程序、分析數(shù)據(jù),他的目的就是自娛自樂,而不是為了要拿著什么學(xué)位,拿到什么樣的頭銜,最終他自己把自己的價值就提高了。如果你愛的不是數(shù)據(jù)本身,而是它給你帶來的高薪,那你很難跟上來的人來競爭了。要學(xué)會干一行愛一行,每個人都應(yīng)該學(xué)會熱愛數(shù)據(jù),即使是為了自己的事業(yè)前途也應(yīng)該這樣想,為了自己的心里也應(yīng)該這樣想。
還需要什么呢?剛才我說了,學(xué)習(xí)能力比知識更重要,歡迎挑戰(zhàn)、樂于攀登。有點挑戰(zhàn)的我就很高興,我相信很多人都這樣,這樣活著才有意義,像豬一樣的活著沒有意義。你像富二代開著寶馬到處飆車,他是找不到活著的意義啊,穿名牌什么的,是讓別人覺得你有點價值,實際上別人一看你更沒有價值了。馬克思的座右銘懷疑一切,在懷疑中成長。
不要給自己貼標(biāo)簽,就是我學(xué)什么方向的,別的不搞,歲數(shù)大了,學(xué)不會了,很多人都有這樣的借口,這實際上是借口,我現(xiàn)在每天都在網(wǎng)上學(xué)東西,所以我現(xiàn)在教的東西總是新的,我的書一版再版,我現(xiàn)在大概寫了有30本書了,為什么再版,因為我發(fā)現(xiàn)原來的有錯或者不全面,我一定要把事情說的更透徹一點,說的更好一點。
什么人最快樂?被人需要,這是很重要的,就是你得有價值。因為你的專長,能力、善良、尊重、愛心、品質(zhì)、性格、智力、分享。在公司里跟人家能相處,至少你得是可愛的。還要關(guān)心他人,能讓別人快樂的人是快樂的。尊敬別人的人是快樂的,誠實坦蕩的人是快樂的,心胸開闊,不去計較一些小事情。最關(guān)鍵的就是愛人如己,你愛人不是因為他能愛你回來,也不是因為他可愛,而是對任何事情都尊重,這是最根本的一點。如果這點你要做到了,人人都能做到,那世界就太理想了。不管怎么樣,我希望大家能夠快樂。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03