
數(shù)據(jù)為王時代到來 當(dāng)心大數(shù)據(jù)時代的浮夸陷阱
熱 門專業(yè)來了去,去了來。許多盲目追熱門專業(yè)的學(xué)生,充滿希望地投入一個熱門專業(yè),但四年后畢業(yè)時,正好趕上這個熱門泡沫破滅、人才過剩。十多年前IT泡沫 破滅時,許多計算機(jī)人才就遭此命運(yùn)。不過,那些本科在基礎(chǔ)學(xué)科中打下了堅(jiān)實(shí)基礎(chǔ)的,往往能隨機(jī)應(yīng)變,則很短時間內(nèi)就掌握了熱門。當(dāng)熱門不再熱時,他們也能 及時轉(zhuǎn)向。
最近的一個熱門專業(yè),是數(shù)據(jù)科學(xué),準(zhǔn)確地說,這個熱門叫什么名字,還很不確定。在傳統(tǒng)學(xué)科中,也許統(tǒng)計與之最為接近。
這門科學(xué)雖然還沒完全定型、定名,但已經(jīng)在現(xiàn)實(shí)中運(yùn)用的風(fēng)風(fēng)火火。不久前在報紙上讀到一篇報道:一位父親在郵箱里收到某名店寄給女兒的嬰兒用品廣告,里 面的賀卡寫得明明白白:“恭迎您的孩子!”父親大怒:我女兒才上高中,怎么可能生孩子?!于是找那家店去評理。結(jié)果馬上發(fā)現(xiàn):女兒確實(shí)已經(jīng)懷孕。店里根據(jù) 他女兒購物的信用卡記錄,琢磨出連她自己的父親都沒有察覺的事情。
這就是大數(shù)據(jù)的厲害:從購物、網(wǎng)上活動、到犯罪數(shù)據(jù)、交通流量、乃至各種經(jīng)濟(jì)信息,都在大數(shù)據(jù)的 分析范圍之內(nèi)。不管是一國的政治、軍事決策,還是一個大公司的市場戰(zhàn)略,全鑲嵌在數(shù)據(jù)科學(xué)之中。我發(fā)現(xiàn),亞馬遜甚至對我這么一個閱讀范圍廣泛、興趣變幻不 定的人也非常了解,經(jīng)常能夠準(zhǔn)確地推薦給我各種學(xué)科的書籍,而且往往是我正需要的。我在亞馬遜上購物的一舉一動,都進(jìn)入了其數(shù)據(jù)分析模式,這個模式在不停 的分析我的思想動態(tài)。
如此神奇的數(shù)據(jù)科學(xué)并非橫空出世。 傳統(tǒng)的數(shù)學(xué)、統(tǒng)計學(xué),就與之十分接近。后來的計算機(jī)、信息處理等等,也都與之密切相關(guān)。經(jīng)濟(jì)學(xué)中早就大量運(yùn)用統(tǒng)計和數(shù)據(jù)。即使在歷史學(xué)中,數(shù)據(jù)資料的運(yùn)用 也越來越廣泛。不過,數(shù)據(jù)科學(xué)又不能被上述任何一門學(xué)科所概括。用Charleston學(xué)院計算機(jī)系主任Christopher Starr的話說,“數(shù)據(jù)科學(xué)正在崛起為一個新學(xué)科,但絕不是多學(xué)科簡單的相加,而是一個完整的知識體系、職業(yè)操作和組織、以及一整套倫理責(zé)任。”數(shù)據(jù)科 學(xué)家不僅僅是用計算機(jī)等現(xiàn)代信息處理技術(shù)收集數(shù)據(jù),而且要建立數(shù)學(xué)模型對之分析,并從這種分析演繹出某種故事、圖像。上面的例子就很清楚。一個女高中生購 物,刷卡付款后留下的是一堆數(shù)據(jù)。這些數(shù)據(jù)數(shù)量并不大,但經(jīng)過某種模型的自動分析,很快構(gòu)造出一個生活中真實(shí)的故事:她懷孕了,正在等著自己的小寶寶出 世。如今,當(dāng)人們每天到店里刷卡、或在網(wǎng)上購物、閱讀時,幾百萬、幾千萬、乃至上億的故事就這樣通過干巴巴的數(shù)據(jù)有聲有色地被構(gòu)造出來,為企業(yè)、政府、大 學(xué)、慈善機(jī)構(gòu)和各種其他組織提供了政策依據(jù)。但這一切,是否侵犯了個人隱私?公共領(lǐng)域和私人領(lǐng)域的界限如何劃分?這又涉及到法律、倫理、政治等等方面的一 系列辯論。
也正是如此,統(tǒng)計學(xué)最近在美國校園里漸漸熱起來。 另外,哥倫比亞、斯坦福、紐約大學(xué)、西北大學(xué)、喬治梅森大學(xué)、印第安納大學(xué)、加州大學(xué)爾灣分校等等,在最近幾年建立了十幾個有著不同名字的數(shù)據(jù)科學(xué)的學(xué)位 或證書課程。這并不是一點(diǎn)小動靜。要知道,過去幾年美國被經(jīng)濟(jì)危機(jī)所困,各大學(xué)紛紛消減和凍結(jié)項(xiàng)目、課程、教職,連哈佛這樣的巨無霸都不能免俗。能夠逆流 而上建設(shè)新的課程,必定是回應(yīng)強(qiáng)烈的市場信號。麥肯錫環(huán)球咨詢公司指出,要滿足美國對數(shù)據(jù)科學(xué)家的需求,大學(xué)必須把現(xiàn)有的人才培養(yǎng)量擴(kuò)張60%。到 2018年,這個領(lǐng)域?qū)⒊霈F(xiàn)50萬個左右的工作,數(shù)據(jù)科學(xué)家的短缺將達(dá)19萬人,另外還需要150萬個理解數(shù)據(jù)科學(xué)的管理和后勤人員。這也難怪,如今雖然 經(jīng)濟(jì)不景氣,許多這個學(xué)科的畢業(yè)生起薪能達(dá)十萬美元以上。比如,北卡州立大學(xué)(North Carolina State University)本來名不見經(jīng)傳,在《美國新聞與世界報道》中的全美研究性大學(xué)排名中居于百名以外。但該校2007年建立了與數(shù)據(jù)科學(xué)相關(guān)的分析 (Analytics)專業(yè)碩士課程。2012年84位畢業(yè)生全部找到工作,平均起薪接近9萬美元,有經(jīng)驗(yàn)者則超過10萬美元以上。
數(shù)據(jù)科學(xué)家需要什么素質(zhì)?我 們本能地想到那些應(yīng)用數(shù)學(xué)、統(tǒng)計學(xué)、計算機(jī)信息處理等方面的人才。這確實(shí)也八九不離十。不過僅此還不夠。在哥倫比亞講授數(shù)據(jù)科學(xué)入門的Rachel Schutt指出,數(shù)據(jù)科學(xué)家是計算機(jī)科學(xué)家、軟件工程師、統(tǒng)計學(xué)家的雜交。不過,最好的候選是那些對世界充滿好奇的人,那些喜歡問問題的思想家,那些喜 歡面對雜亂無章、缺乏結(jié)構(gòu)性的情景,又喜歡給這種沒有結(jié)構(gòu)的現(xiàn)實(shí)提供一種結(jié)構(gòu)的人。如果更通俗的語言解釋,能夠捕捉數(shù)據(jù)科學(xué)所提供機(jī)會的人,主要還是那些 “學(xué)好數(shù)理化、走遍天下都不怕”的理工精英;同時,他們必須能夠?yàn)樽约核占?、處理的?shù)據(jù)賦予意義,從中講出故事來。這又要求他們具有相當(dāng)?shù)纳鐣茖W(xué)的訓(xùn) 練?!都~約時報》就舉出例子:哥倫比亞大學(xué)有個碩士課程,叫社會科學(xué)的數(shù)量方法。那里已經(jīng)成為數(shù)據(jù)科學(xué)家的訓(xùn)練營地。
數(shù)據(jù)科學(xué)的崛起,為我們思考“熱門專業(yè)”、 “新興學(xué)科”的個人教育戰(zhàn)略提供了一個典型范例。數(shù)據(jù)科學(xué)炙手可熱,一大堆學(xué)位或證書課程迅速上馬。但是我們必須注意到兩點(diǎn):第一,這些上馬的課程,主要 是研究院的課程,不是本科課程。第二,這些課程準(zhǔn)入門檻很高,不是誰都能上。數(shù)理基礎(chǔ)不行的,最好繞道走。這也保證了這些課程規(guī)模有限,所培養(yǎng)的人才在未 來幾年頗有些壟斷優(yōu)勢,鎖定了高薪。
中國的學(xué)生和家長,特別喜歡追“熱門專業(yè)”。我對他們的勸告是:本科階段,最好學(xué)一些基礎(chǔ)專業(yè),如文史、經(jīng)濟(jì)學(xué)、數(shù)理化、工程等等。這是本。某些花哨的 “熱門專業(yè)”,多屬雕蟲小技,是末。切不可本末倒置、輕上時髦專業(yè)的“賊船”。第一,“熱門專業(yè)”來得快,去得也快,大家追風(fēng)扎堆,轉(zhuǎn)眼間就人才過剩。本 科四年時間非常長。進(jìn)去時某個專業(yè)還在熱,畢業(yè)時可能黃瓜菜都涼了,已經(jīng)成為待業(yè)大本營。第二,本科的“熱門專業(yè)”,作為新學(xué)科往往不成熟,缺乏學(xué)術(shù)傳 統(tǒng),教授東拼西湊,灌水成分比較大。跟著這些雜牌軍學(xué)不到真本事。
與此相對,如果本科不追時尚,修煉好數(shù)理、文史和社會科學(xué)方面的基本功,日后學(xué)什么都快。有了本科練就的功夫,申請研究院就有本錢,到那時跳到“熱門專 業(yè)”也不晚。一個“熱門專業(yè)”的碩士課程,往往就一兩年,時間短得多,“熱門”變冷的機(jī)會自然小得多。在本科基本功的底子上短平快地攻克一個新學(xué)科,比起 投入本科四年來要保險穩(wěn)妥得多。特別是數(shù)據(jù)科學(xué)這樣的熱門專業(yè),雖然在商業(yè)中的運(yùn)用最廣、需求最大,但商科學(xué)生往往學(xué)不了,反而是數(shù)學(xué)系的“書呆子”們有 先聲奪人之優(yōu)勢。所以,對待大學(xué)教育,切不可急功近利。否則恐怕就會落得個“機(jī)關(guān)算盡太聰明”……
CDA 數(shù)據(jù)分析師 官網(wǎng)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實(shí)戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會遇到需要整合多張表數(shù)據(jù)的場景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動的時代,面對海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時用t.test,何時用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08