
數(shù)據(jù)科學(xué)家的工作性質(zhì),以及面臨的挑戰(zhàn)
托馬斯.庫恩在《科學(xué)革命的結(jié)構(gòu)》中指出,范式(paradigm)是一個群體共享的信仰、價值和技術(shù)等等??茖W(xué)范式指的是科學(xué)發(fā)現(xiàn)中賴以運作的理論基礎(chǔ)和實踐的規(guī)范,是科學(xué)工作者們所遵從的普適的世界觀和行為方式。它代表了人類思維的方式和根基,也是交流科學(xué)知識時所默認的共有法則。在歷史上,人類先后經(jīng)歷了經(jīng)驗、理論和計算的三個范式?;阼F球比羽毛更快落地的觀察,亞里士多德總結(jié)說越重的物體降落越快,這就是最典型的基于經(jīng)驗的科學(xué)發(fā)現(xiàn)的范式。而在被無法阻擋的數(shù)據(jù)洪流沖擊的今天,人們發(fā)現(xiàn)傳統(tǒng)的三種科學(xué)發(fā)現(xiàn)模式已經(jīng)不能在一些領(lǐng)域發(fā)揮有效的作用,比如分子生物學(xué),社會科學(xué)。于是,圖靈獎的獲得者Jim Gray提出了著名的第四范式(The Fourth Paradigm),也就是數(shù)據(jù)思維或者數(shù)據(jù)科學(xué)。由此,數(shù)據(jù)科學(xué)家也成為了第四范式的實際踐行者這個群體的統(tǒng)稱。在這片文章里,咱們來探討一下數(shù)據(jù)科學(xué)家跟科學(xué)的關(guān)系,他們的工作性質(zhì),以及面臨的挑戰(zhàn)等等。
早前,在港科大計算機系讀博士的時候聽教授這樣調(diào)侃,大意是:只有那些不能嚴(yán)格被算為科學(xué)而又想擠進科學(xué)的學(xué)科,才會在命名的時候加上“科學(xué)”二字作為后綴,比如計算機科學(xué)。這么算來,數(shù)據(jù)科學(xué)家就是一群很難算得上很科學(xué)的人,到底是不是這樣呢?
在《大數(shù)據(jù)研究的科學(xué)價值》這篇文章里,李國杰院士給出了確定的結(jié)論:數(shù)據(jù)科學(xué)是關(guān)于數(shù)據(jù)的科學(xué)。盡管在現(xiàn)階段,作為客觀事物間接存在形式的“數(shù)據(jù)界”仍然依賴于各個領(lǐng)域的“物理世界”,其究竟有什么共性問題還不清楚。但是,過去的研究已經(jīng)表明,不同領(lǐng)域的數(shù)據(jù)分析方法和結(jié)果存在一定程度的普適性。比如,電網(wǎng)數(shù)據(jù)分析的算法也可應(yīng)用于供水和交通管理上。所以,數(shù)據(jù)科學(xué)目前還處在先做“白盒研究”的階段,也就是說數(shù)據(jù)科學(xué)家們至少在5-10年內(nèi),還需要先協(xié)助其他領(lǐng)域的學(xué)者解決大數(shù)據(jù)帶來的技術(shù)挑戰(zhàn)問題。等到知識積累多了,很可能在“數(shù)據(jù)界”抽象出通用性較強的“黑盒模型”和普適規(guī)律。李院士指出,數(shù)據(jù)科學(xué)的發(fā)展很可能類似與數(shù)據(jù)庫理論的建立:在經(jīng)歷了層次數(shù)據(jù)庫、網(wǎng)狀數(shù)據(jù)庫多年實踐之后,柯德發(fā)現(xiàn)了數(shù)據(jù)庫應(yīng)用的共性規(guī)律,建立了有堅實理論基礎(chǔ)的關(guān)系模型。從而有力的證明了數(shù)據(jù)庫中存在的共性理論。
在筆者十年的數(shù)據(jù)分析經(jīng)歷中,利用機器學(xué)習(xí)的各種模型,包括決策樹、隨機森林、貝葉斯網(wǎng)絡(luò)、SVM等等,處理過分類、聚類、相關(guān)性分析等數(shù)據(jù)挖掘問題。而這些問題又是來源于中醫(yī)、市場營銷、計算廣告學(xué)、社會學(xué)等截然不同的領(lǐng)域??赡茉谙喈?dāng)長的階段,我們都是要為各個領(lǐng)域的業(yè)務(wù)服務(wù),從解決目標(biāo)領(lǐng)域的問題中來積累經(jīng)驗,幫助提煉數(shù)據(jù)思維中的共性問題。
權(quán)威雜志《哈佛商業(yè)評論》宣布,數(shù)據(jù)科學(xué)家是二十一世紀(jì)最性感的職業(yè)。所謂性感,既代表著勾動人心的誘惑,又說明大家還不明確它干的到底是什么。
在現(xiàn)階段,數(shù)據(jù)科學(xué)家的工作是很務(wù)實的。LinkedIn的首席數(shù)據(jù)科學(xué)家Manu Sharma在TiE Summit上接受采訪時說,數(shù)據(jù)科學(xué)家的工作包括,采集數(shù)據(jù),整理數(shù)據(jù),建立正確的模型,測試模型,還要有一定的編程能力。通過這一系列工作,數(shù)據(jù)科學(xué)家開發(fā)出的數(shù)據(jù)應(yīng)用不僅僅幫助開發(fā)創(chuàng)新的數(shù)據(jù)產(chǎn)品,從內(nèi)部數(shù)據(jù)發(fā)現(xiàn)趨勢和機會,更重要的是能推動LinkedIn的業(yè)務(wù)增長?;仡欁约涸跀?shù)據(jù)分析領(lǐng)域所做的種種工作,筆者總結(jié)了數(shù)據(jù)科學(xué)家主要的工作為幾個方面:
1. 數(shù)據(jù)的處理平臺的搭建:包括公司的基礎(chǔ)數(shù)據(jù)平臺以及各個具體業(yè)務(wù)線的指標(biāo)數(shù)據(jù)和日志數(shù)據(jù)平臺。此步的設(shè)計和技術(shù)選型嚴(yán)重依賴于后兩步的分析需求。
2. 歷史數(shù)據(jù)的分析挖掘:包括跟各種產(chǎn)品線相關(guān)的業(yè)務(wù)分析,用戶畫像,用戶行為分析,用戶留存分析等等。類似的分析可以以圖標(biāo)或其他可視化的方式展現(xiàn),目的是讓業(yè)務(wù)決策者對于現(xiàn)狀有清晰、系統(tǒng)、完整的認識,從而輔助其做出下一步的動作(action)。
3. 數(shù)據(jù)驅(qū)動的預(yù)測性分析:比如建立推薦模型并且利用模型對于未來的情況進行預(yù)測。在計算廣告里面,點擊率預(yù)估(CTR)模型就是能被用來給特定的人和場景推薦合適的廣告。這一部分的工作是大數(shù)據(jù)挖掘下最有意義的工作,也是和產(chǎn)品線聯(lián)系最緊密的部分。
不管數(shù)據(jù)科學(xué)家現(xiàn)在的工作范疇到底是如何界定,最近幾年這個崗位的需求數(shù)量快速攀升。如今,所有規(guī)模的企業(yè)都在探索從大數(shù)據(jù)中挖掘出有價值的信息和可以轉(zhuǎn)化成行動的洞察力。數(shù)據(jù)科學(xué)家具備從大數(shù)據(jù)掘金的能力,能為各行業(yè)的數(shù)據(jù)包括醫(yī)療數(shù)據(jù)、移動設(shè)備數(shù)據(jù)、社交媒體流數(shù)據(jù)等進行預(yù)測,帶來巨大的商業(yè)價值。在未來5年數(shù)據(jù)科學(xué)家這一領(lǐng)域人才將出現(xiàn)供不應(yīng)求的局面。McKinsey報告指出去年大數(shù)據(jù)強有力的增長。McKinsey同時預(yù)測在未來6年,僅在美國本土就可能面臨缺乏14萬至19萬具備深入分析數(shù)據(jù)能力人才的情況,同時具備通過分析大數(shù)據(jù)并為企業(yè)做出有效決策的數(shù)據(jù)的管理人員和分析師也有150萬人的缺口。
Kaggle是一個供數(shù)據(jù)科學(xué)家大顯身手的眾包平臺,在這個平臺上,數(shù)據(jù)科學(xué)家們可以看到真實的預(yù)測性分析需求和業(yè)務(wù)數(shù)據(jù),選擇感興趣的作分析,并且能看到自己的分析效果的實時排名。Kaggle總裁兼首席科學(xué)家Jeremy Howard認為一個偉大的數(shù)據(jù)科學(xué)家應(yīng)具備創(chuàng)新、堅韌、好奇、深厚技術(shù)這四項素質(zhì)。具備數(shù)據(jù)收集、數(shù)據(jù)改寫、可視化、機器學(xué)習(xí)、計算機編程等技術(shù)的數(shù)據(jù)科學(xué)家使數(shù)據(jù)驅(qū)動決策并主導(dǎo)產(chǎn)品。他們更喜歡用數(shù)據(jù)說話。
我們看到,為了進行大數(shù)據(jù)的分析,我們首先面臨知識范疇的挑戰(zhàn):數(shù)據(jù)科學(xué)家需要有數(shù)據(jù)庫系統(tǒng)及數(shù)據(jù)管理的知識來應(yīng)對大量數(shù)據(jù)的導(dǎo)入和存儲;同時必須掌握機器學(xué)習(xí)中的算法和模型處理預(yù)測性的需求;在整個過程中,統(tǒng)計學(xué)的概念和人工智能的理論都是指導(dǎo)我們選擇正確、合適的分析方法和對分析結(jié)果進行評估的重要依據(jù)。所以,Bitly首席科學(xué)家HilaryMason認為數(shù)據(jù)科學(xué)家是融合數(shù)學(xué)、算法,并可從大數(shù)據(jù)中尋求問題答案的人。
相對于知識而言,理念上的突破對于數(shù)據(jù)科學(xué)家顯得更為重要。很多數(shù)據(jù)科學(xué)家都具有深厚的統(tǒng)計學(xué)背景,而統(tǒng)計學(xué)的目標(biāo)是從各種類型的數(shù)據(jù)中提取有價值的信息,給人以后見之明,但不強調(diào)對事物的洞察力(insight),不強調(diào)深度的知識。所以,如何從固有的統(tǒng)計思維突破到數(shù)據(jù)的思維,就是一大挑戰(zhàn)。舉例來說,在大數(shù)據(jù)分析領(lǐng)域,我們更多關(guān)心事物的相關(guān)性或者關(guān)聯(lián)性。與傳統(tǒng)的邏輯推理研究注重條件和結(jié)果之間的因果關(guān)系不同,相關(guān)分析是為了找出數(shù)據(jù)集里隱藏的相互關(guān)系網(wǎng),一般用支持度、可信度和興趣度來衡量。大數(shù)據(jù)分析的巨大驅(qū)動是商業(yè)盈利。就像在著名的啤酒尿布的例子中,可以這種相關(guān)性來采取措施增加企業(yè)利潤,而不用去深究背后的內(nèi)在規(guī)律和機制。
除此之外,交流合作的能力也是數(shù)據(jù)科學(xué)家普遍需要解決的自身問題。這兒的交流不僅僅指的是數(shù)據(jù)科學(xué)家內(nèi)部的知識分享,技能學(xué)習(xí),更重要的是向業(yè)務(wù)人員、運營同事、領(lǐng)域?qū)<业奶撔恼埥毯蛯W(xué)習(xí)。唯此,我們才能更清楚業(yè)務(wù)的需求,了解現(xiàn)有數(shù)據(jù)的特性和不足,再此基礎(chǔ)上開發(fā)出針對性的數(shù)據(jù)產(chǎn)品。所以,分析人員不僅僅要醉心于技術(shù),更要走進業(yè)務(wù)去采風(fēng),一方面普及數(shù)據(jù)挖掘的知識和功能,一方面收集需求。
圖靈獎獲得者Jim Gray在總結(jié)了科學(xué)研究在人類歷史上所先后經(jīng)歷的實驗、理論和計算三個范式之后,提出了基于數(shù)據(jù)而思維的第四范式(The Fourth Paradigm)。在數(shù)據(jù)的洪流無法阻擋的今天,傳統(tǒng)的科學(xué)模式確實不能在一些領(lǐng)域發(fā)揮有效的作用。而實際的業(yè)務(wù)場景中,經(jīng)驗+感覺的方式也必將會被數(shù)字+事實的決策所取代。所以,數(shù)據(jù)科學(xué)家們,讓我們行動起來,為實現(xiàn)基于數(shù)據(jù)的探索(data exploration)和數(shù)據(jù)驅(qū)動的業(yè)務(wù)(data-drivenbusiness)努力吧。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03