
大數(shù)據(jù)時(shí)代的十種新認(rèn)識(shí),顛覆你的傳統(tǒng)思維
大數(shù)據(jù)時(shí)代的到來改變了人們的生活方式、思維模式和研究范式,以下總結(jié)出了10個(gè)重大變化。
研究范式的新認(rèn)識(shí)
從“第三范式”到“第四范式”
2007年,圖靈獎(jiǎng)獲得者Jim Gray提出了科學(xué)研究的第四范式——數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(Data-intensive ScientificDiscovery)。在他看來,人類科學(xué)研究活動(dòng)已經(jīng)歷過三中不同范式的演變過程(原始社會(huì)的“實(shí)驗(yàn)科學(xué)范式”、以模型和歸納為特征的“理論科學(xué)范式”和以模擬仿真為特征的“計(jì)算科學(xué)范式”),目前正在從“計(jì)算科學(xué)范式”轉(zhuǎn)向“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式”。
第四范式,即“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式”的主要特點(diǎn)是科學(xué)研究人員只需要從大數(shù)據(jù)中查找和挖掘所需要的信息和知識(shí),無須直接面對(duì)所研究的物理對(duì)象。例如,在大數(shù)據(jù)時(shí)代,天文學(xué)家的研究方式發(fā)生了新的變化——其主要研究任務(wù)變?yōu)閺暮A繑?shù)據(jù)庫(kù)中發(fā)現(xiàn)所需的物體或現(xiàn)象的照片,而不再需要親自進(jìn)行太空拍照。再如,人們?cè)谶M(jìn)行研究時(shí)往往習(xí)慣性地“采用問卷調(diào)查法等方法親自收集新數(shù)據(jù)”,而不是“首先想到有沒有現(xiàn)成的大數(shù)據(jù)以及如何再利用已有的數(shù)據(jù)(數(shù)據(jù)洞見)”,如下圖所示。
數(shù)據(jù)重要性的新認(rèn)識(shí) 從“數(shù)據(jù)資源”到“數(shù)據(jù)資產(chǎn)”
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)不僅是一種“資源”,而更是一種重要的“資產(chǎn)”。因此,數(shù)據(jù)科學(xué)應(yīng)把數(shù)據(jù)當(dāng)做“一種資產(chǎn)來管理”,而不能僅僅當(dāng)做“資源”來對(duì)待。也就是說,與其他類型的資產(chǎn)相似,數(shù)據(jù)也具有財(cái)務(wù)價(jià)值,且需要作為獨(dú)立實(shí)體進(jìn)行組織與管理。
對(duì)方法論的新認(rèn)識(shí)
從“基于知識(shí)解決問題”到“基于數(shù)據(jù)解決問題”
我們傳統(tǒng)的方法論往往是“基于知識(shí)”的,即從 “大量實(shí)踐(數(shù)據(jù))”中總結(jié)和提煉出一般性知識(shí)(定理、模式、模型、函數(shù)等)之后,用知識(shí)去解決(或解釋)問題。因此,傳統(tǒng)的問題解決思路是“問題→知識(shí)→問題”,即根據(jù)問題找“知識(shí)”,并用“知識(shí)”解決“問題”。然而,數(shù)據(jù)科學(xué)中興起了另一種方法論——“問題→數(shù)據(jù)→問題”,即根據(jù)問題找“數(shù)據(jù)”,并直接用數(shù)據(jù)(不需要把“數(shù)據(jù)”轉(zhuǎn)換成“知識(shí)”的前提下)解決問題,如圖下圖所示。
對(duì)數(shù)據(jù)分析的新認(rèn)識(shí) 從統(tǒng)計(jì)學(xué)到數(shù)據(jù)科學(xué)
在傳統(tǒng)科學(xué)中,數(shù)據(jù)分析主要以數(shù)學(xué)和統(tǒng)計(jì)學(xué)為直接理論工具。但是,云計(jì)算等計(jì)算模式的出現(xiàn)以及大數(shù)據(jù)時(shí)代的到來,提升了我們對(duì)數(shù)據(jù)的獲取、存儲(chǔ)、計(jì)算與管理能力,進(jìn)而對(duì)統(tǒng)計(jì)學(xué)理論與方法產(chǎn)生了深遠(yuǎn)影響,主要有:
?隨著數(shù)據(jù)獲取、存儲(chǔ)與計(jì)算能力的提升,我們可以很容易獲得統(tǒng)計(jì)學(xué)中所指的“總體”中的全部數(shù)據(jù),且可以在總體上直接進(jìn)行計(jì)算——不再需要進(jìn)行“抽樣操作”;
?在海量、動(dòng)態(tài)、異構(gòu)數(shù)據(jù)環(huán)境中,人們更加關(guān)注的是數(shù)據(jù)計(jì)算的“效率”而不再盲目追求其“精準(zhǔn)度”。例如,在數(shù)據(jù)科學(xué)中,廣泛應(yīng)用“基于數(shù)據(jù)的”思維模式,重視對(duì)“相關(guān)性”的分析,而不是等到發(fā)現(xiàn)“真正的因果關(guān)系”之后才解決問題。在大數(shù)據(jù)時(shí)代,人們開始重視相關(guān)分析,而不僅僅是因果分析。
對(duì)計(jì)算智能的新認(rèn)識(shí) 從復(fù)雜算法到簡(jiǎn)單算法
“只要擁有足夠多的數(shù)據(jù),我們可以變得更聰明”是大數(shù)據(jù)時(shí)代的一個(gè)新認(rèn)識(shí)。因此,在大數(shù)據(jù)時(shí)代,原本復(fù)雜的“智能問題”變成簡(jiǎn)單的“數(shù)據(jù)問題”——只要對(duì)大數(shù)據(jù)進(jìn)行簡(jiǎn)單查詢就可以達(dá)到“基于復(fù)雜算法的智能計(jì)算的效果”。
為此,很多學(xué)者曾討論過一個(gè)重要話題——“大數(shù)據(jù)時(shí)代需要的是更多數(shù)據(jù)還是更好的模型(moredata or better model)?”。機(jī)器翻譯是傳統(tǒng)自然語(yǔ)言技術(shù)領(lǐng)域的難點(diǎn),雖曾提出過很多種“算法”,但應(yīng)用效果并不理想。近年來,Google翻譯等工具改變了“實(shí)現(xiàn)策略”,不再僅靠復(fù)雜算法進(jìn)行翻譯,而對(duì)他們之前收集的跨語(yǔ)言語(yǔ)料庫(kù)進(jìn)行簡(jiǎn)單查詢的方式,提升了機(jī)器翻譯的效果和效率。
對(duì)數(shù)據(jù)管理重點(diǎn)的新認(rèn)識(shí)
從業(yè)務(wù)數(shù)據(jù)化到數(shù)據(jù)業(yè)務(wù)化
在大數(shù)據(jù)時(shí)代,企業(yè)需要重視一個(gè)新的課題——數(shù)據(jù)業(yè)務(wù)化,即如何“基于數(shù)據(jù)”動(dòng)態(tài)地定義、優(yōu)化和重組業(yè)務(wù)及其流程,進(jìn)而提升業(yè)務(wù)的敏捷性,降低風(fēng)險(xiǎn)和成本。但是,在傳統(tǒng)數(shù)據(jù)管理中我們更加關(guān)注的是業(yè)務(wù)的數(shù)據(jù)化問題,即如何將業(yè)務(wù)活動(dòng)以數(shù)據(jù)方式記錄下來,以便進(jìn)行業(yè)務(wù)審計(jì)、分析與挖掘??梢?,業(yè)務(wù)數(shù)據(jù)化是前提,而數(shù)據(jù)業(yè)務(wù)化是目標(biāo)。
對(duì)決策方式的新認(rèn)識(shí)
從目標(biāo)驅(qū)動(dòng)型決策到數(shù)據(jù)驅(qū)動(dòng)型決策
傳統(tǒng)科學(xué)思維中,決策制定往往是“目標(biāo)”或“模型”驅(qū)動(dòng)的——根據(jù)目標(biāo)(或模型)進(jìn)行決策。然而,大數(shù)據(jù)時(shí)代出現(xiàn)了另一種思維模式,即數(shù)據(jù)驅(qū)動(dòng)型決策,數(shù)據(jù)成為決策制定的主要“觸發(fā)條件”和“重要依據(jù)”。例如,近年來,很多高新企業(yè)中的部門和崗位設(shè)置不再是“固化的”,而是根據(jù)所做項(xiàng)目與所處的數(shù)據(jù)環(huán)境,隨時(shí)動(dòng)態(tài)調(diào)整其部門和崗位設(shè)置。然而,部門和崗位設(shè)置的敏捷性往往是基于數(shù)據(jù)驅(qū)動(dòng)的,根據(jù)數(shù)據(jù)分析的結(jié)果靈活調(diào)整企業(yè)內(nèi)部結(jié)構(gòu)。
對(duì)產(chǎn)業(yè)競(jìng)合關(guān)系的新認(rèn)識(shí)
從“以戰(zhàn)略為中心競(jìng)合關(guān)系”到“以數(shù)據(jù)為中心競(jìng)合關(guān)系”
在大數(shù)據(jù)時(shí)代,企業(yè)之間的競(jìng)合關(guān)系發(fā)生了變化,原本相互激烈競(jìng)爭(zhēng),甚至不愿合作的企業(yè),不得不開始合作,形成新的業(yè)態(tài)和產(chǎn)業(yè)鏈。例如,近年來IBM公司和Apple公司“化敵為友”,并有報(bào)道稱他們正在從競(jìng)爭(zhēng)對(duì)手轉(zhuǎn)向合作伙伴——IBM的100多名員工前往Apple的加州庫(kù)比蒂諾總部,與Apple一起為IBM的客戶(例如花旗、Sprint和日本郵政)聯(lián)合開發(fā)iPhone和iPad應(yīng)用。
對(duì)數(shù)據(jù)復(fù)雜性的新認(rèn)識(shí)
從不接受到接受數(shù)據(jù)的復(fù)雜性
在傳統(tǒng)科學(xué)看來,數(shù)據(jù)需要徹底“凈化”和“集成”,計(jì)算目的是需要找出“精確答案”,而其背后的哲學(xué)是“不接受數(shù)據(jù)的復(fù)雜性”。然而,大數(shù)據(jù)中更加強(qiáng)調(diào)的是數(shù)據(jù)的動(dòng)態(tài)性、異構(gòu)性和跨域等復(fù)雜性——彈性計(jì)算、魯棒性、虛擬化和快速響應(yīng),開始把“復(fù)雜性”當(dāng)作數(shù)據(jù)的一個(gè)固有特征來對(duì)待,組織數(shù)據(jù)生態(tài)系統(tǒng)的管理目標(biāo)轉(zhuǎn)向?qū)⒔M織處于混沌邊緣狀態(tài)。
對(duì)數(shù)據(jù)處理模式的新認(rèn)識(shí)
從“小眾參與”到“大眾協(xié)同”
傳統(tǒng)科學(xué)中,數(shù)據(jù)的分析和挖掘都是具有很高專業(yè)素養(yǎng)的“企業(yè)核心員工”的事情,企業(yè)管理的重要目的是如何激勵(lì)和績(jī)效考核這些“核心員工”。但是,在大數(shù)據(jù)時(shí)代,基于“核心員工”的創(chuàng)新工作成本和風(fēng)險(xiǎn)越來越大,而基于“專業(yè)和業(yè)余混合的(Pro-Am)”的大規(guī)模協(xié)作日益受到重視,正成為解決數(shù)據(jù)規(guī)模與形式化之間矛盾的重要手段。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-18剛?cè)肼殘?chǎng)或是在職場(chǎng)正面臨崗位替代、技能更新、人機(jī)協(xié)作等焦慮的打工人,想要找到一條破解職場(chǎng)焦慮和升職瓶頸的系統(tǒng)化學(xué)習(xí)提升 ...
2025-07-182025被稱為“AI元年”,而AI,與數(shù)據(jù)密不可分。網(wǎng)易公司創(chuàng)始人丁磊在《AI思維:從數(shù)據(jù)中創(chuàng)造價(jià)值的煉金術(shù) ...
2025-07-18CDA 數(shù)據(jù)分析師:數(shù)據(jù)時(shí)代的價(jià)值挖掘者 在大數(shù)據(jù)席卷全球的今天,數(shù)據(jù)已成為企業(yè)核心競(jìng)爭(zhēng)力的重要組成部分。從海量數(shù)據(jù)中提取有 ...
2025-07-18SPSS 賦值后數(shù)據(jù)不顯示?原因排查與解決指南? 在 SPSS( Statistical Package for the Social Sciences)數(shù)據(jù)分析過程中,變量 ...
2025-07-18在 DBeaver 中利用 MySQL 實(shí)現(xiàn)表數(shù)據(jù)同步操作指南? ? 在數(shù)據(jù)庫(kù)管理工作中,將一張表的數(shù)據(jù)同步到另一張表是常見需求,這有助于 ...
2025-07-18數(shù)據(jù)分析師的技能圖譜:從數(shù)據(jù)到價(jià)值的橋梁? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,數(shù)據(jù)分析師如同 “數(shù)據(jù)翻譯官”,將冰冷的數(shù)字轉(zhuǎn)化為清晰的 ...
2025-07-17Pandas 寫入指定行數(shù)據(jù):數(shù)據(jù)精細(xì)化管理的核心技能? 在數(shù)據(jù)處理的日常工作中,我們常常需要面對(duì)這樣的場(chǎng)景:在龐大的數(shù)據(jù)集里精 ...
2025-07-17解碼 CDA:數(shù)據(jù)時(shí)代的通行證? 在數(shù)字化浪潮席卷全球的今天,當(dāng)企業(yè)決策者盯著屏幕上跳動(dòng)的數(shù)據(jù)曲線尋找增長(zhǎng)密碼,當(dāng)科研人員在 ...
2025-07-17CDA 精益業(yè)務(wù)數(shù)據(jù)分析:數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)增長(zhǎng)的實(shí)戰(zhàn)方法論 在企業(yè)數(shù)字化轉(zhuǎn)型的浪潮中,“數(shù)據(jù)分析” 已從 “加分項(xiàng)” 成為 “必修課 ...
2025-07-16MySQL 中 ADD KEY 與 ADD INDEX 詳解:用法、差異與優(yōu)化實(shí)踐 在 MySQL 數(shù)據(jù)庫(kù)表結(jié)構(gòu)設(shè)計(jì)中,索引是提升查詢性能的核心手段。無論 ...
2025-07-16解析 MySQL Update 語(yǔ)句中 “query end” 狀態(tài):含義、成因與優(yōu)化指南? 在 MySQL 數(shù)據(jù)庫(kù)的日常運(yùn)維與開發(fā)中,開發(fā)者和 DBA 常會(huì) ...
2025-07-16如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價(jià)值、驅(qū)動(dòng)決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動(dòng)企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時(shí)代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實(shí)戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫(kù)的日常操作中,我們經(jīng)常會(huì)遇到需要整合多張表數(shù)據(jù)的場(chǎng)景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,面對(duì)海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫(kù)操作中,誤刪數(shù)據(jù)、錯(cuò)改字段或誤執(zhí)行批量更新等問題時(shí)有發(fā)生。 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時(shí)用t.test,何時(shí)用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時(shí)用 t.test,何時(shí)用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11