
大數(shù)據(jù)時代的十種新認識,顛覆你的傳統(tǒng)思維
大數(shù)據(jù)時代的到來改變了人們的生活方式、思維模式和研究范式,以下總結出了10個重大變化。
研究范式的新認識
從“第三范式”到“第四范式”
2007年,圖靈獎獲得者Jim Gray提出了科學研究的第四范式——數(shù)據(jù)密集型科學發(fā)現(xiàn)(Data-intensive ScientificDiscovery)。在他看來,人類科學研究活動已經(jīng)歷過三中不同范式的演變過程(原始社會的“實驗科學范式”、以模型和歸納為特征的“理論科學范式”和以模擬仿真為特征的“計算科學范式”),目前正在從“計算科學范式”轉(zhuǎn)向“數(shù)據(jù)密集型科學發(fā)現(xiàn)范式”。
第四范式,即“數(shù)據(jù)密集型科學發(fā)現(xiàn)范式”的主要特點是科學研究人員只需要從大數(shù)據(jù)中查找和挖掘所需要的信息和知識,無須直接面對所研究的物理對象。例如,在大數(shù)據(jù)時代,天文學家的研究方式發(fā)生了新的變化——其主要研究任務變?yōu)閺暮A繑?shù)據(jù)庫中發(fā)現(xiàn)所需的物體或現(xiàn)象的照片,而不再需要親自進行太空拍照。再如,人們在進行研究時往往習慣性地“采用問卷調(diào)查法等方法親自收集新數(shù)據(jù)”,而不是“首先想到有沒有現(xiàn)成的大數(shù)據(jù)以及如何再利用已有的數(shù)據(jù)(數(shù)據(jù)洞見)”,如下圖所示。
數(shù)據(jù)重要性的新認識 從“數(shù)據(jù)資源”到“數(shù)據(jù)資產(chǎn)”
在大數(shù)據(jù)時代,數(shù)據(jù)不僅是一種“資源”,而更是一種重要的“資產(chǎn)”。因此,數(shù)據(jù)科學應把數(shù)據(jù)當做“一種資產(chǎn)來管理”,而不能僅僅當做“資源”來對待。也就是說,與其他類型的資產(chǎn)相似,數(shù)據(jù)也具有財務價值,且需要作為獨立實體進行組織與管理。
對方法論的新認識
從“基于知識解決問題”到“基于數(shù)據(jù)解決問題”
我們傳統(tǒng)的方法論往往是“基于知識”的,即從 “大量實踐(數(shù)據(jù))”中總結和提煉出一般性知識(定理、模式、模型、函數(shù)等)之后,用知識去解決(或解釋)問題。因此,傳統(tǒng)的問題解決思路是“問題→知識→問題”,即根據(jù)問題找“知識”,并用“知識”解決“問題”。然而,數(shù)據(jù)科學中興起了另一種方法論——“問題→數(shù)據(jù)→問題”,即根據(jù)問題找“數(shù)據(jù)”,并直接用數(shù)據(jù)(不需要把“數(shù)據(jù)”轉(zhuǎn)換成“知識”的前提下)解決問題,如圖下圖所示。
對數(shù)據(jù)分析的新認識 從統(tǒng)計學到數(shù)據(jù)科學
在傳統(tǒng)科學中,數(shù)據(jù)分析主要以數(shù)學和統(tǒng)計學為直接理論工具。但是,云計算等計算模式的出現(xiàn)以及大數(shù)據(jù)時代的到來,提升了我們對數(shù)據(jù)的獲取、存儲、計算與管理能力,進而對統(tǒng)計學理論與方法產(chǎn)生了深遠影響,主要有:
?隨著數(shù)據(jù)獲取、存儲與計算能力的提升,我們可以很容易獲得統(tǒng)計學中所指的“總體”中的全部數(shù)據(jù),且可以在總體上直接進行計算——不再需要進行“抽樣操作”;
?在海量、動態(tài)、異構數(shù)據(jù)環(huán)境中,人們更加關注的是數(shù)據(jù)計算的“效率”而不再盲目追求其“精準度”。例如,在數(shù)據(jù)科學中,廣泛應用“基于數(shù)據(jù)的”思維模式,重視對“相關性”的分析,而不是等到發(fā)現(xiàn)“真正的因果關系”之后才解決問題。在大數(shù)據(jù)時代,人們開始重視相關分析,而不僅僅是因果分析。
對計算智能的新認識 從復雜算法到簡單算法
“只要擁有足夠多的數(shù)據(jù),我們可以變得更聰明”是大數(shù)據(jù)時代的一個新認識。因此,在大數(shù)據(jù)時代,原本復雜的“智能問題”變成簡單的“數(shù)據(jù)問題”——只要對大數(shù)據(jù)進行簡單查詢就可以達到“基于復雜算法的智能計算的效果”。
為此,很多學者曾討論過一個重要話題——“大數(shù)據(jù)時代需要的是更多數(shù)據(jù)還是更好的模型(moredata or better model)?”。機器翻譯是傳統(tǒng)自然語言技術領域的難點,雖曾提出過很多種“算法”,但應用效果并不理想。近年來,Google翻譯等工具改變了“實現(xiàn)策略”,不再僅靠復雜算法進行翻譯,而對他們之前收集的跨語言語料庫進行簡單查詢的方式,提升了機器翻譯的效果和效率。
對數(shù)據(jù)管理重點的新認識
從業(yè)務數(shù)據(jù)化到數(shù)據(jù)業(yè)務化
在大數(shù)據(jù)時代,企業(yè)需要重視一個新的課題——數(shù)據(jù)業(yè)務化,即如何“基于數(shù)據(jù)”動態(tài)地定義、優(yōu)化和重組業(yè)務及其流程,進而提升業(yè)務的敏捷性,降低風險和成本。但是,在傳統(tǒng)數(shù)據(jù)管理中我們更加關注的是業(yè)務的數(shù)據(jù)化問題,即如何將業(yè)務活動以數(shù)據(jù)方式記錄下來,以便進行業(yè)務審計、分析與挖掘。可見,業(yè)務數(shù)據(jù)化是前提,而數(shù)據(jù)業(yè)務化是目標。
對決策方式的新認識
從目標驅(qū)動型決策到數(shù)據(jù)驅(qū)動型決策
傳統(tǒng)科學思維中,決策制定往往是“目標”或“模型”驅(qū)動的——根據(jù)目標(或模型)進行決策。然而,大數(shù)據(jù)時代出現(xiàn)了另一種思維模式,即數(shù)據(jù)驅(qū)動型決策,數(shù)據(jù)成為決策制定的主要“觸發(fā)條件”和“重要依據(jù)”。例如,近年來,很多高新企業(yè)中的部門和崗位設置不再是“固化的”,而是根據(jù)所做項目與所處的數(shù)據(jù)環(huán)境,隨時動態(tài)調(diào)整其部門和崗位設置。然而,部門和崗位設置的敏捷性往往是基于數(shù)據(jù)驅(qū)動的,根據(jù)數(shù)據(jù)分析的結果靈活調(diào)整企業(yè)內(nèi)部結構。
對產(chǎn)業(yè)競合關系的新認識
從“以戰(zhàn)略為中心競合關系”到“以數(shù)據(jù)為中心競合關系”
在大數(shù)據(jù)時代,企業(yè)之間的競合關系發(fā)生了變化,原本相互激烈競爭,甚至不愿合作的企業(yè),不得不開始合作,形成新的業(yè)態(tài)和產(chǎn)業(yè)鏈。例如,近年來IBM公司和Apple公司“化敵為友”,并有報道稱他們正在從競爭對手轉(zhuǎn)向合作伙伴——IBM的100多名員工前往Apple的加州庫比蒂諾總部,與Apple一起為IBM的客戶(例如花旗、Sprint和日本郵政)聯(lián)合開發(fā)iPhone和iPad應用。
對數(shù)據(jù)復雜性的新認識
從不接受到接受數(shù)據(jù)的復雜性
在傳統(tǒng)科學看來,數(shù)據(jù)需要徹底“凈化”和“集成”,計算目的是需要找出“精確答案”,而其背后的哲學是“不接受數(shù)據(jù)的復雜性”。然而,大數(shù)據(jù)中更加強調(diào)的是數(shù)據(jù)的動態(tài)性、異構性和跨域等復雜性——彈性計算、魯棒性、虛擬化和快速響應,開始把“復雜性”當作數(shù)據(jù)的一個固有特征來對待,組織數(shù)據(jù)生態(tài)系統(tǒng)的管理目標轉(zhuǎn)向?qū)⒔M織處于混沌邊緣狀態(tài)。
對數(shù)據(jù)處理模式的新認識
從“小眾參與”到“大眾協(xié)同”
傳統(tǒng)科學中,數(shù)據(jù)的分析和挖掘都是具有很高專業(yè)素養(yǎng)的“企業(yè)核心員工”的事情,企業(yè)管理的重要目的是如何激勵和績效考核這些“核心員工”。但是,在大數(shù)據(jù)時代,基于“核心員工”的創(chuàng)新工作成本和風險越來越大,而基于“專業(yè)和業(yè)余混合的(Pro-Am)”的大規(guī)模協(xié)作日益受到重視,正成為解決數(shù)據(jù)規(guī)模與形式化之間矛盾的重要手段。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11