
對(duì)大數(shù)據(jù)的認(rèn)識(shí)不應(yīng)盲目跟風(fēng)_數(shù)據(jù)分析師
由于大數(shù)據(jù)技術(shù)發(fā)展迅速,一些囫圇吞棗的淺知誤見也隨之流傳,如不及時(shí)糾正,將造成對(duì)大數(shù)據(jù)先入為主的誤區(qū),影響經(jīng)濟(jì)社會(huì)發(fā)展?! ?/span>
近年來,大數(shù)據(jù)在我國(guó)得到一致重視,各行各業(yè)興起了一股重視大數(shù)據(jù)、應(yīng)用大數(shù)據(jù)的熱潮。這種全民迅速接受新生事物的現(xiàn)象,反映了中國(guó)經(jīng)過改革開放,現(xiàn)代化意識(shí)深入人心的可喜狀況,令人鼓舞。但是,由于大數(shù)據(jù)技術(shù)發(fā)展迅速,一些囫圇吞棗的淺知誤見也隨之流傳,如不及時(shí)糾正,將造成對(duì)大數(shù)據(jù)先入為主的誤區(qū),影響經(jīng)濟(jì)社會(huì)發(fā)展。當(dāng)前國(guó)內(nèi)十分流行的《大數(shù)據(jù)時(shí)代》(維克托·邁爾-舍恩伯格等著,浙江人民出版社,2013年,以下簡(jiǎn)稱《時(shí)代》)中提出了三個(gè)存在嚴(yán)重謬誤的觀點(diǎn),特此指出,以期引起注意。
“不是因果關(guān)系,而是相互關(guān)系”?
《時(shí)代》一書的主要觀點(diǎn)之一是,大數(shù)據(jù)時(shí)代“不是因果關(guān)系,而是相互關(guān)系”。其實(shí),早在18世紀(jì),英國(guó)懷疑論者休謨就指出,“不但我們的理性不能幫助我們發(fā)現(xiàn)原因和結(jié)果的最終聯(lián)系,而且經(jīng)驗(yàn)給我們指出它們的恒常結(jié)合以后,我們也不能憑自己的理性使自己相信,我們?yōu)槭裁窗涯欠N經(jīng)驗(yàn)擴(kuò)大到我們所曾觀察過那些特殊事物以外。我們只是假設(shè),卻永遠(yuǎn)不能證明,我們所經(jīng)驗(yàn)過的那些事物必然類似于我們所未曾發(fā)現(xiàn)的那些對(duì)象?!?/span>
《時(shí)代》一書將這一早已提出幾個(gè)世紀(jì)的觀點(diǎn),作為大數(shù)據(jù)時(shí)代的新概念,不僅陳舊,而且錯(cuò)誤。因?yàn)?,?jiǎn)單地說大數(shù)據(jù)時(shí)代“不是因果關(guān)系,而是相互關(guān)系”,說明作者不了解因果關(guān)系本身也是一種相互關(guān)系,即原因與結(jié)果前后相繼的相互關(guān)系,因此將因果關(guān)系歸結(jié)為相互關(guān)系并不比因果關(guān)系本身更有內(nèi)涵,實(shí)際上,這甚至是一種同義反復(fù)。
正確的觀點(diǎn)應(yīng)該明確因果關(guān)系是一種什么樣的相互關(guān)系,而這一點(diǎn)經(jīng)過20世紀(jì)自然科學(xué)和數(shù)理哲學(xué)的研究已經(jīng)有了更深刻的認(rèn)識(shí)。計(jì)算機(jī)的發(fā)明,使得人們開始從計(jì)算機(jī)語言表達(dá)、傳遞信息的角度來理解知識(shí)的起點(diǎn)。大數(shù)據(jù)時(shí)代的到來,使得人們豁然開朗。
經(jīng)濟(jì)學(xué)者李德偉教授在《時(shí)代》中譯本發(fā)表之前,就已提出大數(shù)據(jù)時(shí)代不再?gòu)?qiáng)調(diào)因果關(guān)系,也不是簡(jiǎn)單地將因果關(guān)系歸為相互關(guān)系,而是精確地指出客觀事物運(yùn)動(dòng)序列之間存在同構(gòu)關(guān)系,特別是人類認(rèn)識(shí)與外部客觀事物之間存在對(duì)應(yīng)的、同構(gòu)的關(guān)系,信息的表達(dá)、傳輸和存儲(chǔ)就是一種同構(gòu)關(guān)系,也就是說,外部客觀事物運(yùn)動(dòng)與人的主觀認(rèn)識(shí)都是客觀世界的事物現(xiàn)象,是協(xié)調(diào)性的、一一對(duì)應(yīng)的相互關(guān)系,主觀認(rèn)識(shí)映像只是承載、傳遞外部客觀事物現(xiàn)象的一種符號(hào)系統(tǒng)。無論是從人自身悟出來,還是從外部經(jīng)驗(yàn)事物抽象出來,都是同構(gòu)的、對(duì)應(yīng)的關(guān)系。
“不是隨機(jī)樣本,而是全體數(shù)據(jù)”?
《時(shí)代》一書認(rèn)為大數(shù)據(jù)時(shí)代“不是隨機(jī)樣本,而是全體數(shù)據(jù)”,認(rèn)識(shí)事物不再是從隨機(jī)抽取的部分樣本,而是從全部數(shù)據(jù)出發(fā)。這種說法忽視了全部與部分的辯證關(guān)系。人類在有限的時(shí)間內(nèi)不可能窮盡事物的全部,絕對(duì)真理只能在人類前后相繼的、永遠(yuǎn)不會(huì)停止的認(rèn)識(shí)過程中實(shí)現(xiàn)。任何事物的發(fā)展總是有過去、現(xiàn)在和未來,現(xiàn)在的是現(xiàn)在,未來的尚未出現(xiàn),全部案例不可能在有限時(shí)間內(nèi)達(dá)到,認(rèn)識(shí)也永遠(yuǎn)不會(huì)完結(jié)。未來的與過去和現(xiàn)在相比還是無窮大的。正因?yàn)槿绱?,波普爾才提出,“全稱命題不可證實(shí),只能證偽?!?/span>
實(shí)際上,過去的小數(shù)據(jù)時(shí)代的抽樣調(diào)查方法與現(xiàn)在的大數(shù)據(jù)方法相比,只能說是大數(shù)據(jù)時(shí)代可以用更為精確的、全面的數(shù)據(jù),以包含更大因素的仿真模型來追蹤、分析模擬現(xiàn)實(shí),取得比過去更為精確的認(rèn)識(shí)結(jié)果。盡管如此,與全體相比,已經(jīng)認(rèn)識(shí)的永遠(yuǎn)是少數(shù),誤差、錯(cuò)誤還是不能完全消除。例如,通過人口普查分析現(xiàn)在中國(guó)人具有什么特點(diǎn)。不要說全部認(rèn)識(shí)現(xiàn)有13億人口的全部屬性不可能(因?yàn)槭挛飳傩杂袩o窮層次),即使說能夠完全認(rèn)識(shí)現(xiàn)有13億人口全部屬性,也不意味著過去、未來的中國(guó)人,也能夠全部認(rèn)識(shí)。未來的中國(guó)人與已經(jīng)認(rèn)識(shí)的現(xiàn)有中國(guó)人相比還是無窮大。因此,大數(shù)據(jù)與小數(shù)據(jù)相比只是以巨量的、全面的、即時(shí)的數(shù)據(jù)來認(rèn)識(shí)事物,但是要掌握全體數(shù)據(jù)在有限時(shí)間內(nèi)總是不可能的。
“不是精確性,而是混雜性”?
《時(shí)代》作者說大數(shù)據(jù)時(shí)代“不是精確性,而是混雜性”,意指小數(shù)據(jù)時(shí)代是講究精確性,大數(shù)據(jù)時(shí)代因?yàn)檎莆樟舜罅繑?shù)據(jù)可以不再拘泥于精確性,而是依靠大數(shù)據(jù)比較模糊地行動(dòng)。這顯然是錯(cuò)誤的。因?yàn)樵谛?shù)據(jù)時(shí)代能夠掌握精確的小數(shù)據(jù),但是大多數(shù)數(shù)據(jù)卻被遺漏、舍棄,認(rèn)識(shí)的結(jié)果就無法實(shí)現(xiàn)精確、全面,真理和錯(cuò)誤的邊界也不是很清楚,這時(shí)的認(rèn)識(shí)是模糊的、有偏差的。在大數(shù)據(jù)時(shí)代,因?yàn)檎莆樟烁鼮槿娴臄?shù)據(jù),可以在更大的范圍認(rèn)識(shí)事物,因此,能夠更為準(zhǔn)確、量化,以至于對(duì)一些中間模糊區(qū)域也可以得到更為準(zhǔn)確的認(rèn)識(shí),其精確度和模糊度、誤差本身都更為精確量化。例如,在計(jì)算機(jī)信息系統(tǒng)中,發(fā)布更多的信息,通過反復(fù)比對(duì)、糾錯(cuò)機(jī)制,降低噪音,到達(dá)精確度。這一點(diǎn)在人類的認(rèn)識(shí)活動(dòng)中本來就是這樣做的,“耳聽為虛”就以“眼見為實(shí)”來糾錯(cuò),小數(shù)據(jù)一兩個(gè)來回不可能正確,反復(fù)多次大數(shù)據(jù)比對(duì),就能達(dá)到越來越高的精確度,誤差率就越來越小。
中國(guó)人口世界第一,信息產(chǎn)業(yè)市場(chǎng)最大,最有機(jī)會(huì)發(fā)展信息化、大數(shù)據(jù)和智慧化產(chǎn)業(yè)。但中國(guó)目前在對(duì)大數(shù)據(jù)的認(rèn)識(shí)上有一種盲目跟外國(guó)之風(fēng)的傾向。對(duì)于國(guó)外大數(shù)據(jù)理論,我們應(yīng)以批判的眼光保持清醒的認(rèn)識(shí)。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10