
隨著信息技術(shù)和網(wǎng)絡(luò)及各類傳感設(shè)備、海量存儲(chǔ)技術(shù)的飛速發(fā)展,數(shù)據(jù)的定義和收集方式產(chǎn)生了革命性的變化,大數(shù)據(jù)應(yīng)運(yùn)而生。相比傳統(tǒng)分析方法,大數(shù)據(jù)技術(shù)擁有無(wú)可比擬的優(yōu)勢(shì),然而大數(shù)據(jù)技術(shù)所引發(fā)的一系列關(guān)于認(rèn)知論的哲學(xué)難題——大數(shù)據(jù)的假設(shè)及倫理問(wèn)題——同樣不容忽視。John Symon和Ramón Alvarado 2016年發(fā)表在《大數(shù)據(jù)與社會(huì)》(Big Data & Society)的論文《我們可以信任大數(shù)據(jù)嗎?把科學(xué)哲學(xué)運(yùn)用在計(jì)算機(jī)軟件上》(Can we trust big data? Applying philosophy of science to software)表示:在很多情況下,道德與認(rèn)識(shí)論問(wèn)題密不可分。解鈴還需系鈴人,只有盡可能弄清大數(shù)據(jù)如何影響并改變了認(rèn)識(shí)論,才能從根本上改善大數(shù)據(jù)技術(shù)潛在的問(wèn)題。例如,通過(guò)大數(shù)據(jù)技術(shù)我們可以知道什么?這些技術(shù)的局限性在哪里?以及大數(shù)據(jù)的“新”到底體現(xiàn)在哪里?
有關(guān)大數(shù)據(jù)的主流文獻(xiàn)常常表現(xiàn)出對(duì)科學(xué)哲學(xué)和認(rèn)知論的不同看法,結(jié)論均基于一個(gè)假設(shè):大量的數(shù)據(jù)及通過(guò)大數(shù)據(jù)分析發(fā)現(xiàn)的模式是獨(dú)立于理論基礎(chǔ)的。換句話說(shuō),很多大數(shù)據(jù)學(xué)者錯(cuò)誤地認(rèn)為數(shù)據(jù)量越大,分析結(jié)果就越可靠,而理論立場(chǎng)可有可無(wú)。這種研究大數(shù)據(jù)而不考慮當(dāng)代科學(xué)哲學(xué)的做法既不明智也不可取。大數(shù)據(jù)的核心在于如何使用大數(shù)據(jù)技術(shù)來(lái)捕捉和分析數(shù)據(jù),而大數(shù)據(jù)技術(shù)多涉及算法,我們只有充分理解各種算法的局限性和風(fēng)險(xiǎn),明白這些算法會(huì)如何引致以及引致什么樣的誤差,才能決定到底多大程度可以對(duì)這些算法施以信任、加以限制。
文章首先介紹了大數(shù)據(jù)的定義并試圖解釋大數(shù)據(jù)的局限性,然后就以往研究對(duì)大數(shù)據(jù)的批評(píng)進(jìn)行了概述,并接著論證為什么科學(xué)哲學(xué)和社會(huì)認(rèn)識(shí)論與大數(shù)據(jù)技術(shù)息息相關(guān)。解決認(rèn)識(shí)論擔(dān)憂的最好辦法是參與到計(jì)算建模與模擬的科學(xué)哲學(xué)辯論當(dāng)中?;赑aul Humphreys提出的“認(rèn)知模糊”,作者表示,大數(shù)據(jù)的“認(rèn)知模糊”關(guān)鍵在于大數(shù)據(jù)技術(shù)對(duì)錯(cuò)誤管理和錯(cuò)誤檢驗(yàn)的忽視,而錯(cuò)誤問(wèn)題同時(shí)也是大數(shù)據(jù)認(rèn)識(shí)論的一個(gè)重要特征。要改善大數(shù)據(jù)認(rèn)識(shí)論的缺陷,就必須正視誤差的影響。基于這一考慮,文章就誤差檢驗(yàn)與糾正的主要特性及軟件誤差和路徑復(fù)雜性之間的關(guān)系進(jìn)行了闡述,并介紹了誤差檢驗(yàn)的常規(guī)統(tǒng)計(jì)方法(如Mayo的嚴(yán)格檢驗(yàn)及模擬驗(yàn)證),以及當(dāng)處理大數(shù)據(jù)的軟件系統(tǒng)受到高度制約時(shí)這些誤差檢驗(yàn)的缺陷。最后,以谷歌流感趨勢(shì)為例,文章進(jìn)一步討論了大數(shù)據(jù)技術(shù)的局限性,尤其是局限性的根源。
那么,我們可以信任大數(shù)據(jù)技術(shù)嗎?文章表示,這不僅僅在于軟件的開(kāi)發(fā)與修正本身,而更加在于認(rèn)知對(duì)軟件的開(kāi)發(fā)—修改—更新這個(gè)循環(huán)過(guò)程的指引作用。大數(shù)據(jù)技術(shù)是科學(xué)哲學(xué)與社會(huì)認(rèn)識(shí)論爭(zhēng)辯的產(chǎn)物,在運(yùn)用時(shí)不應(yīng)脫離科學(xué)哲學(xué)思想的指引。缺乏認(rèn)知?jiǎng)t會(huì)大大限制我們發(fā)現(xiàn)錯(cuò)誤的能力。
總而言之,大數(shù)據(jù)技術(shù)作為一種工具不可避免地存在局限性。從本質(zhì)上講,這些局限性反映了大數(shù)據(jù)技術(shù)背后理論的缺失。更重要的是,這些局限性清晰地表達(dá)了大型軟件系統(tǒng)的常規(guī)誤差監(jiān)測(cè)、修正與評(píng)估對(duì)內(nèi)在認(rèn)識(shí)論的挑戰(zhàn)。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
你是不是也經(jīng)常刷到別人漲粉百萬(wàn)、帶貨千萬(wàn),心里癢癢的,想著“我也試試”,結(jié)果三個(gè)月過(guò)去,粉絲不到1000,播放量慘不忍睹? ...
2025-07-21我是陳輝,一個(gè)創(chuàng)業(yè)十多年的企業(yè)主,前半段人生和“文字”緊緊綁在一起。從廣告公司文案到品牌策劃,再到自己開(kāi)策劃?rùn)C(jī)構(gòu),我靠 ...
2025-07-21左偏態(tài)分布轉(zhuǎn)正態(tài)分布:方法、原理與實(shí)踐 左偏態(tài)分布轉(zhuǎn)正態(tài)分布:方法、原理與實(shí)踐 在統(tǒng)計(jì)分析、數(shù)據(jù)建模和科學(xué)研究中,正態(tài)分 ...
2025-07-21CDA 數(shù)據(jù)分析師的職業(yè)生涯規(guī)劃:從入門(mén)到卓越的成長(zhǎng)之路 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的當(dāng)下,數(shù)據(jù)已成為企業(yè)核心競(jìng)爭(zhēng)力的重要來(lái)源,而 CD ...
2025-07-21MySQL執(zhí)行計(jì)劃中rows的計(jì)算邏輯:從原理到實(shí)踐 MySQL 執(zhí)行計(jì)劃中 rows 的計(jì)算邏輯:從原理到實(shí)踐 在 MySQL 數(shù)據(jù)庫(kù)的查詢優(yōu)化中 ...
2025-07-21在AI滲透率超85%的2025年,企業(yè)生存之戰(zhàn)就是數(shù)據(jù)之戰(zhàn),CDA認(rèn)證已成為決定企業(yè)存續(xù)的生死線!據(jù)麥肯錫全球研究院數(shù)據(jù)顯示,AI驅(qū) ...
2025-07-2035歲焦慮像一把高懸的利刃,裁員潮、晉升無(wú)望、技能過(guò)時(shí)……當(dāng)職場(chǎng)中年危機(jī)與數(shù)字化浪潮正面交鋒,你是否發(fā)現(xiàn): 簡(jiǎn)歷投了10 ...
2025-07-20CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-18剛?cè)肼殘?chǎng)或是在職場(chǎng)正面臨崗位替代、技能更新、人機(jī)協(xié)作等焦慮的打工人,想要找到一條破解職場(chǎng)焦慮和升職瓶頸的系統(tǒng)化學(xué)習(xí)提升 ...
2025-07-182025被稱為“AI元年”,而AI,與數(shù)據(jù)密不可分。網(wǎng)易公司創(chuàng)始人丁磊在《AI思維:從數(shù)據(jù)中創(chuàng)造價(jià)值的煉金術(shù) ...
2025-07-18CDA 數(shù)據(jù)分析師:數(shù)據(jù)時(shí)代的價(jià)值挖掘者 在大數(shù)據(jù)席卷全球的今天,數(shù)據(jù)已成為企業(yè)核心競(jìng)爭(zhēng)力的重要組成部分。從海量數(shù)據(jù)中提取有 ...
2025-07-18SPSS 賦值后數(shù)據(jù)不顯示?原因排查與解決指南? 在 SPSS( Statistical Package for the Social Sciences)數(shù)據(jù)分析過(guò)程中,變量 ...
2025-07-18在 DBeaver 中利用 MySQL 實(shí)現(xiàn)表數(shù)據(jù)同步操作指南? ? 在數(shù)據(jù)庫(kù)管理工作中,將一張表的數(shù)據(jù)同步到另一張表是常見(jiàn)需求,這有助于 ...
2025-07-18數(shù)據(jù)分析師的技能圖譜:從數(shù)據(jù)到價(jià)值的橋梁? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,數(shù)據(jù)分析師如同 “數(shù)據(jù)翻譯官”,將冰冷的數(shù)字轉(zhuǎn)化為清晰的 ...
2025-07-17Pandas 寫(xiě)入指定行數(shù)據(jù):數(shù)據(jù)精細(xì)化管理的核心技能? 在數(shù)據(jù)處理的日常工作中,我們常常需要面對(duì)這樣的場(chǎng)景:在龐大的數(shù)據(jù)集里精 ...
2025-07-17解碼 CDA:數(shù)據(jù)時(shí)代的通行證? 在數(shù)字化浪潮席卷全球的今天,當(dāng)企業(yè)決策者盯著屏幕上跳動(dòng)的數(shù)據(jù)曲線尋找增長(zhǎng)密碼,當(dāng)科研人員在 ...
2025-07-17CDA 精益業(yè)務(wù)數(shù)據(jù)分析:數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)增長(zhǎng)的實(shí)戰(zhàn)方法論 在企業(yè)數(shù)字化轉(zhuǎn)型的浪潮中,“數(shù)據(jù)分析” 已從 “加分項(xiàng)” 成為 “必修課 ...
2025-07-16MySQL 中 ADD KEY 與 ADD INDEX 詳解:用法、差異與優(yōu)化實(shí)踐 在 MySQL 數(shù)據(jù)庫(kù)表結(jié)構(gòu)設(shè)計(jì)中,索引是提升查詢性能的核心手段。無(wú)論 ...
2025-07-16解析 MySQL Update 語(yǔ)句中 “query end” 狀態(tài):含義、成因與優(yōu)化指南? 在 MySQL 數(shù)據(jù)庫(kù)的日常運(yùn)維與開(kāi)發(fā)中,開(kāi)發(fā)者和 DBA 常會(huì) ...
2025-07-16如何考取數(shù)據(jù)分析師證書(shū):以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價(jià)值、驅(qū)動(dòng)決策的 ...
2025-07-15