
讓我們來看看跨學(xué)科對(duì)話下的大數(shù)據(jù)思辨
騰訊網(wǎng)在正院會(huì)館舉辦了一場(chǎng)夏季思享會(huì),而這次思享會(huì)的主題就是“大數(shù)據(jù)”。有意思的是,這次關(guān)于大數(shù)據(jù)的分享會(huì)請(qǐng)到了來自各個(gè)領(lǐng)域的學(xué)者和專家,是一場(chǎng)跨學(xué)科的思想碰撞。在現(xiàn)場(chǎng)的我聽完了整場(chǎng)分享,有趣的觀點(diǎn)不少,還有一些觀點(diǎn)是目前國(guó)內(nèi)關(guān)注大數(shù)據(jù)的人們不太提及的,非常思辨。在這里,我也跟大家分享一些來自思享會(huì)上的有趣觀點(diǎn)。
海量數(shù)據(jù)的應(yīng)用正在改變我們現(xiàn)有的生產(chǎn)方式,其不僅成為了一個(gè)重要的生產(chǎn)要素,還在一定程度上提高了生產(chǎn)效率。這時(shí),海量數(shù)據(jù)應(yīng)用帶來的信息風(fēng)暴不僅影響到我們的工作、生活,還可以逐漸影響我們的思維方式。有人說大數(shù)據(jù)本身是一場(chǎng)革命,這場(chǎng)革命就是把“量化”這個(gè)概念推動(dòng)到我們生活中的方方面面。
1、關(guān)于大數(shù)據(jù)帶來的機(jī)遇可以說是學(xué)界業(yè)界一致認(rèn)同的,而北大新聞與傳播學(xué)院的劉德寰教授卻提出,大數(shù)據(jù)也可以是“大忽悠”,甚至存在大風(fēng)險(xiǎn)。
即使是像 BAT 這樣的互聯(lián)網(wǎng)巨頭,他們所擁有的數(shù)據(jù)也只是一座”數(shù)據(jù)孤島“。因此,很多大數(shù)據(jù)其實(shí)是斷裂且封閉的。在這一座座孤島被打破之前,大數(shù)據(jù)都無(wú)法稱”全“。這種大而不全的數(shù)據(jù)導(dǎo)致我們無(wú)法真正獲得想要的規(guī)律。
雖然關(guān)于大數(shù)據(jù)的介紹和分析都告訴我們,大數(shù)據(jù)注重的是“相關(guān)關(guān)系”,而非“因果關(guān)系”,但是,如果只注重相關(guān)關(guān)系,數(shù)據(jù)量的增加將不可避免的帶來偽相關(guān)的現(xiàn)象。當(dāng)數(shù)據(jù)量達(dá)到幾十萬(wàn)之巨之后,只會(huì)導(dǎo)向“萬(wàn)物相聯(lián)系”這一結(jié)論。這時(shí),所選取的變量都會(huì)呈現(xiàn)為統(tǒng)計(jì)顯著,而這樣的數(shù)據(jù)分析無(wú)疑就失敗了。因此,即使大數(shù)據(jù)現(xiàn)在備受推崇,但傳統(tǒng)的抽樣調(diào)查和實(shí)驗(yàn)等社會(huì)學(xué)研究方法也不應(yīng)該被拋棄,而應(yīng)該結(jié)合使用。
《大數(shù)據(jù)時(shí)代》的譯者周濤也回應(yīng)了這個(gè)觀點(diǎn):從技術(shù)層面上來看,我們的確需要找到因果關(guān)系。一方面,有的關(guān)聯(lián)如果沒有因果在背后是很難被發(fā)現(xiàn)的;另一方面,因果能夠幫助我們更好的解釋和分析相關(guān)。
大數(shù)據(jù)的挖掘過程也需要注入思想,這種思想就體現(xiàn)為“人性”。統(tǒng)計(jì)數(shù)據(jù)不能代替對(duì)人性的理解,真正進(jìn)行跟人相關(guān)的大數(shù)據(jù)挖掘的時(shí)候一定要關(guān)注人性,這個(gè)時(shí)候的算法和建模才是有針對(duì)性、有意義的。怎樣在數(shù)據(jù)中注入人性?觀察、實(shí)驗(yàn)、調(diào)查等傳統(tǒng)的研究方法都是很好的選擇。比如,喬布斯就經(jīng)常躲在蘋果體驗(yàn)店外沒人看得見的地方觀察體驗(yàn)店里的人的行為,這是最早期的研究方法,在擁有大數(shù)據(jù)的今天還在使用是有一定原因的。一句話:諸如“體會(huì)、體驗(yàn)、直覺、靈機(jī)一動(dòng)、內(nèi)省”這些看似與大數(shù)據(jù)無(wú)關(guān)的東西有可能恰恰就是大數(shù)據(jù)的核心。
所謂大數(shù)據(jù)的小應(yīng)用,就是把大數(shù)據(jù)應(yīng)用到各個(gè)獨(dú)立領(lǐng)域中去。大數(shù)據(jù)運(yùn)算本身構(gòu)造了一個(gè)擁有更多能力的“新算盤”,擁有這個(gè)新算盤不意味著擁有一切,而是有了一個(gè)可以在各個(gè)領(lǐng)域使用的科學(xué)的工具。怎樣做好大數(shù)據(jù)的小應(yīng)用?有兩個(gè)方面:第一,大數(shù)據(jù)與小數(shù)據(jù)結(jié)合,這個(gè)小數(shù)據(jù)就是基于抽樣調(diào)查的數(shù)據(jù);第二,來自各個(gè)獨(dú)立領(lǐng)域的專業(yè)知識(shí)非常重要,比如以心理學(xué)、法學(xué)、社會(huì)學(xué)、營(yíng)銷學(xué)等混合知識(shí)作為背景,再去跟數(shù)據(jù)結(jié)合,就能夠探索出一個(gè)更科學(xué)的大數(shù)據(jù)分析和挖掘的方式。
2、關(guān)于大數(shù)據(jù)的產(chǎn)業(yè)應(yīng)用,華大基因的董事長(zhǎng)汪建表達(dá)了自己的看法:基因研究是一項(xiàng)很少被人了解的產(chǎn)業(yè)研究,但卻是真正的大數(shù)據(jù)應(yīng)用。
怎樣有效的預(yù)測(cè)疾病、怎樣降低傳染病的發(fā)病率,這些都需要依靠于基因研究。人身體中的細(xì)胞數(shù)量有 10 的 14 次方個(gè),而一個(gè)細(xì)胞的癌變就可能導(dǎo)致生命的終結(jié)。這一個(gè)癌細(xì)胞分解為 RNA 后就是 10 的 9 次方,變成蛋白質(zhì)則是 10 的 19 次方,這么大的數(shù)據(jù)量足以構(gòu)成大數(shù)據(jù),而基因研究面對(duì)的就是如此量級(jí)的數(shù)據(jù)研究和應(yīng)用。
以對(duì)腫瘤細(xì)胞的定性、定量研究為例。首先,要知道腫瘤細(xì)胞現(xiàn)在的基因是怎樣的,而當(dāng)出現(xiàn)一兩個(gè)基因變化的時(shí)候,細(xì)胞又會(huì)變成什么樣。其次,當(dāng)眾多腫瘤細(xì)胞的基因變化構(gòu)成了相當(dāng)量級(jí)的數(shù)據(jù)之后,我們就能通過數(shù)據(jù)來展現(xiàn)細(xì)胞癌變的動(dòng)態(tài)變化過程,從而進(jìn)一步預(yù)測(cè)疾病。這樣的研究如果用在先天性疾病的防治上將更有意義,這樣有出生缺陷的嬰兒會(huì)越來越少。華大在推進(jìn)的”百萬(wàn)人基因計(jì)劃“,就是一個(gè)名符其實(shí)的大數(shù)據(jù)應(yīng)用。因此,汪建從基因研究出發(fā),表達(dá)了自己對(duì)大數(shù)據(jù)的理解:從大目標(biāo)出發(fā),踐行大數(shù)據(jù),實(shí)現(xiàn)大科學(xué),從而將研究成功運(yùn)用到各個(gè)領(lǐng)域中去,形成大產(chǎn)業(yè)。
3、關(guān)于“新技術(shù)給我們的生活帶來了什么”這個(gè)話題,北大哲學(xué)系教授吳國(guó)盛給出了一個(gè)讓我很認(rèn)同的觀點(diǎn):技術(shù)本身并不是價(jià)值中立的,它有著自身的邏輯和屬性,而這就使得我們?cè)谑褂眯录夹g(shù)時(shí),也必須接受新技術(shù)的內(nèi)在邏輯,而這就將改變我們?cè)械纳罘绞健?/span>
過去,我們認(rèn)為技術(shù)是中性的,它是人類的使用工具,怎么使用它取決于人類自己,但事實(shí)并非如此。技術(shù)有著自己的自主性、自己的結(jié)構(gòu),某些技術(shù)必定指向某些事情。比如,互聯(lián)網(wǎng)是一種基于民主意識(shí)形態(tài)的技術(shù)配置,網(wǎng)民相對(duì)平等的分配信息,共同分享信息,所以這樣的技術(shù)發(fā)源于美國(guó),而不是中國(guó)。而當(dāng)互聯(lián)網(wǎng)進(jìn)入中國(guó)之后,人們除了享受互聯(lián)網(wǎng)帶來的便捷高效,還要被迫接受互聯(lián)網(wǎng)世界中民主、平等、開放的意識(shí)形態(tài),這是根植于互聯(lián)網(wǎng)技術(shù)中的。因此,雖然國(guó)內(nèi)建起了互聯(lián)網(wǎng)高墻,但翻墻一事也是輕而易舉,這就是互聯(lián)網(wǎng)的內(nèi)在邏輯決定的。
4、關(guān)于大數(shù)據(jù)與社會(huì)變革這個(gè)不太被提及的話題,來自不同領(lǐng)域的專家們都從各自的領(lǐng)域出發(fā)分享了自己的感受。
他舉了一個(gè)通過大數(shù)據(jù)幫助全球能源更好的進(jìn)行配置的例子。首先,周濤所在的電子科大與電力集團(tuán)達(dá)成合作,通過大量遙感裝置和本地勘探數(shù)據(jù)了解到各個(gè)國(guó)家的能源供需情況。其次,通過與氣象局合作獲得氣象數(shù)據(jù),包括日照、風(fēng)速風(fēng)向、降雨等,從而對(duì)太陽(yáng)能、風(fēng)能、水能等新能源做到短期預(yù)測(cè),并實(shí)現(xiàn)能源負(fù)載平衡。而這些數(shù)據(jù)若再與電力集團(tuán)的數(shù)據(jù)進(jìn)行集成和分享,就能將各項(xiàng)能源更有效的調(diào)配使用。
之前,社科院農(nóng)發(fā)所社會(huì)問題研究中心主任于建嶸說過大數(shù)據(jù)讓每個(gè)人變得更加透明,我們生活中的各種行為將通過數(shù)據(jù)被采集,并且分析出來,因此普通老百姓可以說是沒有秘密的。然而,這些數(shù)據(jù)卻不是普通老百姓可以看到或使用的,真正擁有這些數(shù)據(jù)的是部分企業(yè)、機(jī)構(gòu)和政府,普通用戶只是大數(shù)據(jù)的提供者,這就是階級(jí)的產(chǎn)生。
因此,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的擁有權(quán)是一個(gè)關(guān)鍵的問題。這跟資本在資本主義剛誕生時(shí)最原始的情況是相似的。如果我們說物質(zhì)的匱乏造成資本的流動(dòng),資本主義的產(chǎn)生是一些企業(yè)崛起,并跟國(guó)家分享權(quán)力的話,我們也可以說大數(shù)據(jù)時(shí)代恰會(huì)濕一個(gè)新政治革命誕生的時(shí)代。如果擁有大數(shù)據(jù)的人們不讓民眾分享大數(shù)據(jù)的成果,反而用大數(shù)據(jù)來控制民眾(比如維穩(wěn)),那也許會(huì)造成更大的國(guó)內(nèi)沖突,甚至國(guó)際斗爭(zhēng)。
她曾經(jīng)做過一個(gè)研究:新生代農(nóng)民工怎樣使用信息技術(shù)。她對(duì)研究結(jié)論的預(yù)判是:新技術(shù)將有助于新生代農(nóng)民工的社會(huì)融入、城市融入。事實(shí)上,新技術(shù)確實(shí)給他們的生活帶來了改變:其一,農(nóng)民工是一個(gè)公共生活缺失的人群,信息技術(shù)給他們相互之間的交流帶來了很多便利;其二,新媒體給了他們表達(dá)的渠道,這是以往所不曾有的;其三,他們可以通過新媒體即時(shí)調(diào)用各種所需要的信息,更加了解這個(gè)世界。
但即便如此,我們也不能過分夸大信息技術(shù)對(duì)弱勢(shì)群體的作用,因?yàn)?/span>它確實(shí)呈現(xiàn)出比較強(qiáng)的馬太效應(yīng):強(qiáng)勢(shì)著可以更好的、更有利的利用這些新技術(shù),同時(shí)他們也會(huì)對(duì)其他人加以控制。所以,新技術(shù)有沒有可能穿透社會(huì)結(jié)構(gòu)的屏障才是關(guān)鍵的問題。
其實(shí),像郭于華教授這樣的調(diào)研,也是創(chuàng)業(yè)者們需要的。比如“豌豆莢”就曾經(jīng)派人去東莞的工廠里做調(diào)研,了解打工族們對(duì)智能終端和移動(dòng)應(yīng)用的真正需求。感興趣的人可以點(diǎn)此閱讀調(diào)查結(jié)果。
關(guān)于大數(shù)據(jù)和新技術(shù),其實(shí)除去技術(shù)層面的研究和應(yīng)用,在與歷史、 社會(huì)、人文等學(xué)科交叉的過程中還將引發(fā)很多話題,希望以上這些觀點(diǎn)能給大家?guī)ヒ稽c(diǎn)不一樣的思考。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語(yǔ)言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11