
“大數(shù)據(jù)”的定義給人的印象缺乏主體性
點擊、流量的多少并不能客觀地概括“我們是誰”,而是關于希望與訴求的一種個性化的展現(xiàn)。目前針對“大數(shù)據(jù)”的定義給人的印象是缺乏主體性,我們不能滿足于數(shù)據(jù)的產(chǎn)生與人有關,更要意識到,數(shù)據(jù)本身就是由人創(chuàng)造。這就是人的數(shù)據(jù)。
我們所處的時代還有一個比較拗口的名字,叫做“拍字節(jié)時代”(petabyte era),所謂“拍字節(jié)”即千萬億字節(jié)或千兆字節(jié),屬于較高級的儲存單位。人們不僅關注存儲介質(zhì)的龐大體量,也在談論數(shù)據(jù)內(nèi)容的急速增長?!拔覀兠刻靹?chuàng)造2.5萬兆字節(jié)的數(shù)據(jù),90%的現(xiàn)有數(shù)據(jù)在過去兩年內(nèi)創(chuàng)造?!边@種說法的準確出處是IBM公司在其官網(wǎng)上發(fā)布的“什么是大數(shù)據(jù)”,類似的結(jié)論常常被一些媒體所轉(zhuǎn)述。
不光是媒體,包括商界、學術期刊都開始熱衷于研究大數(shù)據(jù)的特別之處。2013年,《哥倫比亞新聞評論》(Columbia Journalism Review)上有一篇文章,形容“大數(shù)據(jù)”是“一個包羅萬象的標簽”——通過分析大量的數(shù)據(jù)來重新認識世界。被譽為“信息時代的精神領袖”的克里斯·安德森(Chris Anderson)在《連線》(Wired)雜志上曾預言,數(shù)據(jù)洪流將導致科學方法不合時宜,他所謂的“理論的終結(jié)”正在一步步演變?yōu)楝F(xiàn)實——如此龐大的數(shù)據(jù)是現(xiàn)成的,沒有必要大費周章地提出假設,然后不厭其煩地進行科學驗證。如果善于獲取和分析數(shù)據(jù),它們自身就可以說明很多問題。
何謂大數(shù)據(jù)?一個數(shù)據(jù)集合需要滿足三個“V”的維度,即大量(huge in volume)、高速(high in velocity)、多變(diverse in variety),有時也會附帶第四點,真實或準確(veracity),這可以從不同角度進行解讀。一旦掌握了全部人口的數(shù)據(jù),就意味著產(chǎn)生新的可能性。在熱烈的討論中,往往被遺忘的,或者暫時被忽視的是這些新鮮出爐的字節(jié)有多少是基于個人數(shù)據(jù)創(chuàng)造。值得一提的是,三個“V”的維度是15年前由美國高德納公司分析員道格·萊尼(Doug Laney)提出,當時用以描述數(shù)據(jù)管理的核心問題,后來經(jīng)過重新演繹,用來定義大數(shù)據(jù)。
哈佛大學科學史系助理教授麗貝卡·萊莫夫(Rebecca Lemov)在課上講授大數(shù)據(jù)主題時,總喜歡提到美國男星查爾頓·赫斯頓(Charlton Heston)主演的反烏托邦科幻電影《超世紀諜殺案》(Soylent Green)。影片在1973年上映,描繪了2022年的未來世界——由于污染、氣候變暖和人口過剩導致資源枯竭,蔬菜水果成為稀有的奢侈品,大多數(shù)人只能依賴于綠色食品(soylent)維持生命,官方口徑是由大豆(soy)和扁豆(lentil)制成。事實并非如此,男主人公經(jīng)過調(diào)查后發(fā)現(xiàn),綠色食品是用人做的——“Soylent green is people”,這一幕出現(xiàn)在影片結(jié)尾處。
萊莫夫套用了這句經(jīng)典臺詞,稱“大數(shù)據(jù)就是人”。關于大數(shù)據(jù)的定義,大部分都沒有考慮到與生俱來的人性,也沒有揪住意味深長的啟示,比如技術與不斷改變的自我定義的關系。一組不同以往的新數(shù)據(jù),源于人類的日常生活——幾乎不用深思熟慮,通過一個簡單動作就能完成,推特、臉書、谷歌搜索、在線評論、一鍵下單。這些是“我”的模糊圖像,新的虛擬生活被轉(zhuǎn)換為算法處理。
對于上述數(shù)據(jù)的生產(chǎn)現(xiàn)場,人類地理學者羅伯·基欽(Rob Kitchin)最近做過編目,包括進貨量的記錄、數(shù)字設備對其使用歷史的保存和傳播(如手機)、事務處理日志和數(shù)字網(wǎng)絡的交互(如郵件和網(wǎng)上銀行)、網(wǎng)站或軟件導航所帶來的點擊流量、嵌入物體或環(huán)境的傳感器所收集的測量數(shù)據(jù)、對機讀對象進行的掃描(如條形碼)、車載資通系統(tǒng)、社交媒體的信息發(fā)布,大量的、動態(tài)的、細化的、關聯(lián)的數(shù)據(jù)流由此形成。
2012年,沃爾瑪每小時創(chuàng)造2.5千萬億字節(jié)數(shù)據(jù),涉及逾100萬筆客戶交易。同年,臉書宣布每天處理25億個頁面(鏈接與評論)、27億個點贊、3億張上傳的圖片。與此同時,精細數(shù)據(jù)的收集場合與方法一直在更新。今年2月,臉書修改了提供給用戶的性別設定,除了傳統(tǒng)的男/女,還有56種新的非傳統(tǒng)性別。
從輸入信息中導出的持續(xù)不斷的數(shù)據(jù)軌跡很快投入應用。地圖上的數(shù)據(jù)流不但可以告訴你所在的位置,還能預判你的目的地。警方多了一個得力助手,在犯罪結(jié)論認定前,先通過數(shù)據(jù)對嫌疑對象的行為范式進行分析識別。“大數(shù)據(jù)是人”,這可以從兩方面來理解:大數(shù)據(jù)由我們的點擊、導航的偏好和行為所創(chuàng)造,也隨之塑成了許多重大的社會政策。
有文化批評人士指出,大數(shù)據(jù)所帶來的新式精神控制能夠影響美國大選,也有人稱其為貪婪的人類工程。哈佛商學院教授肖莎娜·祖波夫(Shoshana Zuboff)的觀點是,行為數(shù)據(jù)的利用會導致一系列破壞性的后果,尤其是隱私、自治、道德理性等,負面效應可能要持續(xù)幾十年。在她看來,這不過是一種新的充滿惡意的資本主義。
目前針對“大數(shù)據(jù)”的定義給人的印象是缺乏主體性,沒有起碼的人的角度。一批從事技術研究的社會科學家發(fā)起倡議,要求研究方式從“以數(shù)據(jù)為主”轉(zhuǎn)向“以人為本”,避免過分倚重數(shù)據(jù)導向的研究路徑,沒有給予“人”足夠的重視,后者才是社會學研究的核心。這樣的學術自覺起到了一定的作用,卻也忽視了一個事實:信息追蹤的數(shù)據(jù)本來就是由人構成的。
盡管打著未來主義的旗號,但是大數(shù)據(jù)以及數(shù)據(jù)導向的科學與社會科學的方法史產(chǎn)生了強烈的共鳴。20世紀,社會科學門類逐漸發(fā)展分化,社會學區(qū)別于人類學、社會心理學區(qū)別于經(jīng)濟學,各自形成專業(yè)、興趣領域以及特有的工具。主流的、專業(yè)的社會科學富于各種技巧,比如數(shù)據(jù)析取、場景設置等。1924年至1926年,美國社會學伉儷林德夫婦(Robert and Helen Lynd)在印第安納的曼西開展了“中鎮(zhèn)研究”(Middletown study),他們采取了一種結(jié)合了人類學與社會學的方法,包括資料收集、訪談、參與觀察、問卷調(diào)查以及其他形式。正如歷史學家莎拉·艾格(Sarah E Igo)在《均標美國人》(The Averaged American)中寫道:“任何細枝末節(jié)的事實都不會被錯過,從七年級課本的內(nèi)容到時下熱門的電影,從在洗衣機上花費的時間到居民的庭院面積。”
1947年,心理學家羅杰·巴克(Roger Barker)在堪薩斯的奧斯卡盧薩創(chuàng)建了一間社會科學實驗室,他和同事們定期收集關于“日常生活”的數(shù)據(jù),包括一些并不引人注意的小事。其中有這么一條記錄:“1949年4月26日,周二,上午7:01,七歲的雷蒙德?lián)u搖晃晃地撿起一只襪子,慢慢吞吞地套進左腳時,媽媽來了句玩笑——你就不能把眼睛睜開嗎?”諸如此類的瑣碎內(nèi)容構成了社會學研究的另一種資源,隨著城市變遷、光陰流逝,這樣的信息可以幫助我們重溫當時的日常生活。開拓性的社會學研究除了小的個體,還關注大的群體。二戰(zhàn)后,人類學家麥爾福·史拜羅(Melford Spiro)在西太平洋上的一座島上給當?shù)厝颂峁┬睦頊y試,附近的環(huán)礁則進行著核試驗。為了學術研究,史拜羅的數(shù)據(jù)挖掘面向全部人口。
到了20世紀后半葉,城市的定居者越來越習慣于在任何場合回答與自己有關的問題,著名的《金賽報告》(Kinsey Report)是在數(shù)以千計份的訪談樣本基礎上完成。哈佛商學院的研究團隊曾在伊利諾伊的西塞羅找了一家工廠,發(fā)放了20000份調(diào)查問卷,試圖弄清其他學者所提到的“難以捉摸的現(xiàn)象”。值得一提的是,受訪對象已經(jīng)開始基于自己的目的來參與這項調(diào)查,偶爾提出尖銳的問題、煽動不滿情緒、調(diào)侃來訪的社會學家。
距今不遠的未來某一天,人們回看今日,會為我們的天真無邪感到不可思議——如此癡迷新技術,卻沒能發(fā)現(xiàn)行為數(shù)據(jù)資源的價值,輕而易舉地將它們泄露出去。這是一種可能性。另一種可能的情形是,目前看來仍是新的數(shù)據(jù)采集概念遭到解構,也許是規(guī)模,也許是粒度,這種趨勢其實很早就已經(jīng)出現(xiàn)了。
白宮政府新近發(fā)布的一份關于大數(shù)據(jù)的報告稱:“技術軌道顯而易見,今后越來越多的個人數(shù)據(jù)將會產(chǎn)生,但與此同時,必然處于控制之下?!比R莫夫則重申了她的看法:數(shù)據(jù)的產(chǎn)生不只是與人有關,它同時也是由人所創(chuàng)造,這就是人的數(shù)據(jù)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構數(shù)據(jù)價值的核心操盤手 表格結(jié)構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10