
大數(shù)據(jù)”是當前的時髦術語,是技術界用來解決世界上最難處理的問題的全能辦法。這個術語一般用來描述對海量信息進行分析,從而發(fā)現(xiàn)規(guī)律、收集有價 值的見解和預言復雜問題答案的技巧與科學。它也許聽起來有些乏味,但是從制止恐怖分子,到消除貧困,到拯救地球,對于大數(shù)據(jù)的鼓吹者來說,沒有什么問題是 解決不了的。
維克托?梅耶—舍恩伯格和肯尼思?丘基爾在有著樸素書名的《大數(shù)據(jù):一次將改變我們生活、工作和思考方式的革命》一書中歡呼道:“對社會的好處將是無窮無盡的,因為大數(shù)據(jù)在一定程度上將解決迫在眉睫的全球問題,如處理氣候變化、根除疾病以及促進善政和經(jīng)濟發(fā)展等?!?/span>
只要有足夠多的數(shù)據(jù)可以處理———不管是你的iPhone上的數(shù)據(jù)、雜貨店購物狀況、在線約會網(wǎng)站個人簡介或者是整個國家的匿名健康記錄,利用對這 些原始數(shù)據(jù)進行解碼的計算能力,人們可以獲得數(shù)不勝數(shù)的有價值的見解。甚至連奧巴馬政府也已經(jīng)趕上了這股潮流,并在5月9日向企業(yè)家、研究人員和公眾“破 天荒”發(fā)布了大量“以前難以獲取或難以管理的數(shù)據(jù)”。
然而,大數(shù)據(jù)真的完全像人們吹噓的那樣嗎?我們能相信眾多的1和0將能揭示人類行為的隱秘世界嗎?以下是作者對所謂大數(shù)據(jù)理論的思索。
沒門兒。大數(shù)據(jù)的鼓吹者希望我們相信,在一行行的代碼和龐大數(shù)據(jù)庫的背后存在著有關人類行為模式的客觀、普遍的有價值的見解,不管是消費者的支出規(guī)律、犯罪或恐怖主義行動、健康習慣,還是雇員的生產(chǎn)效率。但是許多大數(shù)據(jù)的傳道者不愿正視其不足。
數(shù)字無法自己說話,而數(shù)據(jù)集———不管它們具有什么樣的規(guī)模———仍然是人類設計的產(chǎn)物。大數(shù)據(jù)的工具———例如Apache Hadoop軟件框架———并不能使我們擺脫曲解、隔閡和錯誤的成見。
當大數(shù)據(jù)試圖反映我們所生活的社會化世界時,這些因素變得尤其重要,而我們卻常常會傻乎乎地認為這些結(jié)果總是要比人為的意見來得客觀些。偏見和盲區(qū) 存在于大數(shù)據(jù)中,就像它們存在于個人的感覺和經(jīng)驗中一樣。不過存在一種值得懷疑的信條,即認為數(shù)據(jù)總是越大越好,而相關性也等同于因果關系。
例如,社交媒體是大數(shù)據(jù)分析的一個普遍的信息源,那里無疑有許多信息可以挖掘。我們被告知,推特網(wǎng)的數(shù)據(jù)顯示人們在離家越遠的時候越快樂,而且在周 四晚上最為沮喪。但是存在許多理由對這些數(shù)據(jù)的含義提出質(zhì)疑。首先,我們從皮尤研究中心獲悉,美國上網(wǎng)的成年人中只有16%使用推特網(wǎng),因而他們絕對不是 一個具有代表性的樣本———與整體人口相比,他們中年輕人和城市人的比例偏多。
此外,我們知道許多推特賬號是被稱作“機器人”程序的自動程序、虛假賬號或是“半機器人”系統(tǒng)(即得到機器人程序輔助的人為控制賬號)。最近的估計 顯示,可能存在多達2000萬個虛假賬號。因此就算我們要想踏入有關如何評估推特網(wǎng)用戶情緒的方法論雷場之前,讓我們先問一下這些情緒究竟是來自真人,還是來自自動化算法系統(tǒng)。
在一定程度上是的。大數(shù)據(jù)可以提供幫助改善我們城市的寶貴見識,但是它對我們的幫助僅此而已。因為數(shù)據(jù)在生成或采集的過程并不都是平等的,大數(shù)據(jù)集 存在“信號問題”———即某些民眾和社區(qū)被忽略或未得到充分代表,這被稱為數(shù)據(jù)黑暗地帶或陰影區(qū)域。因此大數(shù)據(jù)在城市規(guī)劃中的應用在很大程度上取決于市政 官員對數(shù)據(jù)及其局限性的了解。
例如,波士頓的StreetBump應用程序是一個比較聰明的以低成本收集信息的途徑。該程序從開車經(jīng)過路面坑洼處的駕駛員的智能手機上收集數(shù)據(jù)。 更多類似的應用正在出現(xiàn)。但是如果城市開始依靠僅來自智能手機用戶的信息,那么這些市民只是一個自我選擇樣本———它必然導致?lián)碛休^少智能手機用戶的社區(qū) 的數(shù)據(jù)缺失,這樣的社區(qū)人群通常包括了年老和不那么富有的市民。
盡管波士頓的新城市機械辦公室作出了多項努力來彌補這些潛在的數(shù)據(jù)缺陷,但不那么負責的公共官員可能會遺漏這些補救措施,最終會得到不均衡的數(shù)據(jù), 從而進一步加劇已有的社會不公。人們只要回顧一下曾經(jīng)過高估計了年度流感發(fā)病率的2012年“谷歌流感趨勢”,就可以認識到依賴有缺陷的大數(shù)據(jù)可能給公共 服務及公共政策造成的影響。
在網(wǎng)上公開政府部門數(shù)據(jù)的“開放政府”計劃———如Data.gov網(wǎng)站及“白宮開放政府計劃”———也存在同樣的情況。更多的數(shù)據(jù)未必會改善政府 的任何功能,包括透明度和問責,除非存在可以使公眾和公共機構(gòu)保持接觸的機制,更不用說促進政府解釋數(shù)據(jù)并以足夠的資源作出反應的能力。所有這些都非易 事。事實上,我們身邊還沒有很多技能高超的數(shù)據(jù)科學家。各大學目前正在爭相定義這一領域、制訂教程和滿足市場需求。
幾乎不是這樣。對大數(shù)據(jù)所號稱的客觀性的另一個期待是對于少數(shù)群體的歧視將會減少,因為原始數(shù)據(jù)總是不含社會偏見的,這使得分析可以在整體水平上進 行,從而避免基于群體的歧視。然而,由于大數(shù)據(jù)能夠作出有關群體不同行為方式的論斷,它們的使用通常恰恰就是為了實現(xiàn)一個目的———即把不同的個體歸入不 同的群體中。例如,最近有一篇論文指科學家聽任自己的種族偏見影響有關基因組的大數(shù)據(jù)研究。
大數(shù)據(jù)有可能被用來搞價格歧視,從而引發(fā)嚴重的民權(quán)擔憂。這種做法在歷史上曾被稱為“劃紅線”。最近,劍橋大學對臉譜網(wǎng)5.8萬個“喜歡”標注進行 的大數(shù)據(jù)研究被用來預測用戶極其敏感的個人信息,如性取向、種族、宗教和政治觀點、性格特征、智力水平、快樂與否、成癮藥物使用、父母婚姻狀況、年齡及性 別等。
記者湯姆?福爾姆斯基這樣評價該項研究:“此類容易獲得的高度敏感信息可能會被雇主、房東、政府部門、教育機構(gòu)及私營組織用來對個人實施歧視和懲罰。而人們沒有任何抗爭的手段?!?/span>
最后考慮一下在執(zhí)法方面的影響。從華盛頓到特拉華州的紐卡斯爾縣,警方正在求助于大數(shù)據(jù)的“預測性警事”模型,希望能夠為懸案的偵破提供線索,甚至可以幫助預防未來的犯罪。不過,讓警方把工作專注于大數(shù)據(jù)所發(fā)現(xiàn)的特定“熱點”,存在著強化警方對聲譽不佳的社會群體的懷疑以及使差別化執(zhí)法成為制度的危 險。
正如某位警察局局長撰文指出的,盡管預測性警事登記系統(tǒng)不考慮種族和性別等因素,但是如果沒有對差別化影響的考慮,使用這種系統(tǒng)的實際結(jié)果可能“會導致警方與社區(qū)關系惡化,讓公眾產(chǎn)生司法程序缺失的感覺,引發(fā)種族歧視指控,并使警方的合法性受到威脅”。
大錯特錯。盡管許多大數(shù)據(jù)的提供者盡力消除以人類為對象的數(shù)據(jù)集中的個體身份,但身份重新被確認的風險仍然很大。蜂窩電話數(shù)據(jù)看起來也許相當匿名,但是最近對歐洲150萬手機用戶的數(shù)據(jù)集進行的研究表明,只需要4項參照因素就足以挨個確認其中95%的人員的身份。
研究人員指出,人們在城市中走過的路徑存在唯一性,而鑒于利用大量公共數(shù)據(jù)集可以推斷很多信息,這使個人隱私成為“日益嚴重的擔憂”。
但是大數(shù)據(jù)的隱私問題遠遠超出了常規(guī)的身份確認風險的范疇。目前被出售給分析公司的醫(yī)療數(shù)據(jù)有可能被用來追查到你的身份。關于個性化醫(yī)療有很多談論,人們的希望是將來可以針對個人研制藥物和其他療法,就好像這些藥物和療法是利用患者自己的DNA制作出來的。
就提高醫(yī)學的功效而言,這是個美妙的前景,但這本質(zhì)上依賴于分子和基因水平上的個人身份確認,這種信息一旦被不當使用或泄露就會帶來很大的風險。盡 管像RunKeeper和Nike+等個人健康數(shù)據(jù)收集應用得到了迅速發(fā)展,但在實踐中用大數(shù)據(jù)改善醫(yī)療服務仍然還只是一種愿望,而不是現(xiàn)實。
高度個人化的大數(shù)據(jù)集將成為黑客或泄露者覬覦的主要目標。維基揭秘網(wǎng)一直處在近年幾起最嚴重的大數(shù)據(jù)泄密事件的中心。正如我們從英國離岸金融業(yè)大規(guī)模數(shù)據(jù)泄露事件中看到的,與其他所有人一樣,世界上最富有的1%人口的個人信息也極易遭到公開。
部分正確,但它還需要一些成長。大數(shù)據(jù)為科學提供了新的途徑。我們只需看一下希格斯玻色子的發(fā)現(xiàn),它是歷史上最大規(guī)模網(wǎng)格計算項目的產(chǎn)物。在該項目 中,歐洲核子研究中心利用Hadoop分布式文件系統(tǒng)對所有數(shù)據(jù)進行管理。但是除非我們認識到并著手解決大數(shù)據(jù)在反映人類生活方面的某些內(nèi)在不足,否則我 們可能會依據(jù)錯誤的成見作出重大的公共政策和商業(yè)決定。
為了解決這個問題,數(shù)據(jù)科學家正在開始與社會科學家協(xié)作。隨著時間的推移,這將意味著找到把大數(shù)據(jù)策略和小數(shù)據(jù)研究相結(jié)合的新途徑。這將遠遠超越廣告業(yè)或市場營銷業(yè)采用的做法,如中心小組或A/B測試(即向用戶展示兩個版本的設計或結(jié)果,以確定哪一個版本的效果更好)。
確切地說,新的混合式方法將會詢問人們做某些事情的原因,而不只是統(tǒng)計某件事情發(fā)生的頻率。這意味著在信息檢索和機器學習之外,還將利用社會學分析和關于人種學的深刻認識。
技術企業(yè)很早就意識到社會科學家可以幫助它們更加深刻地認識人們與其產(chǎn)品發(fā)生關系的方式和原因,如施樂公司研究中心就曾聘請了具有開拓精神的人類學 家露西?薩奇曼。下一階段將是進一步豐富計算機科學家、統(tǒng)計學家及眾多門類的社會科學家之間的協(xié)作———不僅是為了檢驗各自的研究成果,而且還要以更加嚴 格的態(tài)度提出截然不同的各類問題。
考慮到每天有大量關于我們的信息———包括臉譜網(wǎng)點擊情況、全球定位系統(tǒng)(GPS)數(shù)據(jù)、醫(yī)療處方和Netflix預訂列表———被收集起來,我們遲早要決定把這樣的信息托付給什么人,以及用它們來實現(xiàn)什么樣的目的。
我們無法回避這樣的事實,即數(shù)據(jù)絕不是中立的,它很難保持匿名。但是我們可以利用跨越不同領域的專業(yè)知識,從而更好地辨別偏見、缺陷和成見,正視隱私和公正將面臨的新挑戰(zhàn)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10