
大數(shù)據(jù),為什么不是宣揚的那樣精彩?
“大數(shù)據(jù)”是時下流行的一個術語,是解決技術世界最難解的問題的一站式答案(目前已經(jīng)變成三個X級別了)。這個詞通常用來指分析大量信息數(shù)據(jù)的科學技術,以檢測模型,收集意見并預測復雜問題的解決方法。聽起來可能有點枯燥,但是大數(shù)據(jù)的作者們覺得從防恐到結束貧困再到拯救地球都不是什么大的事情。
“當大數(shù)據(jù)成為敦促全球性問題的解決辦法之一時,帶給社會帶來巨大的益處,比如探氣候變化,根除疾病,推進良好治理和促進經(jīng)濟發(fā)展?!?Viktor Mayer-Sch?nberger 和Kenneth Cukier在名稱很謙虛的《大數(shù)據(jù):將改變我們生活、工作、思想的革命》一書中預示。
不管數(shù)據(jù)是來自iPhone手機,雜貨店采購清單,網(wǎng)上交友記錄,或是整個國家的匿名健康記錄,只要信息量夠大,運用我們的計算能力將數(shù)據(jù)解碼,從中獲得的結論將是不可計數(shù)的。即使奧巴馬政府也很吃驚于這個新趨勢,5月9日稱企業(yè)家,研究員和公眾“從前不能獲取或管理的數(shù)據(jù)”現(xiàn)在成為了“開創(chuàng)性”的寶藏。
“我們推動個人創(chuàng)新和發(fā)現(xiàn)的一個舉措就是讓大量的美國數(shù)據(jù)有史以來第一次如果公開,易于獲取。有才能的企業(yè)家們正在利用這些數(shù)據(jù)做的事情讓人感到相當驚奇。”奧巴馬總統(tǒng)說。
但是大數(shù)據(jù)的確是像宣傳的這樣神奇嗎?我們能夠相信這么多的個體和英雄將為我們照亮人類行為的隱秘世界嗎?外交政策雜志邀請麻省理工學院公眾媒體研究中心的Kate Crawford探討數(shù)據(jù)背后的故事?!庉嫛?/span>
“如果有足夠的數(shù)據(jù),數(shù)據(jù)將自證?!?/span>
完全沒有可能。大數(shù)據(jù)的推動者們想要我們相信,大量的數(shù)據(jù)庫和代碼后,是人類行為模式的客觀通用解釋,比如消費,犯罪或恐怖行為,健康習慣,還有雇員生產(chǎn)率。但很多大數(shù)據(jù)的作者不去冷靜地思考弱點。數(shù)據(jù)并不能自我證明,不管數(shù)據(jù)規(guī)模有多大,數(shù)據(jù)集仍是人類設計的產(chǎn)物。阿帕奇云計算軟件框架等大數(shù)據(jù)工具并不能讓人們的思維避免偏移、中斷或出現(xiàn)錯誤假設。在大數(shù)據(jù)試圖反應我們居住的社會的真實情況時,這些因素特別重要,然而我們經(jīng)常被愚弄,認為計算結果比人類的的觀念更客觀。大數(shù)據(jù)與個體知覺和經(jīng)驗一樣,有同樣多的偏差和盲點。但有一個錯誤的看法,認為數(shù)據(jù)越大越好,關聯(lián)性等于因果。
舉例來說,大數(shù)據(jù)喜歡分析來自社會媒體的數(shù)據(jù)資源,而且其中必定有很多信息有待發(fā)掘。我們被告知,推特數(shù)據(jù)告訴我們人們離家較遠時比較高興,周四晚上最不高興。但是有很多理由問一下這個數(shù)據(jù)真正要反映的是什么。首先,我們從皮尤研究中心知道只有16%的美國在線成年人使用推特,這個人數(shù)不能作為有代表性的樣本——他們更多傾向于年輕人和城里人,而不是普通人群。其次,我們知道很多推特用戶使用自動回復程序“bots”,還有虛假帳戶或半人工帳戶——使用“bots”和人工共同控制的帳。最新估計數(shù)據(jù)表明有2000萬虛假帳戶。因此,在我們進入推特感情評估這個方法的雷區(qū)前,先問問這些感情是人們自己的表達還是自動設置的。
但是,即使你確信推特上的大多數(shù)都是有血有肉的真人,也存在確認偏向的問題。比如,IBM使用社會信心指數(shù)大量分析了推特關于參賽選手的信息,預測2013年澳大利亞網(wǎng)球公開賽中誰將是社會媒體中“最積極的”選手。結果是維多利亞·阿扎倫卡列在第一。但推特上很多人批評阿扎倫卡使用醫(yī)療時間超時,引起爭議。所以,推特們是喜歡她還是討厭她?很難相信IBM的計算是正確的。
一旦解決了垃圾數(shù)據(jù)的問題,我們來考慮一下計算本身是如何偏移的,急急忙忙地劃定范圍,寫程序,迎合需求。
人權組織也指望利用大數(shù)據(jù)來幫助理解沖突和危機。但同樣存在數(shù)據(jù)與分析的質量問題。邁克阿瑟基金最近為卡耐基梅隆大學的人權科學中心提供了為期18個月17500美元的資金,用于調查大數(shù)據(jù)分析如何改變人權實情調查,比如通過“可信度檢驗”對來自危機地圖儀Crisis Mappers, 目擊者Ushahidi, 臉譜Facebook,YouTube等網(wǎng)站的聲稱侵害人權的事件進行分類。中心主任Jay D. Aronson指出“研究機構和人權組織使用數(shù)據(jù)時,出現(xiàn)了嚴重的問題,對數(shù)據(jù)來源鋇有責任。很多情況下,報告事情的人們的安全是否由于新技術的應用而進一步得到保障還是因此受到威脅,并不清楚。”
“大數(shù)據(jù)不存在不同社會團體間的歧視?!?/span>
很難。大數(shù)據(jù)聲稱客觀性的另一個保證是大數(shù)據(jù)中對少數(shù)群體的歧視較少,因為原始數(shù)據(jù)不受社會偏見干擾,使得分析在量級很高的數(shù)據(jù)中進行,因此避免了群體歧視。但大數(shù)據(jù)常常就是為了這個目的而進行的——將個體分離并劃到不同的人群里——因為它有能力聲稱不同人群的行為如何不同。例如,最近的一篇論文指出科學家們如何運用他們關于人種的假設來設計大數(shù)據(jù)基因研究。
正如阿利斯泰爾克羅爾所寫,用大數(shù)據(jù)分析價格歧視分析的可能性引起了有關民事權利的嚴重關注,這種行為歷史上稱為“劃紅線注銷”(將某些顧客劃出貸款對象范圍)。在“個性化”的紅色標題下,大數(shù)據(jù)可以用來隔離特定社會人群,并區(qū)別對待,這是法律明文禁止企業(yè)或人們去做的。公司可以選擇通過在線廣告向那些家庭收入可觀或銀行信用記錄良好的人推廣信用卡,而其他人完全不知道能夠獲得這種有選擇性的信用卡。谷歌甚至有一項動態(tài)估價的專利:因此,如果你過去的購買記錄表明你很有可能購買昂貴的鞋子,下一次你在線購買鞋類產(chǎn)品的起價可能會相當高?,F(xiàn)在雇主們試圖將大數(shù)據(jù)應用到人力資源管理,通過分析雇員的每一個敲擊行為和拍打行為,評估如何使雇員的生產(chǎn)效率更高。雇員或許根本不知道有關他們的數(shù)據(jù)有多少正在被收集,用來干什么。
歧視也會發(fā)生在人口統(tǒng)計領域。比如,紐約時報報道說Target幾年前即開始收集其顧客的個人檔案,現(xiàn)在擁有的采購趨勢方面的數(shù)據(jù)量很大,某些情況下足可以僅僅根據(jù)一個女人的采購記錄來預測她是否懷孕了,并且有87%的把握。文章中提到的Target統(tǒng)計人員強調這將如何幫助公司加強對準父母的市場營銷,可以想象,這些結果也會以其它的歧視方式被利用,可能嚴重影響社會公平,當然不有隱私。
最近,哥倫比亞大學對58000個臉譜網(wǎng)的好惡數(shù)據(jù)進行研究分析,分析結果用來預測非常敏感的用戶個人信息,比如性取向,種族,宗教和政治觀點,個性特點,智商,幸福程度,使用上癮藥物,父母婚姻狀況,年齡,及性別等。記者湯姆·福斯基注意到這個研究,說“雇主,房東,政府機構,教育機構,私人組織能夠輕易地獲取敏感度如此高的信息,他們有辦法歧視對待和懲罰個人,個體卻沒有辦法反抗?!?/span>
最后,想想在實施法律條文過程中的隱藏的事情。從華盛頓特區(qū)到特拉華州的紐卡斯爾縣,警察開始使用大數(shù)據(jù)的“預防性監(jiān)控”模型,希望能給未破的案子一些調查線索,甚至有助于預防新的犯罪。不管怎樣,將警力活動重點放在大數(shù)據(jù)檢測到的“熱點地區(qū)”是冒著另一種危險,進一步指責社會群體是可能的罪犯,將不同的警務行動制度化成常規(guī)作法。正如某位警察局長所寫,預防性監(jiān)控盡管確定地避免了種族和性別歧視,但使用該系統(tǒng)而不考慮各種影響的實際后果可能是“惡化警察與社區(qū)的關系,讓人感覺缺少程序上的公正,被控告按種族定性,對警察的合法性造成了威脅。”
“大數(shù)據(jù)是匿名的,因此不會侵犯隱私?!?/span>
完全錯了。盡管很多大數(shù)據(jù)的提供者盡力把個人信息從人群數(shù)據(jù)集中去除,重新鑒別身份的風險還是真實存在的。手機數(shù)據(jù)總體上規(guī)模大,看起來沒有個人特征,但最近有一項針對歐洲1500萬手機用戶數(shù)據(jù)的研究表明,只要四個控制點就足以識別出一個人95%的信息。研究員注意到,人們在城市間穿梭的方式有其獨特性,但考慮到可以從大量的公眾信息數(shù)據(jù)中導出很多內容,使得隱私“引起更多關注”。多虧有Alessandro Acquisti這樣的研究機構,我們知道如何通過交叉分析公共現(xiàn)有數(shù)據(jù)直接猜出個人安全社會保險號。
但是,大數(shù)據(jù)的隱私問題遠遠不只是通常的身份重新識別風險。當前,賣給研究公司的醫(yī)學信息也有風險,可能被用來追蹤你的個人身份。關于個體化用藥,有很多議論,有人希望處方藥和其它治療方法可以目標個性化,從提高醫(yī)學角度講,這個前景很美妙,但基礎是掌握個人細胞遺傳信息,但有這些信息有很大的風險被不當利用或泄漏。盡管象RunKeeper和 Nike+這樣個人健康數(shù)據(jù)采集裝置發(fā)展迅速,但應用大數(shù)據(jù)提高衛(wèi)生保健的實踐仍然是渴望高于現(xiàn)實。
擁有大數(shù)據(jù)的能源生產(chǎn)商們正在收集其它的私人信息,比如智能電網(wǎng)Smart Grid。通過分析大量的用戶能源用量數(shù)據(jù),看起來可以促進能源輸送到家庭和公司的效率。這個項目前景廣闊,但也面臨巨大的隱私風險。它不僅能預測我們需要能源的數(shù)量和時間,而且每分每秒都有大量的數(shù)據(jù)信息流失。據(jù)英國海上金融工業(yè)的消息,世界上百分之一的事物與每個個人一樣易于受到個人數(shù)據(jù)公開化的攻擊。
“大數(shù)據(jù)是科技的未來。”
部分是對的,但還有很多事情要做。毫無疑問,大數(shù)據(jù)為科學發(fā)展提供了一條新的途徑。我們只需看看希格斯玻色子的發(fā)現(xiàn)即可,成果來自歷史上最大的網(wǎng)格計算工程,歐洲核子研究委員會使用云上文件傳送系統(tǒng)Hadoop Distributed File System來處理所有數(shù)據(jù)。但是,除非我們能夠識別并應對大數(shù)據(jù)在反應人類生活時的內在缺陷,否則我們可能讓主要的公眾政策和商業(yè)決策建立在錯誤的假設之上。
要應對這些內在缺陷,數(shù)據(jù)科學家們開始與社會學家合作,社會學家長期以批判的眼光與數(shù)據(jù)打交道:評估數(shù)據(jù)來源、數(shù)據(jù)的收集方法、數(shù)據(jù)應用涉及的道德倫理問題。隨著時間的推移,這意味著找到一條新的途徑,將大數(shù)據(jù)方法與小數(shù)據(jù)研究結合起來。這遠遠超過了廣告和營銷使用方法,如焦點討論或A/B測試(測試中,給用戶兩個版本的設計或產(chǎn)品,看哪一種結果證明更有效)。而新的方法組合還會提出人們?yōu)槭裁醋鍪碌膯栴},而僅僅總結出事情發(fā)生的頻率。這意味著吸收了社會學分析和民族學的深度見解,還包括追溯信息檢索和機器學習的內容。
科技公司早就意識到,關于人們如何對待他們產(chǎn)品,為何如此,社會學家能夠提供更有力的觀點,比如施樂公司的帕洛阿爾托研究中心雇用人類學家的先驅薩奇曼先生。接下來,各領域的計算機科學家、統(tǒng)計學家、社會學家之間的合作將更加豐富——不僅檢驗彼此的發(fā)現(xiàn)成果,還會提出根本不同類的問題,而且更加尖銳。
想到關于我們的信息每天都在被大量地收集——包括臉譜點擊率,GPS數(shù)據(jù),醫(yī)藥處方,網(wǎng)飛的數(shù)據(jù)列——我們必須盡早確定誰是可以信任的,他們使用我們的數(shù)據(jù)的目的何在。有一個事實無法逃避,數(shù)據(jù)從來不是中立的,很難做到匿名。但我們可以利用不同領域的專業(yè)知識更好地確認偏差、差異和假設,進而應對隱私和公平方面的挑戰(zhàn)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11