
大數(shù)據(jù),為什么不是宣揚(yáng)的那樣精彩?
“大數(shù)據(jù)”是時(shí)下流行的一個(gè)術(shù)語,是解決技術(shù)世界最難解的問題的一站式答案(目前已經(jīng)變成三個(gè)X級別了)。這個(gè)詞通常用來指分析大量信息數(shù)據(jù)的科學(xué)技術(shù),以檢測模型,收集意見并預(yù)測復(fù)雜問題的解決方法。聽起來可能有點(diǎn)枯燥,但是大數(shù)據(jù)的作者們覺得從防恐到結(jié)束貧困再到拯救地球都不是什么大的事情。
“當(dāng)大數(shù)據(jù)成為敦促全球性問題的解決辦法之一時(shí),帶給社會(huì)帶來巨大的益處,比如探氣候變化,根除疾病,推進(jìn)良好治理和促進(jìn)經(jīng)濟(jì)發(fā)展?!?Viktor Mayer-Sch?nberger 和Kenneth Cukier在名稱很謙虛的《大數(shù)據(jù):將改變我們生活、工作、思想的革命》一書中預(yù)示。
不管數(shù)據(jù)是來自iPhone手機(jī),雜貨店采購清單,網(wǎng)上交友記錄,或是整個(gè)國家的匿名健康記錄,只要信息量夠大,運(yùn)用我們的計(jì)算能力將數(shù)據(jù)解碼,從中獲得的結(jié)論將是不可計(jì)數(shù)的。即使奧巴馬政府也很吃驚于這個(gè)新趨勢,5月9日稱企業(yè)家,研究員和公眾“從前不能獲取或管理的數(shù)據(jù)”現(xiàn)在成為了“開創(chuàng)性”的寶藏。
“我們推動(dòng)個(gè)人創(chuàng)新和發(fā)現(xiàn)的一個(gè)舉措就是讓大量的美國數(shù)據(jù)有史以來第一次如果公開,易于獲取。有才能的企業(yè)家們正在利用這些數(shù)據(jù)做的事情讓人感到相當(dāng)驚奇?!眾W巴馬總統(tǒng)說。
但是大數(shù)據(jù)的確是像宣傳的這樣神奇嗎?我們能夠相信這么多的個(gè)體和英雄將為我們照亮人類行為的隱秘世界嗎?外交政策雜志邀請麻省理工學(xué)院公眾媒體研究中心的Kate Crawford探討數(shù)據(jù)背后的故事?!庉嫛?/span>
“如果有足夠的數(shù)據(jù),數(shù)據(jù)將自證。”
完全沒有可能。大數(shù)據(jù)的推動(dòng)者們想要我們相信,大量的數(shù)據(jù)庫和代碼后,是人類行為模式的客觀通用解釋,比如消費(fèi),犯罪或恐怖行為,健康習(xí)慣,還有雇員生產(chǎn)率。但很多大數(shù)據(jù)的作者不去冷靜地思考弱點(diǎn)。數(shù)據(jù)并不能自我證明,不管數(shù)據(jù)規(guī)模有多大,數(shù)據(jù)集仍是人類設(shè)計(jì)的產(chǎn)物。阿帕奇云計(jì)算軟件框架等大數(shù)據(jù)工具并不能讓人們的思維避免偏移、中斷或出現(xiàn)錯(cuò)誤假設(shè)。在大數(shù)據(jù)試圖反應(yīng)我們居住的社會(huì)的真實(shí)情況時(shí),這些因素特別重要,然而我們經(jīng)常被愚弄,認(rèn)為計(jì)算結(jié)果比人類的的觀念更客觀。大數(shù)據(jù)與個(gè)體知覺和經(jīng)驗(yàn)一樣,有同樣多的偏差和盲點(diǎn)。但有一個(gè)錯(cuò)誤的看法,認(rèn)為數(shù)據(jù)越大越好,關(guān)聯(lián)性等于因果。
舉例來說,大數(shù)據(jù)喜歡分析來自社會(huì)媒體的數(shù)據(jù)資源,而且其中必定有很多信息有待發(fā)掘。我們被告知,推特?cái)?shù)據(jù)告訴我們?nèi)藗冸x家較遠(yuǎn)時(shí)比較高興,周四晚上最不高興。但是有很多理由問一下這個(gè)數(shù)據(jù)真正要反映的是什么。首先,我們從皮尤研究中心知道只有16%的美國在線成年人使用推特,這個(gè)人數(shù)不能作為有代表性的樣本——他們更多傾向于年輕人和城里人,而不是普通人群。其次,我們知道很多推特用戶使用自動(dòng)回復(fù)程序“bots”,還有虛假帳戶或半人工帳戶——使用“bots”和人工共同控制的帳。最新估計(jì)數(shù)據(jù)表明有2000萬虛假帳戶。因此,在我們進(jìn)入推特感情評估這個(gè)方法的雷區(qū)前,先問問這些感情是人們自己的表達(dá)還是自動(dòng)設(shè)置的。
但是,即使你確信推特上的大多數(shù)都是有血有肉的真人,也存在確認(rèn)偏向的問題。比如,IBM使用社會(huì)信心指數(shù)大量分析了推特關(guān)于參賽選手的信息,預(yù)測2013年澳大利亞網(wǎng)球公開賽中誰將是社會(huì)媒體中“最積極的”選手。結(jié)果是維多利亞·阿扎倫卡列在第一。但推特上很多人批評阿扎倫卡使用醫(yī)療時(shí)間超時(shí),引起爭議。所以,推特們是喜歡她還是討厭她?很難相信IBM的計(jì)算是正確的。
一旦解決了垃圾數(shù)據(jù)的問題,我們來考慮一下計(jì)算本身是如何偏移的,急急忙忙地劃定范圍,寫程序,迎合需求。
人權(quán)組織也指望利用大數(shù)據(jù)來幫助理解沖突和危機(jī)。但同樣存在數(shù)據(jù)與分析的質(zhì)量問題。邁克阿瑟基金最近為卡耐基梅隆大學(xué)的人權(quán)科學(xué)中心提供了為期18個(gè)月17500美元的資金,用于調(diào)查大數(shù)據(jù)分析如何改變?nèi)藱?quán)實(shí)情調(diào)查,比如通過“可信度檢驗(yàn)”對來自危機(jī)地圖儀Crisis Mappers, 目擊者Ushahidi, 臉譜Facebook,YouTube等網(wǎng)站的聲稱侵害人權(quán)的事件進(jìn)行分類。中心主任Jay D. Aronson指出“研究機(jī)構(gòu)和人權(quán)組織使用數(shù)據(jù)時(shí),出現(xiàn)了嚴(yán)重的問題,對數(shù)據(jù)來源鋇有責(zé)任。很多情況下,報(bào)告事情的人們的安全是否由于新技術(shù)的應(yīng)用而進(jìn)一步得到保障還是因此受到威脅,并不清楚。”
“大數(shù)據(jù)不存在不同社會(huì)團(tuán)體間的歧視?!?/span>
很難。大數(shù)據(jù)聲稱客觀性的另一個(gè)保證是大數(shù)據(jù)中對少數(shù)群體的歧視較少,因?yàn)樵紨?shù)據(jù)不受社會(huì)偏見干擾,使得分析在量級很高的數(shù)據(jù)中進(jìn)行,因此避免了群體歧視。但大數(shù)據(jù)常常就是為了這個(gè)目的而進(jìn)行的——將個(gè)體分離并劃到不同的人群里——因?yàn)樗心芰β暦Q不同人群的行為如何不同。例如,最近的一篇論文指出科學(xué)家們?nèi)绾芜\(yùn)用他們關(guān)于人種的假設(shè)來設(shè)計(jì)大數(shù)據(jù)基因研究。
正如阿利斯泰爾克羅爾所寫,用大數(shù)據(jù)分析價(jià)格歧視分析的可能性引起了有關(guān)民事權(quán)利的嚴(yán)重關(guān)注,這種行為歷史上稱為“劃紅線注銷”(將某些顧客劃出貸款對象范圍)。在“個(gè)性化”的紅色標(biāo)題下,大數(shù)據(jù)可以用來隔離特定社會(huì)人群,并區(qū)別對待,這是法律明文禁止企業(yè)或人們?nèi)プ龅摹9究梢赃x擇通過在線廣告向那些家庭收入可觀或銀行信用記錄良好的人推廣信用卡,而其他人完全不知道能夠獲得這種有選擇性的信用卡。谷歌甚至有一項(xiàng)動(dòng)態(tài)估價(jià)的專利:因此,如果你過去的購買記錄表明你很有可能購買昂貴的鞋子,下一次你在線購買鞋類產(chǎn)品的起價(jià)可能會(huì)相當(dāng)高?,F(xiàn)在雇主們試圖將大數(shù)據(jù)應(yīng)用到人力資源管理,通過分析雇員的每一個(gè)敲擊行為和拍打行為,評估如何使雇員的生產(chǎn)效率更高。雇員或許根本不知道有關(guān)他們的數(shù)據(jù)有多少正在被收集,用來干什么。
歧視也會(huì)發(fā)生在人口統(tǒng)計(jì)領(lǐng)域。比如,紐約時(shí)報(bào)報(bào)道說Target幾年前即開始收集其顧客的個(gè)人檔案,現(xiàn)在擁有的采購趨勢方面的數(shù)據(jù)量很大,某些情況下足可以僅僅根據(jù)一個(gè)女人的采購記錄來預(yù)測她是否懷孕了,并且有87%的把握。文章中提到的Target統(tǒng)計(jì)人員強(qiáng)調(diào)這將如何幫助公司加強(qiáng)對準(zhǔn)父母的市場營銷,可以想象,這些結(jié)果也會(huì)以其它的歧視方式被利用,可能嚴(yán)重影響社會(huì)公平,當(dāng)然不有隱私。
最近,哥倫比亞大學(xué)對58000個(gè)臉譜網(wǎng)的好惡數(shù)據(jù)進(jìn)行研究分析,分析結(jié)果用來預(yù)測非常敏感的用戶個(gè)人信息,比如性取向,種族,宗教和政治觀點(diǎn),個(gè)性特點(diǎn),智商,幸福程度,使用上癮藥物,父母婚姻狀況,年齡,及性別等。記者湯姆·福斯基注意到這個(gè)研究,說“雇主,房東,政府機(jī)構(gòu),教育機(jī)構(gòu),私人組織能夠輕易地獲取敏感度如此高的信息,他們有辦法歧視對待和懲罰個(gè)人,個(gè)體卻沒有辦法反抗?!?/span>
最后,想想在實(shí)施法律條文過程中的隱藏的事情。從華盛頓特區(qū)到特拉華州的紐卡斯?fàn)柨h,警察開始使用大數(shù)據(jù)的“預(yù)防性監(jiān)控”模型,希望能給未破的案子一些調(diào)查線索,甚至有助于預(yù)防新的犯罪。不管怎樣,將警力活動(dòng)重點(diǎn)放在大數(shù)據(jù)檢測到的“熱點(diǎn)地區(qū)”是冒著另一種危險(xiǎn),進(jìn)一步指責(zé)社會(huì)群體是可能的罪犯,將不同的警務(wù)行動(dòng)制度化成常規(guī)作法。正如某位警察局長所寫,預(yù)防性監(jiān)控盡管確定地避免了種族和性別歧視,但使用該系統(tǒng)而不考慮各種影響的實(shí)際后果可能是“惡化警察與社區(qū)的關(guān)系,讓人感覺缺少程序上的公正,被控告按種族定性,對警察的合法性造成了威脅?!?/span>
“大數(shù)據(jù)是匿名的,因此不會(huì)侵犯隱私?!?/span>
完全錯(cuò)了。盡管很多大數(shù)據(jù)的提供者盡力把個(gè)人信息從人群數(shù)據(jù)集中去除,重新鑒別身份的風(fēng)險(xiǎn)還是真實(shí)存在的。手機(jī)數(shù)據(jù)總體上規(guī)模大,看起來沒有個(gè)人特征,但最近有一項(xiàng)針對歐洲1500萬手機(jī)用戶數(shù)據(jù)的研究表明,只要四個(gè)控制點(diǎn)就足以識(shí)別出一個(gè)人95%的信息。研究員注意到,人們在城市間穿梭的方式有其獨(dú)特性,但考慮到可以從大量的公眾信息數(shù)據(jù)中導(dǎo)出很多內(nèi)容,使得隱私“引起更多關(guān)注”。多虧有Alessandro Acquisti這樣的研究機(jī)構(gòu),我們知道如何通過交叉分析公共現(xiàn)有數(shù)據(jù)直接猜出個(gè)人安全社會(huì)保險(xiǎn)號。
但是,大數(shù)據(jù)的隱私問題遠(yuǎn)遠(yuǎn)不只是通常的身份重新識(shí)別風(fēng)險(xiǎn)。當(dāng)前,賣給研究公司的醫(yī)學(xué)信息也有風(fēng)險(xiǎn),可能被用來追蹤你的個(gè)人身份。關(guān)于個(gè)體化用藥,有很多議論,有人希望處方藥和其它治療方法可以目標(biāo)個(gè)性化,從提高醫(yī)學(xué)角度講,這個(gè)前景很美妙,但基礎(chǔ)是掌握個(gè)人細(xì)胞遺傳信息,但有這些信息有很大的風(fēng)險(xiǎn)被不當(dāng)利用或泄漏。盡管象RunKeeper和 Nike+這樣個(gè)人健康數(shù)據(jù)采集裝置發(fā)展迅速,但應(yīng)用大數(shù)據(jù)提高衛(wèi)生保健的實(shí)踐仍然是渴望高于現(xiàn)實(shí)。
擁有大數(shù)據(jù)的能源生產(chǎn)商們正在收集其它的私人信息,比如智能電網(wǎng)Smart Grid。通過分析大量的用戶能源用量數(shù)據(jù),看起來可以促進(jìn)能源輸送到家庭和公司的效率。這個(gè)項(xiàng)目前景廣闊,但也面臨巨大的隱私風(fēng)險(xiǎn)。它不僅能預(yù)測我們需要能源的數(shù)量和時(shí)間,而且每分每秒都有大量的數(shù)據(jù)信息流失。據(jù)英國海上金融工業(yè)的消息,世界上百分之一的事物與每個(gè)個(gè)人一樣易于受到個(gè)人數(shù)據(jù)公開化的攻擊。
“大數(shù)據(jù)是科技的未來?!?/span>
部分是對的,但還有很多事情要做。毫無疑問,大數(shù)據(jù)為科學(xué)發(fā)展提供了一條新的途徑。我們只需看看希格斯玻色子的發(fā)現(xiàn)即可,成果來自歷史上最大的網(wǎng)格計(jì)算工程,歐洲核子研究委員會(huì)使用云上文件傳送系統(tǒng)Hadoop Distributed File System來處理所有數(shù)據(jù)。但是,除非我們能夠識(shí)別并應(yīng)對大數(shù)據(jù)在反應(yīng)人類生活時(shí)的內(nèi)在缺陷,否則我們可能讓主要的公眾政策和商業(yè)決策建立在錯(cuò)誤的假設(shè)之上。
要應(yīng)對這些內(nèi)在缺陷,數(shù)據(jù)科學(xué)家們開始與社會(huì)學(xué)家合作,社會(huì)學(xué)家長期以批判的眼光與數(shù)據(jù)打交道:評估數(shù)據(jù)來源、數(shù)據(jù)的收集方法、數(shù)據(jù)應(yīng)用涉及的道德倫理問題。隨著時(shí)間的推移,這意味著找到一條新的途徑,將大數(shù)據(jù)方法與小數(shù)據(jù)研究結(jié)合起來。這遠(yuǎn)遠(yuǎn)超過了廣告和營銷使用方法,如焦點(diǎn)討論或A/B測試(測試中,給用戶兩個(gè)版本的設(shè)計(jì)或產(chǎn)品,看哪一種結(jié)果證明更有效)。而新的方法組合還會(huì)提出人們?yōu)槭裁醋鍪碌膯栴},而僅僅總結(jié)出事情發(fā)生的頻率。這意味著吸收了社會(huì)學(xué)分析和民族學(xué)的深度見解,還包括追溯信息檢索和機(jī)器學(xué)習(xí)的內(nèi)容。
科技公司早就意識(shí)到,關(guān)于人們?nèi)绾螌Υ麄儺a(chǎn)品,為何如此,社會(huì)學(xué)家能夠提供更有力的觀點(diǎn),比如施樂公司的帕洛阿爾托研究中心雇用人類學(xué)家的先驅(qū)薩奇曼先生。接下來,各領(lǐng)域的計(jì)算機(jī)科學(xué)家、統(tǒng)計(jì)學(xué)家、社會(huì)學(xué)家之間的合作將更加豐富——不僅檢驗(yàn)彼此的發(fā)現(xiàn)成果,還會(huì)提出根本不同類的問題,而且更加尖銳。
想到關(guān)于我們的信息每天都在被大量地收集——包括臉譜點(diǎn)擊率,GPS數(shù)據(jù),醫(yī)藥處方,網(wǎng)飛的數(shù)據(jù)列——我們必須盡早確定誰是可以信任的,他們使用我們的數(shù)據(jù)的目的何在。有一個(gè)事實(shí)無法逃避,數(shù)據(jù)從來不是中立的,很難做到匿名。但我們可以利用不同領(lǐng)域的專業(yè)知識(shí)更好地確認(rèn)偏差、差異和假設(shè),進(jìn)而應(yīng)對隱私和公平方面的挑戰(zhàn)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價(jià)值、驅(qū)動(dòng)決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動(dòng)企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時(shí)代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實(shí)戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會(huì)遇到需要整合多張表數(shù)據(jù)的場景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,面對海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯(cuò)改字段或誤執(zhí)行批量更新等問題時(shí)有發(fā)生。 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時(shí)用t.test,何時(shí)用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時(shí)用 t.test,何時(shí)用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08