
殺熟、窺私,暗黑的大數(shù)據(jù)能否成就善良
大數(shù)據(jù)的熱浪,暗潮洶涌。如果現(xiàn)在向你提到「大數(shù)據(jù)」,大部分人大概都會像S君一樣,腦子里閃過一系列的“標志性事件”:竊取5000萬Facebook用戶數(shù)據(jù)的Cambridge Analytical公司,對陰謀論、假新聞和政治廣告的精準投喂;李彥宏“用隱私交換便捷性”的爭議論調(diào),攜程用“大數(shù)據(jù)殺熟”對用戶進行逆向的價格歧視,信用評估的智慧平臺ZMAL將更多的有色人種擋在“有信用”的高墻之外的丑聞……
諸如此類,“看上去很美”的大數(shù)據(jù)反而創(chuàng)造出越來越多信息的垃圾食品,讓人上癮,更難以抗拒。在這個以假亂真、信息污染的世界里,我們不禁好奇,數(shù)字民主真的只是幻覺?
要是不在數(shù)據(jù)流中挖掘商機,也不在在黑箱里窺視隱私,大數(shù)據(jù)將會把我們帶向哪里?其實,除了精確瞄準買買買一族的那些“甜膩”的消費大數(shù)據(jù),在全球范圍內(nèi),還有很多有道德重量的、“美美與共”的數(shù)字世界的探路者,其背后有溫度的巨量數(shù)據(jù),更加值得我們關(guān)注。
一、照亮漂泊者:關(guān)于苦難的數(shù)據(jù)
人類學(xué)家Joel Robins在其經(jīng)典文章「Beyond the suffering subject: Toward an anthropology of the good」(《超越受苦難主體:關(guān)于善的人類學(xué)》)中如是寫道:
“那些生活在痛苦和貧困之中,那些飽受暴力與壓迫折磨的苦難者,現(xiàn)在站在人類學(xué)的中央”。
這種直面社會生活殘酷,直面壓抑與絕望生命經(jīng)驗的“黑暗人類學(xué)”主張(Ortner,2016),也逐漸成為重建數(shù)據(jù)倫理的重要內(nèi)容。
它希望數(shù)據(jù)不是抽離的、冰冷的、佯裝價值中立的,而應(yīng)該是直面黑暗,有切膚之痛的。數(shù)字可以照亮我們所“視而不見”的那些人——流離失所的城市流浪者、敘利亞的難民、無處為家的無國籍者……
2017年,《衛(wèi)報》一項「Bussed Out: How America moves its homeless」的深度調(diào)查項目,將目光投向美國大城市中無名的流浪者。關(guān)注在美國版的“收容遣送”的城市計劃中,無家可歸者們顛沛流離的漂泊生活。
衛(wèi)報用了18個月,爬梳了16個城市,超過20000名流浪者,34240次從此地到他地的被逐之旅。
這張圖是27歲的流浪漢Quinn Raber的足跡。他拿著舊金山市為他購買的單程車票,坐上灰狗巴士,穿行2275英里,來到陌生的印第安納波利斯。
舊金山作為無家可歸群體的大本營,從2005年開始實施一項“嫌貧愛富”的舊金山巴士計劃。它旨在通過為流浪者提供免費的單程巴士車這種廉價而有效的方式,來削減城市流浪群體的總量。
在過去12年的時間,這種“將問題運往別處”的冷酷治理術(shù)富有卓效。就像這張動態(tài)圖所呈現(xiàn)的一樣,一邊是10570位無家可歸者被灰色的巴士陸續(xù)運往他鄉(xiāng),一邊越來越少的流浪者有機會進入到舊金山。
紐約這座城市則顯得更加的“勢利眼”,在《衛(wèi)報》采集的34240次流浪者離途中,有將近50%來自紐約。而在接受無家可歸者的重鎮(zhèn)波多黎各,紐約輸送了2350名流浪者,比其他的美國城市要多得多。
可是,波多黎各的家庭收入中位數(shù)只有19606美元,遠不及紐約的60741美元,失業(yè)率更是全國平均水平的兩倍,這無疑將使流浪者生活雪上加霜。而且,在近九成的被驅(qū)逐之旅中,都重復(fù)了紐約這種從“富城”到“窮鄉(xiāng)”的糟糕方式。
對于這些城市的游民,我們或是視而不見,或是視為“問題”。不愿裝睡的《衛(wèi)報》,將這幅完整的、命如草芥的流浪者們的數(shù)字足跡圖擺在我們面前。他們?nèi)缦N蟻般,從一地驅(qū)離到另一地,無處為家。這些地圖上流動的點,是一個個灰暗的、苦悶的、飽受侮辱與歧視的生命境況,是我們道德與倫理上的刺,是他者生活的殘酷現(xiàn)實,也是我們必須設(shè)身處地地去反思的價值問題。
而像衛(wèi)報這種重建大數(shù)據(jù)的倫理與道德維度的,還有Sasaki的Understanding Homelessness(理解無家可歸者)公共行動,以及博爾扎諾自由大學(xué)的People’s Republic of Bolzano(用數(shù)字為被污名化的意大利華人社群發(fā)聲)項目,呈現(xiàn)敘利亞難民跨國流亡之路的Humanizing Syrian Refugee Visualization計劃,關(guān)注巴西無國籍者的Stateless in Brazil數(shù)字行動等等。
二、挖掘歷史真相:關(guān)于文本的數(shù)據(jù)
再來看谷歌的一款“黑科技”——Google Ngram Viewer。作為野心勃勃的谷歌圖書項目的重要分支,它囊括了1500年到2008年間5195769冊來自于世界各地的書籍,并通過OCR技術(shù)將其分解成5000億個獨立的語匯,造就一個史學(xué)家和語言學(xué)家們難以想象的、巨量無比的語料庫。
有學(xué)者認為:Google Ngram這樣的數(shù)字利器,可以幫助我們探尋印刻在語言與文字背后更大的歷史真相。
權(quán)力怪獸對自由與獨立思想的鉗制,在這個“黑科技”的照妖鏡下就露出了馬腳。下圖是猶太藝術(shù)家Marc Chagall在德文與英文書中的“亮相”詞頻:
1910年,30歲的他逐漸成為德國藝術(shù)界一顆冉冉升起的新星。但隨著納粹勢力的甚囂塵上,Chagall開始成為不合時宜的“異類”,變成現(xiàn)代版“焚書坑儒”的替罪羔羊。1936-1944年納粹統(tǒng)治時期,他的名字被徹底抹去。但與此同時,他的盛名開始在英文國家里得到認可。
下面這張圖,則讓我們更系統(tǒng)地理解納粹勢力,如何像“權(quán)力的毛細血管”一樣,逐漸滲透到社會生活與個人心靈里。1936-1944年間,納粹黨員的名字在公共舞臺的出現(xiàn)頻率飆升,可藝術(shù)家、文學(xué)家、哲學(xué)家、歷史學(xué)家和政治學(xué)家的詞頻則跌落至歷史谷底。
女性主義的研究,也可以在大數(shù)據(jù)的助力,煥發(fā)新的活力。我們可以在這兩張曲線圖中看到,女性主義(feminism/ Féminisme)從1968年開始,在法語與英語世界中日漸顯現(xiàn),并在80年到90年代成為一股迅速飆升的解放力量。Women與Men這一對性別語匯之間的懸殊落差,也逐漸縮小。80年初,“women”在英文世界終于能頂半邊天了。
可是現(xiàn)代女性的平權(quán)之路,并非坦途,這注定一場永不停歇的抗爭。
這是Google Trends所制作的Me Too Rising專題,它統(tǒng)計了從2017年10月至今,世界各個國家“Me Too” 的動態(tài)搜索數(shù)據(jù)。我們發(fā)現(xiàn):Me Too的浪潮從從北美向全球擴,星星之火,可以燎原。
而有幾個高頻搜索的城市,是出乎我們意料之外的:印度的印多爾、馬來西亞的吉隆坡、危地馬拉的首都。這也從側(cè)面反映了:Me Too運動有喚醒當(dāng)?shù)嘏詸?quán)利意識,激發(fā)其參與反抗男性霸權(quán)集體行動的巨大潛能。
從左至右分別對應(yīng): 印多爾、吉隆坡、危地馬拉
三、沖破壁壘之墻:關(guān)于共享的數(shù)據(jù)
大數(shù)據(jù)時代,各個數(shù)據(jù)王國“分封而治”。離散的數(shù)據(jù),不是被密封在民族國家的保險柜里,就是藏在科技巨頭們的黑箱中。這種數(shù)字割據(jù)的狀態(tài),常使我們在全球問題中陷入無能,無感的境地。
全球漁業(yè)就是最好的例證,各國的海洋捕魚數(shù)據(jù)長期以來是不透明的,不開放給公眾與研究者,數(shù)據(jù)標準雜亂不一。這不僅造成了過量獵殺、非法捕魚、奴隸勞工、海洋污染和漁業(yè)資源枯竭等嚴峻問題,而且使我們很難對全球商業(yè)捕魚有一個整體性的洞察與監(jiān)測。
2014年,Google, Skytruth和Oceana共同創(chuàng)建非營利組織Global Fishing Watch。它構(gòu)建了一個沖破信息藩籬的,透明公開的大數(shù)據(jù)平臺(正如其核心所述Sustainability through Transparency),我們可以實時追蹤商業(yè)捕魚船舶的全球足跡,監(jiān)測非法海洋捕撈的活動,觀察全球海上轉(zhuǎn)運船只的動態(tài)。
在2012-2016年,它利用衛(wèi)星監(jiān)測和谷歌的機器學(xué)習(xí)工具,共處理了220億個船舶自動識別的信息,跟蹤了7萬余艘商業(yè)捕魚船舶,共計4000萬小時,200億千瓦時能耗的漁業(yè)活動。
它追蹤了世界各地的漁船4.6億公里的海上活動足跡,這相當(dāng)于往返月球600次。這個全球共享的數(shù)據(jù)庫,在為地理學(xué)家、海洋學(xué)家和氣象學(xué)家們提供了研究的利器的同時,也不斷探尋與各個國家之間的數(shù)據(jù)共享和集體行動(如印度尼西亞,秘魯將其船舶監(jiān)測系統(tǒng)的國家數(shù)據(jù)(VMS)納入其中)。
不得不說,Global Fishing Watch是數(shù)字王國里的“異教徒”,是數(shù)字封建割據(jù)時代偉大的世界主義先鋒。
這張是全球漁船轉(zhuǎn)運的熱點圖。監(jiān)測海上轉(zhuǎn)運船舶的動態(tài)信息非常重要,因為在商業(yè)捕魚活動中,海上中轉(zhuǎn)長期處于監(jiān)管的真空地帶,這使得非法捕撈、強迫勞動、毒品走私和遠洋漁船上侵犯人權(quán)行為有了可乘之機。
這張圖來自于2016年榮獲普利策公共服務(wù)獎的Seafood from Slaves,這是一艘穿梭于泰國和巴布新幾內(nèi)亞之間的漁船,而這支遠洋漁船藏著血汗勞工的惡行。美聯(lián)社在收集這些遠洋捕撈漁船上慘無人道的罪證時,充分借助了大數(shù)據(jù)與新科技的力量。
遙感與數(shù)字地圖公司通過AIS信號確定了這艘船舶的海上活動軌跡,太空影像服務(wù)商則透過衛(wèi)星捕捉到這艘漁船海上轉(zhuǎn)運的高分辨圖像,其長期深藏不露的海上罪行,現(xiàn)了原形。
今天的文章,我們主要羅列了三種應(yīng)用大數(shù)據(jù)的案例,在這些巨量的數(shù)據(jù)背后,可能沒有所謂消費行為和用戶分析,但卻有演變歷史的真相和直面苦難的真實;可能沒有辦法謀求商業(yè)模式,但卻可以做到高效的犯罪監(jiān)管。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10