
大數(shù)據(jù)時(shí)代喜憂參半,數(shù)據(jù)發(fā)展正面臨轉(zhuǎn)折點(diǎn)
近年來,大數(shù)據(jù)已經(jīng)覆蓋了許多領(lǐng)域,包括互聯(lián)網(wǎng)領(lǐng)域。許多應(yīng)用和平臺熱衷于搜集用戶的信息。而在近日舉行的SXSW(South by Southwest,西南偏南)大會上,專家們卻表達(dá)了對于數(shù)據(jù)會歧視用戶的擔(dān)憂。
會上,獨(dú)立隱私安全專家Ashkan Soldani提及了IBM的一款能夠計(jì)算“恐怖主義得分”的軟件。這款軟件的目的是通過用戶數(shù)據(jù),計(jì)算從敘利亞來到歐洲的人們參與恐怖活動(dòng)的概率。
大數(shù)據(jù)(bigdata)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。但是,在大數(shù)據(jù)發(fā)揮重要作用的同時(shí),也產(chǎn)生了一系列問題,給人們造成了困擾。
一、許多軟件因數(shù)據(jù)歧視用戶,造成諸多問題
目前,許多企業(yè)都會通過軟件或應(yīng)用搜集用戶信息。在大數(shù)據(jù)時(shí)代,這種做法是無可厚非甚至是必要的,但是,用戶數(shù)據(jù)可能會使用戶遭到歧視,甚至造成濫用。
比如,電腦投放求職廣告時(shí),就會產(chǎn)生歧視行為。去年,卡耐基梅隆大學(xué)的研究人員通過一款名叫AdFisher的工具,對其第三方網(wǎng)站上的廣告定向投放過程進(jìn)行了追蹤。結(jié)果表明,當(dāng)谷歌判定求職者為男性時(shí),為其推送高新主管職位消息的概率遠(yuǎn)大于同等條件的女性求職者。
記者Julia Angwin說:“你可能并不知道你為什么沒有得到那份工作,你或許永遠(yuǎn)不會知道,其實(shí)是因?yàn)閿?shù)據(jù)歧視了你”。
對此,AdFisher的開發(fā)者表示:“我認(rèn)為,我們的發(fā)現(xiàn)揭露了目前廣告生態(tài)中開始浮現(xiàn)的諸多歧視和不透明現(xiàn)象。從社會的角度來看,它很值得擔(dān)憂”。
不僅是在工作方面,就連社交軟件都會因?yàn)閿?shù)據(jù)歧視用戶。美國約會應(yīng)用Tinder的付費(fèi)版Tinder Plus推出后,其定價(jià)的差異化引發(fā)了爭議。在美國的用戶,18歲到29歲只需9.99美元,但是超過30歲的用戶則需支付19.99美元。而處在英國地區(qū)的用戶,18歲至27歲只需支付3.99英鎊,而超過28歲就必須支付14.99英鎊。
由于這樣的定價(jià),關(guān)于Tinder歧視“大齡未婚青年”的言論一時(shí)蔓延開來。對此,Tinder副總裁的解釋是,年輕用戶是高頻使用者,但缺乏金錢,定價(jià)較低是為了刺激其購買欲。而大齡用戶對價(jià)格或許敏感度更低,所以愿意購買服務(wù)。因此,定價(jià)差異化是基于公司測算,并非年齡歧視。
不管這些應(yīng)用是出于怎樣的目的,都或多或少地帶有歧視色彩,并且大數(shù)據(jù)有泄露用戶隱私之嫌。一份研究大數(shù)據(jù)影響的白宮報(bào)告中寫道:“我們長期堅(jiān)持的公民權(quán)利保護(hù)政策對居民信息如何在住房、信用卡、雇傭、健康、教育和交易市場等方面使用有嚴(yán)格的限制,而數(shù)據(jù)分析技術(shù)有可能會擊潰這一防線”。
研究者指出,對于企業(yè)追蹤用戶的過程以及投放廣告的算法有一定的了解,對人權(quán)組織及監(jiān)管機(jī)構(gòu)來說,是相當(dāng)重要的。當(dāng)然,企業(yè)也應(yīng)該采取一些相關(guān)的措施,消除數(shù)據(jù)對用戶帶來的歧視。
大數(shù)據(jù)是在互聯(lián)網(wǎng)時(shí)代不可避免的發(fā)展趨勢,但同時(shí),它產(chǎn)生的問題也讓人們有些恐慌。
二、大數(shù)據(jù)發(fā)展正面臨轉(zhuǎn)折點(diǎn),需努力趨利避害
大數(shù)據(jù)的意義就在于,從龐雜的數(shù)據(jù)背后挖掘并分析用戶的行為習(xí)慣與喜好,從而找出更符合用戶“口味”的產(chǎn)品和服務(wù),并結(jié)合用戶需求有針對性地調(diào)整和優(yōu)化自身。
這種作用對于當(dāng)今企業(yè)來說,是極其重要的,其商業(yè)價(jià)值大致體現(xiàn)在四個(gè)方面。
大數(shù)據(jù)可以實(shí)現(xiàn)客戶群體細(xì)分,并為每個(gè)群體量身定制特別的服務(wù);大數(shù)據(jù)可以對現(xiàn)實(shí)環(huán)境進(jìn)行模擬,發(fā)掘出新的需求并使投資回報(bào)率有所提升;大數(shù)據(jù)可以加強(qiáng)部門之間的聯(lián)系,提高生產(chǎn)鏈條與管理鏈條的效率;大數(shù)據(jù)可以使服務(wù)成本降低,找出隱藏線索,對產(chǎn)品和服務(wù)進(jìn)行創(chuàng)新。
對于社會來說,大數(shù)據(jù)的發(fā)展也是有諸多好處的。大數(shù)據(jù)定理表明,在試驗(yàn)不變的條件下,重復(fù)試驗(yàn)過程多次。在大量重復(fù)中,會呈現(xiàn)出幾乎必然的統(tǒng)計(jì)特性。
隨著計(jì)算機(jī)處理能力的增強(qiáng),獲得的數(shù)據(jù)量越大,挖掘出的價(jià)值就越多。如果銀行能夠及時(shí)發(fā)現(xiàn)風(fēng)險(xiǎn),社會經(jīng)濟(jì)將越發(fā)強(qiáng)大;如果醫(yī)院能夠及時(shí)發(fā)現(xiàn)疾病,我們的身體會更加健康;如果通信公司能夠降低成本,我們的話費(fèi)將更加實(shí)惠……
以上情況,都可以通過大數(shù)據(jù)的不斷積累和不斷分析實(shí)現(xiàn)。通過這一過程,我們可以發(fā)現(xiàn)規(guī)律,從而實(shí)現(xiàn)更好的未來。
但是,任何事物都有兩面性,大數(shù)據(jù)時(shí)代所產(chǎn)生的問題也同樣不少。
第一,數(shù)據(jù)不夠安全。無論是企業(yè)還是個(gè)人,在實(shí)踐過程中都會或多或少地產(chǎn)生數(shù)據(jù)。這些數(shù)據(jù)在當(dāng)今時(shí)代并不安全,會有很多方法使它們泄露。
第二,數(shù)據(jù)泄露產(chǎn)生不平等。對于用戶來講,數(shù)據(jù)是一筆財(cái)富,但是遭到了別人的竊取,而自己并未得到任何收益,這對于用戶來說是不公平的。
第三,用戶隱私問題。當(dāng)用戶在網(wǎng)上注冊信息后,這些信息很有可能已經(jīng)被擴(kuò)散,當(dāng)用戶收到一些莫名其妙的郵件、電話、短信時(shí),其實(shí)用戶的各種信息早已被非法的商業(yè)機(jī)構(gòu)賤賣了。
無意中拍的照片,可能會使人一夜成名。用戶的想法、行為、都可能被商家記錄在案。人們擔(dān)心身份被盜用,擔(dān)心數(shù)據(jù)造假,害怕數(shù)據(jù)框定,反感數(shù)據(jù)的不公平造成的歧視。
要解決這些問題,需要克服許多困難,面臨巨大的挑戰(zhàn)。雖然企業(yè)可以更加細(xì)致地去檢驗(yàn)他們的系統(tǒng)和流程,但是依然不能完全解決問題。通常數(shù)據(jù)驅(qū)動(dòng)的決策都比較隱蔽,即使產(chǎn)生威脅,也不會被輕易發(fā)現(xiàn)。
任何的領(lǐng)域都需要統(tǒng)一,但是大數(shù)據(jù)行業(yè)尚不能立法,因?yàn)榇髷?shù)據(jù)趨勢變化多端,無法掌握立法所面臨的全部背景。
業(yè)內(nèi)專家認(rèn)為,有必要在計(jì)算機(jī)課程中增加數(shù)據(jù)倫理教育,并且更改有歧視傾向的計(jì)算機(jī)程序。盡管不能完全解決問題,但也能起到一定的作用。
馬云說:“很多人還沒搞清楚什么是PC互聯(lián)網(wǎng),移動(dòng)互聯(lián)網(wǎng)來了,我們還沒搞清楚移動(dòng)互聯(lián)的時(shí)候,大數(shù)據(jù)時(shí)代又來了”。不管是喜是憂,大數(shù)據(jù)時(shí)代已經(jīng)降臨。
哈佛大學(xué)社會學(xué)教授加里?金說:“這是一場革命,龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開始了量化進(jìn)程,無論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進(jìn)程”?,F(xiàn)在的大數(shù)據(jù)領(lǐng)域正面臨一個(gè)轉(zhuǎn)折點(diǎn),努力的方向決定著其屬性的發(fā)展。我們應(yīng)該盡量消減其負(fù)面影響,讓大數(shù)據(jù)發(fā)揮其正面作用,從而更好地為人類服務(wù)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11