
大數(shù)據(jù)之惡:你的選擇已被它左右
零幾年互聯(lián)網(wǎng)科技行業(yè)的口號是“互聯(lián)網(wǎng)+”,而到了現(xiàn)在這個周期,業(yè)內(nèi)的口號應(yīng)該就是“大數(shù)據(jù)+”了。
隨著各方互聯(lián)網(wǎng)科技企業(yè)的不斷科普并推出相關(guān)應(yīng)用,很多人會以為大數(shù)據(jù)就像那些科技互聯(lián)網(wǎng)企業(yè)宣傳的一般美好——早上起床,它會幫你挑選最近人氣最高的時令早餐;
上班通勤,它能通過實時交通數(shù)據(jù)分析給你指出一條最通暢的出行路線;‘
周末看電影,它也能向你推薦目前票房口碑最佳的電影……我們生活中的許多情景都將因為大數(shù)據(jù)的普及而變得更加便利。
【劍橋分析,撕碎了一眾同行營造的美夢】
雖然企業(yè)們描繪出的大數(shù)據(jù)改變未來的藍圖很美,但實際上大數(shù)據(jù)作為一種工具,本身是不存在好惡的。也就是說,雖然我們確實親眼看到了大數(shù)據(jù)正在為我們的生活提供各種服務(wù),但在我們平時看不到的地方,也有人正借此技術(shù)作惡,其中典型,便是將臉書推上風(fēng)口浪尖的劍橋分析(Cambridge
Analytica)。
此前,英國第4頻道新聞的臥底調(diào)查,曝光劍橋分析存在假借學(xué)術(shù)研究的名義,竊取約5000萬名臉書用戶個人資料,并涉嫌利用數(shù)據(jù)分析結(jié)果精準推送政治廣告,從而影響用戶的判斷和思想,并左右美國總統(tǒng)的選舉。盡管劍橋分析此前一直強調(diào)自己是“合法使用”臉書數(shù)據(jù),但隨著媒體的不斷追問,劍橋分析最終在聲明中承認“確實為特朗普競選提供了調(diào)查、數(shù)據(jù)分析和數(shù)字營銷等服務(wù)”。
不過,劍橋數(shù)據(jù)到底是怎么操作的呢?讓我們來舉一個安全的例子,如果你是一個葷素不忌的潛水愛好者,現(xiàn)在有個賣素食沙拉的公司聯(lián)手劍橋分析要讓你吃素,那么劍橋分析首先會通過你的一系列數(shù)據(jù)發(fā)現(xiàn)你的喜好,然后向你推送“素食對潛水更好”的文章或廣告,或者放出一些“震驚,吃完肉潛水竟然會……”之類的文章,潛移默化地讓你接受“素食對你更好”的觀念,進而影響你的飲食習(xí)慣——而根據(jù)外媒的跟進報道,劍橋數(shù)據(jù)很可能將這種推廣模式用在了干擾政治大選上。
在劍橋數(shù)據(jù)的事件爆發(fā)后,美英兩國的相關(guān)機構(gòu)接入調(diào)查,劍橋分析的CEO隨后便被暫停職務(wù)。在英國當(dāng)?shù)厥录局苋瑒蚍治鲂计渑c英國母公司SCL選舉公司(SCL
Elections
Ltd)正在關(guān)停業(yè)務(wù),同時宣告破產(chǎn)。與此同時,被卷入風(fēng)波的臉書也正在接受美國聯(lián)邦貿(mào)易委員會(FTC)的調(diào)查,并會在未來一段時間內(nèi)評估臉書的隱私保護措施是否違反了2011年的和解令(consent
decree)。
【不只是玩政治,電影票房也不放過】
雖然這場大數(shù)據(jù)風(fēng)波爆發(fā)于海外,但也讓國內(nèi)不少網(wǎng)友心有戚戚焉,因為其中提達到的通過大數(shù)據(jù)影響廣告推送這點,在我們的網(wǎng)絡(luò)生活中也是再常見不過的事情了。比如最近備受爭議的電影刷票事件,其實正是一起大數(shù)據(jù)干擾行業(yè)的典型事件。
在剛剛過去的五一假期,憑借一首《后來》紅遍大江南北的“奶茶”劉若英,這次執(zhí)導(dǎo)的電影《后來的我們》成為不少觀影者假日的首選。但是在上映先不說口碑如何,各大院線先開始曝光影片“開場前出現(xiàn)大量集中退票情況”,隨后貓眼淘票票相繼發(fā)布聲明公告表示可能存在“刷屏并退票”的現(xiàn)象,甚至連國家電影局都被驚動,初步認定“該影片退票情況確有異?!?。
可能網(wǎng)友還不明白,這買票又退票的操作怎么了嗎?退了票也算不上票房了,能產(chǎn)生什么影響?微博上的一家自媒體@電影票房
點出了背后的玄機,簡單來說,龐大的預(yù)售額假數(shù)據(jù)會給片方錯誤的數(shù)據(jù)原始資料,從而提高或降低相關(guān)影片的排片,從而干擾后續(xù)觀影者的選擇——當(dāng)你抱著隨便看點什么的心態(tài)在大中午的進入附近的電影院,看到A影片幾乎全天播放,而B影片只有早場,這時你的選擇也就只有A影片了。
而這次提到的《后來的我們》,因為預(yù)售的火爆,使得各大院線在五一期間給它的排片量幾乎達到50%,也就是說假期里電影院里一半的電影廳都在循環(huán)播放《后來的我們》,這就使得后續(xù)進場的觀眾在選片時會有更大幾率選擇該片。等到上映日當(dāng)天原本虛假的預(yù)售退票時,相關(guān)的排片已經(jīng)既定,院線既承擔(dān)了預(yù)售退票,又被“綁架排片”,所以才有了上面提到的曝光、公告,以及調(diào)查情況。
【面對大數(shù)據(jù),我們真的這么弱小、可憐,又無助嗎?】
大到政治競選,小到觀影選擇,大數(shù)據(jù)在互聯(lián)網(wǎng)時代對人們生活的影響還在逐漸深入,這也讓很多網(wǎng)友開始恐慌,如何保護我們的數(shù)據(jù),或者讓我們不要為虛假的大數(shù)據(jù)所騙呢?既然大數(shù)據(jù)作惡是伴隨著科技發(fā)展產(chǎn)生的問題,自然也需要借助科技的力量來解決。
比如說用戶數(shù)據(jù)基數(shù)比臉書大得多的搜索引擎谷歌,它為了防范用戶數(shù)據(jù)泄露,強推https通道。所謂https,即是強化了安全的http,一般用于信息敏感的通訊或者交易支付等方面?,F(xiàn)在我們打開瀏覽器會在網(wǎng)址欄看到http和https兩種開頭,在一些瀏覽器里而這使用體驗并無不同,但是谷歌瀏覽器會在用戶登錄http通道頁面時,自動彈窗告知你相關(guān)頁面并不“安全”,而此舉意在從根源上保護你的數(shù)據(jù)不會輕易泄露給“分析公司”。
而這次出現(xiàn)的的疑似刷屏事件,也讓淘票票專業(yè)版有了在新版本中推出新功能“票房異動預(yù)警”功能的打算,新功能將包括退改簽、場次鎖定、想看數(shù)據(jù)、上座率等數(shù)據(jù)的異動預(yù)警。據(jù)悉,目前這一功能本來只是在規(guī)劃中,但由于相關(guān)事件引發(fā)行業(yè)迫切需求,所以將辛苦程序員小哥提前開發(fā)完成。而這一舉動的意義在于,出現(xiàn)了虛假數(shù)據(jù)干擾市場判斷時能即時預(yù)警,盡早干預(yù),讓市場回歸正常。
所以說,對于大數(shù)據(jù)這項技術(shù),我們既不用對它抱有太多美好的幻想,認為它天真善良,也不必對它飽含敵意,處處提防。技術(shù)本無罪,我們需要規(guī)范的,是使用技術(shù)的人,這點除了靠企業(yè)自覺性和社會責(zé)任感,要從根本上解決,還需要相關(guān)法律法規(guī)的及時跟進。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10