
大數(shù)據(jù)時代你我都是透明人_數(shù)據(jù)分析師
網(wǎng)絡(luò)海量數(shù)據(jù)讓監(jiān)控輕而易舉
早期互聯(lián)網(wǎng)本身,就是在美國國防先進(jìn)研究計(jì)劃內(nèi)研發(fā)出來的,在上世紀(jì)90年代互聯(lián)網(wǎng)大規(guī)模商業(yè)化應(yīng)用之前,美國政府一直掌控著網(wǎng)絡(luò)的控制權(quán)。作為信息時代的幕后推手,美國政府從未將全球信息網(wǎng)絡(luò)當(dāng)做單純的商業(yè)空間,而是特別重視其在國家政治和安全領(lǐng)域的利用價值?!袄忡R”計(jì)劃不過是延續(xù)了冷戰(zhàn)以來美國國安局全面監(jiān)聽國內(nèi)外通訊的傳統(tǒng),將其進(jìn)一步延伸到數(shù)據(jù)空間而已。
十年前出國,你也許會聽到這樣的建議:在給國內(nèi)親友打電話時,電話中最好插一些涉及彈道導(dǎo)彈、核潛艇之類的軍事敏感詞。作為對個人隱私權(quán)遭受侵犯的抗議,如果所有普通人都在電話中夾雜一些容易被注意到的關(guān)鍵詞,會增加那些情報(bào)監(jiān)聽機(jī)構(gòu)的工作量,增加其成本,最終獲得干擾對方監(jiān)聽的效果。
如今,隨著計(jì)算機(jī)運(yùn)算和存儲能力的提升,以及相應(yīng)成本的下降,網(wǎng)絡(luò)化計(jì)算能力得到指數(shù)倍的提升。時下,隨便哪個網(wǎng)站都可能需要處理數(shù)量巨大的在線數(shù)據(jù),例如,當(dāng)你使用谷歌在線翻譯,尋找英語單詞“l(fā)ight”是該翻譯成中文的“光”還是“輕”時,一瞬間谷歌就會檢索數(shù)十億頁的翻譯資料。
這個世界每年所創(chuàng)造的數(shù)據(jù)量正在以指數(shù)形式增長,去年,這一數(shù)字則達(dá)到了2.8ZB(1ZB=10244GB),聽起來很可怕吧?據(jù)知名信息行業(yè)咨詢服務(wù)商IDC稱,這一數(shù)字將在2015年翻一番。此外,這些數(shù)據(jù)中的3/4是由個人在創(chuàng)造或移動數(shù)字文件時貢獻(xiàn)的。
舉例來說,一個標(biāo)準(zhǔn)的美國“上班族”每年可以貢獻(xiàn)180萬MB的數(shù)據(jù)量,平均每天有約5000MB,其中包括下載的電影、文檔、電郵以及這些數(shù)據(jù)通過移動或非移動互聯(lián)網(wǎng)傳播時所產(chǎn)生的附加數(shù)據(jù)量。
在這種龐大的運(yùn)算能力面前,此前似乎像散沙一樣不具備任何關(guān)聯(lián)性的海量數(shù)據(jù)得到了有效處理。面對一個個體生活不斷被互聯(lián)網(wǎng)信息化高度整合,甚至裹挾和綁架的時代,暫且不去討論大數(shù)據(jù)技術(shù)是否會淪為一個專制的惡政府的可怕工具,即便一個民主政體出于一個好的目的,但是,你永遠(yuǎn)無法判斷結(jié)果的好壞,因?yàn)槟Ч碛肋h(yuǎn)用一個好的理由將人們帶向地獄?!袄忡R”事件折射出的對個人隱私權(quán)的漠視,似乎正成為一個可怕結(jié)果的開始。
大數(shù)據(jù)可預(yù)測80周后你可能到達(dá)的位置
斯諾登揭露的“棱鏡”項(xiàng)目的重要特征是美國的“政商協(xié)作”。這種協(xié)作既包括政府購買服務(wù)(政府訂單和服務(wù)外包),也包括企業(yè)自愿或服從政府要求提供服務(wù),以獲取政府信任和政商互動(如人員流轉(zhuǎn))?!袄忡R”項(xiàng)目暴露出的戰(zhàn)略與技術(shù)咨詢提供商博思艾倫和與政府合作的九大互聯(lián)網(wǎng)公司,也是在此政商協(xié)作模式下工作的。
很明顯,美國政府與企業(yè)的數(shù)據(jù)情報(bào)合作是互惠性的。一方面,美國的互聯(lián)網(wǎng)大企業(yè)本身具有巨大的技術(shù)和資本優(yōu)勢,可以彌補(bǔ)政府開支的局限性,并增強(qiáng)國家情報(bào)的儲存和分析能力;另一方面,國家安全局為快速發(fā)現(xiàn)潛在可用情報(bào)而研發(fā)的最新算法和培養(yǎng)的新人才,可以反過來被高科技資本迅速利用,從而保持美國公司在全球信息技術(shù)領(lǐng)域的領(lǐng)先性。
Facebook已經(jīng)可以實(shí)現(xiàn)對個人信息收集的自動化與實(shí)時化,其首次公開募股時的財(cái)務(wù)檔案顯示,Facebook上每位用戶的圖片和視頻資料數(shù)據(jù)量約為111MB,而Facebook的用戶數(shù)如今已經(jīng)超過了10億,這可是整整100PB(1PB=10242GB)的個人信息數(shù)據(jù)。這意味著,可以獲得的個人數(shù)據(jù)量越多,其中的信息量就越大。只要擁有了足夠多的數(shù)據(jù),我們甚至可能發(fā)現(xiàn)關(guān)于一個人的未來信息。去年,來自美國羅徹斯特大學(xué)的亞當(dāng)·薩迪克和來自微軟實(shí)驗(yàn)室的工程師約翰·克拉姆發(fā)現(xiàn)他們可以大致預(yù)測一個人未來可能到達(dá)的位置,最多可以預(yù)測到80周后,其準(zhǔn)確度高達(dá)80%。為此,他們收集了32000天里307個人和396輛車的GPS數(shù)據(jù)并建造了一個“大規(guī)模數(shù)據(jù)集”。
根據(jù)斯諾登提供的信息,美國國安局擁有的正是一套基于大數(shù)據(jù)的新型情報(bào)收集系統(tǒng),這套名為“無界爆料”的系統(tǒng),以30天為周期,可以從全球網(wǎng)絡(luò)系統(tǒng)中接收到970億條訊息,再通過比對信用卡或者通訊記錄等方式,能幾近真實(shí)地還原個人的實(shí)時狀況。
隨著數(shù)據(jù)越來越詳盡,數(shù)據(jù)挖掘和解讀的技術(shù)不斷提高,哪怕是個人生活最隱秘的部分也越來越趨于透明化。事實(shí)上,我們可以直接說數(shù)字化生存在很大程度上就是透明化生存,而且是透明化的程度在不斷地提高。隨著數(shù)據(jù)采集取樣越來越趨于詳實(shí),對個人和群體行為趨勢的預(yù)判越來越準(zhǔn)確。
潛在危險(xiǎn)需要監(jiān)督制約
相比網(wǎng)絡(luò)之前的時代,時下的數(shù)據(jù)分析能力得到了空前的提升,但誰能保障大數(shù)據(jù)分析的準(zhǔn)確性呢?我們可以回過頭去,看看電腦是如何得出這個結(jié)果的,或許可以查閱一下硬盤上的數(shù)據(jù),或許可以檢查一下一兩個程序代碼,來判斷其邏輯是否有誤。但在大數(shù)據(jù)時代,因?yàn)榇髷?shù)據(jù)算法和結(jié)構(gòu)太過復(fù)雜,從外部沒有人能夠追溯錯誤的源頭。
維克多·梅耶·松博格與肯尼迪·古奇爾在他們合著的《大數(shù)據(jù):改變我們生活、工作、思考的革命》一書中,記錄了這樣一件事:在2004年美國國家安全局依賴大數(shù)據(jù)系統(tǒng),自動分析生成了一張禁止飛行的危險(xiǎn)人物名單,但這一名單錯誤百出,甚至美國參議員也赫然在列。幸虧國家安全局一名算法師從內(nèi)部阻止了這張名單生效。
在這個故事中,我們可以看到大數(shù)據(jù)出錯的風(fēng)險(xiǎn)。在沒有有效的保障下,大數(shù)據(jù)分析系統(tǒng)可能變成一個不可說明、不可追蹤,甚至不可信的黑匣子。在這種情況下,大數(shù)據(jù)和政府治理一旦密切聯(lián)姻,可能將產(chǎn)生無數(shù)的受害者。試想一下,誰能真正保證“棱鏡”計(jì)劃制止的恐怖分子不會有錯誤呢?
在西方,消費(fèi)者信息監(jiān)控已經(jīng)發(fā)展為一項(xiàng)規(guī)模達(dá)幾十億美元的產(chǎn)業(yè),其中的企業(yè)基本不受什么監(jiān)管,即使是有影響力的人物的個人信息,其賣價通常都不會超過一美元。在這種力量不平衡之下,手中掌握著更強(qiáng)大的數(shù)據(jù)分析能力的大公司以及更強(qiáng)大的政府,就擁有了自由利用這些信息而不受監(jiān)督的能力。
顯然,“棱鏡”折射出了這一潛在的危險(xiǎn)。大數(shù)據(jù)時代的到來,要求我們必須建立一套新的監(jiān)督制衡機(jī)制來規(guī)范政府行為,建立一個更加開放的社會治理環(huán)境來減少大數(shù)據(jù)錯誤的危害。
在大數(shù)據(jù)時代之前,民眾可以以保密的方式來保護(hù)隱私,但今天人們在不知不覺間就透露了隱私。這就要求那些保存和管理信息的企業(yè)承擔(dān)更大的責(zé)任,這應(yīng)該成為一種新的隱私保護(hù)模式:政府不應(yīng)假定消費(fèi)者在使用企業(yè)的通訊工具等產(chǎn)品時主動透露了自己的隱私,就意味著他們授權(quán)企業(yè)使用這些隱私。力量越大責(zé)任也越大,現(xiàn)在是那些掌控大數(shù)據(jù)的大企業(yè)和政府負(fù)起責(zé)任,構(gòu)建一張更完善的安全網(wǎng)的時候了。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實(shí)戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會遇到需要整合多張表數(shù)據(jù)的場景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動的時代,面對海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時用t.test,何時用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08