
愛德華?斯諾登曝光NSA監(jiān)聽之后,喬治?奧威爾著作《1984》的銷量都增加了。就目前的情況來說,即使人們不喜歡老大哥在監(jiān)視自己,也要準備好接受隱私被冒犯的代價,來換得安全保障。
那么“大數(shù)據(jù)”會怎么樣?快速增長的個人數(shù)據(jù)掌握在公司們手中,它們使用新型的數(shù)據(jù)分析和人工智能技術(shù)來改進自己的產(chǎn)品和服務(wù),預(yù)測顧客的需求。谷歌首席執(zhí)行官拉里?佩奇(Larry Page)描述他心目中理想的科技形態(tài)是“一個真正智能的助理,能夠幫人類去做事,我們就不必再費腦筋”。
試想一下居住在虛擬的唐頓莊園(Downton Abbey)里,有一臺電腦幫你安排一天的計劃,給出旅行的最佳路線建議、可能想要觀看的影片和最適宜搭乘的航班——甚至幫你訂票——這的確有誘惑力。我們都在趕時間,想要一個簡單輕松的生活。只要不被信息轟炸或是迫失選擇,有個私人助理服務(wù)還是不錯的。
但是NSA監(jiān)聽事件讓所有人大吃一驚,雖然監(jiān)聽計劃已經(jīng)存在60年了,我懷疑許多人是否能明白他們每天制造的數(shù)據(jù)量有多大,或者是否了解如今科技發(fā)展到怎樣的程度——一小撮大數(shù)據(jù)公司已經(jīng)在進行數(shù)據(jù)挖掘??萍及l(fā)展得太快,兩年前還認為是不可能的事情如今已經(jīng)十分平常了。
“未來既令人激動又讓人恐懼。擁有海量數(shù)據(jù)的公司們甚至要比你還要了解你自己。它們能預(yù)測你下面可能做什么,”李開復(fù)說。他是Google中國的前任CEO,目前在北京做投資。
上周我在一篇專欄文章里將谷歌與19世紀的通用電氣進行了比較——這是一家創(chuàng)新的工業(yè)公司,借助了在新技術(shù)潮流發(fā)展的力量。不利的一面是谷歌、亞馬遜、微軟以及其他科技巨頭正在積累自己的力量,需要小心翼翼地控制。
NSA和大數(shù)據(jù)公司將它們的數(shù)據(jù)庫和計算能力用在了不同的地方——一個是發(fā)現(xiàn)間諜和恐怖分子,一個是為用戶匹配服務(wù)。它們對大規(guī)模數(shù)據(jù)庫的使用有相似之處,比如模式識別和網(wǎng)絡(luò)分析等等。
更進一步來看,這涉及到人工智能技術(shù),比如在用戶輸入關(guān)鍵詞時分析搜索的目的、實時將演講翻譯成另外一種語言(像微軟去年在中國演示的那樣)、通過讀取上千張圖像去學(xué)習(xí)分辨一只貓的照片。
計算機學(xué)習(xí)人類趨同行為的能力被稱作是“深度學(xué)習(xí)(deep learning)”,值得注意的是谷歌已經(jīng)聘請了該領(lǐng)域的幾位前沿學(xué)者,其中就包括科學(xué)家、作家雷?庫茲韋爾(Ray Kurzweil)。NSA向美國私人公司開放的技術(shù)轉(zhuǎn)讓中就有“領(lǐng)先的機器學(xué)習(xí)技術(shù)”。
這種軟件可以從信息碎片中預(yù)測許多東西,只要碎片足夠多就可以,好像NSA從運營商Verizon那里獲取電話撥叫元數(shù)據(jù)并對其分析一樣??偨y(tǒng)奧巴馬向美國公民保證“沒人在竊聽你的電話”,但是只要撥叫紀錄就足夠了。
哈佛大學(xué)教授拉坦婭?斯威妮(Latanya Sweeney)的一項研究表明,有87%的人在獲知年齡、性別和郵政編碼的情況下能夠被確認身份,只要在公開數(shù)據(jù)庫里交叉確認(cross-checked)就可以。這恰恰是社交網(wǎng)絡(luò)和互聯(lián)網(wǎng)公司通常所收集的數(shù)據(jù)。
大數(shù)據(jù)公司的驚人能力來自一點,它們可以將顧客的個人數(shù)據(jù)進行整合,其中就涵蓋購買的何種商品、位置在哪里(由移動電話的GPS搜集)。由此生成一組有關(guān)顧客意圖的“推測數(shù)據(jù)(inferred data)”。
舉例說明,如果我在印度時用安卓手機搜索“泰姬陵”,谷歌會優(yōu)先顯示北方邦(Uttar Pradesh)的神廟結(jié)果。如果我在倫敦東部的布里克街(Brick Lane),則會返回本地的孟加拉風味餐廳結(jié)果?;谖业脑u價紀錄提供餐館預(yù)訂服務(wù)也就不難實現(xiàn)了。
從一方面來說,如果確實做到這一點(只要是一家好餐廳)我會很高興,因為能夠節(jié)省我的一些操作。從另一方面來看,正如世界經(jīng)濟論壇關(guān)于個人數(shù)據(jù)的報告里所講:“預(yù)測數(shù)據(jù)給人感覺好像無所不知的老大哥在盯著監(jiān)控錄像一樣。”
其中引發(fā)的擔憂之一是掌握這種軟件能力的大數(shù)據(jù)公司很難與之抗衡。我和其他用戶提供的數(shù)據(jù)越多,它們對我們意圖的預(yù)測就越準確。機器大腦越用越精明。
另外一個和信任有關(guān)。社交網(wǎng)絡(luò)在保護用戶數(shù)據(jù)方面做得很差,它們只擁有一小片段涉及用戶行為、習(xí)慣和意愿的信息。很明顯為什么NSA會把社交網(wǎng)絡(luò)作為目標——NSA有計算能力,他們需要數(shù)據(jù)原料。
第三點是所有權(quán)的問題。我們都對自己的信息享有一定的權(quán)利。但是這些信息和其他人的信息被整合到一個大規(guī)模的意愿數(shù)據(jù)庫中,情況會有什么變化?如果我改變主意,如何讓信息恢復(fù)原狀?
最重要的一點,我們不知道這種技術(shù)意味著什么,因為我們還處于大數(shù)據(jù)時代的初級階段。誠然大數(shù)據(jù)有許多地方令人傾佩,但是需要一些時間讓人們愛上它。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10