
涂子沛:“大數(shù)據(jù)時代很難做個隱形人”_數(shù)據(jù)分析師
涂子沛,江西吉安人,生于1973年。本科畢業(yè)于華中科技大學(xué)計算機系,研究生分別就讀于中山大學(xué)和卡內(nèi)基梅隆大學(xué)。現(xiàn)居美國硅谷。2012年其著作《大數(shù)據(jù):正在到來的數(shù)據(jù)革命》在中國社會開大數(shù)據(jù)之先河。
網(wǎng)上搜索涂子沛的資料,百度百科里關(guān)于他身份的介紹只有3個詞:信息技術(shù)經(jīng)理人、數(shù)據(jù)專家、自由撰稿人。對于一個研究大數(shù)據(jù)的人來說,其自身的數(shù)據(jù)怎么能這么少?在長安街西側(cè)中國職工之家的咖啡廳內(nèi),涂子沛笑著向環(huán)球人物雜志記者解釋:“每個人都有數(shù)據(jù),每個組織都有數(shù)據(jù)。差別在于,有些人的數(shù)據(jù)是死的,而另一些人的數(shù)據(jù)是活的?!?/span>
什么樣的數(shù)據(jù)是死的?涂子沛認(rèn)為,“沒有在線,沒有電子化,數(shù)據(jù)將無法被搜索、分析”,就是死的。而隨著科技的進步,人類所有的歷史記錄,無論是數(shù)字、文檔、圖片,還是音頻、視頻,都將以數(shù)據(jù)的形式存在。“數(shù)據(jù)就是靜態(tài)的歷史,歷史就是動態(tài)的數(shù)據(jù)?!?/span>
第一個寫大數(shù)據(jù)專著的中國人
2012年,涂子沛出版《大數(shù)據(jù):正在到來的數(shù)據(jù)革命》時,國內(nèi)才剛剛興起對大數(shù)據(jù)的討論。而這個概念,他已經(jīng)聽了將近20年。
1992年,涂子沛考入華中科技大學(xué)計算機科學(xué)專業(yè),從此與數(shù)據(jù)結(jié)緣。畢業(yè)后,他進入武警邊防部隊,設(shè)計了“中國第一套反偷渡系統(tǒng)”,據(jù)說這套系統(tǒng)前幾年還在用。之后的10年,涂子沛做過緝私艇指揮官、外經(jīng)貿(mào)局的公務(wù)員。2006年,他辭去公職赴美留學(xué),就讀于卡內(nèi)基梅隆大學(xué),獲信息技術(shù)碩士學(xué)位。
本科時,涂子沛就知道大數(shù)據(jù)浪潮。但那時候,因為網(wǎng)絡(luò)還不夠普及,數(shù)據(jù)信息對人們的生活影響甚微,這個概念也不受人關(guān)注。 2010年之后,大數(shù)據(jù)逐漸為人熟知,憑借多年的研究,涂子沛成了第一個寫大數(shù)據(jù)專著的中國人。2012年,他出版了《大數(shù)據(jù):正在到來的數(shù)據(jù)革命》。有評論認(rèn)為,這本書開啟了中國人對大數(shù)據(jù)的認(rèn)識。而他的新書《數(shù)據(jù)之巔》則從歷史的角度說明,對數(shù)據(jù)的理解和掌握是人類文明進步的標(biāo)志。
《數(shù)據(jù)之巔》分為兩個部分。第一部分以美國歷史為主線,展現(xiàn)了大數(shù)據(jù)文化是如何形成并深入人心的。第二部分,涂子沛詳細考證了大數(shù)據(jù)浪潮的來龍去脈,并結(jié)合3次工業(yè)革命分析了大數(shù)據(jù)對商業(yè)運營、社會治理的深遠影響。他認(rèn)為,更大的數(shù)據(jù)爆炸時代正在到來,大數(shù)據(jù)浪潮最終將引領(lǐng)人類社會邁進一個新的形態(tài)——智能型社會。
涂子沛2014年的新作《數(shù)據(jù)之巔》。
大數(shù)據(jù)是一場社會革命
環(huán)球人物雜志:讀您新書的最深印象是,它用數(shù)據(jù)解構(gòu)了歷史。能否解釋一下用數(shù)據(jù)描述的歷史和用文字描述的歷史有何不同?
涂子沛:文字描述的歷史當(dāng)然會更加鮮活,但數(shù)據(jù)描述的歷史更加精確。美國有一名數(shù)學(xué)家出身的總統(tǒng)詹姆斯·艾伯拉姆·加菲爾德(1880年當(dāng)選美國第二十任總統(tǒng)),他曾經(jīng)說過:“歷史學(xué)家只能給我們講述帝王將相以及戰(zhàn)爭的故事,但關(guān)于人民本身——我們龐大社會中每個生命的成長、各種力量、細節(jié)及其規(guī)律,他們說不出太多的東西?!钡珨?shù)據(jù)是對客觀世界的測量和記錄,包括社會方方面面以及每一個普通人的生活。用數(shù)據(jù)建構(gòu)的歷史,因為精確的細節(jié)而永遠鮮活,數(shù)據(jù)越豐富,后世的歷史學(xué)家也就越能經(jīng)由數(shù)據(jù)更好地再現(xiàn)當(dāng)時的社會。
環(huán)球人物雜志:大數(shù)據(jù)和傳統(tǒng)分析方式最大的不同在哪里?
涂子沛:說到這里,就要理解什么是大數(shù)據(jù)。大數(shù)據(jù)的特點絕對不是量大,而是多個源頭。不僅僅包括數(shù)字,還包括文字、音頻、視頻等。人類知識的來源就是對過去經(jīng)驗的記錄和整理,如果說傳統(tǒng)的數(shù)據(jù)是人類部分知識的來源,那隨著人類記錄范圍的不斷擴大,知識的邊界也在擴大,現(xiàn)代意義上的大數(shù)據(jù)將逐漸成為人類全部知識的來源。
另外,大量的、多元的數(shù)據(jù)匯集到一起可以更好地還原事實。人類在做決策的時候首先要從事實出發(fā),而當(dāng)所有決策都以數(shù)據(jù)為依據(jù)時,我們就必須達到一種“數(shù)據(jù)最優(yōu)”狀態(tài),靠精準(zhǔn)的記錄、計算和預(yù)測來推動社會發(fā)展。如果你不能達到這個狀態(tài),而別人達到了,那你就要出局。
環(huán)球人物雜志:人類進入大數(shù)據(jù)時代是一種必然嗎?
涂子沛:電子化是大數(shù)據(jù)的一個基本條件。我經(jīng)常用石油比喻大數(shù)據(jù)。石油早就埋在地下了,是因為有了開采石油的技術(shù)才進入了石油時代。大數(shù)據(jù)也一樣,數(shù)據(jù)自古就有,只是我們現(xiàn)在用電子化的手段能更好地使用它,獲得價值,這才進入了一個新的時代。
大數(shù)據(jù)時代會帶來很多變化,比如說反腐,現(xiàn)在我們說人人都有反腐力量,“表叔”楊達才的故事就是個鮮明的例子。在大數(shù)據(jù)時代,網(wǎng)友能從海量的網(wǎng)絡(luò)信息里查找到楊達才戴過那么多表的照片;而在小數(shù)據(jù)時代,這些資料沒有被記錄下來,也沒有途徑去發(fā)現(xiàn)。
環(huán)球人物雜志:大數(shù)據(jù)的概念會不會像現(xiàn)在的“互聯(lián)網(wǎng)思維”一樣,被大家過度消費了?現(xiàn)在做什么都言必稱“互聯(lián)網(wǎng)思維”,好像不提就落伍了。
涂子沛:不會。大數(shù)據(jù)不是一場技術(shù)革命,是一場思想革命、管理革命、社會革命。從商業(yè)的角度來講,大數(shù)據(jù)代表粗放的競爭開始向精細的競爭轉(zhuǎn)移。比如,2013年5月,加拿大蒙特利爾交通局宣布,將利用大數(shù)據(jù)處理平臺,對所有顧客的消費歷史和個人信息進行分析,然后按照其偏好、習(xí)慣和需求,量身定制消費計劃和個性化票價,目的就是優(yōu)化公共交通的運營。這就用大數(shù)據(jù)把消費和服務(wù)推向了一個高度個性化的時代。
隱私教育像性教育一樣重要
環(huán)球人物雜志:大數(shù)據(jù)難道沒有缺點和局限嗎?
涂子沛:沒有萬能的東西,我們也不能把大數(shù)據(jù)極端化。大數(shù)據(jù)有很多不靠譜的地方,但關(guān)鍵是,一個東西在你手里看你怎么去用。我在書里講了一個故事,北京師范大學(xué)有個女學(xué)生引起了校方的注意,因為從校方掌握的數(shù)據(jù)看,她每天吃飯都花很少的錢。學(xué)校于是發(fā)信給這個女學(xué)生,問:你是不是生活困難,沒有錢吃飯?而事實上那個女學(xué)生是在減肥。這就說明校方的數(shù)據(jù)源頭不夠多,沒有正確地反映事實。如果還能收集其它的數(shù)據(jù)互相印證,就不會有這種失誤了。
環(huán)球人物雜志:如果順著多方收集數(shù)據(jù)這個思路,提倡大數(shù)據(jù)是否會干涉普通人的隱私?
涂子沛:大數(shù)據(jù)關(guān)系到每個人的隱私、權(quán)利、資產(chǎn)。隱私大家都能理解。什么是權(quán)利呢?比如PM2.5,過去我們不知道這個概念,也不清楚數(shù)值,但在大數(shù)據(jù)的時代,每個人都要求有對此事的知情權(quán)。還有資產(chǎn),臉書網(wǎng)上的數(shù)據(jù)現(xiàn)在已可以買賣了,公司把數(shù)據(jù)賣給第三方,一個人的數(shù)據(jù)值14美元(約合87元人民幣)。還有很多公司愿意給你一些折扣和便利來換你的信用卡消費記錄,就是為了得到你的數(shù)據(jù)。
環(huán)球人物雜志:聽上去都是公司在謀利,個人能有什么好處?
涂子沛:購物網(wǎng)站向你推送的很多消息中,大部分是你需要的,如果它不推送,你根本不知道有這樣一件東西。而獲取你的數(shù)據(jù)越多,它的推送才能越準(zhǔn)。當(dāng)然,這也是雙刃劍。有些人在網(wǎng)上搜了一回棺材、壽衣,結(jié)果一連幾個月全收到這種廣告。
環(huán)球人物雜志:大數(shù)據(jù)時代有可能做個隱形人嗎?
涂子沛:很難,因為你的行為都被電子化并記錄下來。這些數(shù)據(jù)不在你這里,在別人那里。購物網(wǎng)站上有很多有趣的記錄,比如情人節(jié)時,上海最暢銷的是玫瑰花,而北京最暢銷的是安全套。這都是很隱私的東西?,F(xiàn)在家家都裝智能電表,它可以每分鐘讀表,你家里一開什么電器,它都知道。所以它能推算出你什么時候在家,什么時候做飯,什么時候看電視,你的行為它都清清楚楚,那你說還有隱私嗎?
環(huán)球人物雜志:那該怎么保護個人隱私?
涂子沛:隱私問題是整個大數(shù)據(jù)時代的挑戰(zhàn)。不少學(xué)者進行了研究,提出數(shù)據(jù)經(jīng)由第三方委托監(jiān)管、數(shù)據(jù)讀取匿名化等辦法。我認(rèn)為,未來的發(fā)展要把選擇權(quán)交給個人,是要這個服務(wù)呢,還是要保護隱私,讓個人來選擇。必須要有這層設(shè)計,通過法律讓商家制定一套技術(shù)來把選擇權(quán)交給消費者??梢钥隙?,下一代人,數(shù)據(jù)和隱私,將成為伴隨他們一生的話題。隱私教育從少兒就要開始,就像性教育一樣重要。
中國文化缺乏數(shù)據(jù)的因子
環(huán)球人物雜志:中美大數(shù)據(jù)應(yīng)用上有何差別?
涂子沛:差別很大。從工具層面上講,基本所有應(yīng)用工具都是外來的,中國連一款像樣的軟件都沒有。在理論層面,統(tǒng)計學(xué)等科學(xué)的起源都在西方,大數(shù)據(jù)本身也是美國人提出的一個概念。而在意識層面,中國文化也缺乏數(shù)據(jù)的因子。
環(huán)球人物雜志:您認(rèn)為這種差別的根源何在?
涂子沛:中國在歷史上缺乏這種數(shù)據(jù)文化。中國數(shù)學(xué)歷史學(xué)家張奠宙先生曾講過,古希臘的民主政治推動了數(shù)學(xué)的發(fā)展。在古希臘的政治環(huán)境下,要想證明自身觀點的正確性,需要在平等的基礎(chǔ)上,用充分的理由說服對方,反映在學(xué)術(shù)上,就是“證明”。歐幾里得的名作《幾何原本》就是在這樣的背景下產(chǎn)生的。相比之下,中國歷史上數(shù)學(xué)家的工作則主要是丈量田畝、興修水利、計算稅收等,是“管理數(shù)學(xué)”和“木匠數(shù)學(xué)”,缺乏抽象的數(shù)學(xué)思維。
環(huán)球人物雜志:您在書中說,試圖在中國把數(shù)據(jù)從科技符號轉(zhuǎn)變?yōu)槲幕?,二者的區(qū)別是什么?
涂子沛:科技符號當(dāng)然是讓人產(chǎn)生科技聯(lián)想的,比如二氧化碳的化學(xué)符號,你一看就知道說的是這個東西。文化符號不一樣,它和每個人息息相關(guān),看不見但卻深深影響你。比如一說龍就想到中國、炎黃子孫。大數(shù)據(jù)變成文化符號以后,每個人就會更傾向于用數(shù)據(jù)解決問題。舉個簡單的例子,在餐廳吃飯,老有人抱怨“都來這么久了,菜怎么還沒上?”“久”是多長時間,每個人標(biāo)準(zhǔn)不同,其實他可能才來了10分鐘。
對大數(shù)據(jù)的認(rèn)識和使用,我們已經(jīng)起步晚了。未來在這方面,政府應(yīng)該發(fā)揮主導(dǎo)作用,首先在公共領(lǐng)域推行數(shù)據(jù)治國的理念,力爭在全社會形成“用數(shù)據(jù)說話、用數(shù)據(jù)管理、用數(shù)據(jù)決策、用數(shù)據(jù)創(chuàng)新”的文化氛圍和時代特點。數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗證損失驟升:機器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11