
涂子沛:“大數(shù)據(jù)時代很難做個隱形人”_數(shù)據(jù)分析師
涂子沛,江西吉安人,生于1973年。本科畢業(yè)于華中科技大學(xué)計算機系,研究生分別就讀于中山大學(xué)和卡內(nèi)基梅隆大學(xué)?,F(xiàn)居美國硅谷。2012年其著作《大數(shù)據(jù):正在到來的數(shù)據(jù)革命》在中國社會開大數(shù)據(jù)之先河。
網(wǎng)上搜索涂子沛的資料,百度百科里關(guān)于他身份的介紹只有3個詞:信息技術(shù)經(jīng)理人、數(shù)據(jù)專家、自由撰稿人。對于一個研究大數(shù)據(jù)的人來說,其自身的數(shù)據(jù)怎么能這么少?在長安街西側(cè)中國職工之家的咖啡廳內(nèi),涂子沛笑著向環(huán)球人物雜志記者解釋:“每個人都有數(shù)據(jù),每個組織都有數(shù)據(jù)。差別在于,有些人的數(shù)據(jù)是死的,而另一些人的數(shù)據(jù)是活的?!?/span>
什么樣的數(shù)據(jù)是死的?涂子沛認為,“沒有在線,沒有電子化,數(shù)據(jù)將無法被搜索、分析”,就是死的。而隨著科技的進步,人類所有的歷史記錄,無論是數(shù)字、文檔、圖片,還是音頻、視頻,都將以數(shù)據(jù)的形式存在?!皵?shù)據(jù)就是靜態(tài)的歷史,歷史就是動態(tài)的數(shù)據(jù)。”
第一個寫大數(shù)據(jù)專著的中國人
2012年,涂子沛出版《大數(shù)據(jù):正在到來的數(shù)據(jù)革命》時,國內(nèi)才剛剛興起對大數(shù)據(jù)的討論。而這個概念,他已經(jīng)聽了將近20年。
1992年,涂子沛考入華中科技大學(xué)計算機科學(xué)專業(yè),從此與數(shù)據(jù)結(jié)緣。畢業(yè)后,他進入武警邊防部隊,設(shè)計了“中國第一套反偷渡系統(tǒng)”,據(jù)說這套系統(tǒng)前幾年還在用。之后的10年,涂子沛做過緝私艇指揮官、外經(jīng)貿(mào)局的公務(wù)員。2006年,他辭去公職赴美留學(xué),就讀于卡內(nèi)基梅隆大學(xué),獲信息技術(shù)碩士學(xué)位。
本科時,涂子沛就知道大數(shù)據(jù)浪潮。但那時候,因為網(wǎng)絡(luò)還不夠普及,數(shù)據(jù)信息對人們的生活影響甚微,這個概念也不受人關(guān)注。 2010年之后,大數(shù)據(jù)逐漸為人熟知,憑借多年的研究,涂子沛成了第一個寫大數(shù)據(jù)專著的中國人。2012年,他出版了《大數(shù)據(jù):正在到來的數(shù)據(jù)革命》。有評論認為,這本書開啟了中國人對大數(shù)據(jù)的認識。而他的新書《數(shù)據(jù)之巔》則從歷史的角度說明,對數(shù)據(jù)的理解和掌握是人類文明進步的標志。
《數(shù)據(jù)之巔》分為兩個部分。第一部分以美國歷史為主線,展現(xiàn)了大數(shù)據(jù)文化是如何形成并深入人心的。第二部分,涂子沛詳細考證了大數(shù)據(jù)浪潮的來龍去脈,并結(jié)合3次工業(yè)革命分析了大數(shù)據(jù)對商業(yè)運營、社會治理的深遠影響。他認為,更大的數(shù)據(jù)爆炸時代正在到來,大數(shù)據(jù)浪潮最終將引領(lǐng)人類社會邁進一個新的形態(tài)——智能型社會。
涂子沛2014年的新作《數(shù)據(jù)之巔》。
大數(shù)據(jù)是一場社會革命
環(huán)球人物雜志:讀您新書的最深印象是,它用數(shù)據(jù)解構(gòu)了歷史。能否解釋一下用數(shù)據(jù)描述的歷史和用文字描述的歷史有何不同?
涂子沛:文字描述的歷史當(dāng)然會更加鮮活,但數(shù)據(jù)描述的歷史更加精確。美國有一名數(shù)學(xué)家出身的總統(tǒng)詹姆斯·艾伯拉姆·加菲爾德(1880年當(dāng)選美國第二十任總統(tǒng)),他曾經(jīng)說過:“歷史學(xué)家只能給我們講述帝王將相以及戰(zhàn)爭的故事,但關(guān)于人民本身——我們龐大社會中每個生命的成長、各種力量、細節(jié)及其規(guī)律,他們說不出太多的東西?!钡珨?shù)據(jù)是對客觀世界的測量和記錄,包括社會方方面面以及每一個普通人的生活。用數(shù)據(jù)建構(gòu)的歷史,因為精確的細節(jié)而永遠鮮活,數(shù)據(jù)越豐富,后世的歷史學(xué)家也就越能經(jīng)由數(shù)據(jù)更好地再現(xiàn)當(dāng)時的社會。
環(huán)球人物雜志:大數(shù)據(jù)和傳統(tǒng)分析方式最大的不同在哪里?
涂子沛:說到這里,就要理解什么是大數(shù)據(jù)。大數(shù)據(jù)的特點絕對不是量大,而是多個源頭。不僅僅包括數(shù)字,還包括文字、音頻、視頻等。人類知識的來源就是對過去經(jīng)驗的記錄和整理,如果說傳統(tǒng)的數(shù)據(jù)是人類部分知識的來源,那隨著人類記錄范圍的不斷擴大,知識的邊界也在擴大,現(xiàn)代意義上的大數(shù)據(jù)將逐漸成為人類全部知識的來源。
另外,大量的、多元的數(shù)據(jù)匯集到一起可以更好地還原事實。人類在做決策的時候首先要從事實出發(fā),而當(dāng)所有決策都以數(shù)據(jù)為依據(jù)時,我們就必須達到一種“數(shù)據(jù)最優(yōu)”狀態(tài),靠精準的記錄、計算和預(yù)測來推動社會發(fā)展。如果你不能達到這個狀態(tài),而別人達到了,那你就要出局。
環(huán)球人物雜志:人類進入大數(shù)據(jù)時代是一種必然嗎?
涂子沛:電子化是大數(shù)據(jù)的一個基本條件。我經(jīng)常用石油比喻大數(shù)據(jù)。石油早就埋在地下了,是因為有了開采石油的技術(shù)才進入了石油時代。大數(shù)據(jù)也一樣,數(shù)據(jù)自古就有,只是我們現(xiàn)在用電子化的手段能更好地使用它,獲得價值,這才進入了一個新的時代。
大數(shù)據(jù)時代會帶來很多變化,比如說反腐,現(xiàn)在我們說人人都有反腐力量,“表叔”楊達才的故事就是個鮮明的例子。在大數(shù)據(jù)時代,網(wǎng)友能從海量的網(wǎng)絡(luò)信息里查找到楊達才戴過那么多表的照片;而在小數(shù)據(jù)時代,這些資料沒有被記錄下來,也沒有途徑去發(fā)現(xiàn)。
環(huán)球人物雜志:大數(shù)據(jù)的概念會不會像現(xiàn)在的“互聯(lián)網(wǎng)思維”一樣,被大家過度消費了?現(xiàn)在做什么都言必稱“互聯(lián)網(wǎng)思維”,好像不提就落伍了。
涂子沛:不會。大數(shù)據(jù)不是一場技術(shù)革命,是一場思想革命、管理革命、社會革命。從商業(yè)的角度來講,大數(shù)據(jù)代表粗放的競爭開始向精細的競爭轉(zhuǎn)移。比如,2013年5月,加拿大蒙特利爾交通局宣布,將利用大數(shù)據(jù)處理平臺,對所有顧客的消費歷史和個人信息進行分析,然后按照其偏好、習(xí)慣和需求,量身定制消費計劃和個性化票價,目的就是優(yōu)化公共交通的運營。這就用大數(shù)據(jù)把消費和服務(wù)推向了一個高度個性化的時代。
隱私教育像性教育一樣重要
環(huán)球人物雜志:大數(shù)據(jù)難道沒有缺點和局限嗎?
涂子沛:沒有萬能的東西,我們也不能把大數(shù)據(jù)極端化。大數(shù)據(jù)有很多不靠譜的地方,但關(guān)鍵是,一個東西在你手里看你怎么去用。我在書里講了一個故事,北京師范大學(xué)有個女學(xué)生引起了校方的注意,因為從校方掌握的數(shù)據(jù)看,她每天吃飯都花很少的錢。學(xué)校于是發(fā)信給這個女學(xué)生,問:你是不是生活困難,沒有錢吃飯?而事實上那個女學(xué)生是在減肥。這就說明校方的數(shù)據(jù)源頭不夠多,沒有正確地反映事實。如果還能收集其它的數(shù)據(jù)互相印證,就不會有這種失誤了。
環(huán)球人物雜志:如果順著多方收集數(shù)據(jù)這個思路,提倡大數(shù)據(jù)是否會干涉普通人的隱私?
涂子沛:大數(shù)據(jù)關(guān)系到每個人的隱私、權(quán)利、資產(chǎn)。隱私大家都能理解。什么是權(quán)利呢?比如PM2.5,過去我們不知道這個概念,也不清楚數(shù)值,但在大數(shù)據(jù)的時代,每個人都要求有對此事的知情權(quán)。還有資產(chǎn),臉書網(wǎng)上的數(shù)據(jù)現(xiàn)在已可以買賣了,公司把數(shù)據(jù)賣給第三方,一個人的數(shù)據(jù)值14美元(約合87元人民幣)。還有很多公司愿意給你一些折扣和便利來換你的信用卡消費記錄,就是為了得到你的數(shù)據(jù)。
環(huán)球人物雜志:聽上去都是公司在謀利,個人能有什么好處?
涂子沛:購物網(wǎng)站向你推送的很多消息中,大部分是你需要的,如果它不推送,你根本不知道有這樣一件東西。而獲取你的數(shù)據(jù)越多,它的推送才能越準。當(dāng)然,這也是雙刃劍。有些人在網(wǎng)上搜了一回棺材、壽衣,結(jié)果一連幾個月全收到這種廣告。
環(huán)球人物雜志:大數(shù)據(jù)時代有可能做個隱形人嗎?
涂子沛:很難,因為你的行為都被電子化并記錄下來。這些數(shù)據(jù)不在你這里,在別人那里。購物網(wǎng)站上有很多有趣的記錄,比如情人節(jié)時,上海最暢銷的是玫瑰花,而北京最暢銷的是安全套。這都是很隱私的東西。現(xiàn)在家家都裝智能電表,它可以每分鐘讀表,你家里一開什么電器,它都知道。所以它能推算出你什么時候在家,什么時候做飯,什么時候看電視,你的行為它都清清楚楚,那你說還有隱私嗎?
環(huán)球人物雜志:那該怎么保護個人隱私?
涂子沛:隱私問題是整個大數(shù)據(jù)時代的挑戰(zhàn)。不少學(xué)者進行了研究,提出數(shù)據(jù)經(jīng)由第三方委托監(jiān)管、數(shù)據(jù)讀取匿名化等辦法。我認為,未來的發(fā)展要把選擇權(quán)交給個人,是要這個服務(wù)呢,還是要保護隱私,讓個人來選擇。必須要有這層設(shè)計,通過法律讓商家制定一套技術(shù)來把選擇權(quán)交給消費者??梢钥隙?,下一代人,數(shù)據(jù)和隱私,將成為伴隨他們一生的話題。隱私教育從少兒就要開始,就像性教育一樣重要。
中國文化缺乏數(shù)據(jù)的因子
環(huán)球人物雜志:中美大數(shù)據(jù)應(yīng)用上有何差別?
涂子沛:差別很大。從工具層面上講,基本所有應(yīng)用工具都是外來的,中國連一款像樣的軟件都沒有。在理論層面,統(tǒng)計學(xué)等科學(xué)的起源都在西方,大數(shù)據(jù)本身也是美國人提出的一個概念。而在意識層面,中國文化也缺乏數(shù)據(jù)的因子。
環(huán)球人物雜志:您認為這種差別的根源何在?
涂子沛:中國在歷史上缺乏這種數(shù)據(jù)文化。中國數(shù)學(xué)歷史學(xué)家張奠宙先生曾講過,古希臘的民主政治推動了數(shù)學(xué)的發(fā)展。在古希臘的政治環(huán)境下,要想證明自身觀點的正確性,需要在平等的基礎(chǔ)上,用充分的理由說服對方,反映在學(xué)術(shù)上,就是“證明”。歐幾里得的名作《幾何原本》就是在這樣的背景下產(chǎn)生的。相比之下,中國歷史上數(shù)學(xué)家的工作則主要是丈量田畝、興修水利、計算稅收等,是“管理數(shù)學(xué)”和“木匠數(shù)學(xué)”,缺乏抽象的數(shù)學(xué)思維。
環(huán)球人物雜志:您在書中說,試圖在中國把數(shù)據(jù)從科技符號轉(zhuǎn)變?yōu)槲幕?,二者的區(qū)別是什么?
涂子沛:科技符號當(dāng)然是讓人產(chǎn)生科技聯(lián)想的,比如二氧化碳的化學(xué)符號,你一看就知道說的是這個東西。文化符號不一樣,它和每個人息息相關(guān),看不見但卻深深影響你。比如一說龍就想到中國、炎黃子孫。大數(shù)據(jù)變成文化符號以后,每個人就會更傾向于用數(shù)據(jù)解決問題。舉個簡單的例子,在餐廳吃飯,老有人抱怨“都來這么久了,菜怎么還沒上?”“久”是多長時間,每個人標準不同,其實他可能才來了10分鐘。
對大數(shù)據(jù)的認識和使用,我們已經(jīng)起步晚了。未來在這方面,政府應(yīng)該發(fā)揮主導(dǎo)作用,首先在公共領(lǐng)域推行數(shù)據(jù)治國的理念,力爭在全社會形成“用數(shù)據(jù)說話、用數(shù)據(jù)管理、用數(shù)據(jù)決策、用數(shù)據(jù)創(chuàng)新”的文化氛圍和時代特點。數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03