
大數(shù)據(jù)、小模式、深影響_數(shù)據(jù)分析師
我今天想跟大家分享的是大數(shù)據(jù)以及大數(shù)據(jù)所延伸出來的商業(yè)價值。
可能有些人會問這樣的問題,我所代表的學(xué)院——牛津大學(xué)互聯(lián)網(wǎng)研究院主要的工作職責(zé)是什么?我想說,我本身是牛津大學(xué)信息哲學(xué)與信息倫理學(xué)的教授,能在這里和大家一起見證騰訊互聯(lián)網(wǎng)與社會研究院的成立,是一件非常了不起的事情。因為我認(rèn)為人類開發(fā)數(shù)據(jù)技術(shù)是多年來在古老的地球上開出來的一朵鮮艷的花。其實這個技術(shù)在很多年前就已經(jīng)有了,它深深根植于我們的生活中,它就是哲學(xué)。
哲學(xué)是土壤,這個土壤要非常關(guān)注花朵的健康成長,所以我今天討論的內(nèi)容就是如果你認(rèn)為自己是一朵鮮花,就一定要照顧好你的土壤;如果你是土壤,就要照顧好鮮花。這就是哲學(xué)和這個全新的研究院、哲學(xué)和我們的信息網(wǎng)絡(luò)之間的關(guān)系。
什么是大數(shù)據(jù)?大數(shù)據(jù)是由三個“V”組成的——速度(Velocity)、種類(Variety)和數(shù)量(Volume)?,F(xiàn)實是大數(shù)據(jù)一直在變化——速度變得更快,數(shù)量變得更多,種類也變得更多樣,每一天、每一周都是如此。但是大數(shù)據(jù)有沒有局限?這三個“V”是否會不斷地增長?數(shù)據(jù)會有它的限制嗎?
2013年,全中國一共產(chǎn)生了0.8ZB(約8億TB)的數(shù)據(jù),到2020年會變成35ZB,這是快速的增長。而我們的記憶到底能存多少數(shù)據(jù)?我們的記憶是沒有極限的,因為它是動態(tài)發(fā)展的,這跟數(shù)據(jù)的增長有關(guān)系。
我剛才所講的是大數(shù)據(jù)的一些歷史。突然有一天我們發(fā)現(xiàn)大數(shù)據(jù)會變成一種資產(chǎn)。什么時候會變成一種大資產(chǎn)呢?如果要選擇具體的一天,大概是在2012年,世界經(jīng)濟論壇宣布大數(shù)據(jù)成為一種新的經(jīng)濟資產(chǎn),就像貨幣或者黃金一樣。毫無疑問,這種經(jīng)濟的增長速度是非??斓摹N覐慕?jīng)濟論壇上也聽到了很多知名的經(jīng)濟學(xué)家對于大數(shù)據(jù)的看法,大家都同意這是一個全新的局面。
現(xiàn)在是什么組成了大數(shù)據(jù)?不僅僅是速度、種類和數(shù)量,還應(yīng)該有價值(Value)——從三個“V”變成四個“V”。這四個“V”已經(jīng)陪伴了我們很長時間,這就是為什么我們今天要來參加這個論壇,討論大數(shù)據(jù)。
但是你要知道,哲學(xué)家總是要不斷提問,到底什么是價值?這個價值指什么?講到大數(shù)據(jù)的時候,它所體現(xiàn)的價值又是何種內(nèi)容呢?
我們首先要問為什么大數(shù)據(jù)本身有價值?大數(shù)據(jù)以一種方式或者另外一種方式被大家所使用,那么為什么大數(shù)據(jù)跟之前相比會具有價值呢?因為它是網(wǎng)絡(luò)資源,這種資源可以跟其他的資源一起合并。它有價值是因為它是可以持續(xù)的,可以根據(jù)不同的目的來使用,跟過去我們所接觸到的黃金、石油等其他資源相比,它是無邊無際的海洋。而數(shù)據(jù)在不斷增長,它幫助我們改進現(xiàn)有生活、工作和產(chǎn)品,并預(yù)測包括醫(yī)療和科學(xué)在內(nèi)的未來趨勢。我們也可以用數(shù)據(jù)來做一些模擬,比如在生物化學(xué)的實驗室里,可能沒有人見過某種動物,但是我們可以在計算機上模擬這種生物。
可見,數(shù)據(jù)越多,決策過程就越簡單,最終你可以使用大數(shù)據(jù)來創(chuàng)新。這也是為什么我們認(rèn)為這種新類型資源的價值是不可低估的。《商業(yè)周刊》的報道中提到,北京大學(xué)光華管理學(xué)院教授認(rèn)為,中國很快會成為世界級的數(shù)據(jù)市場,而且數(shù)據(jù)相關(guān)的職位將會在未來十年里變得炙手可熱。還有消息指,除日本之外的亞太地區(qū)的數(shù)據(jù)產(chǎn)業(yè)規(guī)模將很快從2.58億美元增長到17.6億美元。到2016年,它更是會達到每年46.8%的復(fù)合增長率。
為什么大數(shù)據(jù)如此重要呢?對于我這個哲學(xué)家來說,大數(shù)據(jù)的價值是什么?所謂大數(shù)據(jù)的價值,是以小的格局和小的形式來體現(xiàn)的,這是什么意思呢?我們看到的就是一些小的數(shù)據(jù)一點點連接在一起,那么到底多大規(guī)模的數(shù)據(jù)才會出現(xiàn)一個可辨別的形式?可以說,你的眼睛無法辨別這種小模式,除非這些小模式連接起來。如果說你有足夠的能力,有足夠的數(shù)據(jù),你才能發(fā)現(xiàn)這些數(shù)據(jù)連在一起或許是一臺電話;如果不太了解技術(shù),你可能就看不到這個電話的形式。
可見,大數(shù)據(jù)是最敏感的,當(dāng)這些小的敏感線條連接在一起,你馬上就會發(fā)現(xiàn)“小模式”決定了一半的數(shù)據(jù)都是垃圾,但是你不知道是哪一半,只有不斷地收集這些數(shù)據(jù)才能做出判斷。
從全球的角度來講,這樣的大數(shù)據(jù)會有什么樣的優(yōu)勢呢?除了優(yōu)勢之外,大數(shù)據(jù)的風(fēng)險又是什么?關(guān)于未來,我們應(yīng)該關(guān)注哪些方面?
首先就是大數(shù)據(jù)和小模式與我們隱私之間的關(guān)系。當(dāng)然,還會有新的問題,那就是預(yù)測。我們發(fā)現(xiàn)有足夠的數(shù)據(jù),再加上智慧小模式的匹配,計算機就知道你會定什么樣的行程,在你買之前它已經(jīng)知道你要買牙膏了。計算機可以告訴我們,今天要做什么,但是它不會告訴我們?yōu)槭裁匆@樣做。當(dāng)然還有來自廣告的壓力,以及那些日益具有說服力的工具,都可以說服你什么是最好的。這些都會影響到我們的自由,對個人而言,這些都是風(fēng)險。
但是它們并非不可解決的風(fēng)險,如果我們能夠注意到,這些風(fēng)險就能被解決。當(dāng)然,這里不僅僅有風(fēng)險,還有很多優(yōu)勢。當(dāng)我們談到大數(shù)據(jù)的時候,我們要記住大數(shù)據(jù)是有價值的,它有知識和技術(shù)的價值,讓我們可以更好地去了解這個世界。從衛(wèi)生、技術(shù)、教育到醫(yī)療的研究,幫助我們深化對世界的理解。我們當(dāng)然也可以去思考大數(shù)據(jù)給我們帶來的經(jīng)濟和商業(yè)價值。例如,企業(yè)、企業(yè)家利用數(shù)據(jù)可以創(chuàng)造經(jīng)濟價值,確保未來的一代人會比現(xiàn)在的一代人生活得更加美好。因此,我們需要思考大數(shù)據(jù)在經(jīng)濟上的價值。
今天我們聚集到這里,還要關(guān)注大數(shù)據(jù)的社會價值,也就是怎么樣利用大數(shù)據(jù)提高社會的價值,怎么樣改善你的企業(yè)運營,怎么樣改善交通運輸,以及怎么樣預(yù)測和改善將來的健康問題。大數(shù)據(jù)是一個非常好的工具,它可以幫助我們改善生活,給我們帶來希望。
我們應(yīng)該利用什么樣的戰(zhàn)略來獲得大數(shù)據(jù)的好處,避免風(fēng)險呢?對于大數(shù)據(jù),要利用什么樣的價值戰(zhàn)略呢?我想,要設(shè)定這樣一個戰(zhàn)略是比較容易的,但是實施起來比較難。大數(shù)據(jù)可以確保我們避免出現(xiàn)傷害,也可以預(yù)防傷害或者去除傷害,并創(chuàng)建福祉。
我給大家解釋一下這一點,大家可以思考一下醫(yī)生給他的患者做什么?醫(yī)生要盡量防止他的患者出現(xiàn)一些傷痛,希望他變得更加健康和強壯。大數(shù)據(jù)對整個社會來說也可以幫助我們這樣做——防止和去除傷痛,而且最重要的是可以去改善成百上千萬人的生活。
歷史的車輪一直在往前行進,我們無法阻止它往前走,我們確實發(fā)揮著作用,不管是大的還是小的,是作為機構(gòu)還是個人,我們的作用就是為了確保未來社會的順利發(fā)展。而同時數(shù)據(jù)的價值、量和速度都會增大增強,就有可能會出現(xiàn)信息過載的問題,出現(xiàn)太多的噪音。面對這樣的情形,我們可以做什么呢?
這時,我們就要確保這樣一個噪音缺口是盡可能小的,才能充分利用大數(shù)據(jù)的價值,同時又不會給整個社會體系造成過載,這就是我們這個研究院的一個非常重要的責(zé)任。
當(dāng)然我也要強調(diào)一下我們本身的哲學(xué)理念。大家可以去思考一下大數(shù)據(jù)有上萬億個,我們有這么多信息,也知道這些是或者不是的問題是不斷增加的。要找到答案,并從中找到信息,我們就必須要去確定正確的問題,也就是要問什么樣的問題,才能擠出水分,通過大數(shù)據(jù)確定小模式。
柏拉圖就是這樣一個智者,他知道怎么問問題,怎么回答問題,他如果看到我們現(xiàn)在互聯(lián)網(wǎng)研究院的成果一定會非常高興,因為他看到我們是充分利用大數(shù)據(jù)來幫自己實現(xiàn)價值。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-18剛?cè)肼殘龌蚴窃诼殘稣媾R崗位替代、技能更新、人機協(xié)作等焦慮的打工人,想要找到一條破解職場焦慮和升職瓶頸的系統(tǒng)化學(xué)習(xí)提升 ...
2025-07-182025被稱為“AI元年”,而AI,與數(shù)據(jù)密不可分。網(wǎng)易公司創(chuàng)始人丁磊在《AI思維:從數(shù)據(jù)中創(chuàng)造價值的煉金術(shù) ...
2025-07-18CDA 數(shù)據(jù)分析師:數(shù)據(jù)時代的價值挖掘者 在大數(shù)據(jù)席卷全球的今天,數(shù)據(jù)已成為企業(yè)核心競爭力的重要組成部分。從海量數(shù)據(jù)中提取有 ...
2025-07-18SPSS 賦值后數(shù)據(jù)不顯示?原因排查與解決指南? 在 SPSS( Statistical Package for the Social Sciences)數(shù)據(jù)分析過程中,變量 ...
2025-07-18在 DBeaver 中利用 MySQL 實現(xiàn)表數(shù)據(jù)同步操作指南? ? 在數(shù)據(jù)庫管理工作中,將一張表的數(shù)據(jù)同步到另一張表是常見需求,這有助于 ...
2025-07-18數(shù)據(jù)分析師的技能圖譜:從數(shù)據(jù)到價值的橋梁? 在數(shù)據(jù)驅(qū)動決策的時代,數(shù)據(jù)分析師如同 “數(shù)據(jù)翻譯官”,將冰冷的數(shù)字轉(zhuǎn)化為清晰的 ...
2025-07-17Pandas 寫入指定行數(shù)據(jù):數(shù)據(jù)精細(xì)化管理的核心技能? 在數(shù)據(jù)處理的日常工作中,我們常常需要面對這樣的場景:在龐大的數(shù)據(jù)集里精 ...
2025-07-17解碼 CDA:數(shù)據(jù)時代的通行證? 在數(shù)字化浪潮席卷全球的今天,當(dāng)企業(yè)決策者盯著屏幕上跳動的數(shù)據(jù)曲線尋找增長密碼,當(dāng)科研人員在 ...
2025-07-17CDA 精益業(yè)務(wù)數(shù)據(jù)分析:數(shù)據(jù)驅(qū)動業(yè)務(wù)增長的實戰(zhàn)方法論 在企業(yè)數(shù)字化轉(zhuǎn)型的浪潮中,“數(shù)據(jù)分析” 已從 “加分項” 成為 “必修課 ...
2025-07-16MySQL 中 ADD KEY 與 ADD INDEX 詳解:用法、差異與優(yōu)化實踐 在 MySQL 數(shù)據(jù)庫表結(jié)構(gòu)設(shè)計中,索引是提升查詢性能的核心手段。無論 ...
2025-07-16解析 MySQL Update 語句中 “query end” 狀態(tài):含義、成因與優(yōu)化指南? 在 MySQL 數(shù)據(jù)庫的日常運維與開發(fā)中,開發(fā)者和 DBA 常會 ...
2025-07-16如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟時代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會遇到需要整合多張表數(shù)據(jù)的場景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動的時代,面對海量、復(fù)雜的數(shù)據(jù),如何高效地進行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14t檢驗與Wilcoxon檢驗的選擇:何時用t.test,何時用wilcox.test? t 檢驗與 Wilcoxon 檢驗的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導(dǎo)白皮書) 發(fā)布機構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11