
超級(jí)人工智能:大數(shù)據(jù)的未來_數(shù)據(jù)分析師培訓(xùn)
在百度大數(shù)據(jù)開放大會(huì)上,搞計(jì)算機(jī)學(xué)術(shù)理論的懷進(jìn)鵬校長的演講猶如給所有聽眾的一記悶棍,懷校長的學(xué)術(shù)演講把大家弄得云里霧里,把所有人弄暈了,現(xiàn)場能夠聽懂的絕對(duì)是少數(shù),可能都會(huì)覺得懷校長有點(diǎn)像個(gè)外星人一般在那自顧自的演講。但我作為一個(gè)曾經(jīng)有志從事人工智能研究但失之交臂的又是學(xué)計(jì)算機(jī)畢業(yè)的人卻越聽越興奮,冥冥中似乎找到了未來的人工智能所能抵達(dá)的可能性,那么我現(xiàn)在就嘗試把懷教授的演講轉(zhuǎn)換為人類也能夠聽懂的語言吧。
一,理解大數(shù)據(jù)
1,當(dāng)前大數(shù)據(jù)的四大特征:規(guī)模大、變化快、種類雜、價(jià)值密度低。
其實(shí)這理解起來很簡單,我們來看新浪微博的大數(shù)據(jù),為什么變現(xiàn)那么困難就知道了,新浪微博擁有龐大海量的用戶大數(shù)據(jù),但用這些行為數(shù)據(jù)變現(xiàn)卻步履維艱,原因就在于微博上所產(chǎn)生的數(shù)據(jù)不夠垂直,涉及面極廣,而能夠與商業(yè)相關(guān)的價(jià)值就更加難以挖掘了。
2,產(chǎn)業(yè)成果
懷校長列舉了三塊內(nèi)容,百度和谷歌熟悉用戶瀏覽行為,進(jìn)而提供個(gè)性化的搜索。淘寶亞馬遜因?yàn)槭煜び脩糍徫锪?xí)慣,可以為用戶提供精準(zhǔn)的喜好物品。微博和twitter了解用戶思維習(xí)慣和社會(huì)認(rèn)知,可以為國家和企業(yè)提供民眾情緒等系列數(shù)據(jù)。
二,實(shí)踐中的思維轉(zhuǎn)變
大數(shù)據(jù)帶給我們?cè)谘芯恳约皩?shí)踐策略上的思維轉(zhuǎn)變。
1,從抽樣到全樣,大數(shù)據(jù)的大決定了大而全的特性,在傳統(tǒng)工業(yè)中教會(huì)我們做統(tǒng)計(jì)的最大方式就是抽樣,諸如系統(tǒng)抽樣,分層抽樣,定額抽樣......,這些統(tǒng)計(jì)方法將會(huì)在大數(shù)據(jù)時(shí)代越來越不復(fù)存在。大數(shù)據(jù)的信息化可以統(tǒng)計(jì)到一切想要統(tǒng)計(jì)的數(shù)據(jù),將工業(yè)時(shí)代的統(tǒng)計(jì)方法淘汰掉。
我們將會(huì)利用技術(shù)獲得一切想要統(tǒng)計(jì)到的數(shù)據(jù)。
2,從精確到非精確。關(guān)于這一點(diǎn)其實(shí)也很好理解,我們就拿傳統(tǒng)時(shí)代的搜索來說,在傳統(tǒng)的搜索時(shí)代,當(dāng)我們?nèi)ゲ樵兡硞€(gè)信息時(shí),我們需要得到的是全部的數(shù)據(jù),但是搜索引擎則完全改變了我們這種認(rèn)識(shí),搜索引擎提供的只是前幾項(xiàng)內(nèi)容,而這幾項(xiàng)內(nèi)容則完全滿足了我們的信息需求。
搜索引擎其實(shí)在做的是一套模糊算法,經(jīng)過一系列的算法計(jì)算,將最優(yōu)秀的結(jié)果帶到用戶面前,而這種結(jié)果上的呈現(xiàn)也顛覆了傳統(tǒng)所認(rèn)知的對(duì)于目標(biāo)的定義,在大數(shù)據(jù)時(shí)代,我們追求的不再是絕對(duì)目標(biāo),而是一個(gè)從宏觀趨勢下推導(dǎo)出的一些模糊的不精確的未知目標(biāo)。
我們將追求無限的近似而不是絕對(duì)的正確。
3,從因果到關(guān)聯(lián)。而這也直接導(dǎo)致了西方又產(chǎn)生了驚人的言論—“理論已死”,這是繼“上帝之死”,“人之死”,“作者已死”“歷史的終結(jié)",“哲學(xué)已死”后的又一大膽的言論。以往的決策者要想決定某件事,必須參考各種理論,對(duì)其中的因果進(jìn)行判定后才能達(dá)成,但是大數(shù)據(jù)時(shí)代則讓決策變得更加容易,比如超市大數(shù)據(jù)可能會(huì)用清晰的圖表告訴你每當(dāng)下雨天時(shí),超市里的蛋糕會(huì)賣的多,這時(shí)候決策者根本不需要知道任何理論,任何因果,只需要在天氣預(yù)報(bào)預(yù)測明天將要下雨時(shí)提前準(zhǔn)備蛋糕就行了。
而這種只依賴相關(guān)性不再依賴因果性的決策思想,正在慢慢的滲透到擁有大數(shù)據(jù)的各行各業(yè),互聯(lián)網(wǎng)業(yè),零售業(yè),旅游業(yè),金融業(yè)......
三,大數(shù)據(jù)到大數(shù)據(jù)計(jì)算
1,大數(shù)據(jù)膨脹,如何解決搜索問題?傳統(tǒng)的算法在搜索數(shù)據(jù)時(shí)完全沒有問題,因?yàn)閿?shù)據(jù)量很小,但是當(dāng)數(shù)據(jù)海量增長時(shí)問題就會(huì)凸顯出來,用原來的算法去計(jì)算肯定是不行的,按照當(dāng)前最快的硬盤檢索速度(60GPS),線性掃描完1PB(10TB的15次方)的數(shù)據(jù)需要1.9天的時(shí)間,所以當(dāng)數(shù)據(jù)海量膨脹時(shí),必須重構(gòu)算法策略來做數(shù)據(jù)的處理。百度目前的處理量是一天處理10PB的網(wǎng)頁數(shù)據(jù),這其中包括了運(yùn)算和讀取,算是目前最好的算法了。
2,大數(shù)據(jù)膨脹,如何處理算法以及數(shù)據(jù)的問題?上面提到的是通過改變算法來達(dá)到遍歷數(shù)據(jù)的目的,但是在真正處理數(shù)據(jù)時(shí)依然是無法做到高效的,畢竟機(jī)器CPU的運(yùn)算瓶頸擺在那里,算法工程師本質(zhì)上在做的事情就是在現(xiàn)有的運(yùn)算條件下,設(shè)計(jì)出最優(yōu)方案,來求得最好的結(jié)果。
而懷校長告訴我們的這個(gè)挑戰(zhàn)就是,在大數(shù)據(jù)的膨脹后,不僅要將原來的算法更換為近似算法,同樣還要將數(shù)據(jù)更換為近似數(shù)據(jù),只有二者合力改變才有可能在現(xiàn)有機(jī)器運(yùn)算能力的情況下抵達(dá)最優(yōu)的結(jié)果。
同樣是說起來容易做起來難,在這樣的近似算法以及近似數(shù)據(jù)的改變下,到底該近似到何種程度,才能夠最接近原算法的結(jié)果?要知道,在計(jì)算機(jī)世界里,差之毫厘失之千里,改變的量也許很小,但是如果一旦改錯(cuò),就會(huì)造成巨大的錯(cuò)誤結(jié)果,稍懂程序的人都知道,幾行簡短的代碼就能讓無論CPU運(yùn)算能力多強(qiáng)的電腦徹底死機(jī),而搜索引擎則更是一個(gè)更加龐大的試錯(cuò)工程。
最后,懷校長展示了兩個(gè)學(xué)術(shù)前沿發(fā)展,第一,是定義易解類問題,從現(xiàn)實(shí)應(yīng)用中找到這類易搜索問題,將之歸類并應(yīng)用于其他實(shí)踐當(dāng)中。第二,是將大數(shù)據(jù)進(jìn)行小數(shù)據(jù)處理,尋找轉(zhuǎn)化的精度度量,也就是他之前所說的尋找數(shù)據(jù)的近似值。
寫完這段不禁感慨,其實(shí)算法工程師本質(zhì)上是在機(jī)器CPU條件不夠的情況下為滿足大眾需求的博弈,機(jī)器的配置條件永遠(yuǎn)無法跟上人類的需求,而為了滿足人類需求,算法工程師們必須絞盡腦汁的去設(shè)計(jì)在現(xiàn)有條件下能夠產(chǎn)出的最優(yōu)答案,而不是考慮標(biāo)準(zhǔn)答案。而這又讓我想到了深藍(lán)電腦擊敗國際象棋大師的事情,事實(shí)上只要是懂一些程序的人甚至連我也都可以寫出一套能夠擊敗任何國際象棋大師的算法,只不過要想下完一局棋可能要用盡棋手一生時(shí)間都不止,因?yàn)镃PU的運(yùn)算速度無法跟上想法。所以深藍(lán)電腦的勝利本質(zhì)上不是人工智能贏了,而是工程師在設(shè)計(jì)最優(yōu)算法的策略上贏了。
此外在大數(shù)據(jù)計(jì)算中,懷校長還講了大數(shù)據(jù)運(yùn)算的三大基礎(chǔ),表示,度量和理解。因?yàn)樘^專業(yè),解釋每一個(gè)詞都足夠用一篇文章來解釋,而且還不一定說得清,所以在此略過。
四,大數(shù)據(jù)軟件工程
作為學(xué)軟件工程出生的人,當(dāng)我看完懷校長對(duì)大數(shù)據(jù)軟件的演講后有一種莫名的傷感,因?yàn)槲翌A(yù)見到我曾經(jīng)所學(xué)的軟件工程必將被大數(shù)據(jù)全部重構(gòu),絕大多數(shù)的軟件都可能走向?yàn)榇髷?shù)據(jù)軟件,這就好像網(wǎng)頁崛起后,網(wǎng)頁軟件的數(shù)量將大幅超過PC軟件一樣,又像智能手機(jī)崛起后,APP軟件的數(shù)量開始遠(yuǎn)超網(wǎng)頁軟件一樣,等到硬件設(shè)施成熟之后,未來的軟件開發(fā)也必將會(huì)是大數(shù)據(jù)的天下。追溯軟件工程的起源,這是在計(jì)算機(jī)硬件條件穩(wěn)定后,為了解決效率問題而從工程學(xué)的角度來建立的軟件開發(fā)方式,分工明確,進(jìn)度安排明確,和其他工業(yè)生產(chǎn)別無二致。但懷校長接下來的演講中,我們可以窺見到,軟件工程有可能會(huì)走向另一種模式。
1,如何解決大數(shù)據(jù)的計(jì)算支撐問題?說的簡單點(diǎn)就是,大數(shù)據(jù)處理必然不是一臺(tái)或者幾臺(tái)服務(wù)器就能搞定的小事情,大數(shù)據(jù)處理需要龐大的硬件支撐,硬件支撐也必然是分布式的設(shè)計(jì),那么該如何設(shè)計(jì)頂層的系統(tǒng)架構(gòu)才能高效能的滿足大數(shù)據(jù)的處理工作?近似性(Inexact)、增量性(Incremental)和歸納性(Inductive)的3I特征如何被滿足?
大數(shù)據(jù)下分布式硬件如何與軟件協(xié)同,如何避免擴(kuò)展失度,處理失效和耗能失控,這些都是令人頭大的問題。在系統(tǒng)設(shè)計(jì)上充滿挑戰(zhàn)。
2,眾包大數(shù)據(jù)是否可以開發(fā)軟件?這其實(shí)是一個(gè)非常瘋狂的想法,我是這樣解讀懷校長的想法的,假設(shè)目前我們可以做到眾包大數(shù)據(jù)軟件開發(fā),那么情形應(yīng)該如下:大數(shù)據(jù)爬行機(jī)器根據(jù)讀取新浪微博的數(shù)據(jù),百度指數(shù)的數(shù)據(jù),百度貼吧的數(shù)據(jù),淘寶的交易數(shù)據(jù)……后,發(fā)現(xiàn)了用戶的各種情緒以及需求的曲線,軟件開發(fā)者再根據(jù)這些數(shù)據(jù)的呈現(xiàn)開發(fā)出一套軟件的模型然后交給運(yùn)營商放置于云端,而用戶再參與進(jìn)入各種云端產(chǎn)生的軟件,在此種產(chǎn)生了各種行為,于是機(jī)器再根據(jù)這些用戶的行為,為軟件建模,規(guī)劃。
這是一種極為精尖交互式數(shù)據(jù)挖掘技術(shù),前提是解決算法以及存儲(chǔ)問題,一切皆有可能。未來的大數(shù)據(jù)軟件將不會(huì)是一種固有形態(tài),而是一個(gè)不斷根據(jù)數(shù)據(jù)自動(dòng)變化的超級(jí)生態(tài),可能不是依靠產(chǎn)品經(jīng)理推動(dòng),而是依靠算法工程師來推動(dòng),讓用戶的需求自然暴露,然后為他們?nèi)?shí)現(xiàn)一些功能。
而我從一個(gè)更高的哲學(xué)層面來看這樣的大數(shù)據(jù)軟件建構(gòu),如果我們將全人類的群體行為看成是不斷運(yùn)作產(chǎn)生的數(shù)據(jù),然后我們某些個(gè)體從中把握了某些東西進(jìn)而產(chǎn)生了各種產(chǎn)品,再回過來看這樣的大數(shù)據(jù)軟件架構(gòu),其實(shí)說到底,這樣的大數(shù)據(jù)軟件,其實(shí)更像是在將我們的世界還原出來而已,只不過會(huì)比人做出來的更快更厲害更加完美。
如果真的能夠?qū)崿F(xiàn)這樣的大數(shù)據(jù)軟件建構(gòu),那么目前對(duì)大數(shù)據(jù)的某種定義將被完全推翻,在我們眼里大數(shù)據(jù)不過是用來固定的人類信息行為后為人類輔助的決策工具,這樣的觀點(diǎn)也將失效。大數(shù)據(jù)或許會(huì)在未來某個(gè)階段被定義為:對(duì)人類世界的真實(shí)還原,并且不斷的滿足我們的任何愿望,曾經(jīng)我們依靠它來決策一些事情,現(xiàn)在我們依靠它來直接抵達(dá)我們想要做的事情,我們所有的行為都已經(jīng)成為我們決策的一部分。
這其實(shí)就是超級(jí)人工智能了。
結(jié)語:懷校長的演講在開頭部分講了大數(shù)據(jù)在這個(gè)時(shí)代對(duì)我們傳統(tǒng)思維的沖擊,一些價(jià)值觀的建立,但是接下來講的更多的不是已經(jīng)成型的科研成果,更多的是拋出問號(hào),拋出還沒有解決的難題,以及一些失敗的嘗試,還有一些沒有開始嘗試的假設(shè),這在表面上看來似乎與本次演講的主題有些唱反調(diào)的樣子,但仔細(xì)想想?yún)s又明白,CPU的計(jì)算能力永遠(yuǎn)達(dá)不到這些最頂級(jí)的科研人員想要的高度,而計(jì)算機(jī)科學(xué)家們永遠(yuǎn)只能在現(xiàn)有的條件下做困獸斗,做出在這個(gè)時(shí)代所能賦予的條件下最漂亮的成績,而這就是他們一生所追求的使命。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11