
編者按:9月11日—9月12日,由經(jīng)管之家(原人大經(jīng)濟(jì)論壇)主辦的“2015中國(guó)數(shù)據(jù)分析師行業(yè)峰會(huì)(CDA?Summit)”在北京舉行。本文是英特爾中國(guó)研究院院長(zhǎng)兼首席工程師吳甘沙在峰會(huì)上的演講全文,吳甘沙演講的主題是“大數(shù)據(jù)分析師的卓越之道”。他講道,基礎(chǔ)設(shè)施已經(jīng)改朝換代了,我們分析師也應(yīng)該與時(shí)俱進(jìn),體現(xiàn)在三個(gè):一個(gè)使思維方式要改變,我們技術(shù)要提升,第三,我們分析的能力要豐富起來(lái)。以下為吳甘沙演講全文:
親愛(ài)的各位同仁,各位同學(xué),早上好。大家可能還有些納悶,本來(lái)是吳恩達(dá)老師講人工智能,怎么換吳甘沙講。幾個(gè)月前我剛剛跟吳老師在硅谷聊了一兩個(gè)小時(shí),早知道今天這樣我多向他請(qǐng)教一下人工智能,現(xiàn)在還是講一下我擅長(zhǎng)的大數(shù)據(jù)。講到大數(shù)據(jù),就要問(wèn)數(shù)據(jù)分析師應(yīng)該做什么?所以我今天的標(biāo)題是大數(shù)據(jù)分析師的卓越之道。這里不一定講的對(duì),講的對(duì)的我也不一定懂,所以請(qǐng)大家以批評(píng)式的方式去理解。
這是一個(gè)典型的數(shù)據(jù)分析的場(chǎng)景,下面是基礎(chǔ)設(shè)施,數(shù)據(jù)采集、存儲(chǔ)到處理,左邊是數(shù)據(jù)處理,右邊價(jià)值輸出。連接數(shù)據(jù)和價(jià)值之間的就是這知識(shí)發(fā)現(xiàn),用專(zhuān)業(yè)詞匯講,知識(shí)就是模型,知識(shí)發(fā)現(xiàn)就是建模和學(xué)習(xí)的過(guò)程。問(wèn)題來(lái)了,進(jìn)入到大數(shù)據(jù)的時(shí)代,這有什么變化呢?首先對(duì)數(shù)據(jù)變的非常大,大家就開(kāi)始說(shuō)了,數(shù)據(jù)是新的原材料,是資產(chǎn),是石油,是貨幣,所以大家的希望值也非常高,這個(gè)價(jià)值也希望抬的非常高。但是一旦大數(shù)據(jù)洪流過(guò)來(lái),我們?cè)谢A(chǔ)設(shè)施都被沖的七零八落。所以過(guò)去十幾年事實(shí)上業(yè)界都在做大數(shù)據(jù)基礎(chǔ)設(shè)施,我怎么做大規(guī)模水平擴(kuò)展,數(shù)據(jù)密集了怎么提高分布式操作性能,怎么把磁盤(pán)山村化,我們就有閃存內(nèi)存化,我們最近從密集型又到計(jì)算密集型。所有這些都是基礎(chǔ)設(shè)施。
現(xiàn)在大家想基礎(chǔ)設(shè)施升級(jí)了,我只是知識(shí)發(fā)現(xiàn)的過(guò)程是不是能自然升級(jí)?我跟大家說(shuō)天下沒(méi)有免費(fèi)的午餐。所以我想今天的主題是基礎(chǔ)設(shè)施已經(jīng)改朝換代了,我們分析師也應(yīng)該與時(shí)俱進(jìn),體現(xiàn)在三個(gè):一個(gè)使思維方式要改變,我們技術(shù)要提升,第三,我們分析的能力要豐富起來(lái)。
首先,說(shuō)一下思維方式。說(shuō)改變思維方式最重要的就是改變世界觀,這個(gè)就是牛頓機(jī)械論世界。我們?cè)?jīng)聽(tīng)說(shuō)過(guò)一個(gè)叫拉夫拉絲惡魔的說(shuō)法。也就是說(shuō),我如果在這個(gè)時(shí)刻與宇宙當(dāng)中所有的原子的狀態(tài)都是可確定的話,就可以推知過(guò)去任何一個(gè)時(shí)刻和未來(lái)任何一個(gè)時(shí)刻,這就是牛頓的機(jī)械論。所謂愛(ài)因斯坦發(fā)展了這個(gè)物理學(xué),但是還是確定論,決定論,上帝不擲色子。但是今天的世界事實(shí)上是什么樣的?我們這個(gè)是說(shuō)牛頓世界觀,就是確定論。事實(shí)上今天是不確定的,基于概率的世界觀。大家都看過(guò)所謂的(薛定論)的貓的思維的實(shí)驗(yàn)。這個(gè)貓?jiān)诤凶永锏降资撬肋€是活的,其實(shí)它可能同時(shí)是死的,也同時(shí)是活的。但是一旦打開(kāi)這個(gè)盒子,它就變成確定了,它要么就是真的變成死的,要么就是真的變成活的。也就是由我們現(xiàn)在所謂的好奇心害死貓,就是你打開(kāi)盒子有一半的概率把這個(gè)貓殺死。
這個(gè)理念事實(shí)上反映的就是海森堡的不確定主義,就是你的行為會(huì)改變被觀測(cè)的現(xiàn)象,在大數(shù)據(jù)事實(shí)上也有測(cè)不準(zhǔn)的,像Google流感的預(yù)測(cè),這是大家經(jīng)常作為數(shù)據(jù)分析的經(jīng)典案例,具體細(xì)節(jié)不跟大家講了,大家可以看在2013年1月份的階段,橙色的線,Google預(yù)計(jì)高于疾控中心它實(shí)際測(cè)到的流感的概率。所以科學(xué)和自然就發(fā)話了,自然是科學(xué)測(cè)不準(zhǔn),科學(xué)說(shuō)這是大數(shù)據(jù)的傲慢。在這個(gè)案例來(lái),即使Google也拿不到全量的數(shù)據(jù),你雖然有疾控中心的數(shù)據(jù)和當(dāng)中調(diào)整模型等等的,但是還是不精確,你以為這種相關(guān)性就能解決問(wèn)題,但是健康的問(wèn)題就是要究其原因,要有因果性。大家看這個(gè)預(yù)測(cè)的過(guò)量就導(dǎo)致了預(yù)感疫苗準(zhǔn)備的過(guò)量。
所以我們看數(shù)據(jù)的方法論我們需要升級(jí)。這是一個(gè)典型的數(shù)據(jù)分析的流程,可以先由假設(shè)采集數(shù)據(jù),也可以先采集了數(shù)據(jù),然后從中發(fā)現(xiàn)假設(shè)。有了數(shù)據(jù)以后下一步就要做數(shù)據(jù)的準(zhǔn)備,數(shù)據(jù)準(zhǔn)備往往是最花時(shí)間的。然后分析,分析完了要考慮怎么解釋這個(gè)結(jié)果,大家知道做機(jī)器學(xué)習(xí)有兩種:一種是給機(jī)器看的,比如說(shuō)我精準(zhǔn)營(yíng)銷(xiāo);還有一種機(jī)器學(xué)習(xí)是給人看的,是要有可解釋性。有時(shí)候?yàn)榱丝山忉屝陨踔猎敢鉅奚_性。大家知道Ficle,它就是理論參數(shù),非常簡(jiǎn)單,可解釋性非常強(qiáng)。另外一個(gè)就是要驗(yàn)證,從我們傳統(tǒng)說(shuō)的隨機(jī)對(duì)照實(shí)驗(yàn)到現(xiàn)在AB測(cè)試,我們要去驗(yàn)證。但是到了大數(shù)據(jù)時(shí)代這個(gè)方法論要怎么改變呢,首先我們說(shuō)測(cè)不準(zhǔn),還有不要相信看到的任何事,所以需要加一個(gè)反饋循環(huán),我們不停的反復(fù)做這個(gè)。這里雖然有很多噪聲,但是這個(gè)是可以處理的,還有一些是系統(tǒng)噪聲,可能因?yàn)槲廴镜臄?shù)據(jù)源,這個(gè)就要特別處理。我們要數(shù)據(jù)分析需要實(shí)時(shí)、交互、要快,這樣才能趕得及世界的變化,所以這里需要很多很多的東西。
我現(xiàn)在一個(gè)一個(gè)跟大家分析一下。首先看假設(shè)。我們現(xiàn)在說(shuō)大數(shù)據(jù)思維是說(shuō)我們先有很多數(shù)據(jù),然后通過(guò)機(jī)械的方法發(fā)現(xiàn)其中的相關(guān)性,之后再找到假設(shè)。有時(shí)候相關(guān)性確實(shí)太多了,弱水三千只取一瓢飲,這里面就需要我們的直覺(jué)。所謂的直覺(jué)就是不直覺(jué),但是在潛意識(shí)里在發(fā)生推理。所以我一直強(qiáng)調(diào)要怎么訓(xùn)練直覺(jué)?就是讀,像懸疑小說(shuō),你經(jīng)歷這么一個(gè)推理的過(guò)程。如果說(shuō)這樣的推理過(guò)程只是模型,也還需要數(shù)據(jù),需要很多先驗(yàn)的知識(shí)。這個(gè)知識(shí)怎么來(lái)呢?就是廣泛的閱讀。第二個(gè),跨界思想的碰撞,跟很多人聊。這兩個(gè)是背景知識(shí),還有一個(gè)前景知識(shí),就是在這么上下游里融入到業(yè)務(wù)部門(mén)?,F(xiàn)在我們企業(yè)的數(shù)據(jù)分析的組織,我們希望把數(shù)據(jù)分析師放到業(yè)務(wù)部門(mén),和它們?nèi)谌氲揭黄?,這才能防止數(shù)據(jù)和分析脫鉤,這樣才能防止數(shù)據(jù)分析和業(yè)務(wù)應(yīng)用的脫節(jié)。
第二個(gè),數(shù)據(jù)采集,這里我非??鋸埖氖菙?shù)據(jù)!數(shù)據(jù)!數(shù)據(jù)!為什么?因?yàn)榇髷?shù)據(jù)碰到的第一個(gè)問(wèn)題就是數(shù)據(jù)饑渴癥。我們有一次跟阿里聊,它們說(shuō)也缺數(shù)據(jù),因?yàn)樗鼈冎挥芯W(wǎng)上的銷(xiāo)售記錄,而缺乏無(wú)線的數(shù)據(jù)。所以我們強(qiáng)調(diào)全量數(shù)據(jù),我們盡量不采樣。
同時(shí)現(xiàn)在我們企業(yè)已經(jīng)從小數(shù)據(jù)到大數(shù)據(jù),有人說(shuō)數(shù)據(jù)改變太困難了,太貴了。其實(shí)它強(qiáng)調(diào)的是問(wèn)題還沒(méi)存在的時(shí)候,你一開(kāi)始就把數(shù)據(jù)定了。傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)是,我先有一個(gè)問(wèn)題,然后你這個(gè)數(shù)據(jù)根據(jù)這個(gè)問(wèn)題做好組織,然后進(jìn)來(lái)。從現(xiàn)在的大數(shù)據(jù)來(lái)說(shuō),你先把數(shù)據(jù)送進(jìn)來(lái),然后再不斷的提問(wèn)題,這就是一種新的思維。我們需要大量外部的數(shù)據(jù)源來(lái)查,你要買(mǎi)數(shù)據(jù)拿來(lái)用。而且你要從傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)到半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)是什么,交易數(shù)據(jù)。但是現(xiàn)在我們企業(yè)里面馬上就有兩個(gè)非結(jié)構(gòu)化數(shù)據(jù)出現(xiàn)。
第一個(gè)就是日志分析,大家知道大數(shù)據(jù)第一家上市公司Splunk就是從事這一業(yè)務(wù)。
第二個(gè)就是文本數(shù)據(jù),現(xiàn)在我們經(jīng)常聽(tīng)說(shuō)情感分析,即是文本數(shù)據(jù)。現(xiàn)在我們最新的基于呼叫中心我們需要做問(wèn)答系統(tǒng),甚至是最新的所謂的交互式對(duì)話系統(tǒng),都需要文本數(shù)據(jù)。
第三個(gè)是從文本到圖片再到視覺(jué),現(xiàn)在計(jì)算機(jī)視覺(jué)、模式匹配、語(yǔ)義分析。很多數(shù)據(jù)都是有時(shí)間和空間的標(biāo)簽,這些數(shù)據(jù)怎么保證時(shí)空,怎么能夠?qū)崟r(shí)處理這些新的數(shù)據(jù)。
最后,還有很多數(shù)據(jù)是網(wǎng)絡(luò)數(shù)據(jù),比如說(shuō)社交網(wǎng)絡(luò),我們?cè)趺磥?lái)判斷,我們個(gè)人的影響力,怎么來(lái)判斷網(wǎng)絡(luò)的控制中心在哪里,都需要一些新的處理方式。
說(shuō)完感嘆號(hào),我開(kāi)始要說(shuō)問(wèn)號(hào)。是不是前面說(shuō)的這些都是合理的?比如說(shuō)英特爾事實(shí)上是不可能采集到數(shù)據(jù),而有時(shí)候你采集不到全體數(shù)據(jù),你也不需要。
比如說(shuō)我給大家舉個(gè)例子,是不是數(shù)據(jù)更多就越好呢?未必。我們拿英特爾作為一個(gè)例子,青海、西藏、內(nèi)蒙古占的面積是我們國(guó)土面積的一半,我們采集這四個(gè)省的面積,是不是都代表中國(guó)呢?未必,所以采集更多的數(shù)據(jù)有時(shí)候更重要。第二個(gè)是“原始數(shù)據(jù)”是不是一個(gè)矛盾的概念,因?yàn)樵紨?shù)據(jù)可能并不原始,它受采集人的影響。所以原始數(shù)據(jù)也未必是原始的,數(shù)據(jù)里面當(dāng)然有很多的信號(hào)。但是大數(shù)據(jù)里面的噪聲很多,但是有時(shí)候在數(shù)據(jù)里面信號(hào)就是以噪聲的方式變成的。比如說(shuō)現(xiàn)在我們這個(gè)世界要傾聽(tīng)每一個(gè)個(gè)體的聲音,有一些個(gè)體的聲音是非常少的,在數(shù)據(jù)里面非常少,但是你不能忽略它。采樣本身是有偏差的,有一個(gè)經(jīng)典的故事,二戰(zhàn)的時(shí)候他們分析,飛回來(lái)的時(shí)候有很多彈孔,到底是加固哪個(gè)地方好呢?很多人說(shuō)是機(jī)翼,很多人沒(méi)有想到你要加固座艙,因?yàn)椴蓸邮怯?a href='/map/piancha/' style='color:#000;font-size:inherit;'>偏差的。尤其是大數(shù)據(jù),有一些子數(shù)據(jù)集,每一個(gè)數(shù)據(jù)是按照不同的抽樣規(guī)范來(lái)獲得的,這樣就有采樣偏差。
這里面是不是可以做,你還要考慮數(shù)據(jù)權(quán)利的問(wèn)題,這些數(shù)據(jù)是屬于誰(shuí)的?有沒(méi)有隱私問(wèn)題?許可是不是有范圍?我是不是按照許可的范圍做了?我能不能審計(jì)?這些都是數(shù)據(jù)的權(quán)利。未來(lái)數(shù)據(jù)交易的話還要解決數(shù)據(jù)的定價(jià)問(wèn)題,這是非常困難的。
當(dāng)我有了數(shù)據(jù)以后,需要生命周期的管理,大數(shù)據(jù)生命周期管理非常重要。一是出處或者是來(lái)源,即是大數(shù)據(jù)的家族譜系,它最早是哪里來(lái)的,它又移動(dòng)到什么地方,經(jīng)過(guò)什么樣的處理,又產(chǎn)生了什么樣新的子后代?,F(xiàn)在我們強(qiáng)調(diào)數(shù)據(jù)采集,是不是有這個(gè)必要?我們發(fā)現(xiàn)其實(shí)很多數(shù)據(jù)沒(méi)用以后,你就應(yīng)該刪除。
有一個(gè)案例,互聯(lián)網(wǎng)公司采集了很多鼠標(biāo)移動(dòng)的數(shù)據(jù)。大家知道用Cookies來(lái)采集鼠標(biāo)在什么地方,可以了解用戶的瀏覽行為。但是過(guò)一段時(shí)間網(wǎng)頁(yè)都變化了,這些數(shù)據(jù)還有什么用呢?所以就刪除掉。并不是說(shuō)數(shù)據(jù)越多越好,并不是說(shuō)數(shù)據(jù)永遠(yuǎn)都要保存,這是數(shù)據(jù)的采集。
下面講數(shù)據(jù)的準(zhǔn)備,剛才說(shuō)大數(shù)據(jù)有很多噪聲,大數(shù)據(jù)的質(zhì)量非常重要。剛才我們說(shuō)的它的混雜性,它的精確性有問(wèn)題。一個(gè)非常著名的研究機(jī)構(gòu)做了統(tǒng)計(jì),說(shuō)你們這些大數(shù)據(jù)分析師,一方面數(shù)據(jù)大,是不是你的問(wèn)題,另外一方面數(shù)據(jù)質(zhì)量是不是你的問(wèn)題,選擇后者是前者的兩倍。大數(shù)據(jù)本身它就是一個(gè)有噪聲的,有偏差的,也是有污染的數(shù)據(jù)源。你的目標(biāo)定在建立一個(gè)模型,要對(duì)噪聲建模,同時(shí)還要是信號(hào)不能太復(fù)雜,模型不能太復(fù)雜的。
一般處理的是數(shù)據(jù)清洗和數(shù)據(jù)驗(yàn)證,還有一種說(shuō)法是有,前者關(guān)注數(shù)據(jù)是錯(cuò)的,數(shù)據(jù)有些是丟失的或者有些數(shù)據(jù)是相互矛盾的。我通過(guò)清洗、驗(yàn)證的方式把它做出來(lái)。大數(shù)據(jù)非常大怎么辦,有沒(méi)有從一小部分?jǐn)?shù)據(jù)開(kāi)始做清洗,有沒(méi)有可能把整個(gè)過(guò)程自動(dòng)化,這是研究的前沿。另外一個(gè)前沿就是數(shù)據(jù)的清洗能不能跟可視化結(jié)合起來(lái),通過(guò)可視化一下子發(fā)現(xiàn)了這些不正常的地方。通過(guò)機(jī)器學(xué)習(xí)的方式來(lái)推理這些不正常的地方是因?yàn)槭裁吹胤健?/span>
我覺(jué)得現(xiàn)在最熱的研究課題是,你怎么能夠通過(guò)學(xué)習(xí)的方式來(lái)發(fā)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)當(dāng)中的結(jié)構(gòu)。你怎么能夠把哪些看似不同的數(shù)據(jù)挑出來(lái),比如說(shuō)有些地方叫國(guó)際商業(yè)機(jī)器公司,有些地方叫藍(lán)色巨人,你最終能夠把這些數(shù)據(jù)的表示使得它馬上就可以分析。我首先考慮怎么能夠降低計(jì)算通訊的代價(jià)。
大家看我們大數(shù)據(jù)經(jīng)常是稀疏的,大數(shù)據(jù)太大了我們有沒(méi)有可能壓縮。大家知道我們?cè)瓉?lái)的數(shù)據(jù)倉(cāng)庫(kù),最大的問(wèn)題,最麻煩的問(wèn)題就是我要給這個(gè)表增加列,增加列特別痛苦。現(xiàn)在我發(fā)現(xiàn)通過(guò)增加列的方式變得非常簡(jiǎn)單,我通過(guò)數(shù)據(jù)壓縮樹(shù)立的話更有局部性。
另外就是近似的數(shù)據(jù),它就是一種通過(guò)降低它的時(shí)空復(fù)雜性,使得它誤差稍微增加幾個(gè)百分點(diǎn),但是它的計(jì)算量下降幾個(gè)數(shù)量級(jí)。大家也應(yīng)該聽(tīng)說(shuō)過(guò)很多方式都是做這個(gè)的。
怎么能夠降低統(tǒng)計(jì)的復(fù)雜性,其實(shí)大家知道大數(shù)據(jù)就是高緯,怎么辦?降下來(lái),我通過(guò)降緯的方式能夠降低它的復(fù)雜性。我們還是需要采樣的,大家知道要么是隨機(jī)性采樣,并不代表用一個(gè)均衡的概率采樣,我用不同的組采樣。比如說(shuō)有些人你不知道他屬于哪個(gè)組,比如說(shuō)他是吸毒的,他不會(huì)說(shuō)或者說(shuō)他有特殊的技能,他也沒(méi)有類(lèi)似的標(biāo)簽,你可能需要一種新的采樣的方式,比如說(shuō)雪球采樣,你先找一個(gè)種子然后再慢慢的擴(kuò)大。即使你壓縮了很多,但是你還是可以恢復(fù)原始數(shù)據(jù)的。
我想請(qǐng)大家注意,數(shù)據(jù)分析師并不是考慮數(shù)據(jù)表象的問(wèn)題,并不是考慮數(shù)據(jù)模型的問(wèn)題。最終還是要考慮計(jì)算是怎么做的,所以我們要選擇最好的表示。比如說(shuō)數(shù)據(jù)并行的計(jì)算就用表或者是矩陣,如果是圖并行,我就要選擇網(wǎng)絡(luò)的格式。
最后,我想請(qǐng)大家注意UIMN,這個(gè)能夠幫助你來(lái)保存各種各樣數(shù)據(jù)表示,以及跟數(shù)據(jù)分析落對(duì)接。這個(gè)東西大家沒(méi)聽(tīng)說(shuō)過(guò)的話,大家一定聽(tīng)過(guò)Worse在人機(jī)競(jìng)賽中的電腦,它就是用這個(gè)表示的。
最后,查詢。很早數(shù)據(jù)就是查詢,慢慢說(shuō)要統(tǒng)計(jì)學(xué),慢慢又要機(jī)器學(xué)習(xí)了,所以我們說(shuō)數(shù)據(jù)挖掘是對(duì)三個(gè)學(xué)科的交叉,而這些學(xué)習(xí)又是從人工智能脫胎出來(lái)。慢慢的從這兒又包了一層ABB,現(xiàn)在又有最新的內(nèi)腦計(jì)算,分布學(xué)習(xí)。所有這些大家不能忘記,這些工具都要跟相關(guān)的計(jì)算的模型給對(duì)接起來(lái)。所以這是非常困難的東西。
我們數(shù)據(jù)分析師還是有些裝備的,這個(gè)是現(xiàn)在最流行的四種分析的語(yǔ)言,Saas,R,SQL,還有python。有人說(shuō)我不是這里的,那可能還需要學(xué)習(xí)JAVA這樣的語(yǔ)言。這個(gè)可能還不夠,還需要JAVASrcit,所以需要來(lái)更新我們的裝備。但是有人說(shuō)了這些裝備都是為傳統(tǒng)的數(shù)據(jù)分析師準(zhǔn)備的,大家不要擔(dān)心,因?yàn)樵谶@些語(yǔ)言下面都已經(jīng)有了大數(shù)據(jù)的基礎(chǔ)設(shè)施,比如SQL,可以使你以前的語(yǔ)言平滑的遷移到大數(shù)據(jù)基礎(chǔ)上。這些解決了大問(wèn)題,因?yàn)樵瓉?lái)的程序,數(shù)據(jù)量大一些就可以放在這個(gè)大數(shù)據(jù)的基礎(chǔ)設(shè)施上。更方便的是現(xiàn)在所有做基礎(chǔ)設(shè)施的人都在考慮一個(gè)詞,ML Pipeliine,而且現(xiàn)在更多的東西都可以放到云里做了。大家看到現(xiàn)在所有這些大數(shù)據(jù)的基礎(chǔ)設(shè)施我們都叫做動(dòng)物園了,因?yàn)楹芏喽际且詣?dòng)物的圖標(biāo)來(lái)展示的,現(xiàn)在都可以放到云里去,所以這給我們帶來(lái)了很多方便。
這里要強(qiáng)調(diào)的是,這是一個(gè)統(tǒng)計(jì)學(xué)的大師說(shuō)的,就是所有模型都是錯(cuò)的,但是有些是有用的,關(guān)鍵是選擇什么樣的模型。有一種人是一招鮮吃遍天,還有一種是一把鑰匙開(kāi)一把鎖,我是開(kāi)放的,我根據(jù)我的問(wèn)題來(lái)進(jìn)行選擇。模型的復(fù)雜度必須與問(wèn)題匹配的。這里就是有各種各樣模型都能解決的時(shí)候,就選擇最簡(jiǎn)單的一個(gè)。
我們現(xiàn)在做數(shù)據(jù)分析碰到兩個(gè)問(wèn)題:一個(gè)是過(guò)載,還有一個(gè)是數(shù)據(jù)量大了以后,模型沒(méi)辦法提升。這里就有一個(gè)很著名的人,叫彼特,他是寫(xiě)《人工智能現(xiàn)代方法》的作者,他說(shuō),簡(jiǎn)單模型加上大數(shù)據(jù),比復(fù)雜模型加小數(shù)據(jù)更好,這個(gè)對(duì)不對(duì),這個(gè)在很多情況下是對(duì)的,但是并不完全對(duì)。而且有時(shí)候模型簡(jiǎn)單參數(shù)很多,場(chǎng)景不同參數(shù)不同,假設(shè)場(chǎng)景是文本處理,可能每個(gè)單詞就是一個(gè)特征,這個(gè)模型就會(huì)非常復(fù)雜,所以大數(shù)據(jù)是有用的。還有一種解決數(shù)據(jù)過(guò)多的方式,就是通過(guò)另外一種方式?,F(xiàn)在線性模型針對(duì)小數(shù)據(jù),我現(xiàn)在代參模型針對(duì)小數(shù)據(jù),我甚至可以混合起來(lái)用,這樣又能夠提升分析的效率,又能夠解決數(shù)據(jù)的計(jì)算量的問(wèn)題。
我剛才講到長(zhǎng)尾信號(hào)非常非常重要,我們現(xiàn)在不能忽略長(zhǎng)尾信號(hào),那怎么辦?我們傳統(tǒng)的分析很多都是基于指數(shù)的假設(shè),這個(gè)就是割尾巴,到后面就是沒(méi)尾巴,這樣就把長(zhǎng)尾信號(hào)都過(guò)濾掉了,我可能是需要一些基于神經(jīng)網(wǎng)絡(luò)的方式。分析要快,第一,我們一直強(qiáng)調(diào)傳統(tǒng)的是送進(jìn)去的,我60秒完成跟6分鐘完成是不是一樣的呢?或者說(shuō)它們的效率差一點(diǎn)點(diǎn)或者差幾倍?未必,等待時(shí)間拉長(zhǎng),分析師的耐心會(huì)降低。像針對(duì)時(shí)空的數(shù)據(jù),現(xiàn)在機(jī)器學(xué)習(xí)強(qiáng)調(diào)的在線學(xué)習(xí)、增量的學(xué)習(xí)、流逝的學(xué)習(xí),一邊進(jìn)來(lái)一邊學(xué)習(xí)、一邊更改模型,這個(gè)就很重要。最后當(dāng)你的數(shù)據(jù)又大,又需要快的時(shí)候,你不懂系統(tǒng)是不行的,你必須懂系統(tǒng),你必須懂?dāng)?shù)據(jù)并行,任務(wù)并行,必須做系統(tǒng)調(diào)優(yōu)的東西。
我前兩天跟一個(gè)朋友聊,他說(shuō)現(xiàn)在要做到所有分析數(shù)據(jù)的調(diào)優(yōu)做到隨機(jī)的訪問(wèn)都在CPU緩存里,到磁盤(pán)上的訪問(wèn)都是串行的訪問(wèn),這樣才能做到系統(tǒng)調(diào)優(yōu)做到最佳。從語(yǔ)音識(shí)別,到圖像理解,到自然語(yǔ)言理解。上面都是人們做的認(rèn)知任務(wù),深度學(xué)習(xí)下一步會(huì)進(jìn)入非認(rèn)知任務(wù),像百度用來(lái)做搜索廣告,包括做要?jiǎng)?wù)的發(fā)現(xiàn),我現(xiàn)在也在做機(jī)器人,機(jī)器人很多需要深度學(xué)習(xí),我們現(xiàn)在把深度學(xué)習(xí)放進(jìn)去也非常好。大家的福音就在于現(xiàn)在深度學(xué)習(xí)很多的代碼都是開(kāi)源的,去年花了很多力氣去做各種各樣的模型,現(xiàn)在所有模型全部都開(kāi)源,所以下一步大家注意,我們的科學(xué)是開(kāi)放的。你有大量的開(kāi)源的軟件,而且現(xiàn)在不但你論文放在ICup上,你的數(shù)據(jù)代碼可能放在Dcup上,所有都是開(kāi)放的。
大家還沒(méi)有學(xué)Sparse coding的話大家可以看一下,還有在標(biāo)注下的學(xué)習(xí),這張PPT是吳恩達(dá)的,大家看,橙色的都是標(biāo)注數(shù)據(jù),你要有大象和犀牛的數(shù)據(jù),就是左面的是標(biāo)出的,我可以結(jié)合一些非標(biāo)注的東西學(xué)習(xí),然后可以引入其他的標(biāo)注數(shù)據(jù),像羚羊的數(shù)據(jù)也可以幫助我們學(xué)習(xí),最后到拿一些完全不相關(guān)的數(shù)據(jù)跟它們進(jìn)行學(xué)習(xí)。
人類(lèi)角色在變化,前一段時(shí)間有人提出來(lái),人的角色,因?yàn)閿?shù)據(jù)分析師要懂機(jī)器,懂工具,我們要跟工具更好的配合,因?yàn)槲覀兊慕巧恢痹诟鷻C(jī)器替代它們。機(jī)器學(xué)習(xí)最重要的就是特征學(xué)習(xí),現(xiàn)在無(wú)監(jiān)督的,它可以幫助你學(xué)習(xí)特征,而且很多工具開(kāi)始自動(dòng)化了,那么你怎么跟它工作搭配,能夠獲得最好呢,就是你一邊在利用工具獲得一些數(shù)據(jù),然后提出問(wèn)題是一個(gè)循環(huán)的過(guò)程?,F(xiàn)在就是大規(guī)模的人跟人,人跟機(jī)器協(xié)同配合,因?yàn)楹芏鄼C(jī)器可以外包,你可以眾包,你大量數(shù)據(jù)通過(guò)眾標(biāo)方式進(jìn)行標(biāo)注。包括協(xié)作,現(xiàn)在開(kāi)放數(shù)據(jù),光開(kāi)放還不行,還要在這個(gè)數(shù)據(jù)上進(jìn)行多人協(xié)作分析,你要對(duì)數(shù)據(jù)進(jìn)行版本的管理,還有現(xiàn)在所謂的人類(lèi)計(jì)算,像大家都在上面學(xué)習(xí)英語(yǔ),在學(xué)習(xí)英語(yǔ)的過(guò)程是對(duì)互聯(lián)網(wǎng)進(jìn)行翻譯的過(guò)程。
最后,就是解釋和驗(yàn)證。今天的大會(huì)標(biāo)題是要懂技術(shù),懂藝術(shù)。這里一個(gè)很重要的就是講故事,你有了分析之后怎么講出來(lái)。比如說(shuō)啤酒加尿布,它就符合了講故事的3D:戲劇性、細(xì)節(jié)、參與這個(gè)對(duì)話的過(guò)程。啤酒加尿布,這個(gè)案例我給大家說(shuō)這是編出來(lái)的,但是它符合了這個(gè)過(guò)程,所以它就馬上傳播出去了,變成大家都愿意去支持?jǐn)?shù)據(jù)分析的這么一個(gè)案例。包括魔球(電影Money ball)也是這樣,非常強(qiáng)調(diào)數(shù)據(jù)分析怎么來(lái)改變棒球運(yùn)動(dòng)的,但是事實(shí)上它也沒(méi)有說(shuō)出來(lái)的是,這里很多工作是通過(guò)裁判去做的,有些人非客觀的因素,像意志力,像抗壓力。還有像Facebook做控制情緒的實(shí)驗(yàn),還有Uber分析一夜情。我還是想強(qiáng)調(diào)好的講故事能夠使分析事半功倍。
我們希望現(xiàn)在能夠把大量的運(yùn)力能document,這樣可以進(jìn)行學(xué)習(xí),還有就是通過(guò)模擬預(yù)測(cè)未來(lái)。所以這就是最后的總結(jié),現(xiàn)在我們的大數(shù)據(jù)的基礎(chǔ)設(shè)施已經(jīng)改朝換代了,我們的數(shù)據(jù)分析師,我們?cè)趺磥?lái)改變我們的思維方式,怎么來(lái)提高我們的技術(shù),怎么來(lái)豐富我們的分析能力?謝謝大家。
主持人:謝謝吳院長(zhǎng)。我們說(shuō)了這么多專(zhuān)業(yè)的東西,其實(shí)我想跟院長(zhǎng)聊聊其他的,我記得院長(zhǎng)是一個(gè)非常平易近人,和藹的人,包括他在之前回答記者的問(wèn)題的時(shí)候,調(diào)侃說(shuō)自己是跑龍?zhí)椎?。所以我今天?tīng)院長(zhǎng)演講也是非常的激動(dòng),為什么院長(zhǎng)當(dāng)時(shí)會(huì)這么說(shuō)呢?
吳甘沙:我想每個(gè)人都是從跑龍?zhí)组_(kāi)始的。但是我想還是學(xué)習(xí)能力,你有學(xué)習(xí)能力的話很快就會(huì)蛻變。
主持人:這個(gè)轉(zhuǎn)變也是意料之中的,因?yàn)閰窃洪L(zhǎng)一直這么努力。
吳甘沙:這塊不是不確定,這塊是確定的。
主持人:好,掌聲再次送給吳院長(zhǎng)。
PPT下載鏈接:http://bbs.pinggu.org/a-1874950.html
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03