99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁大數(shù)據(jù)時(shí)代Intel研究院院長吳甘沙:基礎(chǔ)設(shè)施已經(jīng)改朝換代,大數(shù)據(jù)分析師的卓越之道
Intel研究院院長吳甘沙:基礎(chǔ)設(shè)施已經(jīng)改朝換代,大數(shù)據(jù)分析師的卓越之道
2021-08-05
收藏

編者按:9月11日—9月12日,由經(jīng)管之家(原人大經(jīng)濟(jì)論壇)主辦的“2015中國數(shù)據(jù)分析師行業(yè)峰會(CDA?Summit)”在北京舉行。本文是英特爾中國研究院院長兼首席工程師吳甘沙在峰會上的演講全文,吳甘沙演講的主題是“大數(shù)據(jù)分析師的卓越之道”。他講道,基礎(chǔ)設(shè)施已經(jīng)改朝換代了,我們分析師也應(yīng)該與時(shí)俱進(jìn),體現(xiàn)在三個(gè):一個(gè)使思維方式要改變,我們技術(shù)要提升,第三,我們分析的能力要豐富起來。以下為吳甘沙演講全文:




親愛的各位同仁,各位同學(xué),早上好。大家可能還有些納悶,本來是吳恩達(dá)老師講人工智能,怎么換吳甘沙講。幾個(gè)月前我剛剛跟吳老師在硅谷聊了一兩個(gè)小時(shí),早知道今天這樣我多向他請教一下人工智能,現(xiàn)在還是講一下我擅長的大數(shù)據(jù)。講到大數(shù)據(jù),就要問數(shù)據(jù)分析師應(yīng)該做什么?所以我今天的標(biāo)題是大數(shù)據(jù)分析師的卓越之道。這里不一定講的對,講的對的我也不一定懂,所以請大家以批評式的方式去理解。




這是一個(gè)典型的數(shù)據(jù)分析的場景,下面是基礎(chǔ)設(shè)施,數(shù)據(jù)采集、存儲到處理,左邊是數(shù)據(jù)處理,右邊價(jià)值輸出。連接數(shù)據(jù)和價(jià)值之間的就是這知識發(fā)現(xiàn),用專業(yè)詞匯講,知識就是模型,知識發(fā)現(xiàn)就是建模和學(xué)習(xí)的過程。問題來了,進(jìn)入到大數(shù)據(jù)的時(shí)代,這有什么變化呢?首先對數(shù)據(jù)變的非常大,大家就開始說了,數(shù)據(jù)是新的原材料,是資產(chǎn),是石油,是貨幣,所以大家的希望值也非常高,這個(gè)價(jià)值也希望抬的非常高。但是一旦大數(shù)據(jù)洪流過來,我們原有基礎(chǔ)設(shè)施都被沖的七零八落。所以過去十幾年事實(shí)上業(yè)界都在做大數(shù)據(jù)基礎(chǔ)設(shè)施,我怎么做大規(guī)模水平擴(kuò)展,數(shù)據(jù)密集了怎么提高分布式操作性能,怎么把磁盤山村化,我們就有閃存內(nèi)存化,我們最近從密集型又到計(jì)算密集型。所有這些都是基礎(chǔ)設(shè)施。


現(xiàn)在大家想基礎(chǔ)設(shè)施升級了,我只是知識發(fā)現(xiàn)的過程是不是能自然升級?我跟大家說天下沒有免費(fèi)的午餐。所以我想今天的主題是基礎(chǔ)設(shè)施已經(jīng)改朝換代了,我們分析師也應(yīng)該與時(shí)俱進(jìn),體現(xiàn)在三個(gè):一個(gè)使思維方式要改變,我們技術(shù)要提升,第三,我們分析的能力要豐富起來。


首先,說一下思維方式。說改變思維方式最重要的就是改變世界觀,這個(gè)就是牛頓機(jī)械論世界。我們曾經(jīng)聽說過一個(gè)叫拉夫拉絲惡魔的說法。也就是說,我如果在這個(gè)時(shí)刻與宇宙當(dāng)中所有的原子的狀態(tài)都是可確定的話,就可以推知過去任何一個(gè)時(shí)刻和未來任何一個(gè)時(shí)刻,這就是牛頓的機(jī)械論。所謂愛因斯坦發(fā)展了這個(gè)物理學(xué),但是還是確定論,決定論,上帝不擲色子。但是今天的世界事實(shí)上是什么樣的?我們這個(gè)是說牛頓世界觀,就是確定論。事實(shí)上今天是不確定的,基于概率的世界觀。大家都看過所謂的(薛定論)的貓的思維的實(shí)驗(yàn)。這個(gè)貓?jiān)诤凶永锏降资撬肋€是活的,其實(shí)它可能同時(shí)是死的,也同時(shí)是活的。但是一旦打開這個(gè)盒子,它就變成確定了,它要么就是真的變成死的,要么就是真的變成活的。也就是由我們現(xiàn)在所謂的好奇心害死貓,就是你打開盒子有一半的概率把這個(gè)貓殺死。




這個(gè)理念事實(shí)上反映的就是海森堡的不確定主義,就是你的行為會改變被觀測的現(xiàn)象,在大數(shù)據(jù)事實(shí)上也有測不準(zhǔn)的,像Google流感的預(yù)測,這是大家經(jīng)常作為數(shù)據(jù)分析的經(jīng)典案例,具體細(xì)節(jié)不跟大家講了,大家可以看在2013年1月份的階段,橙色的線,Google預(yù)計(jì)高于疾控中心它實(shí)際測到的流感的概率。所以科學(xué)和自然就發(fā)話了,自然是科學(xué)測不準(zhǔn),科學(xué)說這是大數(shù)據(jù)的傲慢。在這個(gè)案例來,即使Google也拿不到全量的數(shù)據(jù),你雖然有疾控中心的數(shù)據(jù)和當(dāng)中調(diào)整模型等等的,但是還是不精確,你以為這種相關(guān)性就能解決問題,但是健康的問題就是要究其原因,要有因果性。大家看這個(gè)預(yù)測的過量就導(dǎo)致了預(yù)感疫苗準(zhǔn)備的過量。




所以我們看數(shù)據(jù)的方法論我們需要升級。這是一個(gè)典型的數(shù)據(jù)分析的流程,可以先由假設(shè)采集數(shù)據(jù),也可以先采集了數(shù)據(jù),然后從中發(fā)現(xiàn)假設(shè)。有了數(shù)據(jù)以后下一步就要做數(shù)據(jù)的準(zhǔn)備,數(shù)據(jù)準(zhǔn)備往往是最花時(shí)間的。然后分析,分析完了要考慮怎么解釋這個(gè)結(jié)果,大家知道做機(jī)器學(xué)習(xí)有兩種:一種是給機(jī)器看的,比如說我精準(zhǔn)營銷;還有一種機(jī)器學(xué)習(xí)是給人看的,是要有可解釋性。有時(shí)候?yàn)榱丝山忉屝陨踔猎敢鉅奚_性。大家知道Ficle,它就是理論參數(shù),非常簡單,可解釋性非常強(qiáng)。另外一個(gè)就是要驗(yàn)證,從我們傳統(tǒng)說的隨機(jī)對照實(shí)驗(yàn)到現(xiàn)在AB測試,我們要去驗(yàn)證。但是到了大數(shù)據(jù)時(shí)代這個(gè)方法論要怎么改變呢,首先我們說測不準(zhǔn),還有不要相信看到的任何事,所以需要加一個(gè)反饋循環(huán),我們不停的反復(fù)做這個(gè)。這里雖然有很多噪聲,但是這個(gè)是可以處理的,還有一些是系統(tǒng)噪聲,可能因?yàn)槲廴镜臄?shù)據(jù)源,這個(gè)就要特別處理。我們要數(shù)據(jù)分析需要實(shí)時(shí)、交互、要快,這樣才能趕得及世界的變化,所以這里需要很多很多的東西。


我現(xiàn)在一個(gè)一個(gè)跟大家分析一下。首先看假設(shè)。我們現(xiàn)在說大數(shù)據(jù)思維是說我們先有很多數(shù)據(jù),然后通過機(jī)械的方法發(fā)現(xiàn)其中的相關(guān)性,之后再找到假設(shè)。有時(shí)候相關(guān)性確實(shí)太多了,弱水三千只取一瓢飲,這里面就需要我們的直覺。所謂的直覺就是不直覺,但是在潛意識里在發(fā)生推理。所以我一直強(qiáng)調(diào)要怎么訓(xùn)練直覺?就是讀,像懸疑小說,你經(jīng)歷這么一個(gè)推理的過程。如果說這樣的推理過程只是模型,也還需要數(shù)據(jù),需要很多先驗(yàn)的知識。這個(gè)知識怎么來呢?就是廣泛的閱讀。第二個(gè),跨界思想的碰撞,跟很多人聊。這兩個(gè)是背景知識,還有一個(gè)前景知識,就是在這么上下游里融入到業(yè)務(wù)部門。現(xiàn)在我們企業(yè)的數(shù)據(jù)分析的組織,我們希望把數(shù)據(jù)分析師放到業(yè)務(wù)部門,和它們?nèi)谌氲揭黄?,這才能防止數(shù)據(jù)和分析脫鉤,這樣才能防止數(shù)據(jù)分析和業(yè)務(wù)應(yīng)用的脫節(jié)。


第二個(gè),數(shù)據(jù)采集,這里我非??鋸埖氖菙?shù)據(jù)!數(shù)據(jù)!數(shù)據(jù)!為什么?因?yàn)榇髷?shù)據(jù)碰到的第一個(gè)問題就是數(shù)據(jù)饑渴癥。我們有一次跟阿里聊,它們說也缺數(shù)據(jù),因?yàn)樗鼈冎挥芯W(wǎng)上的銷售記錄,而缺乏無線的數(shù)據(jù)。所以我們強(qiáng)調(diào)全量數(shù)據(jù),我們盡量不采樣。


同時(shí)現(xiàn)在我們企業(yè)已經(jīng)從小數(shù)據(jù)到大數(shù)據(jù),有人說數(shù)據(jù)改變太困難了,太貴了。其實(shí)它強(qiáng)調(diào)的是問題還沒存在的時(shí)候,你一開始就把數(shù)據(jù)定了。傳統(tǒng)的數(shù)據(jù)倉庫是,我先有一個(gè)問題,然后你這個(gè)數(shù)據(jù)根據(jù)這個(gè)問題做好組織,然后進(jìn)來。從現(xiàn)在的大數(shù)據(jù)來說,你先把數(shù)據(jù)送進(jìn)來,然后再不斷的提問題,這就是一種新的思維。我們需要大量外部的數(shù)據(jù)源來查,你要買數(shù)據(jù)拿來用。而且你要從傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)到半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)是什么,交易數(shù)據(jù)。但是現(xiàn)在我們企業(yè)里面馬上就有兩個(gè)非結(jié)構(gòu)化數(shù)據(jù)出現(xiàn)。


  • 第一個(gè)就是日志分析,大家知道大數(shù)據(jù)第一家上市公司Splunk就是從事這一業(yè)務(wù)。



  • 第二個(gè)就是文本數(shù)據(jù),現(xiàn)在我們經(jīng)常聽說情感分析,即是文本數(shù)據(jù)?,F(xiàn)在我們最新的基于呼叫中心我們需要做問答系統(tǒng),甚至是最新的所謂的交互式對話系統(tǒng),都需要文本數(shù)據(jù)。



  • 第三個(gè)是從文本到圖片再到視覺,現(xiàn)在計(jì)算機(jī)視覺、模式匹配、語義分析。很多數(shù)據(jù)都是有時(shí)間和空間的標(biāo)簽,這些數(shù)據(jù)怎么保證時(shí)空,怎么能夠?qū)崟r(shí)處理這些新的數(shù)據(jù)。



  • 最后,還有很多數(shù)據(jù)是網(wǎng)絡(luò)數(shù)據(jù),比如說社交網(wǎng)絡(luò),我們怎么來判斷,我們個(gè)人的影響力,怎么來判斷網(wǎng)絡(luò)的控制中心在哪里,都需要一些新的處理方式。



說完感嘆號,我開始要說問號。是不是前面說的這些都是合理的?比如說英特爾事實(shí)上是不可能采集到數(shù)據(jù),而有時(shí)候你采集不到全體數(shù)據(jù),你也不需要。


比如說我給大家舉個(gè)例子,是不是數(shù)據(jù)更多就越好呢?未必。我們拿英特爾作為一個(gè)例子,青海、西藏、內(nèi)蒙古占的面積是我們國土面積的一半,我們采集這四個(gè)省的面積,是不是都代表中國呢?未必,所以采集更多的數(shù)據(jù)有時(shí)候更重要。第二個(gè)是“原始數(shù)據(jù)”是不是一個(gè)矛盾的概念,因?yàn)樵紨?shù)據(jù)可能并不原始,它受采集人的影響。所以原始數(shù)據(jù)也未必是原始的,數(shù)據(jù)里面當(dāng)然有很多的信號。但是大數(shù)據(jù)里面的噪聲很多,但是有時(shí)候在數(shù)據(jù)里面信號就是以噪聲的方式變成的。比如說現(xiàn)在我們這個(gè)世界要傾聽每一個(gè)個(gè)體的聲音,有一些個(gè)體的聲音是非常少的,在數(shù)據(jù)里面非常少,但是你不能忽略它。采樣本身是有偏差的,有一個(gè)經(jīng)典的故事,二戰(zhàn)的時(shí)候他們分析,飛回來的時(shí)候有很多彈孔,到底是加固哪個(gè)地方好呢?很多人說是機(jī)翼,很多人沒有想到你要加固座艙,因?yàn)椴蓸邮怯?a href='/map/piancha/' style='color:#000;font-size:inherit;'>偏差的。尤其是大數(shù)據(jù),有一些子數(shù)據(jù)集,每一個(gè)數(shù)據(jù)是按照不同的抽樣規(guī)范來獲得的,這樣就有采樣偏差


這里面是不是可以做,你還要考慮數(shù)據(jù)權(quán)利的問題,這些數(shù)據(jù)是屬于誰的?有沒有隱私問題?許可是不是有范圍?我是不是按照許可的范圍做了?我能不能審計(jì)?這些都是數(shù)據(jù)的權(quán)利。未來數(shù)據(jù)交易的話還要解決數(shù)據(jù)的定價(jià)問題,這是非常困難的。


當(dāng)我有了數(shù)據(jù)以后,需要生命周期的管理,大數(shù)據(jù)生命周期管理非常重要。一是出處或者是來源,即是大數(shù)據(jù)的家族譜系,它最早是哪里來的,它又移動到什么地方,經(jīng)過什么樣的處理,又產(chǎn)生了什么樣新的子后代?,F(xiàn)在我們強(qiáng)調(diào)數(shù)據(jù)采集,是不是有這個(gè)必要?我們發(fā)現(xiàn)其實(shí)很多數(shù)據(jù)沒用以后,你就應(yīng)該刪除。


有一個(gè)案例,互聯(lián)網(wǎng)公司采集了很多鼠標(biāo)移動的數(shù)據(jù)。大家知道用Cookies來采集鼠標(biāo)在什么地方,可以了解用戶的瀏覽行為。但是過一段時(shí)間網(wǎng)頁都變化了,這些數(shù)據(jù)還有什么用呢?所以就刪除掉。并不是說數(shù)據(jù)越多越好,并不是說數(shù)據(jù)永遠(yuǎn)都要保存,這是數(shù)據(jù)的采集。


下面講數(shù)據(jù)的準(zhǔn)備,剛才說大數(shù)據(jù)有很多噪聲,大數(shù)據(jù)的質(zhì)量非常重要。剛才我們說的它的混雜性,它的精確性有問題。一個(gè)非常著名的研究機(jī)構(gòu)做了統(tǒng)計(jì),說你們這些大數(shù)據(jù)分析師,一方面數(shù)據(jù)大,是不是你的問題,另外一方面數(shù)據(jù)質(zhì)量是不是你的問題,選擇后者是前者的兩倍。大數(shù)據(jù)本身它就是一個(gè)有噪聲的,有偏差的,也是有污染的數(shù)據(jù)源。你的目標(biāo)定在建立一個(gè)模型,要對噪聲建模,同時(shí)還要是信號不能太復(fù)雜,模型不能太復(fù)雜的。


一般處理的是數(shù)據(jù)清洗和數(shù)據(jù)驗(yàn)證,還有一種說法是有,前者關(guān)注數(shù)據(jù)是錯(cuò)的,數(shù)據(jù)有些是丟失的或者有些數(shù)據(jù)是相互矛盾的。我通過清洗、驗(yàn)證的方式把它做出來。大數(shù)據(jù)非常大怎么辦,有沒有從一小部分?jǐn)?shù)據(jù)開始做清洗,有沒有可能把整個(gè)過程自動化,這是研究的前沿。另外一個(gè)前沿就是數(shù)據(jù)的清洗能不能跟可視化結(jié)合起來,通過可視化一下子發(fā)現(xiàn)了這些不正常的地方。通過機(jī)器學(xué)習(xí)的方式來推理這些不正常的地方是因?yàn)槭裁吹胤健?/span>


我覺得現(xiàn)在最熱的研究課題是,你怎么能夠通過學(xué)習(xí)的方式來發(fā)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)當(dāng)中的結(jié)構(gòu)。你怎么能夠把哪些看似不同的數(shù)據(jù)挑出來,比如說有些地方叫國際商業(yè)機(jī)器公司,有些地方叫藍(lán)色巨人,你最終能夠把這些數(shù)據(jù)的表示使得它馬上就可以分析。我首先考慮怎么能夠降低計(jì)算通訊的代價(jià)。


大家看我們大數(shù)據(jù)經(jīng)常是稀疏的,大數(shù)據(jù)太大了我們有沒有可能壓縮。大家知道我們原來的數(shù)據(jù)倉庫,最大的問題,最麻煩的問題就是我要給這個(gè)表增加列,增加列特別痛苦?,F(xiàn)在我發(fā)現(xiàn)通過增加列的方式變得非常簡單,我通過數(shù)據(jù)壓縮樹立的話更有局部性。


另外就是近似的數(shù)據(jù),它就是一種通過降低它的時(shí)空復(fù)雜性,使得它誤差稍微增加幾個(gè)百分點(diǎn),但是它的計(jì)算量下降幾個(gè)數(shù)量級。大家也應(yīng)該聽說過很多方式都是做這個(gè)的。


怎么能夠降低統(tǒng)計(jì)的復(fù)雜性,其實(shí)大家知道大數(shù)據(jù)就是高緯,怎么辦?降下來,我通過降緯的方式能夠降低它的復(fù)雜性。我們還是需要采樣的,大家知道要么是隨機(jī)性采樣,并不代表用一個(gè)均衡的概率采樣,我用不同的組采樣。比如說有些人你不知道他屬于哪個(gè)組,比如說他是吸毒的,他不會說或者說他有特殊的技能,他也沒有類似的標(biāo)簽,你可能需要一種新的采樣的方式,比如說雪球采樣,你先找一個(gè)種子然后再慢慢的擴(kuò)大。即使你壓縮了很多,但是你還是可以恢復(fù)原始數(shù)據(jù)的。


我想請大家注意,數(shù)據(jù)分析師并不是考慮數(shù)據(jù)表象的問題,并不是考慮數(shù)據(jù)模型的問題。最終還是要考慮計(jì)算是怎么做的,所以我們要選擇最好的表示。比如說數(shù)據(jù)并行的計(jì)算就用表或者是矩陣,如果是圖并行,我就要選擇網(wǎng)絡(luò)的格式。


最后,我想請大家注意UIMN,這個(gè)能夠幫助你來保存各種各樣數(shù)據(jù)表示,以及跟數(shù)據(jù)分析落對接。這個(gè)東西大家沒聽說過的話,大家一定聽過Worse在人機(jī)競賽中的電腦,它就是用這個(gè)表示的。


最后,查詢。很早數(shù)據(jù)就是查詢,慢慢說要統(tǒng)計(jì)學(xué),慢慢又要機(jī)器學(xué)習(xí)了,所以我們說數(shù)據(jù)挖掘是對三個(gè)學(xué)科的交叉,而這些學(xué)習(xí)又是從人工智能脫胎出來。慢慢的從這兒又包了一層ABB,現(xiàn)在又有最新的內(nèi)腦計(jì)算,分布學(xué)習(xí)。所有這些大家不能忘記,這些工具都要跟相關(guān)的計(jì)算的模型給對接起來。所以這是非常困難的東西。


我們數(shù)據(jù)分析師還是有些裝備的,這個(gè)是現(xiàn)在最流行的四種分析的語言,Saas,R,SQL,還有python。有人說我不是這里的,那可能還需要學(xué)習(xí)JAVA這樣的語言。這個(gè)可能還不夠,還需要JAVASrcit,所以需要來更新我們的裝備。但是有人說了這些裝備都是為傳統(tǒng)的數(shù)據(jù)分析師準(zhǔn)備的,大家不要擔(dān)心,因?yàn)樵谶@些語言下面都已經(jīng)有了大數(shù)據(jù)的基礎(chǔ)設(shè)施,比如SQL,可以使你以前的語言平滑的遷移到大數(shù)據(jù)基礎(chǔ)上。這些解決了大問題,因?yàn)樵瓉淼某绦?,?shù)據(jù)量大一些就可以放在這個(gè)大數(shù)據(jù)的基礎(chǔ)設(shè)施上。更方便的是現(xiàn)在所有做基礎(chǔ)設(shè)施的人都在考慮一個(gè)詞,ML Pipeliine,而且現(xiàn)在更多的東西都可以放到云里做了。大家看到現(xiàn)在所有這些大數(shù)據(jù)的基礎(chǔ)設(shè)施我們都叫做動物園了,因?yàn)楹芏喽际且詣游锏膱D標(biāo)來展示的,現(xiàn)在都可以放到云里去,所以這給我們帶來了很多方便。


這里要強(qiáng)調(diào)的是,這是一個(gè)統(tǒng)計(jì)學(xué)的大師說的,就是所有模型都是錯(cuò)的,但是有些是有用的,關(guān)鍵是選擇什么樣的模型。有一種人是一招鮮吃遍天,還有一種是一把鑰匙開一把鎖,我是開放的,我根據(jù)我的問題來進(jìn)行選擇。模型的復(fù)雜度必須與問題匹配的。這里就是有各種各樣模型都能解決的時(shí)候,就選擇最簡單的一個(gè)。


我們現(xiàn)在做數(shù)據(jù)分析碰到兩個(gè)問題:一個(gè)是過載,還有一個(gè)是數(shù)據(jù)量大了以后,模型沒辦法提升。這里就有一個(gè)很著名的人,叫彼特,他是寫《人工智能現(xiàn)代方法》的作者,他說,簡單模型加上大數(shù)據(jù),比復(fù)雜模型加小數(shù)據(jù)更好,這個(gè)對不對,這個(gè)在很多情況下是對的,但是并不完全對。而且有時(shí)候模型簡單參數(shù)很多,場景不同參數(shù)不同,假設(shè)場景是文本處理,可能每個(gè)單詞就是一個(gè)特征,這個(gè)模型就會非常復(fù)雜,所以大數(shù)據(jù)是有用的。還有一種解決數(shù)據(jù)過多的方式,就是通過另外一種方式。現(xiàn)在線性模型針對小數(shù)據(jù),我現(xiàn)在代參模型針對小數(shù)據(jù),我甚至可以混合起來用,這樣又能夠提升分析的效率,又能夠解決數(shù)據(jù)的計(jì)算量的問題。


我剛才講到長尾信號非常非常重要,我們現(xiàn)在不能忽略長尾信號,那怎么辦?我們傳統(tǒng)的分析很多都是基于指數(shù)的假設(shè),這個(gè)就是割尾巴,到后面就是沒尾巴,這樣就把長尾信號都過濾掉了,我可能是需要一些基于神經(jīng)網(wǎng)絡(luò)的方式。分析要快,第一,我們一直強(qiáng)調(diào)傳統(tǒng)的是送進(jìn)去的,我60秒完成跟6分鐘完成是不是一樣的呢?或者說它們的效率差一點(diǎn)點(diǎn)或者差幾倍?未必,等待時(shí)間拉長,分析師的耐心會降低。像針對時(shí)空的數(shù)據(jù),現(xiàn)在機(jī)器學(xué)習(xí)強(qiáng)調(diào)的在線學(xué)習(xí)、增量的學(xué)習(xí)、流逝的學(xué)習(xí),一邊進(jìn)來一邊學(xué)習(xí)、一邊更改模型,這個(gè)就很重要。最后當(dāng)你的數(shù)據(jù)又大,又需要快的時(shí)候,你不懂系統(tǒng)是不行的,你必須懂系統(tǒng),你必須懂?dāng)?shù)據(jù)并行,任務(wù)并行,必須做系統(tǒng)調(diào)優(yōu)的東西。


我前兩天跟一個(gè)朋友聊,他說現(xiàn)在要做到所有分析數(shù)據(jù)的調(diào)優(yōu)做到隨機(jī)的訪問都在CPU緩存里,到磁盤上的訪問都是串行的訪問,這樣才能做到系統(tǒng)調(diào)優(yōu)做到最佳。從語音識別,到圖像理解,到自然語言理解。上面都是人們做的認(rèn)知任務(wù),深度學(xué)習(xí)下一步會進(jìn)入非認(rèn)知任務(wù),像百度用來做搜索廣告,包括做要務(wù)的發(fā)現(xiàn),我現(xiàn)在也在做機(jī)器人,機(jī)器人很多需要深度學(xué)習(xí),我們現(xiàn)在把深度學(xué)習(xí)放進(jìn)去也非常好。大家的福音就在于現(xiàn)在深度學(xué)習(xí)很多的代碼都是開源的,去年花了很多力氣去做各種各樣的模型,現(xiàn)在所有模型全部都開源,所以下一步大家注意,我們的科學(xué)是開放的。你有大量的開源的軟件,而且現(xiàn)在不但你論文放在ICup上,你的數(shù)據(jù)代碼可能放在Dcup上,所有都是開放的。




大家還沒有學(xué)Sparse coding的話大家可以看一下,還有在標(biāo)注下的學(xué)習(xí),這張PPT是吳恩達(dá)的,大家看,橙色的都是標(biāo)注數(shù)據(jù),你要有大象和犀牛的數(shù)據(jù),就是左面的是標(biāo)出的,我可以結(jié)合一些非標(biāo)注的東西學(xué)習(xí),然后可以引入其他的標(biāo)注數(shù)據(jù),像羚羊的數(shù)據(jù)也可以幫助我們學(xué)習(xí),最后到拿一些完全不相關(guān)的數(shù)據(jù)跟它們進(jìn)行學(xué)習(xí)。


人類角色在變化,前一段時(shí)間有人提出來,人的角色,因?yàn)閿?shù)據(jù)分析師要懂機(jī)器,懂工具,我們要跟工具更好的配合,因?yàn)槲覀兊慕巧恢痹诟鷻C(jī)器替代它們。機(jī)器學(xué)習(xí)最重要的就是特征學(xué)習(xí),現(xiàn)在無監(jiān)督的,它可以幫助你學(xué)習(xí)特征,而且很多工具開始自動化了,那么你怎么跟它工作搭配,能夠獲得最好呢,就是你一邊在利用工具獲得一些數(shù)據(jù),然后提出問題是一個(gè)循環(huán)的過程?,F(xiàn)在就是大規(guī)模的人跟人,人跟機(jī)器協(xié)同配合,因?yàn)楹芏鄼C(jī)器可以外包,你可以眾包,你大量數(shù)據(jù)通過眾標(biāo)方式進(jìn)行標(biāo)注。包括協(xié)作,現(xiàn)在開放數(shù)據(jù),光開放還不行,還要在這個(gè)數(shù)據(jù)上進(jìn)行多人協(xié)作分析,你要對數(shù)據(jù)進(jìn)行版本的管理,還有現(xiàn)在所謂的人類計(jì)算,像大家都在上面學(xué)習(xí)英語,在學(xué)習(xí)英語的過程是對互聯(lián)網(wǎng)進(jìn)行翻譯的過程。


最后,就是解釋和驗(yàn)證。今天的大會標(biāo)題是要懂技術(shù),懂藝術(shù)。這里一個(gè)很重要的就是講故事,你有了分析之后怎么講出來。比如說啤酒加尿布,它就符合了講故事的3D:戲劇性、細(xì)節(jié)、參與這個(gè)對話的過程。啤酒加尿布,這個(gè)案例我給大家說這是編出來的,但是它符合了這個(gè)過程,所以它就馬上傳播出去了,變成大家都愿意去支持?jǐn)?shù)據(jù)分析的這么一個(gè)案例。包括魔球(電影Money ball)也是這樣,非常強(qiáng)調(diào)數(shù)據(jù)分析怎么來改變棒球運(yùn)動的,但是事實(shí)上它也沒有說出來的是,這里很多工作是通過裁判去做的,有些人非客觀的因素,像意志力,像抗壓力。還有像Facebook做控制情緒的實(shí)驗(yàn),還有Uber分析一夜情。我還是想強(qiáng)調(diào)好的講故事能夠使分析事半功倍。





我們希望現(xiàn)在能夠把大量的運(yùn)力能document,這樣可以進(jìn)行學(xué)習(xí),還有就是通過模擬預(yù)測未來。所以這就是最后的總結(jié),現(xiàn)在我們的大數(shù)據(jù)的基礎(chǔ)設(shè)施已經(jīng)改朝換代了,我們的數(shù)據(jù)分析師,我們怎么來改變我們的思維方式,怎么來提高我們的技術(shù),怎么來豐富我們的分析能力?謝謝大家。




主持人:謝謝吳院長。我們說了這么多專業(yè)的東西,其實(shí)我想跟院長聊聊其他的,我記得院長是一個(gè)非常平易近人,和藹的人,包括他在之前回答記者的問題的時(shí)候,調(diào)侃說自己是跑龍?zhí)椎摹K晕医裉炻犜洪L演講也是非常的激動,為什么院長當(dāng)時(shí)會這么說呢?


吳甘沙:我想每個(gè)人都是從跑龍?zhí)组_始的。但是我想還是學(xué)習(xí)能力,你有學(xué)習(xí)能力的話很快就會蛻變。


主持人:這個(gè)轉(zhuǎn)變也是意料之中的,因?yàn)閰窃洪L一直這么努力。


吳甘沙:這塊不是不確定,這塊是確定的。


主持人:好,掌聲再次送給吳院長。


PPT下載鏈接:http://bbs.pinggu.org/a-1874950.html




數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }