
大數(shù)據(jù)與深度學(xué)習(xí)是一種蠻力
Facebook去年底挖來了一個機器學(xué)習(xí)大神Vladimir Vapnik,他是統(tǒng)計學(xué)習(xí)理論和支持向量機的主要發(fā)明者。Vladimir Vapnik被稱為統(tǒng)計學(xué)習(xí)理論之父,他出生于俄羅斯,1990年底移居美國,在美國貝爾實驗室一直工作到2002年,之后加入了普林斯頓的NEC實驗室機器學(xué)習(xí)研究組,同時任哥倫比亞大學(xué)特聘教授。2014年,Vladimir Vapnik加入Facebook人工智能實驗室。
Vladimir Vapnik
近日,Vladimir在俄羅斯最大的搜索引擎公司Yandex的大會上發(fā)表了講話,重點討論了深度學(xué)習(xí)是否以蠻力取勝。來自加利福尼亞大學(xué)圣地亞哥分校的Zachary Chase Lipton博士詳細記錄了會議內(nèi)容,并整理成了文章:
上周,我來到柏林參加機器學(xué)習(xí)展望和應(yīng)用大會。這個大會由Yandex舉辦,主要談了Deep Learning和Intelligent Learning兩個問題,它們經(jīng)常作為對比的概念出現(xiàn)。
雖然我自己也是演講者之一,但是整個會議的高潮部分,還是關(guān)于深度學(xué)習(xí)的方法論,其中經(jīng)驗主義和數(shù)學(xué)推理中的矛盾部分。
第一條是關(guān)于深度學(xué)習(xí),討論的是背后的數(shù)學(xué)支撐,以及未來的方向。問題包括了模型的可解釋性和醫(yī)療領(lǐng)域的應(yīng)用。到了周三晚上,Vladimir Vapnik也參與了討論,說的是知識如何在不同的個體之間傳遞。Vladimir的哲學(xué)觀橫跨了機器學(xué)習(xí)、數(shù)學(xué)和智能的源頭,并且挑戰(zhàn)了深度學(xué)習(xí)的方法論,這很有爭議。
其實在今年夏天,我就寫文章說機器學(xué)習(xí)的成功是大數(shù)據(jù)時代經(jīng)驗主義的勝利。在里面我強調(diào)說,過度去擬合數(shù)據(jù),雖然能在真實數(shù)據(jù)中得到檢驗,但里面會有很大風(fēng)險,至少比基于數(shù)學(xué)推理建立的系統(tǒng)風(fēng)險大得多。在這次會議中,我聽到了Vladimir在這方面的觀點。
為了避免混淆視聽,我得強調(diào):我是一個深度學(xué)習(xí)的實踐者。我個人并不否認深度學(xué)習(xí),而且對它的先行者和火炬手充滿尊敬。但我也同樣相信,我們應(yīng)該對深度學(xué)習(xí)的可能性抱有開放性的態(tài)度:
即會有一些數(shù)學(xué)模型,能夠更好的指明未來發(fā)展方向,開啟新的方法論。
很顯然,當(dāng)我們?nèi)ゾ捉篮拖@些觀點的時候,能夠得到很大的價值。
大數(shù)據(jù)與深度學(xué)習(xí)是一種蠻力?
盡管Vapnik當(dāng)場說了很多觀點,但是最核心的還是援引了愛因斯坦關(guān)于上帝的隱喻。簡單的說,Vapnik假設(shè)了一個理論:想法和直覺要么來自上帝,要么出自魔鬼。而區(qū)別在于,上帝是智慧的,而魔鬼往往不是。
在作為數(shù)學(xué)家和機器學(xué)習(xí)研究和踐行者的生涯中,Vapnik得出了一個結(jié)論:魔鬼往往來自于蠻力(Brute Force)。進一步說,如果承認深度學(xué)習(xí)系統(tǒng)在解決問題時不可思議的表現(xiàn),那么大數(shù)據(jù)和深度學(xué)習(xí),都有某種蠻力的味道。
不過,我自己并不同意深度學(xué)習(xí)必須等同于機器蠻力。我們?nèi)缃褚材芸吹綄τ诖髷?shù)據(jù)的觀點爭論,其中Vapnik和Nathan Intrator教授就說:小孩不需要幾億的標(biāo)簽樣本以完成學(xué)習(xí)。雖然有大量帶有標(biāo)簽的數(shù)據(jù)時,學(xué)習(xí)會成為一件比較容易的事,但如果依賴這樣的方法,我們就錯失了自然界中關(guān)于學(xué)習(xí)的基本原理。
也許,真正的學(xué)習(xí)只需要數(shù)百樣本,而我們現(xiàn)在卻只有非常大的數(shù)據(jù)量才能完成學(xué)習(xí)。如果我們不去探尋學(xué)習(xí)的本質(zhì),那就是在屈從于懶惰。
我們現(xiàn)在的深度學(xué)習(xí)并非科學(xué)。確切的說,機器學(xué)習(xí)和核心任務(wù)是理解計算本身,而現(xiàn)在的方法和它有所背離。這就好比任務(wù)是制造小提琴,而我們扮演的角色不過是小提琴演奏者,雖然也能創(chuàng)作美妙的音樂,也有演奏的直覺,但我們并不知道小提琴如何創(chuàng)造出音樂。
進一步說,很多深度學(xué)習(xí)實踐者,他們對數(shù)據(jù)和工程有很好的感覺,但其實不知道這里頭是怎么回事。所以在目前的深度學(xué)習(xí)方法中,參數(shù)的調(diào)節(jié)方法依然是一門“藝術(shù)”,而非“工藝”。
在算法和模型上,我們是否能發(fā)明所有東西?
Vapnik認為,在機器學(xué)習(xí)的算法和模型上,我們并不能發(fā)明所有東西。他堅持說,他自己并沒有如此的聰明才智,以完成這些算法模型的發(fā)明。(這似乎也在暗示,其他人也沒有那么聰明,去發(fā)明這些玩意)
按照Vapnik的意思,我們在機器學(xué)習(xí)上發(fā)明的東西是微不足道的。真正重要的東西,來自于我們對數(shù)學(xué)本質(zhì)的理解。就深度學(xué)習(xí)來說,模型經(jīng)常被發(fā)明出來、品牌化并申請專利,但這些相比于真正由數(shù)學(xué)驅(qū)動的機器學(xué)習(xí),就顯得很一般了。
關(guān)于深度學(xué)習(xí)的反思,來自紐約州立大學(xué)的顧險峰教授也有很多理解。顧險峰認為,深度學(xué)習(xí)方法深刻地轉(zhuǎn)變了學(xué)術(shù)研究的范式。以前學(xué)者們所采用的觀察現(xiàn)象,提煉規(guī)律,數(shù)學(xué)建模,模擬解析,實驗檢驗,修正模型的研究套路被徹底顛覆,被數(shù)據(jù)科學(xué)的方法所取代:收集數(shù)據(jù),訓(xùn)練網(wǎng)絡(luò),實驗檢驗,加強訓(xùn)練。
在深度學(xué)習(xí)新方法下,嚴(yán)格的數(shù)學(xué)推理缺失了。比如說地圖四色定理的證明,數(shù)學(xué)家將平面圖的構(gòu)型分成1936種,然后用計算機逐一驗證。當(dāng)然在足夠的算力下,這可以證明地圖四色定理。但是在這個過程中,沒有新穎概念提出,換言之,機械蠻力代替了幾何直覺。
而在數(shù)學(xué)歷史上,對于一個著名猜想的證明和解答,答案本身也許并不重要,在尋找證明的過程中所凝練的概念,提出的方法,發(fā)展的理論才是真正目的所在。機械定理證明驗證了命題的真?zhèn)危菬o法明確地提出新的概念和方法,實質(zhì)上背離了數(shù)學(xué)的真正目的。
所以說,這是一種“相關(guān)性”而非“因果性”的科學(xué)。歷史上,人類積累科學(xué)知識,在初期總是得到“經(jīng)驗公式”,但是最終還是尋求更為深刻本質(zhì)的理解。例如從煉丹術(shù)到化學(xué)、量子力學(xué)的發(fā)展歷程。
人類智能最為獨特之處也在于數(shù)學(xué)推理,特別是機械定理證明,對于這一點,機器學(xué)習(xí)方法是無能為力的。當(dāng)人的數(shù)學(xué)推理缺失的時候,僅僅依靠機器蠻力,就會遇到很大制約。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實踐的落地者與價值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價值,最終要在 “實踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場景的分 ...
2025-09-10