
作者 | 機器之心
人工智能不是將要改變世界,而是正在改變世界。在新年以及新的十年開啟之際,VentureBeat 采訪了人工智能領(lǐng)域最杰出的頭腦,來回顧人工智能在 2019 年的進展,展望機器學(xué)習(xí)在 2020 年的前景。受訪者包括 PyTorch 之父 Soumith Chintala、加州大學(xué)教授 Celeste Kidd、谷歌 AI 負(fù)責(zé)人 Jeff Dean、英偉達(dá)機器學(xué)習(xí)研究負(fù)責(zé)人 Anima Anandkumar,以及 IBM 研究主管 Dario Gil。
其中部分人預(yù)測半監(jiān)督學(xué)習(xí)和神經(jīng)符號方法等子領(lǐng)域?qū)⒊霈F(xiàn)進展,而幾乎所有受訪者一致認(rèn)同 2019 年基于 Transformer 的自然語言模型取得巨大進步,也都認(rèn)為對人臉識別等爭議性技術(shù)的討論仍會持續(xù)。此外,他們還期望 AI 領(lǐng)域不再只以準(zhǔn)確率論輸贏。
PyTorch 負(fù)責(zé)人、首席工程師和創(chuàng)造者 Soumith Chintala
不論用哪種衡量方式,PyTorch 都是現(xiàn)在全世界最流行的機器學(xué)習(xí)框架。PyTorch 是基于 2002 年發(fā)布的 Torch 開源框架的衍生,于 2016 年發(fā)布初始版本,目前其擴展和庫均穩(wěn)步增長。
在 2019 年秋季舉辦的 PyTorch 開發(fā)者大會上,F(xiàn)acebook 發(fā)布了 PyTorch 1.3 版本,該版本支持量化和 TPU 支持。會上還發(fā)布了深度學(xué)習(xí)可解釋性工具 Captum 和 PyTorch Mobile。此外,還有機器人框架 PyRobot 和代碼共享神器 PyTorch Hub,鼓勵機器學(xué)習(xí)從業(yè)者擁抱可復(fù)現(xiàn)性。
在這次 PyTorch 開發(fā)者大會上,Chintala 表示:2019 年機器學(xué)習(xí)領(lǐng)域幾乎沒有突破性進展。
「我認(rèn)為,自 Transformer 之后,基本上沒有什么突破。2012 年 CNN 在 ImageNet 大賽上奪冠,迎來了高光時刻,2017 年是 Transformer。這是我的個人看法。」他說。
他認(rèn)為 DeepMind 的 AlphaGo 對強化學(xué)習(xí)的貢獻是突破性的,但其結(jié)果很難在現(xiàn)實世界的實際任務(wù)中實現(xiàn)。
Chintala 還認(rèn)為,PyTorch 和 TensorFlow 等機器學(xué)習(xí)框架的演化改變了研究者探索新思路和做研究的方式?!高@些框架使研究者的速度比之前快了一兩個數(shù)量級,從這個角度看,這是一項巨大突破。」
2019 年,谷歌和 Facebook 的開源框架都引入了量化,用于提升模型訓(xùn)練速度。Chintala 預(yù)測,2020 年 PyTorch 的 JIT 編譯器和神經(jīng)網(wǎng)絡(luò)硬件加速器(如 Glow)等工具的重要性和采用范圍將迎來「爆發(fā)」。
「從 PyTorch 和 TensorFlow 中,可以看到框架的融合趨勢。量化以及大量其他較低級功能出現(xiàn)的原因是,框架之爭的下一戰(zhàn)是編譯器——XLA(TensorFlow)、TVM(陳天奇團隊)、Glow(PyTorch),大量創(chuàng)新即將出現(xiàn)。未來幾年,你們會看到如何更智能地量化、更好地融合、更高效地使用 GPU,以及如何針對新硬件執(zhí)行自動編譯。」
和本文大多數(shù)受訪者一樣,Chintala 預(yù)測 2020 年 AI 社區(qū)將用更多度量指標(biāo)衡量 AI 模型的性能,而不僅僅是準(zhǔn)確率。社區(qū)將注意力轉(zhuǎn)向其他因素,如創(chuàng)建模型所需的電量、如何向人類解釋輸出結(jié)果,以及如何使 AI 更好地反映人類想要構(gòu)建的社會。
「回望過去五六年,我們只關(guān)注準(zhǔn)確率和原始數(shù)據(jù),例如『英偉達(dá)的模型更準(zhǔn)確,還是 Facebook 的模型更準(zhǔn)確?』我認(rèn)為,2020 年我們將(以更復(fù)雜的方式)思考,如果模型不具備良好的可解釋性(或滿足其他標(biāo)準(zhǔn)),那就算準(zhǔn)確率高出 3% 又怎樣呢?」Chintala 表示。
加州大學(xué)伯克利分校發(fā)展心理學(xué)家 Celeste Kidd。
Celeste Kidd 是加州大學(xué)伯克利分校 Kidd 實驗室的主管,她和她的團隊致力于探索兒童的學(xué)習(xí)方式。他們的見解可以幫助那些嘗試以類似于培養(yǎng)兒童的方式訓(xùn)練模型的神經(jīng)網(wǎng)絡(luò)創(chuàng)建者。
Kidd 表示:「人類嬰兒不需要標(biāo)注數(shù)據(jù)集,但他們也能學(xué)習(xí)得很好。這其中的關(guān)鍵在于我們需要理解這其中的原理?!?/span>
她認(rèn)為,當(dāng)你對嬰兒的行為綜合分析后,你確實會看到他們理解一些事物的證據(jù),但是他們并非完美的學(xué)習(xí)者?!笅雰耗茏詣訉W(xué)習(xí)很多東西」這種說法是對嬰兒能力的過度美化。
「嬰兒很棒,但他們也會出很多錯。我看到人們隨意地進行對比,將嬰兒的行為理想化了。我認(rèn)為人們將會更加重視如何將當(dāng)前的研究和未來的研究目標(biāo)之間的聯(lián)系」
在 AI 領(lǐng)域,「黑箱」一詞已誕生多年,該詞常用于批評神經(jīng)網(wǎng)絡(luò)缺乏可解釋性。但 Kidd 認(rèn)為,在 2020 年,可能不會再有這種對神經(jīng)網(wǎng)絡(luò)的認(rèn)識了。
「黑箱這個觀點是虛假的……大腦也是黑箱,而我們在了解大腦工作原理方面已經(jīng)獲得巨大進展?!?/span>
在為「黑箱」理論祛魅的過程中,Kidd 閱讀了 MIT-IBM Watson AI 實驗室執(zhí)行主任 Aude Oliva 的研究。
「我們當(dāng)時討論過這件事。我之前認(rèn)為系統(tǒng)是黑箱,她批評了我,說當(dāng)然不是黑箱。你當(dāng)然可以將它分割開來,查看其工作方式,并運行實驗,就像我們在了解認(rèn)知過程時所做的實驗?zāi)菢??!?/span>
上個月,Kidd 在 NeurIPS 2019 開幕式上發(fā)表主旨演講。她的演講主要涉及人類大腦如何堅持己見、注意力系統(tǒng)以及貝葉斯統(tǒng)計。
她注意到了內(nèi)容推薦系統(tǒng)如何操縱人類的想法。追求讓用戶最大程度參與的系統(tǒng)對人類如何形成想法和觀點有著重大影響。
2020 年,她希望看到更多人意識到技術(shù)工具和技術(shù)決策對現(xiàn)實生活的影響,拒絕「工具創(chuàng)造者不對工具使用者的行為和后果負(fù)責(zé)」的觀點。
「我聽到太多人用『我不是衛(wèi)道士』這樣的說辭自我辯護。我認(rèn)為必須有更多人意識到這是不誠實的。」
「作為社會一員,尤其是作為研發(fā)這些工具的人,我們需要直接正視隨之而來的責(zé)任?!?/span>
谷歌 AI 負(fù)責(zé)人 Jeff Dean
Jeff Dean 在谷歌工作了二十年,現(xiàn)已領(lǐng)導(dǎo)谷歌 AI 近兩年,他是谷歌早期很多搜索和分布式網(wǎng)絡(luò)算法的設(shè)計師,谷歌大腦的早期成員。
Jeff Dean 在 NeurIPS 2019 會議上發(fā)表了兩場演講,這兩場演講分別關(guān)于使用機器學(xué)習(xí)設(shè)計 ASIC 半導(dǎo)體(ML for Systems)和 AI 社區(qū)幫助解決氣候變化的方法(Tackling Climate Change with ML)。他認(rèn)為后者是這個時代最重要的問題之一。在關(guān)于氣候變化的演講里,Dean 討論了 AI 怎樣能夠成為零碳產(chǎn)業(yè)的方法,以及使用 AI 幫助改變?nèi)祟惖男袨椤?/span>
談到對 2020 年的期待,Dean 表示,他希望看到多模型學(xué)習(xí)領(lǐng)域的進展。在這一領(lǐng)域中,多模態(tài)學(xué)習(xí)依賴多媒體數(shù)據(jù)進行訓(xùn)練,而多任務(wù)學(xué)習(xí)則讓網(wǎng)絡(luò)通過訓(xùn)練一次就可以完成多項任務(wù)。
毫無疑問,2019 年最顯著的機器學(xué)習(xí)趨勢之一是:基于 Transformer 的自然語言模型的發(fā)展和壯大(上文中 Chintala 也認(rèn)為這是 AI 領(lǐng)域近年來的最大突破之一)。在 2018 年,谷歌開源了基于 Transformer 的模型 BERT。而 2019 年大量頂級性能的模型(如谷歌的 XLNet、微軟的 MT-DNN、Facebook 的 RoBERTa)都基于 Transformer 構(gòu)建。而且,谷歌發(fā)言人還告訴 VentureBeat,XLNet 2 將于本月底發(fā)布。
Jeff Dean 在談到 Transformer 進展時表示,「基于 Transformer 實際獲得的機器學(xué)習(xí)模型可以執(zhí)行比之前更復(fù)雜的 NLP 任務(wù),從這個角度看,這個領(lǐng)域的研究碩果累累?!沟撬a充道,該領(lǐng)域仍有發(fā)展空間。
「我們還是希望能夠使模型更多地理解語境?,F(xiàn)在 BERT 等模型可以很好地處理數(shù)百個單詞的語境,但如果語境包含 10000 個單詞就不行了。這是一個有趣的研究方向。」
Dean 表示他希望社區(qū)更少去強調(diào)微小的 SOTA 進展,而是多關(guān)注如何創(chuàng)建更穩(wěn)健的模型。
谷歌 AI 將推進新計劃,如 2019 年 11 月開啟的內(nèi)部項目「Everyday Robot」,該項目旨在創(chuàng)造在家庭和工作環(huán)境中完成常見任務(wù)的機器人。
英偉達(dá)機器學(xué)習(xí)研究負(fù)責(zé)人 Anima Anandkumar
英偉達(dá)的 AI 研究圍繞多個領(lǐng)域展開,從針對醫(yī)療領(lǐng)域的聯(lián)邦學(xué)習(xí)到自動駕駛、超級計算機、顯卡不一而足。
2019 年,在英偉達(dá)負(fù)責(zé)機器學(xué)習(xí)工作的 Anandkumar 的重點之一是強化學(xué)習(xí)模擬框架。目前這樣的框架越來越流行,也更加成熟。
2019 年,我們看到英偉達(dá)開發(fā)了自動駕駛平臺 Drive 和機器人模擬器 Isaac,以及基于模擬生成合成數(shù)據(jù)的模型和 GAN。
例如,去年 StyleGAN 和 GauGAN 等 AI 模型大出風(fēng)頭。而在上個月,英偉達(dá)還發(fā)布了 StyleGAN2。
這其中使用的便是 GAN 這一神經(jīng)網(wǎng)絡(luò)。這是一項能「混淆現(xiàn)實和虛擬界限」的技術(shù),Anandkumar 認(rèn)為該技術(shù)能夠幫助解決 AI 社區(qū)面臨的難題,如抓握式機器臂和自動駕駛。
Anandkumar 預(yù)測,2020 年迭代算法(iterative algorithm)、自監(jiān)督和自訓(xùn)練方法將有新的進展。所謂自訓(xùn)練,指的是模型使用無監(jiān)督數(shù)據(jù),通過自我訓(xùn)練得到改進。
「我認(rèn)為迭代算法就是未來,因為如果你只做一個前饋網(wǎng)絡(luò),它的穩(wěn)健性可能是個問題。而如果你嘗試進行多次迭代——基于數(shù)據(jù)類型或準(zhǔn)確率要求來調(diào)試迭代,那么達(dá)到目標(biāo)的可能性就會大大增加?!?/span>
Anandkumar 認(rèn)為,2020 年 AI 社區(qū)將面臨多項挑戰(zhàn),比如說,AI 社區(qū)需要和領(lǐng)域?qū)<液献鳛樘囟ㄐ袠I(yè)創(chuàng)建模型。政策制定者、個人和 AI 社區(qū)還需要處理特征表示上的問題,并確保模型訓(xùn)練所用數(shù)據(jù)集能夠代表不同群體。
「我認(rèn)為人臉識別存在的問題是容易被發(fā)現(xiàn)的,但是,在很多領(lǐng)域中,人們還沒有意識到數(shù)據(jù)的使用會涉及隱私問題?!笰nandkumar 表示,人臉識別得到的關(guān)注最多,這是因為人們很容易理解人臉識別如何損害個人隱私,而 2020 年 AI 社區(qū)將面臨更多倫理問題。
「我們需要更加審慎地審查數(shù)據(jù)收集和使用過程。歐洲正在這樣做,但在美國更應(yīng)該如此。出于正當(dāng)理由,美國國家運輸安全委員會(NTSB)和聯(lián)邦公共交通管理局(FTA)等組織將更多地執(zhí)行此類操作?!?/span>
Anandkumar』s 認(rèn)為,2019 年的一大驚喜是文本生成模型的突飛猛進。
「2019 是語言模型之年,不是嗎?現(xiàn)在,我們第一次得到了更連貫的文本生成結(jié)果,且其長度相當(dāng)于整個段落,這在之前絕不可能,這非常棒?!?/span>
2019 年 8 月,英偉達(dá)發(fā)布了 Megatron 自然語言模型。該模型具備 80 億參數(shù),被認(rèn)為是全球最大的 Transformer 模型。Anandkumar 表示,她被人們開始按模型是否具備人格或個性進行分類的方式震驚到了。她期待看到更加適用于特定行業(yè)的文本模型。
「我們?nèi)匀粵]有到達(dá)交互式對話生成階段。在這個階段中,我們可以追蹤和進行自然對話。我認(rèn)為 2020 年這一方向會有更多嘗試?!?/span>
開發(fā)控制文本生成的框架比開發(fā)圖像識別框架難度更大。而且文本生成模型會遇到為神經(jīng)模型定義事實等方面的挑戰(zhàn)。
IBM 研究主管 Dario Gil
Dario Gil 帶領(lǐng)的研究者團隊為白宮和全球企業(yè)提供積極指導(dǎo)。他認(rèn)為,2019 年機器學(xué)習(xí)領(lǐng)域的重要進展包括生成模型和語言模型的進步。
他預(yù)測,使用較低精度架構(gòu)更高效地訓(xùn)練模型方面會有持續(xù)進展。開發(fā)更高效的 AI 模型是 NeurIPS 的重點,IBM Research 在會上介紹了使用 8-bit 精度模型的深度學(xué)習(xí)技術(shù)。
「總體上,使用現(xiàn)有硬件和 GPU 架構(gòu)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的方式仍然是低效的。因此,從根本上重新思考非常重要。我們已經(jīng)提升了 AI 的計算效率,我們還將做得更多。」
Gil 引用研究表示,機器學(xué)習(xí)訓(xùn)練的需求每三個半月翻一番,比摩爾定律預(yù)測的要快得多。
Gil 對 AI 加速推動科學(xué)新發(fā)現(xiàn)感到很振奮,但他表示,IBM 研究院的研究重點將是神經(jīng)符號方法。
2020 年,Gil 希望 AI 從業(yè)者和研究者能夠關(guān)注準(zhǔn)確率以外的度量指標(biāo),考慮在生產(chǎn)環(huán)境中部署模型的價值。AI 領(lǐng)域轉(zhuǎn)向構(gòu)建受信任的系統(tǒng),而不是準(zhǔn)確率至上,這將是 AI 得到繼續(xù)采用的關(guān)鍵。
「社區(qū)中有些人可能會說『不要擔(dān)心,只需要提高準(zhǔn)確率。人們會習(xí)慣黑箱這件事的?!?,或者他們認(rèn)為人類有時做決策時也不給出解釋啊。我認(rèn)為將社區(qū)的智力聚焦于比準(zhǔn)確率更好的事情是非常非常重要的。在任務(wù)關(guān)鍵型應(yīng)用中,AI 系統(tǒng)不能是黑箱?!?/span>
AI 只有少數(shù)機器學(xué)習(xí)奇才能做,具備數(shù)據(jù)科學(xué)和軟件工程技能的更多人只用使用它就行了。Gil 認(rèn)為這種認(rèn)知應(yīng)該摒棄。
「如果我們讓 AI 保持神秘,只有該領(lǐng)域的 PhD 才能研究,這對 AI 的應(yīng)用沒有好處。」
2020 年,Gil 對神經(jīng)符號 AI 尤其感興趣。IBM 將尋找神經(jīng)符號方法為概率編程(讓 AI 學(xué)習(xí)如何編程)和能夠分享決策背后原因的模型等賦能。
「采用神經(jīng)符號方法,能夠?qū)W(xué)習(xí)和推理結(jié)合起來,即符號維度嵌入到學(xué)習(xí)程序中。通過這種方式,我們已經(jīng)證明可使用所需數(shù)據(jù)的一部分進行學(xué)習(xí)。因為你學(xué)習(xí)了程序,你的最終輸出是可解釋的,因為有了這些可解釋的輸出,系統(tǒng)就更加可信。」
公平性、數(shù)據(jù)完整性和數(shù)據(jù)集選擇問題仍是關(guān)注的重點。同樣,和生物識別技術(shù)相關(guān)的領(lǐng)域也是如此。人臉識別獲得了巨大關(guān)注,這只是個開始。隨著語音數(shù)據(jù)的敏感度上升,其他形式的生物識別特征也會日益受到關(guān)注。
「和人類身份和生物識別特征有關(guān)的工作,以及使用 AI 分析這些信息依然是研究中的核心問題。」
除了 MIT-IBM Watson 實驗室的主要項目——神經(jīng)符號和常識推理以外,Gil 表示 2020 年 IBM 研究院還將探索用于 AI 的量子計算,以及較低精度架構(gòu)以外的 AI 模擬硬件。
機器學(xué)習(xí)將繼續(xù)塑造商業(yè)和社會,本文采訪的這些研究者和專家發(fā)現(xiàn)了如下趨勢:
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03