
作者 | Matthew Mayo
編譯 | CDA數(shù)據(jù)分析師
正如我們告別上一年并期待新的一年一樣,KDnuggets再次征求了眾多研究和技術(shù)專家對2019年最重要的發(fā)展及其2020年關(guān)鍵趨勢預(yù)測的意見。
又到了年終,這意味著現(xiàn)在是KDnuggets年終專家分析和預(yù)測的時候了。今年,我們提出了一個問題:
2019年AI,數(shù)據(jù)科學(xué),深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的主要發(fā)展是什么?您預(yù)計2020年會有哪些主要趨勢?
當(dāng)我們回顧一年前專家的預(yù)測時,我們可以看到對自然技術(shù)進(jìn)步的預(yù)測,并帶有一些更加雄心勃勃的預(yù)測。有幾個一般性主題,以及幾個值得注意的點。
特別要關(guān)注的是,人們不止一次提到了對AI的恐懼,不過目前這一預(yù)測似乎已經(jīng)平息了。關(guān)于自動化機(jī)器學(xué)習(xí)的進(jìn)展的討論非常多,人們對它目前是否有用等議論紛紛。我認(rèn)為在某種程度上尚無定論,但是當(dāng)對技術(shù)的期望降低時,我們就更容易將其視為有用的添加物而不是迫在眉睫的替代物了。
也有充分的理由指出了新增的AI永遠(yuǎn)是有益的,并且有無數(shù)的例子表明了這種預(yù)測的準(zhǔn)確性。實用的機(jī)器學(xué)習(xí)會產(chǎn)生影響,現(xiàn)在是時候?qū)W習(xí)使用機(jī)器學(xué)習(xí)了。最后,還提到了反烏托邦人工智能發(fā)展引起的對監(jiān)視,恐懼和操縱的日益關(guān)注。
還有一些預(yù)測還沒有完成。感興趣的讀者可以自行尋找。
今年我們的專家名單包括Imtiaz Adam,Xavier Amatriain,Anima Anandkumar,Andriy Burkov,Georgina Cosma,Pedro Domingos,Ajit Jaokar,Charles Martin,Ines Montani,Dipanjan Sarkar,Elena Sharova,Rosaria Silipo和Daniel Tunkelang。我們感謝他們從忙碌的年終時間表中抽出時間為我們提供見解。
這是同一系列文章中的第一篇。盡管它們將被劃分為研究,部署和行業(yè),但這些學(xué)科之間存在相當(dāng)大且可以理解的重疊。
以下是今年專家組提出的2019年主要趨勢和2020年的預(yù)測。
在2019年,提高了對與數(shù)據(jù)科學(xué)中的道德與多樣性有關(guān)的問題的認(rèn)識。
2020年,數(shù)據(jù)科學(xué)團(tuán)隊和商業(yè)團(tuán)隊將更加融合。5G將推動AI推理的發(fā)展,推動智能物聯(lián)網(wǎng)的發(fā)展,這意味著AI將越來越多地進(jìn)入物理世界。深度學(xué)習(xí)與增強現(xiàn)實相結(jié)合將改變客戶體驗。
我認(rèn)為這是深度學(xué)習(xí)和NLP的一年,這一點很難反對。更具體地說,是語言模型的年份,是Transformers和GPT-2的一年。是的,這可能令人難以置信,但是距OpenAI首次使用至今不到一年,談到他們的GPT-2語言模型。這篇博客文章引發(fā)了很多關(guān)于AI安全的討論,因為OpenAI并不對外發(fā)布該模型。
從那時起,該模型被公開復(fù)制,并最終發(fā)布。但是,這并不是該領(lǐng)域的唯一進(jìn)步。我們已經(jīng)看到Google發(fā)布了AlBERT或XLNET,還討論了BERT如何成為多年來Google搜索最大的改進(jìn)。從Amazon、Microsoft到Facebook,所有人似乎已經(jīng)真正地加入了語言模型革命,我確實希望在2020年在該領(lǐng)域看到令人矚目的進(jìn)步,而且似乎我們越來越接近通過圖靈測試的日子了。
研究人員希望更好地了解深度學(xué)習(xí),其泛化特性和失敗案例。減少對標(biāo)記數(shù)據(jù)的依賴,而自訓(xùn)練等方法也取得了進(jìn)展。模擬對于AI培訓(xùn)變得越來越重要,并且在諸如自動駕駛和機(jī)器人學(xué)習(xí)等視覺領(lǐng)域的逼真度也越來越高。語言模型變得很龐大,例如NVIDIA的80億Megatron模型在512 GPU上進(jìn)行了訓(xùn)練,并開始生成連貫的段落。
但是,研究人員在這些模型中顯示出虛假的相關(guān)性和不良的社會偏見。人工智能法規(guī)已成為主流,許多知名政客都表示支持政府機(jī)構(gòu)禁止面部識別。從去年的NeurIPS名稱更改開始,人工智能會議開始執(zhí)行行為守則,并加大改善多樣性和包容性的努力。
在未來的一年中,我預(yù)計將會有新的算法開發(fā),而不僅僅是深度學(xué)習(xí)的表面應(yīng)用。這將特別影響物理,化學(xué),材料科學(xué)和生物學(xué)等許多領(lǐng)域的“科學(xué)人工智能”。
毫無疑問,2019年主要的發(fā)展是BERT,這是一種語言建模神經(jīng)網(wǎng)絡(luò)模型,可以在幾乎所有任務(wù)上提高NLP的質(zhì)量。Google甚至將其用作相關(guān)性的主要信號之一,這是多年來最重要的更新。
在我看來,2020年關(guān)鍵趨勢將是PyTorch在業(yè)界的廣泛采用,對更快的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法的研究以及對便利硬件上的神經(jīng)網(wǎng)絡(luò)的快速訓(xùn)練的研究。
在2019年,我們對諸如YOLOv3之類的深度學(xué)習(xí)模型中令人印象深刻的功能進(jìn)行了評估,以應(yīng)對各種復(fù)雜的計算機(jī)視覺任務(wù),尤其是實時對象檢測。我們還已經(jīng)看到,生成式對抗網(wǎng)絡(luò)繼續(xù)吸引著深度學(xué)習(xí)社區(qū)的關(guān)注,其用于ImageNet生成的BigGAN模型以及用于人類圖像合成的StyleGAN合成圖像。
今年,我們還意識到,愚弄深度學(xué)習(xí)模型非常容易,一些研究還表明,深度神經(jīng)網(wǎng)絡(luò)很容易受到對抗性例子的攻擊。在2019年,我們還看到有偏差的AI決策模型被部署用于面部識別,招聘和法律應(yīng)用。我希望在2020年看到多任務(wù)AI模型的發(fā)展,這些模型希望能做到實現(xiàn)通用和多用途。
2019年的主要發(fā)展:
2020年的主要趨勢:
在2019年,我們將牛津大學(xué)的課程更名為人工智能:云和邊緣實現(xiàn),這也反映了我的個人觀點,即2019年是云成熟的一年。今年是我們談?wù)摰母鞣N技術(shù)(大數(shù)據(jù),人工智能,物聯(lián)網(wǎng)等)在云框架內(nèi)融合在一起的一年。這種趨勢將繼續(xù),特別是對于企業(yè)。公司將采取“數(shù)字化轉(zhuǎn)型”計劃-在這些計劃中,他們將使用云作為統(tǒng)一的范式來轉(zhuǎn)換由AI驅(qū)動的流程(類似于重新設(shè)計公司2.0)
在2020年,我還將看到NLP逐漸成熟(BERT,Megatron)。5G將繼續(xù)部署。當(dāng)2020年后5G全面部署(例如無人駕駛汽車)時,我們將看到IoT的廣泛應(yīng)用。最后,在IoT方面,我遵循一種稱為MCU(微控制器單元)的技術(shù)-特別是機(jī)器學(xué)習(xí)模型或MCU的部署。
我相信AI會改變游戲規(guī)則,每天我們都會看到許多有趣的AI部署示例。阿爾文·托夫勒(Alvin Toffler)在《Future shock》中所預(yù)測的大部分內(nèi)容,今天已經(jīng)在我們身邊了,人工智能究竟將如何放大,還有待觀察!可悲的是,人工智能的變化速度將使許多人落伍。
2019年的AI在NLP方面取得了巨大進(jìn)步,例如BERT,ELMO,GPT-2等!OpenAI發(fā)布了他們的大型GPT-2模型,用于文本的DeepFakes。谷歌宣布將BERT用于搜索,這是自pandas以來的最大變化。甚至我在UC Berkeley的合作者都發(fā)布了(量化的)QBERT,用于低占用空間的硬件。每個人都在制作自己的文檔嵌入。
這對2020年意味著什么。根據(jù)搜索專家的說法,2020年將是具有相關(guān)性的一年。期望看到通過BERT樣式的微調(diào)嵌入,向量空間搜索最終會受到關(guān)注。
在底層,作為AI研究的選擇,2019年PyTorch超過Tensorflow。隨著TensorFlow 2.x的發(fā)布(以及pytorch的TPU支持)。2020年的AI編碼有希望將全部執(zhí)行。
大公司在AI方面正在進(jìn)步嗎?報告顯示成功率為十分之一。不是很好。因此,AutoML將在2020年出現(xiàn)需求,盡管我個人認(rèn)為,像取得出色的搜索結(jié)果一樣,成功的AI需要針對業(yè)務(wù)的定制解決方案。
在2019年,每個人都選擇“ DIY AI”而不是云解決方案。推動這一趨勢的一個因素是遷移學(xué)習(xí)的成功,這使任何人都可以更輕松地以良好的準(zhǔn)確性訓(xùn)練自己的模型,并根據(jù)他們的特定用例進(jìn)行微調(diào)。每個模型只有一個用戶,服務(wù)提供商無法利用規(guī)模經(jīng)濟(jì)。轉(zhuǎn)移學(xué)習(xí)的另一個優(yōu)點是,數(shù)據(jù)集不再需要那么大,因此注釋也在內(nèi)部移動。
內(nèi)部趨勢是一個積極的發(fā)展:商業(yè)AI的集中程度遠(yuǎn)低于許多人的預(yù)期。幾年前,人們擔(dān)心每個人都只能從一個提供商那里獲得“他們的AI”。如今取而代之的是,人們并沒有從任何提供商那里獲得AI,而是他們自己在做。
2019年人工智能領(lǐng)域的主要進(jìn)步是在Auto-ML,可解釋AI和深度學(xué)習(xí)領(lǐng)域。自最近幾年以來,數(shù)據(jù)科學(xué)的民主化仍然是一個關(guān)鍵方面,并且與Auto-ML有關(guān)的各種工具和框架都在試圖使這一過程變得更容易。還有一點需要注意的是,在使用這些工具時,我們需要小心以確保我們不會出現(xiàn)偏倚或過度擬合的模型。
公平,負(fù)責(zé)和透明仍然是客戶,企業(yè)和企業(yè)接受AI決策的關(guān)鍵因素。因此,可解釋的AI不再是僅限于研究論文的主題。許多優(yōu)秀的工具和技術(shù)已經(jīng)開始讓機(jī)器學(xué)習(xí)模型的決策更具可解釋性。同樣重要的是,在深度學(xué)習(xí)和轉(zhuǎn)移學(xué)習(xí)領(lǐng)域,尤其是在自然語言處理方面,我們已經(jīng)看到了許多進(jìn)步。
我希望在2020年圍繞NLP和計算機(jī)視覺的深度轉(zhuǎn)移學(xué)習(xí)領(lǐng)域看到更多的研究和模型,并希望有一些東西能夠充分利用深度學(xué)習(xí)和神經(jīng)科學(xué)的知識,從而引導(dǎo)我們邁向真正的AGI。
到目前為止,深度強化學(xué)習(xí)是2019年最重要的機(jī)器學(xué)習(xí)的發(fā)展,在深度強化學(xué)習(xí)DQN和AlphaGo的游戲中, 導(dǎo)致圍棋冠軍Lee Sedol退役。另一個重要的進(jìn)步是自然語言處理,谷歌和微軟開源了BERT(深度雙向語言表示),從而領(lǐng)導(dǎo)了GLUE基準(zhǔn)測試,并開發(fā)了用于語音解析任務(wù)的MT-DNN集成并進(jìn)行了開源采購。
重要的是要強調(diào)歐洲委員會發(fā)布的《Ethics guidelines for trustworthy AI》(人工智能道德準(zhǔn)則),這是關(guān)于人工智能道德的第一份正式準(zhǔn)則,其中列出了關(guān)于合法,道德和AI發(fā)展的明智準(zhǔn)則。
最后,我想要分享一點,PyData London 2019的所有主題演講者都是女性,這是一個可喜的進(jìn)步。
我預(yù)計2020年的主要機(jī)器學(xué)習(xí)發(fā)展趨勢將在NLP和計算機(jī)視覺領(lǐng)域內(nèi)繼續(xù)。
2019年最有希望的成就是采用主動學(xué)習(xí),強化學(xué)習(xí)和其他半監(jiān)督學(xué)習(xí)程序。半監(jiān)督學(xué)習(xí)可能有希望填充我們數(shù)據(jù)庫的所有這些未標(biāo)記數(shù)據(jù)存根。
另一個重大進(jìn)步是在auto-ML概念中用“指導(dǎo)”對“自動”一詞進(jìn)行了更正。對于更復(fù)雜的數(shù)據(jù)科學(xué)問題,專家干預(yù)似乎是必不可少的。
2020年,數(shù)據(jù)科學(xué)家需要一種快速的解決方案,以實現(xiàn)簡單的模型部署,持續(xù)的模型監(jiān)視和靈活的模型管理。真正的業(yè)務(wù)價值將來自數(shù)據(jù)科學(xué)生命周期的這三個最終部分。
我還相信,深度學(xué)習(xí)黑匣子的更廣泛使用將引發(fā)機(jī)器學(xué)習(xí)可解釋性(MLI)的問題。到2020年底,我們將看到MLI算法是否能夠應(yīng)對詳盡解釋深度學(xué)習(xí)模型閉門事件的挑戰(zhàn)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10