
AI 是萬能的嗎?當(dāng)前 AI 仍面臨的難題是什么
談到人工智能(特別是計算機(jī)視覺領(lǐng)域),大家關(guān)注的都是這一領(lǐng)域不斷取得的進(jìn)步,然而人工智能到底發(fā)展到什么程度了?AI 已經(jīng)成為萬能的了嗎?Heuritech 的 CTO Charles Ollion 希望通過他的文章可以揭露一些當(dāng)前的真實情況。接下來就讓我們一起看看這位作者都談了什么內(nèi)容吧!
作者基于 Xkcd 的漫畫改編
最近,我讀了 Pete Warden 的一篇文章,這篇文章介紹了一種可以辨別植物疾病的分類器。在辨別病害類型方面,這個分類器的精確度要比人類肉眼辨別的精確度高的多。但是,這個分類器在面對一張隨機(jī)不含有植物的圖片時會給出一個非常驚人的錯誤結(jié)果(如下圖所示:左圖展現(xiàn)了分類器在真實植物上檢測病害類型的良好效果;而右圖,在指向計算機(jī)鍵盤時,一張隨機(jī)的非植物圖片,分類器仍會認(rèn)為這是一種受損的作物)。然而這個錯誤,卻不會發(fā)生在人類身上。
(來源:Pete Warden's blog —— What Image Classifiers Can Do About Unknown Objects)
上面的舉例說明,計算機(jī)視覺系統(tǒng)的能力仍有別于人類的智力,下面我想通過一道測試題來進(jìn)一步證明這一觀點:
你知道當(dāng)前人工智能系統(tǒng)最擅長做什么嗎?
下面有五個不同的計算機(jī)視覺問題,通過給出的輸入與得到的輸出結(jié)果,試著猜一下哪類問題是計算機(jī)視覺系統(tǒng)最容易解決的?哪類問題是非常困難的?
▌1.檢測糖尿病性視網(wǎng)膜病變
輸入:有約束的視網(wǎng)膜圖片
輸出:5個類別(健康型以及處于不同階段與形式的病變狀態(tài))
糖尿病性視網(wǎng)膜病變,一種影響到眼睛的糖尿病并發(fā)癥
來源:https://ai.googleblog.com/2016/11/deep-learning-for-detection-of-diabetic.html
▌2.攝像頭手勢識別
輸入:由攝像頭拍攝的一系列短視頻
輸出:25種動作中可能性最大的一種
(注:TwentyBN 現(xiàn)已發(fā)布了更豐富的數(shù)據(jù)集)
來源:TwentyBN
來源:https://medium.com/twentybn/building-a-gesture-recognition-system-using-deep-learning-video-d24f13053a1
▌3.識別 Instagram 圖片里的手提包
輸入:Instagram 上的圖片
輸出:圈出圖片里的手提包
▌4.識別行人
輸入:由固定攝像機(jī)拍攝的圖片
輸出:圈出圖中所有的行人
▌5.機(jī)器人抓取物體
輸入:由固定攝像機(jī)拍攝的兩張圖
輸出:機(jī)器人控制策略
左圖為待抓取的物體,機(jī)器人上裝有一臺固定攝像機(jī)來學(xué)習(xí)如何抓取物體
來源:https://ai.googleblog.com/2017/10/closing-simulation-to-reality-gap-for.html
然而真相是?
▌糖尿病性視網(wǎng)膜病變:這類識別器是容易實現(xiàn)的,因為輸入和輸出都是有約束的(谷歌在他們的報道中聲明已經(jīng)實現(xiàn)并有良好表現(xiàn)了)。但當(dāng)把這一系統(tǒng)投入到實際應(yīng)用時,困難出現(xiàn)了。用戶的體驗以及系統(tǒng)與醫(yī)生的配合是關(guān)鍵問題,因為對不同類型結(jié)果的判定可能會有失偏頗。
▌攝像頭手勢識別:這個問題相對來說很好定義,但多變性增加了它的難度:這些由攝像頭拍攝的視頻中,人們的距離不同,手勢持續(xù)時間不同,等等... 此外,在對視頻資料進(jìn)行分析訓(xùn)練時,隨之產(chǎn)生的還有諸多的工程問題。不得不說這個問題是非常困難的,但已經(jīng)得到了解決。
▌識別 Instagram 圖片里的手提包:這個問題看起來似乎很容易解決,但輸入的圖片是沒有約束的,而且類別的定義也非常廣(手提包有很多種形態(tài),沒有一個明確的視覺模式,因此很有可能被識別成很多其它物體)。這使得問題變的非常困難,看看下面圖就明白了。
由經(jīng)過手提包識別訓(xùn)練的模型給出的識別結(jié)果
我們的訓(xùn)練數(shù)據(jù)中沒有“斧子”的圖片作為反例,而斧子的頭部和模型學(xué)習(xí)過的手提包的圖像非常相似。它是褐色的,有著手提包的形狀和大小,而且被握在手里。
然后我們就這樣放棄了嗎?不,我們可以通過主動學(xué)習(xí)來解決這個問題,即對模型給出的錯誤判斷進(jìn)行標(biāo)記,然后把這些錯誤例子反饋給模型繼續(xù)訓(xùn)練。但憑借現(xiàn)有的技術(shù)來說,想像 Instagram 中的圖片,如此開放的領(lǐng)域上達(dá)到完美的效果,仍然是一項巨大的挑戰(zhàn)。
對于我們?nèi)祟悂碇v,關(guān)于糖尿病相關(guān)的工作很難,但辨認(rèn)斧子和手提包卻很容易,這主要原因是斧子對我們來說是一種極為普遍的存在,一種大家都知道的常識,并且這些內(nèi)容超出了輸入到系統(tǒng)數(shù)據(jù)的范圍。
▌識別攝像頭中的行人:這類問題很簡單:輸入非常受限(固定攝像機(jī)),而且類別(行人)也很標(biāo)準(zhǔn)??赡軙嬖谀繕?biāo)被遮擋等相關(guān)問題,但總體來說這個問題很容易就可以解決。不過,如果對這個問題稍作改動,就會變得困難很多:如攝像機(jī)是移動的;或從不同方位、角度、范圍進(jìn)行拍攝 —— 這個問題就變得更開放且棘手了。
▌機(jī)器人抓取物體:這個問題是極其困難的。它超出了標(biāo)準(zhǔn)分類和回歸問題的范圍,因為輸出是控制機(jī)器人的策略,通常使用強(qiáng)化學(xué)習(xí)來進(jìn)行訓(xùn)練,與有監(jiān)督學(xué)習(xí)相比,這種學(xué)習(xí)方法還不太成熟。此外,對象在大小、形狀和抓取的方式上都會有所不同,可能還要借助語義的理解。但是這個問題可以由一個2歲的小孩子輕易解決(即使沒有固定攝像頭、背景完全相同這些設(shè)定),但對我們來說,讓人工智能做這件事還有很長的路要走。
作者聲明:如果不同意我給出的答案,我很樂于和大家討論,因為在這個領(lǐng)域要學(xué)的知識很多,我不認(rèn)為我知道所有問題的答案。
對計算機(jī)視覺與人工智能的期望
對計算機(jī)視覺系統(tǒng)和我們?nèi)祟悂碚f,“難度”這個概念是有很大不同的,這一點很容易引導(dǎo)我們對人工智能產(chǎn)生錯誤的期望。工程師和科研人員不得不從現(xiàn)實出發(fā)來對待人工智能系統(tǒng)在開放域的表現(xiàn)。
當(dāng)前我們在對人工智能系統(tǒng)發(fā)展情況的理解上也還存在很多問題。以自動化駕駛為例:在有約束(例如:高速公路)下駕駛與無約束(如: 市區(qū)、小路... ...)下對駕駛存在著極大的區(qū)別。如今大多數(shù)企業(yè)都基于在沒有司機(jī)操控下,通過自動駕駛汽車所行駛的里程數(shù)來對自動化駕駛水平進(jìn)行評估。這也促使了測試者更樂于把汽車放到容易駕駛的環(huán)境里,但其實我們更應(yīng)該做的是建立一些指標(biāo),重點關(guān)注擴(kuò)大自動化駕駛汽車正常駕駛的范圍。
更概括地來講,我認(rèn)為我們不應(yīng)該再說什么“計算機(jī)視覺已經(jīng)實現(xiàn)了?!边@樣的話了。如果我們有足夠多已經(jīng)標(biāo)記了的數(shù)據(jù)和有約束的類別,小范圍內(nèi)的問題可能已經(jīng)解決了。但若將世界范圍的常識知識引入計算機(jī)視覺系統(tǒng),這仍然是一個巨大的挑戰(zhàn)。
ClevR,用于組合式語言和初級視覺推理的診斷數(shù)據(jù)集
其實現(xiàn)在很多的研究人員已經(jīng)開始在進(jìn)行這方面的研究了,也有一些研究領(lǐng)域正在蓬勃的發(fā)展著,例如:視覺推理、物理發(fā)現(xiàn)法則、通過無監(jiān)督/自我監(jiān)督進(jìn)行表征學(xué)習(xí)等。AI 科技大本營在文末給大家列出了相關(guān)的研究文章,方便大家學(xué)習(xí)。
鑒于我對計算機(jī)視覺的研究與發(fā)展了解多一些,上述都是我關(guān)于這方面的一些看法,但我相信同樣的理由也可以應(yīng)用到其它機(jī)器學(xué)習(xí)問題上,特別是關(guān)于 NLP 應(yīng)用深度學(xué)習(xí)與機(jī)器學(xué)習(xí)的研究領(lǐng)域。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03