
作者 | George Lawton
編譯 | CDA數(shù)據(jù)科學(xué)研究院
大多數(shù)AI都基于模式識別,但是正如任何高中生都會告訴您的那樣,關(guān)聯(lián)不是因果關(guān)系。研究人員現(xiàn)在正在尋找方法,以幫助AI深入到更深層次。生活經(jīng)驗(yàn)告訴我們,相關(guān)關(guān)系并不能直接推導(dǎo)出因果關(guān)系,但不管是日常生活還是學(xué)術(shù)研究,對于因果關(guān)系的解釋要遠(yuǎn)比相關(guān)關(guān)系重要得多。很多時(shí)候,我們也會對事件之間的因果關(guān)系捉襟見肘。如果,把這個(gè)過程交給AI來處理會怎樣呢?
AI可以利用深度學(xué)習(xí)技術(shù)來構(gòu)建相關(guān)關(guān)系模型。深度學(xué)習(xí)技術(shù)通過關(guān)聯(lián)數(shù)據(jù)點(diǎn)在構(gòu)建模型方面做得很好。但是許多AI研究人員認(rèn)為,需要更多的工作來理解因果關(guān)系,而不僅僅是相關(guān)性。現(xiàn)場因果深度學(xué)習(xí)(對確定某件事發(fā)生的原因很有用)仍處于起步階段,并且自動化比神經(jīng)網(wǎng)絡(luò)困難得多。許多AI都是關(guān)于在大量數(shù)據(jù)中查找隱藏模式的。全球IT服務(wù)公司L&T Infotech的執(zhí)行副總裁兼首席數(shù)據(jù)分析官Soumendra Mohanty說:“顯然,這方面將我們帶向了“什么”,但很少有人去理解“為什么”。
這種區(qū)別的含義可能很重要。最終,要創(chuàng)造出模仿人類智能的機(jī)器,就需要訓(xùn)練AI來詢問為什么一種觀察會影響另一種觀察。這就是為什么許多研究人員現(xiàn)在將注意力轉(zhuǎn)向這個(gè)問題的原因。
加州大學(xué)洛杉磯分校(UCLA)教授朱迪亞·珀?duì)枺↗udea Pearl)激發(fā)了該領(lǐng)域的興奮,他從事了一些實(shí)施貝葉斯網(wǎng)絡(luò)以進(jìn)行統(tǒng)計(jì)分析的形成性工作。最近,他一直在開發(fā)一個(gè)框架,用于繪制因果關(guān)系圖,并在可計(jì)算框架中找出導(dǎo)致觀察到的事件的因素。
分析因果關(guān)系的最大挑戰(zhàn)之一是將范式更改為一種,其中專家對觀察的原因提出主觀意見,然后通過各種分析技術(shù)將其分開。這與統(tǒng)計(jì)機(jī)器學(xué)習(xí)所追求的更加客觀的方法形成了鮮明的對比。從長遠(yuǎn)來看,因果關(guān)系研究可以為理解世界提供更好的模型。在短期內(nèi),因果分析將使解釋機(jī)器學(xué)習(xí)模型為何能提供結(jié)果的原因變得更加容易。
克服魔術(shù)思維
Information Builders營銷副總裁杰克·弗賴瓦爾德(Jake Freivald)說:“商業(yè)精英通常不相信黑盒子技術(shù),但他們卻對人工智能技術(shù)有著異乎尋常的期待。”他表示,企業(yè)家意識到將業(yè)務(wù)流程交給人工智能算法可能就像讓他們兩歲的孩子駕駛自己的汽車一樣冒險(xiǎn)。
問題在于分析和AI主要用于查找數(shù)據(jù)集中的相關(guān)性。由于關(guān)聯(lián)僅暗示因果關(guān)系,因此這些關(guān)聯(lián)無法幫助您理解發(fā)生某事的原因-如果無法做到,則只能告訴您接下來會發(fā)生什么的可能性。
弗賴瓦爾德說:“我們越能發(fā)現(xiàn)模型中的因果關(guān)系,在評估事情發(fā)生的原因和下一步將發(fā)生的事情時(shí),我們就越能基于現(xiàn)實(shí)?!?“在那之前,將我們的業(yè)務(wù)交托給AI模型可能會非常有效,直到失敗為止,結(jié)果可能是災(zāi)難性的。”
超越曲線擬合
曲線擬合在回答“下一個(gè)最佳報(bào)價(jià)是什么?”、“這是欺詐嗎?” 或“是貓嗎?”等重要問題方面做得很好。莫漢蒂說:“但是,在現(xiàn)實(shí)世界中,有很多問題無法通過曲線擬合來解決?!?如果有幾個(gè)因素可以預(yù)測對產(chǎn)品的偏愛,那么企業(yè)應(yīng)該嘗試影響哪個(gè)因素,以及重要性的順序如何?簡單地對不同變量的預(yù)測目標(biāo)能力進(jìn)行排名與選擇獨(dú)立預(yù)測變量并評估其對結(jié)果的相對貢獻(xiàn)不同。
莫漢蒂說:“我們可以觀察到相關(guān)性,但這并不能證明甚至暗示因果關(guān)系。” 因果關(guān)系回答的問題是“我應(yīng)該拉什么杠桿來實(shí)現(xiàn)改變?” 或“如果我更改了模型的某些基本假設(shè),將會發(fā)生什么?”
因果深度學(xué)習(xí)技術(shù)(也稱為結(jié)構(gòu)方程模型(SEM))已經(jīng)存在了很多年。莫漢蒂說:“但是,這些技術(shù)或多或少地局限于學(xué)術(shù)界和研究領(lǐng)域,我們還沒有看到這些技術(shù)可以轉(zhuǎn)化為商業(yè)或商業(yè)用例。”
蒙特卡洛模擬,馬爾可夫鏈分析,樸素貝葉斯和隨機(jī)建模是當(dāng)今使用的一些技術(shù),但它們幾乎沒有涉及因果關(guān)系的表面。還有一些開源軟件包,例如DAGitty(基于瀏覽器的環(huán)境,用于創(chuàng)建,編輯和分析因果模型),以及Microsoft的DoWhy庫以進(jìn)行因果推斷。但是這些也在發(fā)展。
用AI灌裝經(jīng)驗(yàn)法則
自主庫存管理系統(tǒng)制造商Pensa Systems的首席執(zhí)行官兼總裁Richard Schwartz表示,在較高的層次上,AI應(yīng)用程序會根據(jù)觀察到的模式執(zhí)行一系列操作。深度學(xué)習(xí)使用統(tǒng)計(jì)技術(shù)來發(fā)現(xiàn)模式。在因果關(guān)系中嵌入因果理解的另一種方法涉及開發(fā)基于規(guī)則的系統(tǒng)。這種方法從其他類型的客觀事實(shí)中得出結(jié)論,例如“向右轉(zhuǎn)3次與向左轉(zhuǎn)相同”。
規(guī)則可以是因果關(guān)系的,也可以是認(rèn)知的,可以幫助對輸入的結(jié)果進(jìn)行建模,但是它們也有缺點(diǎn)。Schwartz說:“因果規(guī)則很難被理解,即使您確實(shí)定義了因果規(guī)則,它們也會變得更加脆弱。”潛在的解決方案在于兩種方法的結(jié)合-例如,為神經(jīng)網(wǎng)絡(luò)創(chuàng)建可解釋性。這種類型的因果深度學(xué)習(xí)涉及以更加艱苦的方式建立關(guān)于如何得出結(jié)論的認(rèn)知模型。
AI引起人們注意的另一種因果技術(shù)是一種強(qiáng)化學(xué)習(xí),稱為從示范學(xué)習(xí)(Learning from demonstration)。這種方法有效地顯示了如何完成某事的計(jì)算機(jī)示例,并使計(jì)算機(jī)嘗試使該技術(shù)適應(yīng)其自身的問題解決方法。
Pensa在其庫存管理工具中同時(shí)使用兩種AI,以解決與在商店貨架上重新庫存庫存有關(guān)的問題。該公司的主要產(chǎn)品使用神經(jīng)網(wǎng)絡(luò)來解釋來自攝像機(jī)和貨架上物品的計(jì)算機(jī)視覺輸入(例如,亨氏番茄醬)以及貨架的組織方式(例如,亨氏通常位于亨特的旁邊)。
它還使用因果模型來生成自動提示,例如“ Heinz電量不足”或“ Heinz電量完全耗盡”。為了得出這個(gè)結(jié)論,系統(tǒng)不僅需要產(chǎn)品,還需要與貨架上需要的物品以及重新庫存的意義有關(guān)的規(guī)則。人們非常擅長認(rèn)知結(jié)論,例如制定規(guī)則拇指,從而可以得出結(jié)論。Schwartz說:“ Pensa用AI來裝瓶?!?/span>
無模型因果關(guān)系
德克薩斯大學(xué)奧斯汀分校的AI助理教授Scott Niekum表示,強(qiáng)化學(xué)習(xí)本質(zhì)上是因果關(guān)系,因?yàn)榇頃L試不同的動作并通過反復(fù)試驗(yàn)來了解它們?nèi)绾斡绊懶阅?。這種類型的學(xué)習(xí)稱為“無模型”學(xué)習(xí),之所以流行,是因?yàn)樗梢詫W(xué)習(xí)積極或有效的行為,而不必學(xué)習(xí)明確的世界運(yùn)轉(zhuǎn)模式。換句話說,它只是在學(xué)習(xí)行為與績效之間的因果關(guān)系,而不是行為如何直接影響世界。例如,這可能涉及了解在不了解水與火之間的關(guān)系的情況下將整個(gè)水桶翻轉(zhuǎn)到火上而將其撲滅的情況。
無模型學(xué)習(xí)是一把雙刃劍。如果沒有模型,則代理商可能必須從頭開始學(xué)習(xí)如果問題完全改變時(shí)如何實(shí)現(xiàn)其目標(biāo)。在較早的示例中,如果為代理提供了軟管而不是一桶水,則不從頭開始學(xué)習(xí)就不會知道該怎么做,因?yàn)樗鼪]有學(xué)習(xí)水與火之間的因果關(guān)系,而只是學(xué)習(xí)了這種關(guān)系在“翻轉(zhuǎn)斗”動作和滅火目標(biāo)之間。
Niekum說:“由于這些原因,盡管基于模型的強(qiáng)化學(xué)習(xí)有其自身的挑戰(zhàn),但人們對它的興趣越來越大。例如,您如何衡量對模型的信心,當(dāng)模型出錯(cuò)時(shí)該怎么辦?試圖跨越長遠(yuǎn)視野時(shí),您會處理不確定性嗎?”
解釋ML模型
可解釋性的核心思想是,解釋必須能夠識別和量化導(dǎo)致深度學(xué)習(xí)模型行為的所有因果關(guān)系。在這一點(diǎn)上,因果關(guān)系指的是模型功能本身,而不是模型要解決的任務(wù),F(xiàn)iddler Labs的數(shù)據(jù)科學(xué)負(fù)責(zé)人Ankur Taly說,該研究提供了可解釋的AI引擎。
由于其復(fù)雜性,忠實(shí)地解釋深度學(xué)習(xí)模型具有挑戰(zhàn)性。這使得很難分析推理模型功能中每個(gè)功能的重要性。早期的因果深度學(xué)習(xí)方法通過在數(shù)據(jù)集上觀察模型的預(yù)測,并為其擬合一個(gè)更簡單,可解釋的模型來獲得解釋,從而應(yīng)對了這一挑戰(zhàn)。塔利說:“不幸的是,這樣的方法容易受到眾所周知的從觀測數(shù)據(jù)中推斷因果關(guān)系的陷阱?!?人們無法從與模型相關(guān)的特征中分離出與模型預(yù)測真正相關(guān)的特征。
最近,出現(xiàn)了一組基于合作博弈的Shapley值的不同方法。這些方法使用反事實(shí)輸入來探查模型。但是,F(xiàn)iddler的研究發(fā)現(xiàn),如果數(shù)據(jù)集存在偏差,那么大多數(shù)方法都可能導(dǎo)致偏差。塔利說,他們正在研究將模型解釋與任何特定數(shù)據(jù)集分離的方法。這種研究可以幫助識別模型已學(xué)會依賴的虛假關(guān)聯(lián)。例如,黑客最近展示了通過添加某些類型的數(shù)據(jù)來偽造Cylance反惡意軟件引擎的功能。減輕此風(fēng)險(xiǎn)的一個(gè)好步驟是確定顯著影響模型預(yù)測的因果特征。塔利說:“然后,人們可以研究這些功能,以檢查它們是否也是任務(wù)的誘因,或者是否可以被對手利用,例如Cylance?!?/span>
教學(xué)AI迷信
如今,在指導(dǎo)深度學(xué)習(xí)過程建立因果關(guān)系建模方面,人類可以比AI做得更好。InformationBuilders的Freivald說。這可能涉及限制數(shù)據(jù)集,刪除可能導(dǎo)致偏差的字段以及通常影響學(xué)習(xí)過程的過程。人類專注于因果關(guān)系,而算法則負(fù)責(zé)學(xué)習(xí)。有一個(gè)反饋回路,但人的方面至關(guān)重要。
如果可以通過AI工具確定因果關(guān)系,則AI可以塑造學(xué)習(xí)過程,而不是由人來做。從理論上講,AI可以開始使用任意數(shù)據(jù)集,確定因果關(guān)系并以人類會完全忽略的方式應(yīng)用學(xué)習(xí)。目前有很多問題。人類將通用智能應(yīng)用于任務(wù),而機(jī)器尚無法做到這一點(diǎn)。最近這樣做的嘗試造成了麻煩。弗賴瓦爾德說:“我們希望人工智能越通用,它就需要越多的數(shù)據(jù),并且出現(xiàn)誤報(bào)的可能性就越大-機(jī)器迷信?!?/span>
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03