
作者 | George Lawton
編譯 | CDA數(shù)據(jù)科學研究院
大多數(shù)AI都基于模式識別,但是正如任何高中生都會告訴您的那樣,關聯(lián)不是因果關系。研究人員現(xiàn)在正在尋找方法,以幫助AI深入到更深層次。生活經驗告訴我們,相關關系并不能直接推導出因果關系,但不管是日常生活還是學術研究,對于因果關系的解釋要遠比相關關系重要得多。很多時候,我們也會對事件之間的因果關系捉襟見肘。如果,把這個過程交給AI來處理會怎樣呢?
AI可以利用深度學習技術來構建相關關系模型。深度學習技術通過關聯(lián)數(shù)據(jù)點在構建模型方面做得很好。但是許多AI研究人員認為,需要更多的工作來理解因果關系,而不僅僅是相關性?,F(xiàn)場因果深度學習(對確定某件事發(fā)生的原因很有用)仍處于起步階段,并且自動化比神經網絡困難得多。許多AI都是關于在大量數(shù)據(jù)中查找隱藏模式的。全球IT服務公司L&T Infotech的執(zhí)行副總裁兼首席數(shù)據(jù)分析官Soumendra Mohanty說:“顯然,這方面將我們帶向了“什么”,但很少有人去理解“為什么”。
這種區(qū)別的含義可能很重要。最終,要創(chuàng)造出模仿人類智能的機器,就需要訓練AI來詢問為什么一種觀察會影響另一種觀察。這就是為什么許多研究人員現(xiàn)在將注意力轉向這個問題的原因。
加州大學洛杉磯分校(UCLA)教授朱迪亞·珀爾(Judea Pearl)激發(fā)了該領域的興奮,他從事了一些實施貝葉斯網絡以進行統(tǒng)計分析的形成性工作。最近,他一直在開發(fā)一個框架,用于繪制因果關系圖,并在可計算框架中找出導致觀察到的事件的因素。
分析因果關系的最大挑戰(zhàn)之一是將范式更改為一種,其中專家對觀察的原因提出主觀意見,然后通過各種分析技術將其分開。這與統(tǒng)計機器學習所追求的更加客觀的方法形成了鮮明的對比。從長遠來看,因果關系研究可以為理解世界提供更好的模型。在短期內,因果分析將使解釋機器學習模型為何能提供結果的原因變得更加容易。
克服魔術思維
Information Builders營銷副總裁杰克·弗賴瓦爾德(Jake Freivald)說:“商業(yè)精英通常不相信黑盒子技術,但他們卻對人工智能技術有著異乎尋常的期待?!彼硎?,企業(yè)家意識到將業(yè)務流程交給人工智能算法可能就像讓他們兩歲的孩子駕駛自己的汽車一樣冒險。
問題在于分析和AI主要用于查找數(shù)據(jù)集中的相關性。由于關聯(lián)僅暗示因果關系,因此這些關聯(lián)無法幫助您理解發(fā)生某事的原因-如果無法做到,則只能告訴您接下來會發(fā)生什么的可能性。
弗賴瓦爾德說:“我們越能發(fā)現(xiàn)模型中的因果關系,在評估事情發(fā)生的原因和下一步將發(fā)生的事情時,我們就越能基于現(xiàn)實。” “在那之前,將我們的業(yè)務交托給AI模型可能會非常有效,直到失敗為止,結果可能是災難性的?!?/span>
超越曲線擬合
曲線擬合在回答“下一個最佳報價是什么?”、“這是欺詐嗎?” 或“是貓嗎?”等重要問題方面做得很好。莫漢蒂說:“但是,在現(xiàn)實世界中,有很多問題無法通過曲線擬合來解決?!?如果有幾個因素可以預測對產品的偏愛,那么企業(yè)應該嘗試影響哪個因素,以及重要性的順序如何?簡單地對不同變量的預測目標能力進行排名與選擇獨立預測變量并評估其對結果的相對貢獻不同。
莫漢蒂說:“我們可以觀察到相關性,但這并不能證明甚至暗示因果關系?!?因果關系回答的問題是“我應該拉什么杠桿來實現(xiàn)改變?” 或“如果我更改了模型的某些基本假設,將會發(fā)生什么?”
因果深度學習技術(也稱為結構方程模型(SEM))已經存在了很多年。莫漢蒂說:“但是,這些技術或多或少地局限于學術界和研究領域,我們還沒有看到這些技術可以轉化為商業(yè)或商業(yè)用例。”
蒙特卡洛模擬,馬爾可夫鏈分析,樸素貝葉斯和隨機建模是當今使用的一些技術,但它們幾乎沒有涉及因果關系的表面。還有一些開源軟件包,例如DAGitty(基于瀏覽器的環(huán)境,用于創(chuàng)建,編輯和分析因果模型),以及Microsoft的DoWhy庫以進行因果推斷。但是這些也在發(fā)展。
用AI灌裝經驗法則
自主庫存管理系統(tǒng)制造商Pensa Systems的首席執(zhí)行官兼總裁Richard Schwartz表示,在較高的層次上,AI應用程序會根據(jù)觀察到的模式執(zhí)行一系列操作。深度學習使用統(tǒng)計技術來發(fā)現(xiàn)模式。在因果關系中嵌入因果理解的另一種方法涉及開發(fā)基于規(guī)則的系統(tǒng)。這種方法從其他類型的客觀事實中得出結論,例如“向右轉3次與向左轉相同”。
規(guī)則可以是因果關系的,也可以是認知的,可以幫助對輸入的結果進行建模,但是它們也有缺點。Schwartz說:“因果規(guī)則很難被理解,即使您確實定義了因果規(guī)則,它們也會變得更加脆弱?!睗撛诘慕鉀Q方案在于兩種方法的結合-例如,為神經網絡創(chuàng)建可解釋性。這種類型的因果深度學習涉及以更加艱苦的方式建立關于如何得出結論的認知模型。
AI引起人們注意的另一種因果技術是一種強化學習,稱為從示范學習(Learning from demonstration)。這種方法有效地顯示了如何完成某事的計算機示例,并使計算機嘗試使該技術適應其自身的問題解決方法。
Pensa在其庫存管理工具中同時使用兩種AI,以解決與在商店貨架上重新庫存庫存有關的問題。該公司的主要產品使用神經網絡來解釋來自攝像機和貨架上物品的計算機視覺輸入(例如,亨氏番茄醬)以及貨架的組織方式(例如,亨氏通常位于亨特的旁邊)。
它還使用因果模型來生成自動提示,例如“ Heinz電量不足”或“ Heinz電量完全耗盡”。為了得出這個結論,系統(tǒng)不僅需要產品,還需要與貨架上需要的物品以及重新庫存的意義有關的規(guī)則。人們非常擅長認知結論,例如制定規(guī)則拇指,從而可以得出結論。Schwartz說:“ Pensa用AI來裝瓶?!?/span>
無模型因果關系
德克薩斯大學奧斯汀分校的AI助理教授Scott Niekum表示,強化學習本質上是因果關系,因為代理會嘗試不同的動作并通過反復試驗來了解它們如何影響性能。這種類型的學習稱為“無模型”學習,之所以流行,是因為它可以學習積極或有效的行為,而不必學習明確的世界運轉模式。換句話說,它只是在學習行為與績效之間的因果關系,而不是行為如何直接影響世界。例如,這可能涉及了解在不了解水與火之間的關系的情況下將整個水桶翻轉到火上而將其撲滅的情況。
無模型學習是一把雙刃劍。如果沒有模型,則代理商可能必須從頭開始學習如果問題完全改變時如何實現(xiàn)其目標。在較早的示例中,如果為代理提供了軟管而不是一桶水,則不從頭開始學習就不會知道該怎么做,因為它沒有學習水與火之間的因果關系,而只是學習了這種關系在“翻轉斗”動作和滅火目標之間。
Niekum說:“由于這些原因,盡管基于模型的強化學習有其自身的挑戰(zhàn),但人們對它的興趣越來越大。例如,您如何衡量對模型的信心,當模型出錯時該怎么辦?試圖跨越長遠視野時,您會處理不確定性嗎?”
解釋ML模型
可解釋性的核心思想是,解釋必須能夠識別和量化導致深度學習模型行為的所有因果關系。在這一點上,因果關系指的是模型功能本身,而不是模型要解決的任務,F(xiàn)iddler Labs的數(shù)據(jù)科學負責人Ankur Taly說,該研究提供了可解釋的AI引擎。
由于其復雜性,忠實地解釋深度學習模型具有挑戰(zhàn)性。這使得很難分析推理模型功能中每個功能的重要性。早期的因果深度學習方法通過在數(shù)據(jù)集上觀察模型的預測,并為其擬合一個更簡單,可解釋的模型來獲得解釋,從而應對了這一挑戰(zhàn)。塔利說:“不幸的是,這樣的方法容易受到眾所周知的從觀測數(shù)據(jù)中推斷因果關系的陷阱?!?人們無法從與模型相關的特征中分離出與模型預測真正相關的特征。
最近,出現(xiàn)了一組基于合作博弈的Shapley值的不同方法。這些方法使用反事實輸入來探查模型。但是,F(xiàn)iddler的研究發(fā)現(xiàn),如果數(shù)據(jù)集存在偏差,那么大多數(shù)方法都可能導致偏差。塔利說,他們正在研究將模型解釋與任何特定數(shù)據(jù)集分離的方法。這種研究可以幫助識別模型已學會依賴的虛假關聯(lián)。例如,黑客最近展示了通過添加某些類型的數(shù)據(jù)來偽造Cylance反惡意軟件引擎的功能。減輕此風險的一個好步驟是確定顯著影響模型預測的因果特征。塔利說:“然后,人們可以研究這些功能,以檢查它們是否也是任務的誘因,或者是否可以被對手利用,例如Cylance?!?/span>
教學AI迷信
如今,在指導深度學習過程建立因果關系建模方面,人類可以比AI做得更好。InformationBuilders的Freivald說。這可能涉及限制數(shù)據(jù)集,刪除可能導致偏差的字段以及通常影響學習過程的過程。人類專注于因果關系,而算法則負責學習。有一個反饋回路,但人的方面至關重要。
如果可以通過AI工具確定因果關系,則AI可以塑造學習過程,而不是由人來做。從理論上講,AI可以開始使用任意數(shù)據(jù)集,確定因果關系并以人類會完全忽略的方式應用學習。目前有很多問題。人類將通用智能應用于任務,而機器尚無法做到這一點。最近這樣做的嘗試造成了麻煩。弗賴瓦爾德說:“我們希望人工智能越通用,它就需要越多的數(shù)據(jù),并且出現(xiàn)誤報的可能性就越大-機器迷信。”
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到決策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10