
CDA數(shù)據(jù)分析研究院出品,轉(zhuǎn)載需授權(quán)
從廣義上講,人工智能涉及機(jī)器做一些只有人才能做到的事情。也就是說,計(jì)算機(jī)科學(xué)家不同意幾年前的某些計(jì)算能力是否可以構(gòu)成人工智能。如今,許多這些功能可能僅僅只被稱為軟件。
人工智能的現(xiàn)代復(fù)興是由一種非常特殊的計(jì)算方式的進(jìn)步推動(dòng)的:也就是機(jī)器學(xué)習(xí)。我們經(jīng)常在Emerj上交替使用人工智能和機(jī)器學(xué)習(xí),但許多計(jì)算機(jī)科學(xué)家喜歡將兩者分開。關(guān)于人工智能的究竟是由什么構(gòu)成的,在該領(lǐng)域存在(并且可能永遠(yuǎn)存在)辯論。一些計(jì)算機(jī)科學(xué)家不考慮人工智能的計(jì)算能力,除非它們涉及機(jī)器學(xué)習(xí)。
這些科學(xué)家可能會(huì)繼續(xù)改變他們的人工智能參數(shù),直到實(shí)現(xiàn)人工一般智能(AGI)。AGI的發(fā)展(計(jì)算機(jī)執(zhí)行人類所能執(zhí)行的任何智力任務(wù)的能力)是許多計(jì)算機(jī)科學(xué)研究人員的目標(biāo),但實(shí)現(xiàn)它可能需要很多年,并且它值得在其他的時(shí)間用專門的一篇文章來(lái)形容。
研究人員似乎同意的一點(diǎn)是機(jī)器學(xué)習(xí)在某種程度上屬于人工智能的范疇,而人工智能本身屬于計(jì)算機(jī)科學(xué)學(xué)科。深度學(xué)習(xí)是后續(xù)文章的主題,并且深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集。這一概念由NVIDIA提出,解釋如下:
上面是NVIDA對(duì)人工智能,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的概念化
Yoshua Bengio,過去二十年來(lái)最杰出的深度學(xué)習(xí)研究者之一,為我們提供了他自己對(duì)機(jī)器學(xué)習(xí)的定義:
機(jī)器學(xué)習(xí)研究是人工智能研究的一部分,旨在通過數(shù)據(jù),觀察和與世界的互動(dòng)為計(jì)算機(jī)提供知識(shí)。獲得的知識(shí)允許計(jì)算機(jī)正確地推廣到新設(shè)置。
盡管機(jī)器學(xué)習(xí)在今天的人工智能思想的主導(dǎo)地位,但人工智能曾經(jīng)以一種截然不同的方式被研究。
專家系統(tǒng)和人工智能的早期方法
在21世紀(jì)末和2010年初的機(jī)器學(xué)習(xí)取得進(jìn)步之前,人工智能的興趣圍繞著一個(gè)完全獨(dú)立的計(jì)算能力。在60年代和70年代,專家系統(tǒng)主導(dǎo)了人工智能的開發(fā)。開發(fā)人員試圖通過將其概念化為一系列if-then語(yǔ)句來(lái)模仿人類思想和決策。實(shí)質(zhì)上,專家系統(tǒng)是一個(gè)由if-then場(chǎng)景構(gòu)建的大型網(wǎng)絡(luò),通過該場(chǎng)景過濾查詢以實(shí)現(xiàn)一些預(yù)編程的最終結(jié)果。專家系統(tǒng)背后的if-then語(yǔ)句被硬編碼到軟件中。因此,AI每次都會(huì)以相同的方式響應(yīng)某些輸入。
如果所得到的軟件在工業(yè)中具有任何實(shí)際用途,那么這些if-then場(chǎng)景需要適當(dāng)?shù)赝ㄖI(lǐng)域?qū)<?。例如,為了建立一個(gè)專家系統(tǒng)來(lái)了解當(dāng)出現(xiàn)某種傳染病時(shí)應(yīng)該做些什么,開發(fā)人員需要以某種方式將軟件的if-then場(chǎng)景建立在傳染病專家在傳染病時(shí)可能做的事情的基礎(chǔ)上 。
例如,開發(fā)人員可以采訪40位不同的傳染病醫(yī)療專家,并向他們?cè)儐栍嘘P(guān)癥狀和治療的一系列問題,并將他們的反應(yīng)硬編碼到專家系統(tǒng)中。這需要軟件開發(fā)人員進(jìn)行大量的深謀遠(yuǎn)慮和規(guī)劃。他們需要與領(lǐng)域?qū)<液献鳎谐瞿橙丝赡茉儐柲硞€(gè)特定主題的所有可能問題,然后找出這些問題的所有可能的答案。如果他們沒不能解釋一個(gè)問題或答案,那么專家系統(tǒng)將無(wú)法提供用戶問題的準(zhǔn)確答案。
另一個(gè)例子可能涉及客戶支持票。專家系統(tǒng)可以建立在以下if-then場(chǎng)景上:“如果電子郵件的正文中包含”退款“字樣,則將票證路由到退款票據(jù)桶?!边@當(dāng)然看起來(lái)是一個(gè)合理的規(guī)則,它確實(shí)可能會(huì)將大部分退款票據(jù)路由到相應(yīng)的桶中。該規(guī)則不考慮客戶談?wù)撆c退款相關(guān)的概念或使用退款相關(guān)短語(yǔ)而不使用“退款”一詞的支持票。
客戶可能會(huì)說,“如果你不給我回電話,我就會(huì)打電話給我的銀行?!币粋€(gè)有業(yè)務(wù)背景的人力支持代理可能知道這樣的門票通常涉及到客戶不知道他們賬戶的費(fèi)用是他們注冊(cè)的年度訂閱服務(wù)。代理商可能也知道,在幾乎所有情況下,客戶都希望退還該費(fèi)用?;趯<蚁到y(tǒng)的軟件永遠(yuǎn)無(wú)法將這些票據(jù)退還到退款桶中。
專家系統(tǒng)的局限性
從理論上講,具有業(yè)務(wù)“客戶支持票證背景”的人員可以在構(gòu)建專家系統(tǒng)之前將有關(guān)此場(chǎng)景的信息傳遞給構(gòu)建專家系統(tǒng)的開發(fā)人員。if-then規(guī)則可能類似于“如果電子郵件的正文包含'bank'一詞,則將票證路由到退款票據(jù)桶?!?/span>
但是,如果該企業(yè)最近才開始銷售其訂購(gòu)服務(wù),那么其基于專家系統(tǒng)的客戶支持軟件將無(wú)法適應(yīng)進(jìn)入系統(tǒng)的各種票證,并對(duì)其訂閱服務(wù)進(jìn)行模糊引用,例如上面的示例。在業(yè)務(wù)聯(lián)系開發(fā)人員以使用另一個(gè)if-then規(guī)則更新軟件之前,這些票證不會(huì)被路由到退款桶中。
圍繞這一限制進(jìn)行工作明顯是不切實(shí)際的,這也是專家系統(tǒng)(以及通常的人工智能)在一段被稱為“人工智能寒冬”的時(shí)期內(nèi)衰退的最大原因。
機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)
隨著互聯(lián)網(wǎng)的出現(xiàn),從在線購(gòu)物到保險(xiǎn)理賠的大量數(shù)據(jù)都變得數(shù)字化。數(shù)據(jù)現(xiàn)在已成為常態(tài),即使是最小的公司也將數(shù)據(jù)存儲(chǔ)在數(shù)字格式中。
機(jī)器學(xué)習(xí)是一種讓計(jì)算機(jī)以與專家系統(tǒng)完全不同的方式模仿人類思想和決策的方式。如果一個(gè)人有能力存儲(chǔ),訪問和理解他們可以做出決策的大腦中的數(shù)十億個(gè)數(shù)據(jù)點(diǎn),他們可能會(huì)做出與我們現(xiàn)在做出決策的方式截然不同的決策; 在任何情況下,在絕大多數(shù)情況下,對(duì)更多信息和背景做出的決定優(yōu)于在較少信息和較少背景下進(jìn)行的決策。
簡(jiǎn)而言之,機(jī)器學(xué)習(xí)模型可以對(duì)數(shù)十億個(gè)數(shù)據(jù)點(diǎn)做出決策。它們理解這些數(shù)據(jù),并將其轉(zhuǎn)化為可能性,為它們的產(chǎn)出提供動(dòng)力。這與專家系統(tǒng)非常不同,專家系統(tǒng)每個(gè)if-then規(guī)則只有一個(gè)輸出,每個(gè)“if”只有一個(gè)“then”。更重要的是,機(jī)器學(xué)習(xí)模型是為了適應(yīng)新的意外的輸入而構(gòu)建的。專家系統(tǒng)不知道如何處理不屬于退款票規(guī)則的退票,但隨著時(shí)間的推移,機(jī)器學(xué)習(xí)模型可以開始將“我正在給我的銀行打電話”路由到退款桶中,作為回應(yīng)人的反饋。
機(jī)器學(xué)習(xí)的適應(yīng)性
如果人員在其路由正確或不正確時(shí)向模型指示,那么它可以使用該反饋來(lái)通知其基于其票證路由的可能性。雖然我們建議不要將人工智能擬人化,但它本身會(huì)問自己“這張票應(yīng)該被送到退款桶的可能性是多少?”每當(dāng)提供支持票時(shí)。如果確定可能性很高,則票證將被路由到退款桶。如果確定可能性較低,則可以對(duì)模型進(jìn)行編程以標(biāo)記票據(jù)以供人工審查。
這種適應(yīng)性是機(jī)器學(xué)習(xí)和專家系統(tǒng)之間的關(guān)鍵差異,這就是為什么一些計(jì)算機(jī)科學(xué)家不再考慮專家系統(tǒng)和人工智能的其他計(jì)算能力的原因。它也是斯坦福定義機(jī)器學(xué)習(xí)的基礎(chǔ):“讓計(jì)算機(jī)在沒有明確編程的情況下采取行動(dòng)的科學(xué)。”
這種適應(yīng)性的一個(gè)例子是Netflix的推薦引擎。當(dāng)平臺(tái)上的新用戶第一次從俄克拉荷馬州的某個(gè)位置登錄時(shí),推薦引擎除了用戶的IP位置之外幾乎沒有任何關(guān)于該用戶的數(shù)據(jù)。但是,Netflix確實(shí)有幾百萬(wàn)個(gè)數(shù)據(jù)點(diǎn)來(lái)自于俄克拉荷馬州的其他用戶。推薦引擎可以使用該數(shù)據(jù)來(lái)基于過去與類似用戶的交互來(lái)做出關(guān)于該新用戶可能想要看到什么內(nèi)容的一般假設(shè)。
當(dāng)用戶繼續(xù)與Netflix交互時(shí),他們選擇觀看的數(shù)據(jù),當(dāng)他們暫停這些節(jié)目或完全停止觀看時(shí),以及顯示他們連續(xù)觀看的數(shù)據(jù)通知機(jī)器學(xué)習(xí)模型推薦給用戶可能喜歡的節(jié)目。該模型響應(yīng)用戶的交互并適應(yīng)他們的偏好。用戶的數(shù)據(jù)還為其他用戶提供了推薦,這些用戶具有第一個(gè)用戶相似的偏好和相似的人口統(tǒng)計(jì)學(xué)特征。
機(jī)器學(xué)習(xí)的核心是在大量數(shù)據(jù)上進(jìn)行訓(xùn)練機(jī)器,使機(jī)器能夠識(shí)別數(shù)據(jù)中的模式,從而確定使用特定輸出而獲得成功的可能性。
機(jī)器學(xué)習(xí)有其局限性,事實(shí)上,當(dāng)涉及到一個(gè)核心概念時(shí),它比專家系統(tǒng)更糟糕:那就是可解釋性。
我們可以遵循一系列if-then規(guī)則來(lái)弄清楚專家系統(tǒng)是如何產(chǎn)生特定輸出的。如果結(jié)果證明他們的答案”then“是不正確的,那么就允許開發(fā)人員修復(fù)這些規(guī)則。專家系統(tǒng)是高度透明的,這在某些領(lǐng)域甚至是必要的,這是有幫助的。
如果患者詢問他們的醫(yī)生為什么他們?cè)\斷患有疾病,醫(yī)生如果根據(jù)專家系統(tǒng)的輸出做出診斷,那么醫(yī)生可以回答這個(gè)問題。從理論上講,他們可以通過專家系統(tǒng)的if-then規(guī)則讀取導(dǎo)致其輸出的信息,以及患者的診斷結(jié)果。
機(jī)器學(xué)習(xí)模型不是這種情況,它比if-then樹復(fù)雜得多。機(jī)器學(xué)習(xí)模型背后的神經(jīng)網(wǎng)絡(luò)可能如下所示:
這是華威大學(xué)的典型的drop-net神經(jīng)網(wǎng)絡(luò)
如果醫(yī)生根據(jù)機(jī)器學(xué)習(xí)模型的輸出進(jìn)行診斷,他們將無(wú)法向患者解釋清楚。機(jī)器學(xué)習(xí)模型基于在數(shù)據(jù)集中自行構(gòu)建的模式進(jìn)行輸出。人類在沒有任何上下文的情況下為機(jī)器學(xué)習(xí)算法提供數(shù)據(jù),并且該算法提供了一些基于人類目前無(wú)法識(shí)別的模式來(lái)確定結(jié)果。
機(jī)器學(xué)習(xí)模型可以基于任意數(shù)量的數(shù)據(jù)點(diǎn)為患者進(jìn)行診斷。這可能是因?yàn)榛颊叩腃T掃描異常。也可能是因?yàn)樗麄兊娜丝诮y(tǒng)計(jì)學(xué)特征,他們的名字,以及他們的保險(xiǎn)索賠歷史,比其他人更容易被診斷出患有特定疾病。醫(yī)生既無(wú)法確認(rèn)也無(wú)法否認(rèn)。
這個(gè)問題也就是所謂的人工智能的“黑匣子”。機(jī)器學(xué)習(xí)模型可以通過以人類無(wú)法達(dá)到的規(guī)模查找數(shù)據(jù)模式來(lái)進(jìn)行預(yù)測(cè)和推薦,但沒有人能夠解釋模型如何或?yàn)楹巫龀鲞@些預(yù)測(cè)和建議。沒有透明度,這是某些行業(yè)的一個(gè)主要問題,正如我們?cè)趫?bào)告中討論的那樣,在B2B和B2C中應(yīng)用人工智能 - 有什么區(qū)別?對(duì)于計(jì)算機(jī)科學(xué)研究人員而言,黑匣子是一個(gè)令人擔(dān)憂的問題,被稱為“人工智能教父”的杰弗里·辛頓甚至建議“把它扔掉,然后再重新開始”。
商業(yè)領(lǐng)袖的經(jīng)驗(yàn)
絕大多數(shù)商業(yè)領(lǐng)袖可能會(huì)考慮的人工智能解決方案,我們?cè)贓merj所涵蓋的確實(shí)是機(jī)器學(xué)習(xí)解決方案。商業(yè)領(lǐng)袖可以在談話中使用人工智能,并希望他們的數(shù)據(jù)科學(xué)家能夠理解他們所指的是機(jī)器學(xué)習(xí)。從歷史的角度來(lái)看,專家系統(tǒng)通常被認(rèn)為是人工智能,但是在80年代末期之前開發(fā)的計(jì)算能力通常不是人們?cè)谡務(wù)撊斯ぶ悄軙r(shí)所指的。
有可能在未來(lái)十年或二十年內(nèi),機(jī)器學(xué)習(xí)本身將面臨類似的命運(yùn),被歸納為計(jì)算機(jī)科學(xué)史的范疇,作為一種計(jì)算能力,它在當(dāng)時(shí)發(fā)揮了應(yīng)有的作用,但最終讓位于某種更復(fù)雜,或許更具解釋性的東西。再或者,機(jī)器學(xué)習(xí)可能不會(huì)被拋棄,而是變得無(wú)處不在,以至于它不再被稱為人工智能。
商業(yè)領(lǐng)袖可以將專家系統(tǒng)和機(jī)器學(xué)習(xí)視為人工智能頻譜的兩端?,F(xiàn)在,開發(fā)人員在開始構(gòu)建人工智能解決方案時(shí),通常不會(huì)構(gòu)建專家系統(tǒng); 他們建立機(jī)器學(xué)習(xí)模型。是實(shí)現(xiàn)人工智能相同目標(biāo)的兩種截然不同的方法:讓計(jì)算機(jī)完成傳統(tǒng)上為人類保留的智力任務(wù)。機(jī)器學(xué)習(xí)和專家系統(tǒng)是人工智能的子集,它是整個(gè)計(jì)算機(jī)科學(xué)的一個(gè)子集。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10