
有哪些傳統(tǒng)數(shù)據(jù)科學(xué)技術(shù)被大眾媒體稱為人工智能(AI)
對(duì)于那些對(duì)AI感興趣但還沒有深入研究的傳統(tǒng)數(shù)據(jù)科學(xué)家,下面是對(duì)數(shù)據(jù)科學(xué)技術(shù)的簡(jiǎn)要概述,這些數(shù)據(jù)科學(xué)技術(shù)在通俗報(bào)紙中被稱為人工智能(AI)。
Data Science Central與其他人已經(jīng)撰寫了相當(dāng)多的關(guān)于構(gòu)成AI的各種類型的數(shù)據(jù)科學(xué)的文章。但是Bill Vorhies仍然聽到很多人詢問關(guān)于AI的問題,好像它就是單一的實(shí)體。他表示,不是這樣的。AI是一個(gè)數(shù)據(jù)科學(xué)技術(shù)的集合,在這一點(diǎn)上,開發(fā)甚至都沒有特別好地集成,或易于使用。然而,在這些領(lǐng)域中,他們?nèi)匀蝗〉昧撕艽蟮倪M(jìn)步,并受到了大眾媒體的關(guān)注。
這篇文章并不是一個(gè)深入的研究,而是進(jìn)行粗略的介紹,以便你了解這領(lǐng)域的研究進(jìn)展和發(fā)展趨勢(shì)。如果你是一位傳統(tǒng)數(shù)據(jù)科學(xué)家,讀過一些文章,但仍然沒有把這些拼圖拼起來建立全面的認(rèn)識(shí),你可能會(huì)發(fā)現(xiàn)這是一種整合你當(dāng)前的知識(shí),甚至發(fā)現(xiàn)你想關(guān)注哪個(gè)目標(biāo)并致力于此的方式。
AI只是數(shù)據(jù)科學(xué)部件的總和
構(gòu)成AI的數(shù)據(jù)科學(xué)“部件”分為以下幾類。這里有所重疊,但都是詳細(xì)的主題,你會(huì)在媒體上看到。
這些都是獨(dú)立的學(xué)科(好吧,深度學(xué)習(xí)的類別實(shí)際上還包含一些其他)。AI只是這些部件的總和。它們只是由一大批創(chuàng)業(yè)公司和主要參與者創(chuàng)造的一些真正奇妙的應(yīng)用非常松散地結(jié)合在一起。當(dāng)它們一起工作時(shí),例如Watson、或Echo/Alexa、或者在使用自駕車,那么它們應(yīng)該可以超過組成它們的部分的總和,然而情況并非如此。如何集成這些不同技術(shù)仍然是最大的挑戰(zhàn)之一。
我們的AI必須做什么?
當(dāng)向初學(xué)者解釋這一點(diǎn)時(shí),我總是認(rèn)為,從AI需要具備什么類似人類能力的擬人化描述開始的話,還是有所幫助的。
您可以立即開始看到,當(dāng)今新興的AI許多商業(yè)應(yīng)用,只有這些能力中的一部分。但我們期待的是,未來有更復(fù)雜的應(yīng)用能具備幾乎所有這些能力。
今天出現(xiàn)的許多AI的商業(yè)應(yīng)用程序只需要這些功能中的一部分。但是我們期待的更復(fù)雜的應(yīng)用程序?qū)⑿枰獛缀跛羞@些功能。
將人類能力轉(zhuǎn)換為數(shù)據(jù)科學(xué)
這里確實(shí)有點(diǎn)凌亂。這些能力中的,每個(gè)不一定與其基礎(chǔ)數(shù)據(jù)科學(xué)一一對(duì)應(yīng)。但是,要真正了解現(xiàn)今AI正在發(fā)生著什么,理解數(shù)據(jù)科學(xué)如何與這些要求相匹配是最重要的。作為一張圖解,它們的匹配或多或少像這樣的:
深度學(xué)習(xí)發(fā)生了什么?
您可能已經(jīng)注意到,我們的圖表中缺少“深度學(xué)習(xí)”。這是因?yàn)樗巧厦嬷v到的遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的匯總類別。人工神經(jīng)網(wǎng)絡(luò)(ANNs)是自80年代以來的最高水平,并且一直是用于解決標(biāo)準(zhǔn)分類和回歸問題的標(biāo)準(zhǔn)數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)工具包的一部分。
最近發(fā)生的事情是,我們大量增加并行處理,使用GPU(圖形處理單元)而不是傳統(tǒng)的英特爾芯片,允許我們實(shí)驗(yàn)的ANN有幾十個(gè)甚至超過一百個(gè)隱藏層的版本。這些隱藏層就是我們?yōu)槭裁磳⑦@些類型成為“深度”的原因,因此也成了“深度學(xué)習(xí)”的說法。添加隱藏層意味著乘法計(jì)算的復(fù)雜性,這就是為何我們不得不等待硬件趕上我們的雄心。
至少有27種不同類型的ANN,但最重要的是卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN),沒有它們,圖像識(shí)別和自然語言處理將是不可能的任務(wù)。
數(shù)據(jù)科學(xué)的簡(jiǎn)要討論
要公正對(duì)待這些基礎(chǔ)數(shù)據(jù)科學(xué)技術(shù),就需要閱讀多篇文章。在本文中,我們將給你最簡(jiǎn)略描述,以及一些能查看更為完整信息的鏈接。
卷積神經(jīng)網(wǎng)絡(luò)(CNN):CNN是所有類型的圖像和視頻識(shí)別、面部識(shí)別、圖像標(biāo)記的核心,并可在幫助自動(dòng)駕駛在行人中識(shí)別停車標(biāo)志。它們非常復(fù)雜,難以訓(xùn)練,而你不需要指定具體的功能(像貓有毛皮、尾巴、四條腿等那樣),你需要在一個(gè)CNN上按字面意思展示數(shù)百萬貓科的示例就可以成功。海量的訓(xùn)練數(shù)據(jù)是一個(gè)巨大的障礙。
遞歸神經(jīng)網(wǎng)絡(luò)(遞歸): RNN是自然語言處理(NLP)的中心,也是游戲和類似的邏輯問題的中心。與CNN不同,它們將信息處理為時(shí)間序列,其中每個(gè)隨后的數(shù)據(jù)片段在某種程度上依賴于之前的片段。它可能不明顯,但語言屬于此類別,因?yàn)橄乱粋€(gè)字符或下一個(gè)字在邏輯上與前一個(gè)字符相關(guān)。RNN可以工作在字符、字或甚至長(zhǎng)段級(jí)別,這使得它們能夠完美提供可預(yù)期的長(zhǎng)篇回答您的客戶服務(wù)問題。RNN處理文本問題的理解以及形成復(fù)雜的響應(yīng),包括翻譯成外語。計(jì)算機(jī)能夠贏得國(guó)際象棋和圍棋,RNN功不可沒。
生成式對(duì)抗神經(jīng)網(wǎng)絡(luò)(GANN): CNN和RNN都受到同樣問題的困惑,即需要龐大的、繁重的數(shù)據(jù)量以便訓(xùn)練,要么識(shí)別停車標(biāo)志(圖像),要么了解如何回答您關(guān)于如何打開該帳戶(語音和文本)的問題。GANN能夠保證顯著減少訓(xùn)練數(shù)據(jù)并提高精度。他們通過互相較量。這里有一個(gè)好故事,關(guān)于訓(xùn)練卷積神經(jīng)網(wǎng)來識(shí)別假法國(guó)印象派的藝術(shù)贗品。簡(jiǎn)而言之,一個(gè)CNN被真正的法國(guó)印象派畫作來訓(xùn)練,所以它應(yīng)該認(rèn)識(shí)真品。其他對(duì)抗性CNN,稱為生成式對(duì)抗神經(jīng)網(wǎng)絡(luò),實(shí)際上被賦予創(chuàng)造印象派繪畫贗品的任務(wù)。
CNN通過將像素值轉(zhuǎn)換為復(fù)雜的數(shù)值向量來執(zhí)行圖像識(shí)別的任務(wù)。如果你向后運(yùn)行它們,那就是從隨機(jī)數(shù)值向量開始,它們可以創(chuàng)建一個(gè)圖像。在這種情況下,NN生成贗品創(chuàng)造圖像,試圖欺騙嘗試學(xué)習(xí)如何檢測(cè)贗品的CNN。他們互相較量,直到生成器(贗品制造者)產(chǎn)生的圖像如此完美,以至于CNN無法將它們從原件和已經(jīng)扳平的兩個(gè)對(duì)抗網(wǎng)絡(luò)區(qū)分出來。同時(shí),設(shè)計(jì)用于確定來自贗品的原件的CNN已經(jīng)在檢測(cè)贗品方面進(jìn)行了極好的培訓(xùn),而沒有對(duì)數(shù)百萬偽造的法國(guó)印象派大師進(jìn)行訓(xùn)練這一不切實(shí)際的要求??傊鼈兙褪菑钠渌诘沫h(huán)境中學(xué)習(xí)。
問答機(jī)(QAM): QAM,是我們?yōu)橄馡BM的Watson之類起的一個(gè)相當(dāng)不起眼的名字。這些都是海量知識(shí)庫,經(jīng)過訓(xùn)練,可以在其知識(shí)庫中找到獨(dú)特關(guān)聯(lián),并為它們以前從未見過的復(fù)雜問題提供答案。當(dāng)普通搜索返回您潛在答案的列表時(shí),QAM必須返回單一的最佳答案。
這是一個(gè)NLP和復(fù)雜搜索的混搭,其中QAM構(gòu)建關(guān)于問題的可能含義的多個(gè)假設(shè),并且基于加權(quán)證據(jù)算法返回最佳響應(yīng)。
QAM需要人類加載大量關(guān)于需要研究的主題的數(shù)據(jù),并且人類必須訓(xùn)練并維護(hù)知識(shí)庫。然而,一旦建立完成,它們已被證明是在癌癥檢測(cè)(與CNNs結(jié)合)領(lǐng)域的專家、醫(yī)學(xué)診斷、發(fā)現(xiàn)材料和化學(xué)品的獨(dú)特組合,甚至教高中學(xué)生如何編程??傊?,無論有大量的知識(shí)需要專家解釋,QAM可以是大腦或至少是我們AI的關(guān)聯(lián)記憶。
強(qiáng)化學(xué)習(xí)系統(tǒng)(RLS)
RLS是一種訓(xùn)練系統(tǒng)以識(shí)別對(duì)其環(huán)境直接響應(yīng)的最佳結(jié)果的方法。這里沒有單一的算法,而是一組定制應(yīng)用程序。 RNN可以用作RLS中的一種類型的“代理”。RLS是自駕車和類似設(shè)備的核心技術(shù),不需要語言界面。本質(zhì)上,這是機(jī)器可以從中學(xué)習(xí)并記住在特定情況下采取的最佳行動(dòng)的方法。當(dāng)你的自駕車決定黃燈亮起時(shí)停車,而不是通過,一個(gè)RLS被用來創(chuàng)造學(xué)習(xí)的行為。
機(jī)器人
機(jī)器人領(lǐng)域?qū)τ贏I是重要的,因?yàn)樗茿I數(shù)據(jù)科學(xué)在現(xiàn)實(shí)世界中顯現(xiàn)的主要方式。大多數(shù)機(jī)器人是簡(jiǎn)單和非常復(fù)雜的工程。機(jī)器人技術(shù)背后的AI主要是強(qiáng)化學(xué)習(xí)。
脈沖神經(jīng)網(wǎng)絡(luò)(又名神經(jīng)擬態(tài)計(jì)算)Spiking Neural Nets (aka Neuromorphic Computing)
通常,我們第二代AI主要是基于硬件進(jìn)步,使我們能夠使用算法,如在以前根本不可行的神經(jīng)網(wǎng)絡(luò)。但所有這一切都在迅速發(fā)展,我們正處于進(jìn)入第三代AI的前沿。
第三代AI將基于脈沖神經(jīng)網(wǎng)絡(luò),也稱為神經(jīng)擬態(tài)計(jì)算,因?yàn)樗噲D更密切地模仿人類大腦實(shí)際工作的方式。改變的核心是圍繞這樣的事實(shí):腦神經(jīng)元不經(jīng)常彼此通信,而是在信號(hào)的峰值。挑戰(zhàn)是找出一個(gè)消息在這個(gè)電子脈沖應(yīng)該如何編碼。
到目前為止,研究尚處于中期階段。我只知道它在商業(yè)應(yīng)用的兩個(gè)實(shí)例??赡苡懈嗟拿孛軕?yīng)用仍然不為人知。很多投資和科研工作者涌入這一新世界。它還需要一種全新類型的芯片,這將意味著另一場(chǎng)硬件革命。
當(dāng)這一天來臨時(shí),我們有如下的期望:
跟上AI的發(fā)展
跟隨這些技術(shù)和這兩個(gè)趨勢(shì)來與AI俱進(jìn):
問答機(jī)
對(duì)抗性訓(xùn)練
機(jī)器人
觀看:這是定格畫面和視頻圖像的識(shí)別。
聽?。和ㄟ^文本或口頭語言接收輸入。
說話:以相同的語言或甚至外語有意義地響應(yīng)我們的輸入。
像人類一樣做出決定:提供建議或新知識(shí)。
學(xué)習(xí):根據(jù)其環(huán)境中的更改來改變其行為。
移動(dòng):以及操作物理對(duì)象。
它們可以從一個(gè)來源學(xué)習(xí),并應(yīng)用到另一個(gè)。它們可以對(duì)其所在的環(huán)境進(jìn)行概括。
它們可以記住。他們可以記住。任務(wù)一旦學(xué)會(huì),可以回憶并能應(yīng)用于其他數(shù)據(jù)。
它們更節(jié)能,開辟了一條小型化的道路。
它們從自己的環(huán)境中學(xué)習(xí),沒有監(jiān)督,只有很少的例子或觀察。這些使它們能夠進(jìn)行快速學(xué)習(xí)。
AI的商業(yè)化,目前由于它(第二代)的存在,使得一切實(shí)際上幾乎和專業(yè)一樣快速,而且大量初創(chuàng)公司涌入這一市場(chǎng)。有可能會(huì)像美國(guó)在20世紀(jì)20年代的電氣化一樣普遍。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11