
有哪些傳統(tǒng)數(shù)據(jù)科學技術(shù)被大眾媒體稱為人工智能(AI)
對于那些對AI感興趣但還沒有深入研究的傳統(tǒng)數(shù)據(jù)科學家,下面是對數(shù)據(jù)科學技術(shù)的簡要概述,這些數(shù)據(jù)科學技術(shù)在通俗報紙中被稱為人工智能(AI)。
Data Science Central與其他人已經(jīng)撰寫了相當多的關(guān)于構(gòu)成AI的各種類型的數(shù)據(jù)科學的文章。但是Bill Vorhies仍然聽到很多人詢問關(guān)于AI的問題,好像它就是單一的實體。他表示,不是這樣的。AI是一個數(shù)據(jù)科學技術(shù)的集合,在這一點上,開發(fā)甚至都沒有特別好地集成,或易于使用。然而,在這些領(lǐng)域中,他們?nèi)匀蝗〉昧撕艽蟮倪M步,并受到了大眾媒體的關(guān)注。
這篇文章并不是一個深入的研究,而是進行粗略的介紹,以便你了解這領(lǐng)域的研究進展和發(fā)展趨勢。如果你是一位傳統(tǒng)數(shù)據(jù)科學家,讀過一些文章,但仍然沒有把這些拼圖拼起來建立全面的認識,你可能會發(fā)現(xiàn)這是一種整合你當前的知識,甚至發(fā)現(xiàn)你想關(guān)注哪個目標并致力于此的方式。
AI只是數(shù)據(jù)科學部件的總和
構(gòu)成AI的數(shù)據(jù)科學“部件”分為以下幾類。這里有所重疊,但都是詳細的主題,你會在媒體上看到。
這些都是獨立的學科(好吧,深度學習的類別實際上還包含一些其他)。AI只是這些部件的總和。它們只是由一大批創(chuàng)業(yè)公司和主要參與者創(chuàng)造的一些真正奇妙的應用非常松散地結(jié)合在一起。當它們一起工作時,例如Watson、或Echo/Alexa、或者在使用自駕車,那么它們應該可以超過組成它們的部分的總和,然而情況并非如此。如何集成這些不同技術(shù)仍然是最大的挑戰(zhàn)之一。
我們的AI必須做什么?
當向初學者解釋這一點時,我總是認為,從AI需要具備什么類似人類能力的擬人化描述開始的話,還是有所幫助的。
您可以立即開始看到,當今新興的AI許多商業(yè)應用,只有這些能力中的一部分。但我們期待的是,未來有更復雜的應用能具備幾乎所有這些能力。
今天出現(xiàn)的許多AI的商業(yè)應用程序只需要這些功能中的一部分。但是我們期待的更復雜的應用程序?qū)⑿枰獛缀跛羞@些功能。
將人類能力轉(zhuǎn)換為數(shù)據(jù)科學
這里確實有點凌亂。這些能力中的,每個不一定與其基礎(chǔ)數(shù)據(jù)科學一一對應。但是,要真正了解現(xiàn)今AI正在發(fā)生著什么,理解數(shù)據(jù)科學如何與這些要求相匹配是最重要的。作為一張圖解,它們的匹配或多或少像這樣的:
深度學習發(fā)生了什么?
您可能已經(jīng)注意到,我們的圖表中缺少“深度學習”。這是因為它是上面講到的遞歸神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的匯總類別。人工神經(jīng)網(wǎng)絡(ANNs)是自80年代以來的最高水平,并且一直是用于解決標準分類和回歸問題的標準數(shù)據(jù)科學機器學習工具包的一部分。
最近發(fā)生的事情是,我們大量增加并行處理,使用GPU(圖形處理單元)而不是傳統(tǒng)的英特爾芯片,允許我們實驗的ANN有幾十個甚至超過一百個隱藏層的版本。這些隱藏層就是我們?yōu)槭裁磳⑦@些類型成為“深度”的原因,因此也成了“深度學習”的說法。添加隱藏層意味著乘法計算的復雜性,這就是為何我們不得不等待硬件趕上我們的雄心。
至少有27種不同類型的ANN,但最重要的是卷積神經(jīng)網(wǎng)絡(CNN)和遞歸神經(jīng)網(wǎng)絡(RNN),沒有它們,圖像識別和自然語言處理將是不可能的任務。
數(shù)據(jù)科學的簡要討論
要公正對待這些基礎(chǔ)數(shù)據(jù)科學技術(shù),就需要閱讀多篇文章。在本文中,我們將給你最簡略描述,以及一些能查看更為完整信息的鏈接。
卷積神經(jīng)網(wǎng)絡(CNN):CNN是所有類型的圖像和視頻識別、面部識別、圖像標記的核心,并可在幫助自動駕駛在行人中識別停車標志。它們非常復雜,難以訓練,而你不需要指定具體的功能(像貓有毛皮、尾巴、四條腿等那樣),你需要在一個CNN上按字面意思展示數(shù)百萬貓科的示例就可以成功。海量的訓練數(shù)據(jù)是一個巨大的障礙。
遞歸神經(jīng)網(wǎng)絡(遞歸): RNN是自然語言處理(NLP)的中心,也是游戲和類似的邏輯問題的中心。與CNN不同,它們將信息處理為時間序列,其中每個隨后的數(shù)據(jù)片段在某種程度上依賴于之前的片段。它可能不明顯,但語言屬于此類別,因為下一個字符或下一個字在邏輯上與前一個字符相關(guān)。RNN可以工作在字符、字或甚至長段級別,這使得它們能夠完美提供可預期的長篇回答您的客戶服務問題。RNN處理文本問題的理解以及形成復雜的響應,包括翻譯成外語。計算機能夠贏得國際象棋和圍棋,RNN功不可沒。
生成式對抗神經(jīng)網(wǎng)絡(GANN): CNN和RNN都受到同樣問題的困惑,即需要龐大的、繁重的數(shù)據(jù)量以便訓練,要么識別停車標志(圖像),要么了解如何回答您關(guān)于如何打開該帳戶(語音和文本)的問題。GANN能夠保證顯著減少訓練數(shù)據(jù)并提高精度。他們通過互相較量。這里有一個好故事,關(guān)于訓練卷積神經(jīng)網(wǎng)來識別假法國印象派的藝術(shù)贗品。簡而言之,一個CNN被真正的法國印象派畫作來訓練,所以它應該認識真品。其他對抗性CNN,稱為生成式對抗神經(jīng)網(wǎng)絡,實際上被賦予創(chuàng)造印象派繪畫贗品的任務。
CNN通過將像素值轉(zhuǎn)換為復雜的數(shù)值向量來執(zhí)行圖像識別的任務。如果你向后運行它們,那就是從隨機數(shù)值向量開始,它們可以創(chuàng)建一個圖像。在這種情況下,NN生成贗品創(chuàng)造圖像,試圖欺騙嘗試學習如何檢測贗品的CNN。他們互相較量,直到生成器(贗品制造者)產(chǎn)生的圖像如此完美,以至于CNN無法將它們從原件和已經(jīng)扳平的兩個對抗網(wǎng)絡區(qū)分出來。同時,設計用于確定來自贗品的原件的CNN已經(jīng)在檢測贗品方面進行了極好的培訓,而沒有對數(shù)百萬偽造的法國印象派大師進行訓練這一不切實際的要求??傊?,它們就是從其所在的環(huán)境中學習。
問答機(QAM): QAM,是我們?yōu)橄馡BM的Watson之類起的一個相當不起眼的名字。這些都是海量知識庫,經(jīng)過訓練,可以在其知識庫中找到獨特關(guān)聯(lián),并為它們以前從未見過的復雜問題提供答案。當普通搜索返回您潛在答案的列表時,QAM必須返回單一的最佳答案。
這是一個NLP和復雜搜索的混搭,其中QAM構(gòu)建關(guān)于問題的可能含義的多個假設,并且基于加權(quán)證據(jù)算法返回最佳響應。
QAM需要人類加載大量關(guān)于需要研究的主題的數(shù)據(jù),并且人類必須訓練并維護知識庫。然而,一旦建立完成,它們已被證明是在癌癥檢測(與CNNs結(jié)合)領(lǐng)域的專家、醫(yī)學診斷、發(fā)現(xiàn)材料和化學品的獨特組合,甚至教高中學生如何編程??傊瑹o論有大量的知識需要專家解釋,QAM可以是大腦或至少是我們AI的關(guān)聯(lián)記憶。
強化學習系統(tǒng)(RLS)
RLS是一種訓練系統(tǒng)以識別對其環(huán)境直接響應的最佳結(jié)果的方法。這里沒有單一的算法,而是一組定制應用程序。 RNN可以用作RLS中的一種類型的“代理”。RLS是自駕車和類似設備的核心技術(shù),不需要語言界面。本質(zhì)上,這是機器可以從中學習并記住在特定情況下采取的最佳行動的方法。當你的自駕車決定黃燈亮起時停車,而不是通過,一個RLS被用來創(chuàng)造學習的行為。
機器人
機器人領(lǐng)域?qū)τ贏I是重要的,因為它是AI數(shù)據(jù)科學在現(xiàn)實世界中顯現(xiàn)的主要方式。大多數(shù)機器人是簡單和非常復雜的工程。機器人技術(shù)背后的AI主要是強化學習。
脈沖神經(jīng)網(wǎng)絡(又名神經(jīng)擬態(tài)計算)Spiking Neural Nets (aka Neuromorphic Computing)
通常,我們第二代AI主要是基于硬件進步,使我們能夠使用算法,如在以前根本不可行的神經(jīng)網(wǎng)絡。但所有這一切都在迅速發(fā)展,我們正處于進入第三代AI的前沿。
第三代AI將基于脈沖神經(jīng)網(wǎng)絡,也稱為神經(jīng)擬態(tài)計算,因為它試圖更密切地模仿人類大腦實際工作的方式。改變的核心是圍繞這樣的事實:腦神經(jīng)元不經(jīng)常彼此通信,而是在信號的峰值。挑戰(zhàn)是找出一個消息在這個電子脈沖應該如何編碼。
到目前為止,研究尚處于中期階段。我只知道它在商業(yè)應用的兩個實例。可能有更多的秘密應用仍然不為人知。很多投資和科研工作者涌入這一新世界。它還需要一種全新類型的芯片,這將意味著另一場硬件革命。
當這一天來臨時,我們有如下的期望:
跟上AI的發(fā)展
跟隨這些技術(shù)和這兩個趨勢來與AI俱進:
問答機
對抗性訓練
機器人
觀看:這是定格畫面和視頻圖像的識別。
聽?。和ㄟ^文本或口頭語言接收輸入。
說話:以相同的語言或甚至外語有意義地響應我們的輸入。
像人類一樣做出決定:提供建議或新知識。
學習:根據(jù)其環(huán)境中的更改來改變其行為。
移動:以及操作物理對象。
它們可以從一個來源學習,并應用到另一個。它們可以對其所在的環(huán)境進行概括。
它們可以記住。他們可以記住。任務一旦學會,可以回憶并能應用于其他數(shù)據(jù)。
它們更節(jié)能,開辟了一條小型化的道路。
它們從自己的環(huán)境中學習,沒有監(jiān)督,只有很少的例子或觀察。這些使它們能夠進行快速學習。
AI的商業(yè)化,目前由于它(第二代)的存在,使得一切實際上幾乎和專業(yè)一樣快速,而且大量初創(chuàng)公司涌入這一市場。有可能會像美國在20世紀20年代的電氣化一樣普遍。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03