
作者 | 讀芯術(shù)
根據(jù)麥肯錫的數(shù)據(jù),從現(xiàn)在到2030年這十幾年間,人工智能將會為美國新創(chuàng)造大約13萬億美元的國內(nèi)生產(chǎn)總值。相比之下,2017年整個美國的國內(nèi)生產(chǎn)總值約為19萬億美元。
吳恩達(dá)等主要的人工智能科學(xué)家將人工智能描述為第四次工業(yè)革命或“新電力”。人工智能無疑是數(shù)字轉(zhuǎn)型的核心,它在整個行業(yè)的應(yīng)用將極大地改變世界和業(yè)務(wù)方式。
許多人想?yún)⒓舆@場人工智能革命,但人工智能的技術(shù)復(fù)雜性使他們不堪重負(fù)。他們不知道人工智能的功能,更不用說如何將人工智能運(yùn)用于公司了。
這正是本文所要解決的問題:讓沒有技術(shù)背景的人更理解人工智能,這樣他們自己就能夠評估人工智能在自己工作中的可能性。
目錄
1. 對人工智能的誤解
人工智能有很多不必要的炒作,這主要是由于許多人都有一種常見的誤解。人工智能可以分為兩部分或存在兩種內(nèi)容:
這指人工智能擅長某一特定任務(wù),它們是針對這一任務(wù)訓(xùn)練和開發(fā)的。例如,它可以是一個基于歷史數(shù)據(jù)預(yù)測房價的人工智能系統(tǒng),或者是向你推薦YouTube視頻的算法。還比如是預(yù)測性維護(hù)、質(zhì)量控制等。
弱人工智能是一個非常強(qiáng)大的工具,它將在未來幾年為社會增加許多附加價值。近年來看到的所有成就,以及在新聞中經(jīng)常聽到的內(nèi)容,都發(fā)生在弱人工智能領(lǐng)域。這些吸引人眼球的新聞讓人們錯誤地認(rèn)為科學(xué)在人工綜合智能方面取得了很大的進(jìn)展,但實(shí)際上只在弱人工智能方面取得了進(jìn)步。
人工智能的最終目標(biāo)是一個跟人類一樣只能甚至比人類更智能的計算機(jī)系統(tǒng)。任一人工綜合智能都可成功地完成任何人可以完成的智力任務(wù)。這也是人工智能中最引起人們恐懼的部分。他們想象出一個計算機(jī)比人類聰明得多的世界,在這個世界里幾乎每一項工作都是自動化的,甚至是像《終結(jié)者》一樣的場景。這就是不必要的炒作。它引起了對人類未來的非理性恐懼,而實(shí)際上,要想達(dá)到真正的通用人工綜智能水平,還需作出許多技術(shù)上的突破。
2. 什么是機(jī)器學(xué)習(xí)?
機(jī)器學(xué)習(xí)是人工智能的中堅技術(shù)。它利用統(tǒng)計技術(shù)使計算機(jī)程序能夠從數(shù)據(jù)中學(xué)習(xí)(例如逐步提高其處理特定任務(wù)中的能力),而無需進(jìn)行明確的編程。
機(jī)器學(xué)習(xí)是人工智能的工具,它引起了所有的過度關(guān)注,并使幾乎所有通過人工智能系統(tǒng)創(chuàng)造的價值都得以實(shí)現(xiàn)。它也可以分為不同的部分,但只有一個部分涵蓋80%通過機(jī)器學(xué)習(xí)創(chuàng)造的價值。那便是有監(jiān)督學(xué)習(xí)。
有監(jiān)督學(xué)習(xí)算法只需通過學(xué)習(xí)大量數(shù)據(jù)中的關(guān)系來學(xué)習(xí)輸入(A)到輸出(B)映射。想象一下建立一個系統(tǒng),將電子郵件分為垃圾郵件和非垃圾郵件。需要收集大量電子郵件“被貼標(biāo)簽”的案例。這意味著每封電子郵件都有一個標(biāo)簽用來指示它是否是垃圾郵件。人們需要收集數(shù)千封帶有標(biāo)簽的電子郵件,然后將這些數(shù)據(jù)輸入到一個受監(jiān)督的機(jī)器學(xué)習(xí)算法中。
在訓(xùn)練過程中,該算法將分析所有輸入的電子郵件,并迭代地提高對垃圾郵件與非垃圾郵件間區(qū)別原因的理解。在本例中,系統(tǒng)必須將電子郵件(a)映射到一個標(biāo)簽,該標(biāo)簽要能指示郵件是否是垃圾郵件(b)。
可以通過輸入上千封貼有標(biāo)簽的電子郵件來訓(xùn)練算法。基于該數(shù)據(jù)進(jìn)行算法訓(xùn)練后,可以輸入一封全新的電子郵件(該算法以前從未見過),該算法將顯示它是否認(rèn)為該電子郵件是垃圾郵件。
比如在線廣告,其中輸入的是關(guān)于用戶的信息(A),而系統(tǒng)輸出是一個標(biāo)簽,這個標(biāo)簽顯示用戶是否要單擊一個添加項(B)。又比如是語音識別,輸入是音頻文件(A),輸出是音頻文件中所述內(nèi)容文本(B)。
再比如輸入一個鋼板的圖像(A)進(jìn)算法,它會判斷是否存在缺陷(B)。乍一看,這似乎是一種相當(dāng)有限的技術(shù),但如果正確應(yīng)用,它將非常強(qiáng)大。它是人工智能為社會創(chuàng)造附加價值的唯一主要原因。這種技術(shù)似乎有無窮無盡的不同案例,并且人們每天還會發(fā)現(xiàn)新的案例。
3. 人工智能術(shù)語
人工智能是一個非常復(fù)雜的領(lǐng)域,許多術(shù)語在開始時可能會使人非常混亂。你可能聽說過神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)或數(shù)據(jù)科學(xué)。我們將研究一些有關(guān)人工智能最重要的術(shù)語,并揭示其含義,以便你能夠與其他人討論人工智能,并思考如何在業(yè)務(wù)中應(yīng)用人工智能。
現(xiàn)在為你提供最常用的人工智能術(shù)語的定義,但請注意,人工智能是一個非常晦澀難懂的領(lǐng)域,許多術(shù)語可以互換使用,但有時卻不可以。
人工智能是計算機(jī)科學(xué)的一個領(lǐng)域,它強(qiáng)調(diào)創(chuàng)造像人類一樣工作和反應(yīng)的智能機(jī)器。正如之前所提到的,當(dāng)人們談?wù)撊斯ぶ悄軙r,他們大多是指通用人工智能(AGI)。應(yīng)該把人工智能視為整個智能領(lǐng)域,把機(jī)器學(xué)習(xí)和深度學(xué)習(xí)視為使計算機(jī)智能化的技術(shù)。
機(jī)器學(xué)習(xí)是人工智能的一個分支領(lǐng)域。不過,正是這個研究領(lǐng)域使計算機(jī)能夠在沒有明確編程的情況下從數(shù)據(jù)中學(xué)習(xí)。因此,通過機(jī)器學(xué)習(xí),基本上可以制作程序來執(zhí)行特定任務(wù)。因此,機(jī)器學(xué)習(xí)經(jīng)常會運(yùn)行人工智能系統(tǒng),從基本上來看,這個系統(tǒng)是一個軟件。
機(jī)器學(xué)習(xí)項目事例:假設(shè)一家有許多關(guān)于房子的數(shù)據(jù)的房地產(chǎn)公司,它和一家機(jī)器學(xué)習(xí)公司合作建立一個機(jī)器學(xué)習(xí)系統(tǒng)來預(yù)測未來房價。這樣的系統(tǒng)可以讓人更好地決定投資哪棟房子,并找出合適的時間來清算投資。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個組成部分,它包攬了人們近年來看到的,并且今天仍然看到的,所有的媒體炒作和人工狹義智能的大部分突破,這與機(jī)器學(xué)習(xí)基本上是一樣的:給算法貼上帶有標(biāo)簽的數(shù)據(jù),它就會學(xué)會預(yù)測標(biāo)簽。與機(jī)器學(xué)習(xí)不同的是,深度學(xué)習(xí)使用了更現(xiàn)代和更復(fù)雜的算法,稱為神經(jīng)網(wǎng)絡(luò)。相反,在機(jī)器學(xué)習(xí)中使用的則是更為簡單的傳統(tǒng)算法。
由于它們的復(fù)雜性,新的技術(shù)發(fā)現(xiàn)以及足夠的數(shù)據(jù)支持和計算能力,深度學(xué)習(xí)算法能夠打破許多任務(wù)的先前基準(zhǔn),甚至在其中一些任務(wù)上超過人類(例如:組織病理學(xué)圖像分析,或者在Netflix上推薦電影)。
盡管神經(jīng)網(wǎng)絡(luò)(例如深度學(xué)習(xí)算法)幾乎總是比傳統(tǒng)算法表現(xiàn)更好,但它們具有某些缺點(diǎn)。
更多信息傳送門:神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點(diǎn)(https://towardsdatascience.com/hype-disadvantages-of-neural-networks-6af04904ba5b)
你可能經(jīng)常聽說神經(jīng)網(wǎng)絡(luò)的構(gòu)建方式與人類大腦相似或受其啟發(fā),但實(shí)際上,它們幾乎沒有關(guān)系。的確,它們最初受到大腦的啟發(fā),但工作方式的細(xì)節(jié)與人類生物大腦的工作方式完全無關(guān)。
請注意,許多人可以互換地使用深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)這兩個術(shù)語。
深度學(xué)習(xí)項目示例:高級視圖中審視它時,深度學(xué)習(xí)的項目與機(jī)器學(xué)習(xí)項目沒有太大差別,只需要更多數(shù)據(jù),更多計算能力和高技能工程師。
數(shù)據(jù)科學(xué)項目的輸出通常是一系列可幫助你做出更好的業(yè)務(wù)決策的見解,例如決定是否投資某些東西,是否應(yīng)該購買某些設(shè)備,或者是否應(yīng)重新構(gòu)建你的網(wǎng)站??梢哉f,數(shù)據(jù)科學(xué)是通過統(tǒng)計方法、可視化等分析數(shù)據(jù)來提取數(shù)據(jù)知識和洞察力的科學(xué)。輸出通常是演示文稿或幻燈片,它們?yōu)楦吖?、領(lǐng)導(dǎo)者和產(chǎn)品團(tuán)隊做出某些決總結(jié)結(jié)論,以作出某些決策。
數(shù)據(jù)科學(xué)項目示例:
想象一下,你從事在線廣告業(yè)。通過分析所在公司的銷售數(shù)據(jù),數(shù)據(jù)科學(xué)家發(fā)現(xiàn)旅游行業(yè)的公司不會從你那里購買很多產(chǎn)品。因此,你可以將銷售團(tuán)隊的重心轉(zhuǎn)移到旅游行業(yè)的公司。
另一個例子:
想象一下,你正在經(jīng)營電子商務(wù),并且聘請了一些數(shù)據(jù)科學(xué)家以獲得更多與業(yè)務(wù)相關(guān)的見解。該項目的結(jié)果可能是一個幻燈片,介紹如何修改定價的計劃,以便提高整體銷售額或關(guān)于如何更有效地營銷特定產(chǎn)品的見解。
有人說人工智能是數(shù)據(jù)科學(xué)的一個子集,有些人說它是另一種方式。所以,這取決于你與誰交談,但數(shù)據(jù)科學(xué)是一個跨學(xué)科領(lǐng)域,涉及人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的許多工的,但它也有自己獨(dú)立的工具。其目標(biāo)主要是提升商業(yè)洞察力。
你可能還聽說過其他流行語,如強(qiáng)化學(xué)習(xí)、生成對抗網(wǎng)絡(luò)(GANs)等。這些只是使人工智能系統(tǒng)更智能化的其他工具,換句話說,機(jī)器學(xué)習(xí)有時也是數(shù)據(jù)科學(xué)。
現(xiàn)在已經(jīng)了解了人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)和深度學(xué)習(xí)(例如神經(jīng)網(wǎng)絡(luò))。希望這能讓你了解人工智能中最常用的術(shù)語,并且可以開始考慮這些事情如何應(yīng)用到業(yè)務(wù)當(dāng)中。
4. 什么是數(shù)據(jù)?
數(shù)據(jù)可以采用多種形式:電子表格、圖像、音頻、傳感器數(shù)據(jù)等。這些可分為兩大類:結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
結(jié)構(gòu)化數(shù)據(jù),就像它的名稱所暗示的那樣,是按照預(yù)定義模式以結(jié)構(gòu)化格式存儲的數(shù)據(jù)。它指的是駐留在記錄或文件中的固定字段中的任何數(shù)據(jù),可以是文本的也可以是非文本的。
下面是著名的泰坦尼克號數(shù)據(jù)集中的結(jié)構(gòu)化數(shù)據(jù)示例。它包含坦尼克號每位乘客的信息。
非結(jié)構(gòu)化數(shù)據(jù)本質(zhì)上是未通過預(yù)定義模型構(gòu)建的其他所有內(nèi)容。它可以是文本的或非文本的,但當(dāng)人們談?wù)摲墙Y(jié)構(gòu)化數(shù)據(jù)時,它們主要是指圖像、視頻、音頻文件、文檔等。
我們已經(jīng)解釋了什么是監(jiān)督學(xué)習(xí)。由于監(jiān)督學(xué)習(xí)是最常用的機(jī)器學(xué)習(xí)類型,當(dāng)人們說“數(shù)據(jù)”時,它們主要是指標(biāo)記數(shù)據(jù)。示例:有一個數(shù)據(jù)集,其中包含100,000只狗和貓的照片,其中每張照片都有一個標(biāo)簽,“貓”或者“狗”。
另一個例子是包含房價信息的數(shù)據(jù)集。在這里,你將獲得有關(guān)房屋的信息(如面積,臥室數(shù)量,位置等)以及作為標(biāo)簽的價格。
5. 如何獲得數(shù)據(jù)?
可以在互聯(lián)網(wǎng)上找到許多問題的數(shù)據(jù)集(一些是免費(fèi)的,一些要花點(diǎn)錢),但大多數(shù)時候需要創(chuàng)建自己的數(shù)據(jù)集。
獲取數(shù)據(jù)有三種主要方式:
想象一下建立一個分類器,可以檢測給定圖片上是否有男人或女人。要訓(xùn)練這樣的分類器,需要創(chuàng)造或獲得許多男女形象。然后,你需要為每個圖像指定一個標(biāo)簽:男人(標(biāo)簽1)或女人(標(biāo)簽2)。你也可以向人們付費(fèi)為你做標(biāo)簽工作(例如:亞馬遜機(jī)械土耳其人:mturk.com)。
想象一下,你在經(jīng)營一家電子商務(wù)公司并希望預(yù)測客戶何時會進(jìn)行購買,從而使你能夠更好地管理股票等。你可以通過觀察用戶在網(wǎng)站上的行為以及購買情況來創(chuàng)建數(shù)據(jù)集。這將有助于創(chuàng)建描述每個用戶的操作的數(shù)據(jù)集(由某些變量描述,例如:一天中的時間,他們點(diǎn)擊的位置等),以及標(biāo)簽:購買(標(biāo)簽1)或不購買(標(biāo)簽2)。
另一個例子是觀察機(jī)器的行為,這可以使你預(yù)測它何時需要維護(hù)等。
像Kaggle這樣的數(shù)據(jù)集有許多免費(fèi)資源。還可以使用Google數(shù)據(jù)搜索,其功能類似于Google,但僅適用于數(shù)據(jù)集。如果沒有找到任何內(nèi)容,可以在數(shù)據(jù)市場上查找數(shù)據(jù)集或從合作伙伴處獲取數(shù)據(jù)集。
6. 濫用數(shù)據(jù)
乍一看,獲取數(shù)據(jù)似乎很簡單,但可能出現(xiàn)的問題很多。在人工智能和機(jī)器學(xué)習(xí)中,我們說:“垃圾中的垃圾”,這意味著你在培訓(xùn)期間將人工智能質(zhì)量從人工智能系統(tǒng)中提取出來。
想象一下,你想創(chuàng)建一個特定的人工智能應(yīng)用程序并開始獲取數(shù)據(jù)。你的計劃是用兩年實(shí)踐累積數(shù)據(jù),然后構(gòu)建人工智能系統(tǒng)。這是非常糟糕的做法。在這種情況下,正確的方法是獲取你能夠獲得的數(shù)據(jù)并盡快將其提供給人工智能專家。經(jīng)過一些評估后,他可以告訴你,哪些部分是有用的,哪些部分是完全無用的,以及你應(yīng)該添加哪些數(shù)據(jù)。為了節(jié)省金錢和時間:與專家一起快速評估數(shù)據(jù)質(zhì)量。
另一個大問題是標(biāo)簽不正確。示例:貓的形象標(biāo)記成狗而狗被標(biāo)記成貓等等。這可以防止你的算法學(xué)習(xí)真正將貓與狗分開的東西然后完全混淆它們。好消息是,數(shù)據(jù)總數(shù)越多,標(biāo)簽不正確的問題就變得越來越不重要了。如果你有一個巨大的數(shù)據(jù)集,有超過200萬個標(biāo)記的貓和狗圖像,一些不正確的標(biāo)簽不會影響其性能。
還有一個問題,有些人認(rèn)為,因?yàn)樗麄兊墓緭碛写罅繑?shù)據(jù),并且這些數(shù)據(jù)很有用,或者人工智能團(tuán)隊可以讓它們變得有用。那完全錯了。雖然更多的數(shù)據(jù)通常更好,但你可以擁有數(shù)十億的數(shù)據(jù)條目,即使是世界上最好的人工智能工程師也無法從沒有價值的東西中創(chuàng)造價值。因此,請不要把數(shù)據(jù)丟給人工智能團(tuán)隊,并假設(shè)它在某種程度上是有價值的。你可能認(rèn)為這很稀松平常,但由于對數(shù)據(jù)和AI的誤解,很多創(chuàng)業(yè)公司認(rèn)為他們擁有有用的數(shù)據(jù),而事實(shí)上他們沒有。還有其他問題是價值缺失,多種類型的數(shù)據(jù)(可以解決 - 但成本高昂)等等。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03