
入門級攻略:機(jī)器學(xué)習(xí) VS. 深度學(xué)習(xí)
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)現(xiàn)在很火,你會發(fā)現(xiàn)突然間很多人都在談?wù)撍鼈儭H缦聢D所示,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的趨勢對比(來自Google trend,縱軸表示搜索熱度):
本文將會以簡單易懂的語言及示例為大家詳細(xì)解釋深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的區(qū)別,并介紹相關(guān)用途。
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)簡介
Tom Mitchell 關(guān)于機(jī)器學(xué)習(xí)的定義被廣泛引用,如下所示:
對于某類任務(wù)T和性能度量P,如果一個計算機(jī)程序在T上以P衡量的性能隨著經(jīng)驗(yàn)E而不斷自我完善,那么我們稱這個計算機(jī)程序在從經(jīng)驗(yàn)E學(xué)習(xí)。
“A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improves with experience E ”
上面的抽象定義可能使你感到困惑,相信下面幾個簡單的示例會讓你恍然大悟。
【例1 根據(jù)身高預(yù)測體重】
假設(shè)你要創(chuàng)建一個根據(jù)人的身高預(yù)測體重的系統(tǒng)。第一步是收集數(shù)據(jù),收集完之后畫出數(shù)據(jù)分布圖如下所示。圖中的每個點(diǎn)都代表一條數(shù)據(jù),橫坐標(biāo)表示身高,縱坐標(biāo)表示體重。
我們可以畫一條簡單的直線來根據(jù)身高預(yù)測體重,比如:
Weight (in kg) = Height (in cm) – 100
如果這條直線預(yù)測身高很準(zhǔn)確,那怎樣來衡量它的性能呢?比如以預(yù)測值和真實(shí)值之間的差值來衡量預(yù)測模型的性能。當(dāng)然,源數(shù)據(jù)越多,模型效果就越好。如果效果不好,那么可以使用其他方法來提升模型性能,如增加變量(如性別)或者改變預(yù)測直線。
【例2 風(fēng)暴預(yù)測系統(tǒng)】
假定要構(gòu)建一個風(fēng)暴預(yù)測系統(tǒng),你手頭上有過去發(fā)生的風(fēng)暴數(shù)據(jù)以及這些風(fēng)暴發(fā)生前三個月的天氣數(shù)據(jù)。那么怎樣構(gòu)建一個風(fēng)暴預(yù)測系統(tǒng)呢?
首先要做的是清洗數(shù)據(jù)并找到數(shù)據(jù)中的隱藏模式,比如導(dǎo)致風(fēng)暴產(chǎn)生的條件。我們可以對一些條件建模,比如溫度是否大于40攝氏度,濕度是否介于80到100之間,然后將這些特征輸入模型。
你要做的就是充分利用歷史數(shù)據(jù),然后預(yù)測是否會產(chǎn)生風(fēng)暴。在這個例子中,評價的指標(biāo)是正確預(yù)測風(fēng)暴發(fā)生的次數(shù)。我們可以重復(fù)預(yù)測過程多次,然后將性能結(jié)果返回系統(tǒng)。
回到最初機(jī)器學(xué)習(xí)的定義,我們將風(fēng)暴預(yù)測系統(tǒng)定義如下:任務(wù)T是找到造成風(fēng)暴的大氣條件,性能P是在模型參數(shù)學(xué)習(xí)好之后,正確預(yù)測的次數(shù),經(jīng)驗(yàn)E是系統(tǒng)的迭代過程。
深度學(xué)習(xí)其實(shí)很早之前就出現(xiàn)了,隨著近幾年的炒作,又逐漸火起來了。
深度學(xué)習(xí)是一種特殊的機(jī)器學(xué)習(xí),它將現(xiàn)實(shí)世界表示為嵌套的層次概念體系(由較簡單概念間的聯(lián)系定義復(fù)雜概念,從一般抽象概括到高級抽象表示),從而獲得強(qiáng)大的性能與靈活性。
Deep learning is a particular kind of machine learning that achieves great power and flexibility by learning to represent the world as nested hierarchy of concepts, with each concept defined in relation to simpler concepts, and more abstract representations computed in terms of less abstract ones.
【例1 圖形檢測】
假設(shè)我們要將矩形和其他圖形區(qū)別開。人眼首先是檢測這個圖形是否有4條邊(簡單概念)。如果有4條邊,在檢測它們是否相連,閉合且垂直,以及是否相等(嵌套層次概念)。事實(shí)上,我們將一個復(fù)雜的任務(wù)(矩形識別)分解成一些簡單低抽象層次的任務(wù)。深度學(xué)習(xí)本質(zhì)上是在更大的范圍內(nèi)做這件事。
【例2 貓還是狗】
這個案例是構(gòu)建一個能夠識別圖片中動物是貓或者狗的系統(tǒng)。
如果使用機(jī)器學(xué)習(xí)解決這個問題,首先要定義一些特征,比如該動物是否有胡須、耳朵;如果有耳朵,那么耳朵是否是尖的。簡單地說,我們要定義面部特征,然后讓系統(tǒng)識別出在動物分類中哪些是重要特征。而深度學(xué)習(xí)會一次性完成這些任務(wù),深度學(xué)習(xí)會自動找到對分類任務(wù)重要的特征,而機(jī)器學(xué)習(xí)不得不人工指定。
深入學(xué)習(xí)工作流程如下:
1. 首先在圖片中找到和貓或者狗最相關(guān)的邊界;
2. 然后找到形狀和邊界的組合,如是否能找到胡須和耳朵;
3. 在復(fù)雜概念的連續(xù)分層識別后,就能夠確定哪些特征對識別貓狗起重要作用。
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的對比
數(shù)據(jù)依賴
深度學(xué)習(xí)和傳統(tǒng)機(jī)器學(xué)習(xí)最重要的區(qū)別是它的性能隨著數(shù)據(jù)量的增加而增強(qiáng)。如果數(shù)據(jù)很少,深度學(xué)習(xí)算法性能并不好,這是因?yàn)?a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)算法需要大量數(shù)據(jù)才能很好理解其中蘊(yùn)含的模式。這種情況下,使用人工指定規(guī)則的傳統(tǒng)機(jī)器學(xué)習(xí)占據(jù)上風(fēng)。如下圖所示:
硬件支持
深度學(xué)習(xí)算法嚴(yán)重依賴于高端機(jī),而傳統(tǒng)機(jī)器學(xué)習(xí)在低端機(jī)上就可以運(yùn)行。因?yàn)?a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)需要進(jìn)行大量矩陣乘法操作,而GPU可以有效優(yōu)化這些操作,所以GPU成為其中必不可少的一部分。
特征工程
特征工程將領(lǐng)域知識輸入特征提取器,降低數(shù)據(jù)復(fù)雜度,使數(shù)據(jù)中的模式對學(xué)習(xí)算法更加明顯,得到更優(yōu)秀的結(jié)果。從時間和專業(yè)性方面講,這個過程開銷很高。機(jī)器學(xué)習(xí)中,大部分使用的特征都是由專家指定或根據(jù)先驗(yàn)知識確定每個數(shù)據(jù)域和數(shù)據(jù)類型。比如,特征可以是像素值,形狀,紋理,位置,方向。大多數(shù)機(jī)器學(xué)習(xí)方法的性能依賴于識別和抽取這些特征的準(zhǔn)確度。
深度學(xué)習(xí)算法試圖從數(shù)據(jù)中學(xué)習(xí)高層特征,這是深度學(xué)習(xí)與眾不同的一部分,同時也是超越傳統(tǒng)機(jī)器學(xué)習(xí)的重要一步。深度學(xué)習(xí)將每個問題歸結(jié)為開發(fā)新特征提取器,如卷積神經(jīng)網(wǎng)絡(luò)在底層學(xué)習(xí)如邊和直線種種低層特征,然后是面部部分特征,最后是人臉的高層特征。
問題解決方案
當(dāng)使用傳統(tǒng)機(jī)器學(xué)習(xí)方法解決問題時,經(jīng)常采取化整為零,分別解決,再合并結(jié)果求解的策略。而深度學(xué)習(xí)主張end-to-end模型,輸入訓(xùn)練數(shù)據(jù),直接輸出最終結(jié)果,讓網(wǎng)絡(luò)自己學(xué)習(xí)如何提取關(guān)鍵特征。
比如說你要進(jìn)行目標(biāo)檢測,需要識別出目標(biāo)的類別并指出在圖中的位置。
典型機(jī)器學(xué)習(xí)方法將這個問題分為兩步:目標(biāo)檢測與目標(biāo)識別。首先,使用邊框檢測技術(shù),如grabcut,掃描全圖找到所有可能的對象,對這些對象使用目標(biāo)識別算法,如HOG/SVM,識別出相關(guān)物體。
深度學(xué)習(xí)方法按照end-to-end方式處理這個問題,比如YOLO net通過卷積神經(jīng)網(wǎng)絡(luò),就能夠?qū)崿F(xiàn)目標(biāo)的定位與識別。也就是原始圖像輸入到卷積神經(jīng)網(wǎng)絡(luò)中,直接輸出圖像中目標(biāo)的位置和類別。
執(zhí)行時間
通常,深度學(xué)習(xí)需要很長時間訓(xùn)練,因?yàn)?a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)中很多參數(shù)都需要遠(yuǎn)超正常水平的時間訓(xùn)練。ResNet大概需要兩周時間從零開始完成訓(xùn)練,而機(jī)器學(xué)習(xí)只需要從幾秒到幾小時不等的訓(xùn)練時間。測試所需要的時間就完全相反,深度學(xué)習(xí)算法運(yùn)行需要很少的時間。然而,和KNN(K近鄰,一種機(jī)器學(xué)習(xí)算法)相比,測試時間會隨著測試數(shù)據(jù)量的增加而增加。不過并非所有的機(jī)器學(xué)習(xí)算法都需要很長時間,某些也只需要很少的測試時間。
可解釋性
假定使用深度學(xué)習(xí)給文章自動評分,你會發(fā)現(xiàn)性能會很不錯,并且接近人類評分水準(zhǔn)。但它不能解釋為什么給出這樣的分?jǐn)?shù)。在運(yùn)行過程中,你可以發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)的哪些節(jié)點(diǎn)被激活,但你不知道這些神經(jīng)元是對什么進(jìn)行建模以及這每層在干什么,所以無法解釋結(jié)果。
另一方面,機(jī)器學(xué)習(xí)算法如決策樹按照規(guī)則明確解釋每一步做出選擇的原因,因此像決策樹和線性/邏輯斯蒂回歸這類算法由于可解釋性良好,在工業(yè)界應(yīng)用很廣泛。
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)應(yīng)用場景
Wiki上面介紹了一些機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域:
1. 計算機(jī)視覺:如車牌號識別,人臉識別;
2. 信息檢索:如搜索引擎,文本檢索,圖像檢索;
3. 營銷:自動郵件營銷,目標(biāo)識別;
4. 醫(yī)療診斷:癌癥診斷,異常檢測;
5. 自然語言處理:語義分析,照片標(biāo)記;
6. 在線廣告,等等。
下圖總結(jié)了機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域,總的來說應(yīng)用范圍十分廣泛。
谷歌是業(yè)內(nèi)有名的使用機(jī)器學(xué)習(xí)/深度學(xué)習(xí)的公司,如下圖所示,谷歌將深度學(xué)習(xí)應(yīng)用到不同的產(chǎn)品。
即時測試
為了評估你是否真正理解了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的區(qū)別,這里將會有一個快速測試,可以在這里提交答案。你要做的就是分別使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)解決下面的問題,并決定哪個方法更好。
【場景1】 假設(shè)你要開發(fā)一個無人駕駛汽車系統(tǒng),該系統(tǒng)以相機(jī)拍攝的原始數(shù)據(jù)作為輸入,然后預(yù)測方向盤轉(zhuǎn)動的方向及角度。
【場景2】給定一個人的信用憑證和背景信息,評估是否可以給他發(fā)放貸款。
【場景3】創(chuàng)建一個將俄語文本翻譯為印度語的系統(tǒng)。
未來趨勢
前面總結(jié)了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的區(qū)別,本節(jié)對二者未來趨勢:
1. 鑒于工業(yè)界使用數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)呈增加的趨勢,在業(yè)務(wù)中使用機(jī)器學(xué)習(xí)對那些想要生存下來的公司變得越發(fā)重要。同時,了解更多的基礎(chǔ)知識也十分有必要。
2. 深度學(xué)習(xí)給人越來越多的驚喜,將來也會一直是這樣。深度學(xué)習(xí)被證明是已有技術(shù)中最先進(jìn)的最好的技術(shù)之一。
3. 深度學(xué)習(xí)和機(jī)器學(xué)習(xí)和研究還在繼續(xù),不像以前那樣在學(xué)術(shù)界發(fā)展受限。目前機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在工業(yè)界和學(xué)術(shù)界呈爆炸式發(fā)展。并且受到比以前更多的基金支持,很有可能成為人類發(fā)展的關(guān)鍵點(diǎn)之一。
尾聲
本文將深度學(xué)習(xí)和機(jī)器學(xué)習(xí)進(jìn)行了詳細(xì)對比,希望能夠激勵大家去學(xué)到更多知識
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03