
介紹
在我們學(xué)習(xí)機器算法的時候,可以將機器學(xué)習(xí)算法視為包含刀槍劍戟斧鉞鉤叉的一個軍械庫。你可以使用各種各樣的兵器,但你要明白這些兵器是需要在合適的時間合理的地點使用它們。作為類比,你可以將“回歸算法”想象成能夠有效切割數(shù)據(jù)的劍,但無法處理高度復(fù)雜的數(shù)據(jù)。相反的是,“支持向量機(SVM)”就像一把鋒利的刀,它比較適用于較小的數(shù)據(jù)集,但在較小的數(shù)據(jù)集上面,它可以構(gòu)建更加強大的模型。
相信在你學(xué)習(xí)機器學(xué)習(xí)算法解決分類問題的時候,肯定聽說過支持向量機(SVM),在過去的五十年中SVM在隨著時間進行演化,并且在分類之外也得到了應(yīng)用,比如回歸、離散值分析、排序。我相信你在不同的途徑中肯定也接觸過支持向量機,是不是覺得已經(jīng)對這個東西有些頭痛,認為很多人都會,但是自己好像怎么都不能明白過來它的原理,或者說你已經(jīng)對自己有關(guān)支持向量機的知識已經(jīng)很有自信了,那么現(xiàn)在你來對地方了,這份技能測試就是專門測試你對于支持向量機的掌握程度已經(jīng)是否可以應(yīng)用。這份測試已經(jīng)有超過550多人參加了,最后我會放出這些人的分數(shù)的分布情況,從而方便你對比一下自己的支持向量機的水平程度。
技能測試問題(每題1分)
問題背景:1-2
假設(shè)你使用的是一個線性SVM分類器,是用來解決存在的2分類問題?,F(xiàn)在你已經(jīng)獲得了以下數(shù)據(jù),其中一些點用紅色圈起來表示支持向量。
1)如果從數(shù)據(jù)中刪除以下任何一個紅點。決策邊界會改變嗎?
A)YES B)NO
2)[是或否]如果從數(shù)據(jù)中刪除非紅色圓圈點,決策邊界會發(fā)生變化嗎?
A)真 B)假
3)有關(guān)于支持向量機的泛化誤差是什么意思?
A)超平面與支持向量的距離 B)支持向量機對未知數(shù)據(jù)的預(yù)測精度如何 C)支持向量機中的閾值誤差量
4)當(dāng)C參數(shù)設(shè)置為無窮大時,以下哪項成立?
A)如果存在最優(yōu)的超平面,那么則會是完全可以分類數(shù)據(jù) B)軟邊際分類器將分離數(shù)據(jù)
C)以上都不是
5)硬邊緣是什么意思?
A)SVM允許分類中的誤差很小 B)SVM允許分類中的誤差很大 C)以上都不是
6)訓(xùn)練支持向量機的最小時間復(fù)雜度是O(n2)。根據(jù)這一事實,什么尺寸的數(shù)據(jù)集不是最適合SVM的?
A)大型數(shù)據(jù)集 B)小型數(shù)據(jù)集 C)中型數(shù)據(jù)集 D)大小無關(guān)緊要
7)支持向量機的有效性取決于:
A)內(nèi)核的選擇 B)內(nèi)核的參數(shù) C)軟邊距的參數(shù)C D)以上所有
8)支持向量是最接近決策邊界的數(shù)據(jù)點。
A)是 B)否
9)支持向量機在以下什么情況中的效果最差:
A)數(shù)據(jù)是線性可分的 B)數(shù)據(jù)干凈并且可以使用 C)數(shù)據(jù)有噪音且包含重疊點
10)假設(shè)在支持向量機中使用高Gamma值并且使用RBF內(nèi)核。這意味著什么?
A)模型考慮甚至遠離超平面的點進行建模 B)模型只考慮超平面附近的點進行建模 C)模型不會受到點距離超平面的影響并進行建模 D)沒有以上
11)支持向量機中的代價參數(shù)表示:
A)要進行的交叉驗證的數(shù)量 B)要使用的內(nèi)核 C)模型的分類錯誤和簡單性之間的權(quán)衡 D)以上都不是
12)
假設(shè)你正在基于數(shù)據(jù)X進行構(gòu)建支持向量機模型。數(shù)據(jù)X可能容易出錯,這意味著你不應(yīng)該過多地信任任何特定的數(shù)據(jù)點。假如現(xiàn)在你想建立一個支持向量機模型,它的二次核函數(shù)為2次多項式,它使用松弛變量C作為它的超參數(shù)之一。基于此,請給出以下問題的答案。
當(dāng)你使用非常大的C值(C->無窮大)時會發(fā)生什么?
注意:對于小C,也可以正確地對所有數(shù)據(jù)點進行分類
A)對于給定的超參數(shù)C,我們?nèi)匀豢梢哉_的對數(shù)據(jù)進行分類 B)對于給定的超參數(shù)C,我們不能對數(shù)據(jù)進行正確的分類 C)不好說 D)以上都不是
13)當(dāng)使用非常小的C值(C~0)會發(fā)生什么?
A)將會發(fā)生分類錯誤 B)數(shù)據(jù)將被正確的分類 C)不好說 D)以上都不是
14)如果我正在使用我的數(shù)據(jù)集的所有特征,并且我在訓(xùn)練集上達到100%的準(zhǔn)確率,但在驗證集上卻只達到約70%,我應(yīng)該注意什么?
A)欠擬合 B)沒什么注意的,模型是非常完美的 C)過度擬合
15)以下哪項是支持向量機在現(xiàn)實世界中的實際應(yīng)用?
A)文本和超文本分類 B)圖像分類 C)新聞文章的聚類 D)以上所有
問題背景:16 - 18
假設(shè)你在訓(xùn)練支持向量機后訓(xùn)練了一個具有線性決策邊界的支持向量機,你正確的發(fā)現(xiàn)了你的支持向量機的模型還不合適。
16)下面選項中哪一個是你更能考慮進行迭代支持向量機的?
A)增加你的數(shù)據(jù)點 B)減少你的數(shù)據(jù)點 C)嘗試計算更多的變量 D)嘗試減少變量
17)假設(shè)你在前一個問題中給出了正確的答案。你認為實際上會發(fā)生什么?
1.我們正在降低偏差 2.我們正在降低方差 3.我們正在增加偏差 4.我們正在增加方差
A)1和2 B)2和3 C)1和4 D)2和4
18)在上面的問題中,假設(shè)你想要更改其中一個(支持向量機)超參數(shù),以便效果與之前的問題相同,也就是模型不適合?
A)我們將增加參數(shù)C B)我們將減小參數(shù)C C)C中的變化不起作用 D)這些都不是
19)在支持向量機中使用高斯核函數(shù)之前,我們通常使用特征歸一化。那么什么是真正的特征歸一化?
A)1 B)1和2 C)1和3 D)2和3
問題背景:20-22
假設(shè)你正在處理4分類問題,并且你希望在數(shù)據(jù)上訓(xùn)練支持向量機模型,因為你正在使用One-vs-all方法?,F(xiàn)在回答以下問題
20)在這種情況下我們需要訓(xùn)練支持向量機模型多少次
A)1 B)2 C)3 D)4
21)假設(shè)你的數(shù)據(jù)中具有相同的類分布?,F(xiàn)在,比如說在一對一訓(xùn)練中進行1次訓(xùn)練,支持向量機模型需要10秒鐘。那么端到端訓(xùn)練一對一的方法需要多少秒?
A)20 B)40 C)60 D)80
22)假設(shè)你的問題現(xiàn)在已經(jīng)發(fā)生了改變?,F(xiàn)在,數(shù)據(jù)只有2個類。在這種情況下,你認為我們需要訓(xùn)練支持向量機多少次?
A)1 B)2 C)3 D)4
問題背景:23 - 24
假設(shè)你使用的支持向量機的線性核函數(shù)為2次多項式,現(xiàn)在認為你已將其應(yīng)用于數(shù)據(jù)上并發(fā)現(xiàn)它完全符合數(shù)據(jù),這意味著,訓(xùn)練和測試精度為100%。
23)現(xiàn)在,假設(shè)你增加了這個內(nèi)核的復(fù)雜度(或者說多項式的階數(shù))。你認為會發(fā)生什么?
A)增加復(fù)雜性將使數(shù)據(jù)過度擬合 B)增加復(fù)雜性將使數(shù)據(jù)不適應(yīng)模型 C)由于你的模型已經(jīng)100%準(zhǔn)確,因此不會發(fā)生任何事情 D)以上都不是
24)在上一個問題中,在增加復(fù)雜性之后,你發(fā)現(xiàn)訓(xùn)練精度仍然是100%。你認為這背后的原因是什么?
A)1 B)2 C)1和2 D)這些都不是
25)支持向量機中的kernel是什么?
A)1 B)2 C)1和2 D)這些都不是
答案與講解
1)正確答案:A
這三個例子的位置使得刪除它們中的任何一個都會在約束中引入松弛效果。因此決策邊界將完全改變。
2)正確答案:B
從數(shù)據(jù)另一方面來說,數(shù)據(jù)中的其余點不會對決策邊界產(chǎn)生太大影響。
3)正確答案:B
統(tǒng)計中的泛化誤差通常是樣本外誤差,它是用來衡量模型預(yù)測先見未知的數(shù)據(jù)值的準(zhǔn)確性。
4)正確答案:A
在如此高水平的誤差分類懲罰水平上,軟邊際將不會存在,因為沒有錯誤的余地。
5)正確答案:A
硬邊界意味著SVM在分類方面非常嚴(yán)格,并且試圖在訓(xùn)練集中完美的完成分類,從而導(dǎo)致過度擬合。
6)正確答案:A
分類邊界清晰的數(shù)據(jù)集與支持向量機的分類效果最好
7)正確答案:D
支持向量機的有效性取決于你如何選擇上面提到的三個基本需求,從而最大化你的效率,減少誤差和過度擬合。
8)正確答案:A
它們是最接近超平面的點,也是最難分類的點。它們還對決策邊界的位置有直接影響。
9)正確答案:C
當(dāng)數(shù)據(jù)具有噪聲和重疊點時,如何在不分類的情況下畫出清晰的超平面是一個很大的問題。
10)正確答案:B
SVM調(diào)整中的gamma參數(shù)表示超平面附近的或遠離超平面的點的影響
對于較低的gamma值,模型將被過于約束并包括訓(xùn)練數(shù)據(jù)集中的所有的點,而不會真正的捕獲形狀。
對于更高的gamma值,模型將很好地捕獲數(shù)據(jù)集的形狀。
11)正確答案:C
代價參數(shù)決定了支持向量機被允許在多大程度上“彎曲”數(shù)據(jù)。對于低的代價參數(shù),你的目標(biāo)是一個光滑平穩(wěn)的超平面,對于更高的代價,你的目標(biāo)是正確地分類更多的點。它也簡稱為分類錯誤的代價。
12)正確答案:A
對于較大的C值,錯誤分類的點的代價非常高,因此決策邊界將盡可能完美地分離數(shù)據(jù)。
13)正確答案:A
該分類器可以最大化的提高大多數(shù)點之間的邊距,同時會對少數(shù)點進行錯誤的分類,因為代價是非常低的。
14)正確答案:C
如果我們非常容易就達到了100%的訓(xùn)練準(zhǔn)確度,那么我們就需要檢查來確認我們是否過度擬合了數(shù)據(jù)。
15)正確答案:D
支持向量機是高度通用的模型,可用于幾乎所有現(xiàn)實世界的問題,從回歸到聚類和手寫識別。
16)正確答案:C
這里最好的選擇是為模型創(chuàng)建嘗試更多的變量。
17)正確答案:C
更好的模型將降低偏差并增加方差
18)正確答案:A
增加C參數(shù)在這里是正確的,因為它將確保模型的規(guī)范化
19)正確答案:B
表述一和二是正確的。
20)正確答案:D
對于一個4分類問題,如果使用one-vs-all方法,則必須至少訓(xùn)練SVM 4次。
21)正確答案:B
需要10×4 = 40秒
22)正確答案:A
僅訓(xùn)練一次SVM就可以得到合適的結(jié)果
23)正確答案:A
增加數(shù)據(jù)的復(fù)雜性會使算法過度擬合數(shù)據(jù)。
24)正確答案:C
兩個給定的陳述都是正確的。
25)正確答案:C
兩個給定的陳述都是正確的。
結(jié)果檢查
是不是已經(jīng)對完答案,已經(jīng)算出自己的分數(shù)了呢,以下是參與者得分的總體分布,看一下自己的水平在那個位置吧:
在這個圖表中,列表示的得分的人數(shù),行表示獲得的分數(shù),全部答對的人只有1位,相信看完自己的分數(shù)后,你應(yīng)該對自己的水平有了一定的了解,也明白自己對于支持向量機的哪些知識還有些不足,這樣我們可以更好的去學(xué)習(xí)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03