2020-02-26
閱讀量:
744
聚類和降維的區(qū)別是什么?
聚類是用于尋找數(shù)據(jù)內在的分布結構。既可以作為一個單獨的過程,如異常檢測等;也可作為分類等其他學習任務的前驅過程。聚類是標準的無監(jiān)督學習。
在一些推薦系統(tǒng)中需要確定新用戶的類型,但“用戶類型”這個概念可能無法精確定義,此時往往會先對原有的用戶數(shù)據(jù)進行聚類。然后根據(jù)聚類的結果將每個簇定義為一個類。然后在基于這些類別取進行相應的分類訓練,以判斷新用戶的類型。
降維主要是為了緩解維數(shù)災難的一個重要方法。
主要是通過數(shù)學變換將原始的高維屬性轉變到一個低維的子空間。雖然人們平時觀測到的數(shù)據(jù)基本都是高維的,但實際上真正與學習任務的分布相關的往往是低緯度的分布。所以,一般可以通過最主要的幾個特征維度就可以實現(xiàn)對數(shù)據(jù)的描述。如kaggle上的泰坦尼克號生還問題。其主要是通過給定一個人的許多描述特征如年齡、姓名、性別和票價等來判斷其是否能在海灘中生還。這就需要先進行特征篩選,從而找出主要的特征,讓學校到的模型有更好地泛化性。
異同:? ? ? ?
(1) 聚類和降維都可以作為分類等問題的預處理步驟。
(2) 但他們雖然都可以實現(xiàn)對數(shù)據(jù)的約減,但二者使用情況不同。聚類針對的是數(shù)據(jù)點,而降維針對的是數(shù)據(jù)的特征。






評論(0)


暫無數(shù)據(jù)
推薦帖子
0條評論
0條評論