亚洲伊人色综合网站,黄软2024九幺

田齊齊

2020-02-26 閱讀量: 776

聚類和降維的區(qū)別是什么？

聚類是用于尋找數(shù)據(jù)內(nèi)在的分布結(jié)構(gòu)。既可以作為一個(gè)單獨(dú)的過程，如異常檢測等；也可作為分類等其他學(xué)習(xí)任務(wù)的前驅(qū)過程。聚類是標(biāo)準(zhǔn)的無監(jiān)督學(xué)習(xí)。

在一些推薦系統(tǒng)中需要確定新用戶的類型，但“用戶類型”這個(gè)概念可能無法精確定義，此時(shí)往往會先對原有的用戶數(shù)據(jù)進(jìn)行聚類。然后根據(jù)聚類的結(jié)果將每個(gè)簇定義為一個(gè)類。然后在基于這些類別取進(jìn)行相應(yīng)的分類訓(xùn)練，以判斷新用戶的類型。

降維主要是為了緩解維數(shù)災(zāi)難的一個(gè)重要方法。

主要是通過數(shù)學(xué)變換將原始的高維屬性轉(zhuǎn)變到一個(gè)低維的子空間。雖然人們平時(shí)觀測到的數(shù)據(jù)基本都是高維的，但實(shí)際上真正與學(xué)習(xí)任務(wù)的分布相關(guān)的往往是低緯度的分布。所以，一般可以通過最主要的幾個(gè)特征維度就可以實(shí)現(xiàn)對數(shù)據(jù)的描述。如kaggle上的泰坦尼克號生還問題。其主要是通過給定一個(gè)人的許多描述特征如年齡、姓名、性別和票價(jià)等來判斷其是否能在海灘中生還。這就需要先進(jìn)行特征篩選，從而找出主要的特征，讓學(xué)校到的模型有更好地泛化性。

異同：? ? ? ?

(1) 聚類和降維都可以作為分類等問題的預(yù)處理步驟。

(2) 但他們雖然都可以實(shí)現(xiàn)對數(shù)據(jù)的約減，但二者使用情況不同。聚類針對的是數(shù)據(jù)點(diǎn)，而降維針對的是數(shù)據(jù)的特征。