jjzzjjzz视频全部免费,日本在线视频网站www色

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

數(shù)據(jù)挖掘分類、聚類算法學(xué)習(xí)摘要

2016-05-10

數(shù)據(jù)挖掘分類、聚類算法學(xué)習(xí)摘要

一、有關(guān)數(shù)據(jù)挖掘
1.1 數(shù)據(jù)挖掘相關(guān)概念與定義
數(shù)據(jù)挖掘有廣義和狹義之分。廣義的數(shù)據(jù)挖掘，指從大量的數(shù)據(jù)中發(fā)現(xiàn)隱藏的、內(nèi)在的和有用的知識或信息的過程。狹義的數(shù)據(jù)挖掘，是指知識發(fā)現(xiàn)中的一個關(guān)鍵步驟，是一個抽取有用模式或建立模型的重要環(huán)節(jié)。知識發(fā)現(xiàn)：知識發(fā)現(xiàn)是識別出存在于數(shù)據(jù)庫中有效的、新穎的、具有潛在價值的乃至最終顆粒劑的模式的非平凡過程。兩者之間的關(guān)系：知識發(fā)現(xiàn)是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的全部過程，而數(shù)據(jù)挖掘則是此全部過程的一個特定的關(guān)鍵步驟。數(shù)據(jù)發(fā)掘的對象不應(yīng)只局限于數(shù)據(jù)庫，在現(xiàn)實(shí)看來，數(shù)據(jù)倉庫是其最新、最符合的對象。
1.2 數(shù)據(jù)挖掘與傳統(tǒng)統(tǒng)計學(xué)之間的關(guān)系
數(shù)據(jù)挖掘是揭示存在數(shù)據(jù)里的模式及數(shù)據(jù)間的關(guān)系的學(xué)科，它強(qiáng)調(diào)對大型數(shù)據(jù)的處理及數(shù)據(jù)和知識間的潛在關(guān)系。統(tǒng)計學(xué)是一門關(guān)于數(shù)據(jù)資料的搜集、整理、分析和推理的科學(xué)。數(shù)據(jù)挖掘和統(tǒng)計分析之間有明顯的聯(lián)系，它們有共同的目標(biāo)，就是發(fā)現(xiàn)數(shù)據(jù)間隱藏的關(guān)系。
過去生硬的去區(qū)分兩者之間的關(guān)系實(shí)際意義并不大，但是相較于傳統(tǒng)統(tǒng)計分析而言，數(shù)據(jù)挖掘有下列幾項特性：
處理大型數(shù)據(jù)更有優(yōu)勢，且無須太專業(yè)的統(tǒng)計背景去使用數(shù)據(jù)挖掘的工具；
數(shù)據(jù)挖掘技術(shù)不僅涉及統(tǒng)計學(xué)原理，而且包括數(shù)據(jù)庫管理、人工智能、機(jī)器學(xué)習(xí)、模式識別、以及數(shù)據(jù)可視化等技術(shù)。
數(shù)據(jù)挖掘核心是算法，當(dāng)然也考慮模型和可解釋性問題，但算法及可實(shí)現(xiàn)性是第一位的。它所強(qiáng)調(diào)的首先是發(fā)現(xiàn)，其次才是解釋。因而，數(shù)據(jù)挖掘并不過分依賴于嚴(yán)格的邏輯推理，而是大量采用很多“黑箱”方法和本質(zhì)上是探索性的方法。
數(shù)據(jù)挖掘，作為很多學(xué)科交叉的結(jié)果繼承了機(jī)器學(xué)習(xí)的“冒險”態(tài)度，比統(tǒng)計學(xué)更強(qiáng)調(diào)實(shí)踐性、探索性和靈活性。實(shí)際上，與現(xiàn)代科學(xué)中常見的“從假設(shè)出發(fā)演繹推理”的做法相比，數(shù)據(jù)挖掘更多地是一個歸納過程。
二、R語言介紹
2.1 R語言簡介
R是一種為統(tǒng)計計算和圖形顯示而設(shè)計的語言環(huán)境，是貝爾實(shí)驗室(BeflLaboratories)的RickBeeke、JohnChamberS和AllanWilkS開發(fā)的S語言的一種實(shí)現(xiàn)，提供了一系列統(tǒng)計和圖形顯示工具。
R是一組數(shù)據(jù)操作，計算和圖形顯示工具的整合包。相對于同類軟件其特色在于：
有效的數(shù)據(jù)處理和保存機(jī)制。
擁有一整套數(shù)組和矩陣操作運(yùn)算符。
一系列連貫而又完整的數(shù)據(jù)分析中間工具。
圖形統(tǒng)計可對數(shù)據(jù)直接進(jìn)行分析顯示，可用于多種圖形設(shè)備。
一種相當(dāng)完善、簡潔和高效的程序設(shè)計語言。它包括條件語句、循環(huán)語句、用戶自定義的遞歸函數(shù)以及輸入輸出接口。
    R是徹底面向?qū)ο蟮慕y(tǒng)計編程語言。
    R和其它編程語言、數(shù)據(jù)庫之間有很好的接口。
    R是自由軟件且功能不比任何同類軟件差。
    R具有豐富的網(wǎng)上資源，更為重要一點(diǎn)的是R提供了非常豐富的程序包，除了推薦的標(biāo)準(zhǔn)包外還有很多志愿者貢獻(xiàn)的貢獻(xiàn)包，可直接利用這些包提高工作效率。
2.2 R語言與數(shù)據(jù)挖掘
數(shù)據(jù)挖掘工具可根據(jù)應(yīng)用領(lǐng)域分為三類：
    通用單任務(wù)類。僅支持KDD（KDD：Knowledge Discovery in Data，即知識發(fā)現(xiàn)）的數(shù)據(jù)采掘步驟，并且需要大量的預(yù)處理和善后處理工作。主要采用決策樹、神經(jīng)網(wǎng)絡(luò)、基于例子和規(guī)則的方法，發(fā)現(xiàn)任務(wù)大多屬于分類范疇。
    通用多任務(wù)類。可執(zhí)行多個領(lǐng)域的知識發(fā)現(xiàn)任務(wù)，集成了分類、可視化、聚集、概括等多種策略，如IBM公司的IntelligentMiner和Almaden研究中心開發(fā)的QUEST系統(tǒng)，SGI公司開發(fā)的Mineset系統(tǒng)，加拿大SimonFraser大學(xué)開發(fā)的DBMiner系統(tǒng)，SPSS公司的Clementine以及SGI公司的Mineset。
    專用領(lǐng)域類。特定領(lǐng)域的數(shù)據(jù)挖掘工具針對某個特定領(lǐng)域的問題提供解決方案。在設(shè)計算法的時候，充分考慮到數(shù)據(jù)、需求的特殊性，并作了優(yōu)化?，F(xiàn)有的許多數(shù)據(jù)采掘系統(tǒng)是專為特定目的開發(fā)的，用于專用領(lǐng)域的知識發(fā)現(xiàn)，對采掘的數(shù)據(jù)庫有語義要求，挖掘的知識和采用的方法也較單一，有些系統(tǒng)雖然能發(fā)現(xiàn)多種形式的知識，但基本器學(xué)習(xí)、統(tǒng)計分析為主，計算量大。
三、分類分析算法
3.1 分類的一般步驟
第一步，建立模型，描述預(yù)定的數(shù)據(jù)類集或概念集。通過分析由屬性描述的數(shù)據(jù)庫元組來構(gòu)造模型。
第二步，使用模型進(jìn)行分類。首先需要評估模型（或分類方法）的預(yù)測準(zhǔn)確率。
3.2 數(shù)據(jù)的預(yù)處理
在進(jìn)行分類前，對數(shù)據(jù)的預(yù)處理可以提高分類預(yù)測的準(zhǔn)確性、有效性和可伸縮性。分類前一般要進(jìn)行如下幾種數(shù)據(jù)預(yù)處理：
    數(shù)據(jù)清理：為了消除和減少數(shù)據(jù)噪聲和處理缺失值的數(shù)據(jù)預(yù)處理。雖然大部分的分類算法都會處理噪聲和缺失值，但在進(jìn)行分類對數(shù)據(jù)的清理可以減少學(xué)習(xí)時的混亂。
    相關(guān)性分析：數(shù)據(jù)中很多屬性可能與分類預(yù)測任務(wù)不相關(guān)或是冗余的。因此在分類前進(jìn)行相關(guān)性分析可以刪除學(xué)習(xí)過程中不相關(guān)的或冗余的屬性，提高分類預(yù)測的效率和準(zhǔn)確率。
    數(shù)據(jù)變換：分類前的數(shù)據(jù)變換主要有概念分層和規(guī)范化兩種。概念分層就是把連續(xù)值屬性概化為離散的區(qū)間，壓縮了原來的訓(xùn)練數(shù)據(jù)，學(xué)習(xí)時可以減少輸入輸出操作。規(guī)范化是將給定屬性的所有值按比例縮放，使得它們落入較小的指定區(qū)間，比如落入[0，1]內(nèi)，可以防止具有較大初始域的屬性相對于具有較小初始域的屬性權(quán)種過大，該方法常用于神經(jīng)網(wǎng)絡(luò)和距離度量方法。
3.3 分類方法的評估標(biāo)準(zhǔn)
準(zhǔn)確率。指模型正確地預(yù)測新的或未見過的數(shù)據(jù)的類標(biāo)號的能力，這也是模型的首要能力。如果一個模型的分類準(zhǔn)確率小于百分之五十，那么可以認(rèn)為其結(jié)果是無價值的。在其他條件等同的情況下，當(dāng)然首選準(zhǔn)確率高的分類方法。
速度。指產(chǎn)生和使用模型的時間復(fù)雜度。產(chǎn)生模型的試驗數(shù)據(jù)集通常是巨量的，因為一般情況下其數(shù)量和分類準(zhǔn)確率成正比。如果產(chǎn)生和使用模型的時間過長，將嚴(yán)重影響用戶的使用。
穩(wěn)健性。指給定噪聲數(shù)據(jù)或具有空缺值的數(shù)據(jù)，模型正確預(yù)測的能力?，F(xiàn)實(shí)中的數(shù)據(jù)庫通常有噪聲，有時還很大。如果一個分類器不善于消除噪聲的影響，將嚴(yán)重影響分類準(zhǔn)確率。
可伸縮性。指給定大量數(shù)據(jù)，有效的構(gòu)造模型的能力。有些分類器在數(shù)據(jù)量很小的情況下可以有效的構(gòu)造模型，隨著數(shù)據(jù)量的增大，其構(gòu)造模型的能力顯著下降，這最終也會影響分類準(zhǔn)確率。
可解釋性。指學(xué)習(xí)模型提供的理解和洞察的層次。
3.4 基于距離分類方法概述
基本概念：假定每個類用類中心來表示，每個元組必須和各個類的中心來比較，從而可以找出最近的類中心，得到確定的類標(biāo)記，基于距離分類一個元組的復(fù)雜性一般是O(n)。
方法應(yīng)用之KNN算法：K最臨近方法（K Nearest Neighbors，簡稱KNN）是實(shí)際運(yùn)用中經(jīng)常被采用的一種基于距離的分類算法。KNN算法的基本思想：假定每個類包含多個訓(xùn)練數(shù)據(jù)，且每個訓(xùn)練數(shù)據(jù)都有一個唯一的類別標(biāo)記，計算每個訓(xùn)練數(shù)據(jù)到待分類元組的距離，取和待分類元組距離最近的k個訓(xùn)練數(shù)據(jù)，k個數(shù)據(jù)中哪個類別的訓(xùn)練數(shù)據(jù)占多數(shù)，則待分類元組就屬于哪個類別。
3.5 基于決策樹分類方法
一般來說，決策樹的構(gòu)造主要由兩個階段組成：第一階段，生成樹階段。選取部分受訓(xùn)數(shù)據(jù)建立決策樹，決策樹是按廣度優(yōu)先建立直到每個葉節(jié)點(diǎn)包括相同的類標(biāo)記為止。第二階段，決策樹修剪階段。用剩余數(shù)據(jù)檢驗決策樹，如果所建立的決策樹不能正確回答所研究的問題，我們要對決策樹進(jìn)行修剪直到建立一棵正確的決策樹。
目前決策樹修剪策略有三種:基于代價復(fù)雜度的修剪(Cost–ComplexityPruning)、悲觀修剪(PeSSimistiCPruning)和MDL修剪(MinimumDeSCriptionLengthPruoing)?；诖鷥r復(fù)雜度的修剪使用了獨(dú)立的樣本集用于修剪，即與決策樹生成過程所使用的樣本集不同。在很多情況下，特別是當(dāng)訓(xùn)練集很小時，更期望將所有的樣本既用于決策樹的生成也用于決策樹的修剪。悲觀修剪是Quinlan在1987年提出的，將所有的訓(xùn)練樣本都用于決策樹的生成與修剪，經(jīng)驗表明，該方法產(chǎn)生的樹太大并且有時精度不高，在實(shí)際使用過程用的較多的并且效果較好的是MDL修剪。
方法應(yīng)用之C4.5算法：國際上最早，最有影響的決策樹方法是Quinlan提出的ID3算法。ID3是一個典型的決策樹學(xué)習(xí)系統(tǒng)，它以信息嫡作為分離目標(biāo)評價函數(shù)，采用自頂向下不可返回的策略，搜出全部空間的一部分，它確保決策樹建立最簡單，每次所做的測試數(shù)據(jù)最少。但由于工D3具有偏向于選擇屬性較多的屬性、學(xué)習(xí)簡單的邏輯表達(dá)能力較差等缺點(diǎn)。Qu1lan在1993年提出了C4.5算法，它既是工D3算法的后繼，也成為以后諸多決策樹算法的基礎(chǔ)。
C4.5除了擁有ID3算法的功能外，還引入了新的方法和增加了新的功能。例如：
用信息增益比例的概念替代信息增益。
合并具有連續(xù)屬性的值。
可以處理具有缺少屬性值得訓(xùn)練樣本。
通過使用不容的修剪技術(shù)以避免樹的過渡擬合(overfitting)。
K交叉驗證。
方法應(yīng)用之VART算法
3.6 基于神經(jīng)網(wǎng)絡(luò)分類算法
神經(jīng)網(wǎng)絡(luò)建立在有自學(xué)習(xí)能力的數(shù)學(xué)模型基礎(chǔ)上，可以對復(fù)雜的數(shù)據(jù)進(jìn)行分析，并完成對腦或其他計算機(jī)來說極為復(fù)雜的模式抽取及趨勢分析。神經(jīng)網(wǎng)絡(luò)的典型應(yīng)用是建立分類模型。神經(jīng)網(wǎng)絡(luò)將每一個連接看作一個處理單元(PE)，試圖模擬人腦神經(jīng)元的功能。神經(jīng)網(wǎng)絡(luò)從經(jīng)驗中學(xué)習(xí)，常用于發(fā)現(xiàn)一組輸入數(shù)據(jù)和一個結(jié)果之間的未知聯(lián)系。同其它方法一樣，神經(jīng)網(wǎng)絡(luò)首先檢測數(shù)據(jù)中存在的模式，再對從數(shù)據(jù)中發(fā)現(xiàn)的關(guān)系進(jìn)行概括，然后給出預(yù)測結(jié)果。神經(jīng)網(wǎng)絡(luò)由于能對復(fù)雜過程進(jìn)行預(yù)測而受到了特別的關(guān)注。處理單元采用一系列數(shù)學(xué)函數(shù)，通過匯總和轉(zhuǎn)換對數(shù)據(jù)進(jìn)行處理。一個處理單元的功能有限，但若干個處理單元連接起來形成系統(tǒng)后，就可以創(chuàng)建一個智能模型。處理單元可以許多種不同的方式互連，為了更精確地擬合需要為之建立模型的數(shù)據(jù)，它們可被反復(fù)訓(xùn)練若干次，成百次，甚至上千次。處理單元要和輸入輸出單元連接起來。在網(wǎng)絡(luò)訓(xùn)練過程中，需對輸入單元和輸出單元之間的連接強(qiáng)度(即權(quán)值)進(jìn)行修改。某一個連接強(qiáng)度的提高或減弱根據(jù)它對產(chǎn)生某一個結(jié)果的重要性進(jìn)行的。連接強(qiáng)度依賴于在反復(fù)訓(xùn)練過程中賦予它的權(quán)值。訓(xùn)練過程采用一種稱為學(xué)習(xí)規(guī)則的數(shù)學(xué)方法調(diào)節(jié)權(quán)值。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是根據(jù)歷史樣本數(shù)據(jù)反復(fù)進(jìn)行的。訓(xùn)練過程中，處理單元對數(shù)據(jù)進(jìn)行匯總和轉(zhuǎn)換，它們之間的連接被賦以不同的權(quán)值。也就是說，為了對每一個樣本的結(jié)果變量進(jìn)行預(yù)測，一個網(wǎng)絡(luò)要嘗試各種不同的方案。當(dāng)輸出結(jié)果在指定的精度級別上與已知結(jié)果吻合，或滿足其它的結(jié)束準(zhǔn)則時，網(wǎng)絡(luò)的訓(xùn)練就不再進(jìn)行。
神經(jīng)網(wǎng)絡(luò)的最大優(yōu)點(diǎn)是它能精確地對復(fù)雜問題進(jìn)行預(yù)測。在與其它方法進(jìn)行的精度對比測試中，神經(jīng)網(wǎng)絡(luò)的精確度是比較高的。神經(jīng)網(wǎng)絡(luò)方法也有一些缺點(diǎn)：
第一，神經(jīng)網(wǎng)絡(luò)雖然在預(yù)測方面有用但卻難于理解。誠然，早期的神經(jīng)網(wǎng)絡(luò)工具的確像被指責(zé)的那樣，是一種“黑盒子”預(yù)測引擎，但當(dāng)今市場上的新型神經(jīng)網(wǎng)絡(luò)工具卻有了明顯的改進(jìn)。
第二，神經(jīng)網(wǎng)絡(luò)易于受訓(xùn)練過度的影響。如果對具有很強(qiáng)學(xué)習(xí)功能的神經(jīng)網(wǎng)絡(luò)用支持這種功能的少量數(shù)據(jù)進(jìn)行訓(xùn)練，開始時正如我們希望的那樣，網(wǎng)絡(luò)學(xué)習(xí)的是數(shù)據(jù)中的一般趨勢，但此后網(wǎng)絡(luò)卻不斷地學(xué)習(xí)訓(xùn)練數(shù)據(jù)中非常具體的特征，這不是我們所希望的。這樣的網(wǎng)絡(luò)由于記住了訓(xùn)練數(shù)據(jù)，缺乏概括能力。
方法應(yīng)用之BP算法
四、聚類分析方法
聚類分析是數(shù)據(jù)挖掘的一項重要功能，而聚類算法是數(shù)據(jù)挖掘研究領(lǐng)域中一個非?；钴S的研究課題。聚類是把一組對象按照相似性歸成若干類別，即“物以類聚”。它的目的是使得屬于同一類別的對象之間的距離盡可能的小，而不同類別的對象間的距離盡可能的大。
聚類分析就是使用聚類算法來發(fā)現(xiàn)有意義的聚類，它的主要依據(jù)是把相似的樣本歸為一類，而把差異大的樣本區(qū)分開來，這樣所生成的簇是一組數(shù)據(jù)對象的集合，這些對象與同一個簇中的對象彼此相似，而與其他簇中的對象彼此相異。在許多應(yīng)用中可以把一個簇中的數(shù)據(jù)對象當(dāng)做一個整體來對待。
作為一個數(shù)據(jù)挖掘的功能，聚類分析能作為一個獨(dú)立的工具來獲得數(shù)據(jù)分布的情況，觀察每個簇的特點(diǎn)，集中對特定的簇做進(jìn)一步的分析。聚類分析也可以作為其他方法（如特征和分類等）的預(yù)處理。
目前文獻(xiàn)中存在大量的聚類算法。算法的選擇取決于數(shù)據(jù)的類型、目的和應(yīng)用。如果聚類分析被用作描述或探查的工具，可以對同樣的數(shù)據(jù)嘗試多種算法，以發(fā)現(xiàn)數(shù)據(jù)可能揭示的結(jié)果。大體上，按照聚類算法的主要思路可以劃分為如下幾類:劃分方法(partitioningmethods)、層次方法(hierarehiealmethods)、基于密度的方法(Density一basedMethods)、基于模型的方法(model一basedmcthods)等。
4.1 數(shù)據(jù)挖掘對聚類分析方法的要求
數(shù)據(jù)挖掘技術(shù)的一個突出特點(diǎn)是處理巨大的、復(fù)雜的數(shù)據(jù)集，這對聚類分析技術(shù)提出了特殊的挑戰(zhàn)，要求算法具有可伸縮性、處理不同類型屬性的能力、處理高維數(shù)據(jù)的能力等。具體地說，數(shù)據(jù)挖掘對聚類的特殊要求如下：
   可伸縮性。許多聚類方法在小于1000個數(shù)據(jù)對象的小數(shù)據(jù)集合上工作得很好；但是，一個大規(guī)模數(shù)據(jù)庫可能包含幾百萬個對象，在這樣的大數(shù)據(jù)集合樣本上進(jìn)行聚類可能導(dǎo)致較大偏差。
    處理不同類型屬性的能力。許多聚類方法只能聚類數(shù)值型數(shù)據(jù)。但是，在數(shù)據(jù)挖掘領(lǐng)域，數(shù)據(jù)類型是多樣的。
    用于決定輸入?yún)?shù)的領(lǐng)域知識最少。許多聚類方法在聚類分析中要求用戶輸入一定的參數(shù)，例如希望產(chǎn)生類的數(shù)目，而且聚類結(jié)果對于輸入?yún)?shù)十分敏感。參數(shù)通常很難確定，特別是對于包含高維對象的數(shù)據(jù)集來說，更是如此。要求用戶輸入?yún)?shù)不僅加重了用戶的負(fù)擔(dān)，也使得聚類的質(zhì)量難以控制。
    發(fā)現(xiàn)任意形狀的聚類。許多聚類方法基于歐氏距離來決定聚類?；谶@樣的距離度量的算法趨向于發(fā)現(xiàn)具有相似此尺度和密度的球狀簇。
    處理噪聲數(shù)據(jù)的能力。絕大多數(shù)的現(xiàn)實(shí)世界中的數(shù)據(jù)庫都包含了異常值、缺失值或錯誤的數(shù)據(jù)。有些聚類方法對于這樣的數(shù)據(jù)較為敏感，可能導(dǎo)致低質(zhì)量的聚類結(jié)果。
    對于輸入數(shù)據(jù)的順序不敏感。有些聚類方法對于輸入數(shù)據(jù)的順序是敏感的。例如，同一個數(shù)據(jù)集合，當(dāng)以不同的順序提交給同一個方法時，可能生成差別很大的聚類結(jié)果。
    高維性。一個數(shù)據(jù)庫或者數(shù)據(jù)倉庫可能包含若干維或者屬性。許多聚類方法擅長處理低維的數(shù)據(jù)，可能只涉及兩到三維。在高維空間中聚類數(shù)據(jù)對象是非常有挑戰(zhàn)性的，特別是這樣的數(shù)據(jù)可能非常稀疏，而且高度偏斜。
    基于約束的聚類?，F(xiàn)實(shí)世界中的應(yīng)用可能需要在各種約束條件下進(jìn)行聚類。要找到既滿足特定的約束，又具有良好聚類特性的數(shù)據(jù)分組是一項具有挑戰(zhàn)性的任務(wù)。
    可解釋性和可用性。用戶希望聚類結(jié)果是可解釋的、可理解的、可用的。也就是說，聚類可能需要和特定的語義解釋和應(yīng)用相聯(lián)系。
4.2 劃分聚類方法
實(shí)例：K-means算法
輸入：聚類個數(shù)k，以及包含n個數(shù)據(jù)對象的數(shù)據(jù)庫；
輸出：滿足平方誤差準(zhǔn)則最小的k個聚類。
處理流程： 1. 從n個數(shù)據(jù)對象任意k個對象作為初始簇中心。 2. 循環(huán)下述流程(3)到(4),直到每個聚類不再發(fā)生變化為止。 3. 根據(jù)每個簇中對象的均值（中心對象），計算每個對象與這些中心對象的距離，并根據(jù)最小距離重新對相應(yīng)對象進(jìn)行劃分。 4. 重新計算每個（有變化）簇的均值。
4.3 基于密度聚類方法
絕大多數(shù)劃分方法基于對象之間的距離進(jìn)行聚類。這樣的方法只能發(fā)現(xiàn)球狀的或凸形的簇，而在發(fā)現(xiàn)任意形狀的簇上遇到了困難。在這種情況下提出了基于密度的另一類聚類方法。其主要思想是：只要臨近區(qū)域的密度(對象或數(shù)據(jù)點(diǎn)的數(shù)目)超過某個閥值，就繼續(xù)聚類。也就是說對給定類中的每個數(shù)據(jù)點(diǎn)在一個給定范圍的區(qū)域中必須至少包含某個數(shù)目的點(diǎn)。這樣的方法可以用來過濾“噪聲”孤立點(diǎn)數(shù)據(jù)，發(fā)現(xiàn)任意形狀的簇。
4.4 基于模型聚類方法
基于模型的聚類方法試圖優(yōu)化給定的數(shù)據(jù)和某些數(shù)學(xué)模型之間的適應(yīng)性。該方法經(jīng)常是基于數(shù)據(jù)是根據(jù)潛在的概率分布生成的假設(shè)。基于模型的聚類方法主要有兩類：統(tǒng)計學(xué)方法和神經(jīng)網(wǎng)絡(luò)方法。
4.5 模糊聚類方法
對于模糊集來說,一個數(shù)據(jù)點(diǎn)都是以一定程度屬于某個類,也可以同時以不同的程度屬于幾個類。常用的模糊聚類算法是模糊C平均值FCM(FuZZyC一MeanS)算法,該算法是在傳統(tǒng)C均值算法中應(yīng)用了模糊技術(shù)。FCM算法的步驟算法步驟如下:
輸入:設(shè)定聚類數(shù)目C和參數(shù)b。
輸出:聚類結(jié)果
初始化各個聚類中心m；
REPEAT:
用當(dāng)前的聚類中心計算隸屬度函數(shù)；
用當(dāng)前的隸屬度函數(shù)更新計算各類聚類中心；
UNTIL各樣本隸屬度值穩(wěn)定；
當(dāng)算法收斂時，就得到了各類的聚類中心和各個樣本對于各類的隸屬度值從而完成了模糊聚類劃分。如果需要，還可將模糊聚類結(jié)果進(jìn)行去模糊化，即用一定的規(guī)則把模糊類分劃分轉(zhuǎn)化為確定性分類。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報名” 了解CDA考試詳情；