
數(shù)據(jù)挖掘概念綜述
數(shù)據(jù)挖掘又稱從數(shù)據(jù)庫中發(fā)現(xiàn)知識(KDD)、數(shù)據(jù)分析、數(shù)據(jù)融合(Data Fusion)以及決策支持。KDD一詞首次出現(xiàn)在1989年8月舉行的第11屆國際聯(lián)合人工智能學(xué)術(shù)會議上。隨后在1991年、1993年和1994年都舉行KDD 專題討論會,匯集來自各個領(lǐng)域的研究人員和應(yīng)用開發(fā)者,集中討論數(shù)據(jù)統(tǒng)計、海量數(shù)據(jù)分析算 法、知識表示、知識運用等問題。隨著參與人員的不斷增多,KDD國際會議發(fā)展成為年會。1998 年在美國紐約舉行的第四屆知識發(fā)現(xiàn)與數(shù)據(jù) 挖掘國際學(xué)術(shù)會議不僅進行了學(xué)術(shù)討論,并且有30多家軟件公司展示了他們的數(shù)據(jù)挖掘軟件產(chǎn)品,不少軟件已在北美、歐洲等國得到應(yīng)用。
一、什么是數(shù)據(jù)挖掘
1.1、數(shù)據(jù)挖掘的歷史
近十幾年來,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,千萬萬個數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開發(fā)等等,這一勢頭仍將持續(xù)發(fā)展下去。于是,一個新的挑戰(zhàn)被提了出來:在這被稱之為信息爆炸的時代,信息過量幾乎成為人人需要面對的問題。如何才能不被信息的汪洋大海所淹沒,從中及時發(fā)現(xiàn)有用的知識,提高信息利用率呢?要想使數(shù)據(jù)真正成為一個公司的資源,只有充分利用它為公司自身的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù)才行,否則大量的數(shù)據(jù)可能成為包袱,甚至成為垃圾。因此,面對”人們被數(shù)據(jù)淹沒,人們卻饑餓于知識”的挑戰(zhàn)。另一方面計算機技術(shù)的另一領(lǐng)域——人工智能自1956年誕生之后取得了重大進展。經(jīng)歷了博弈時期、自然語言理解、知識工程等階段,目前的研究
熱點是機器學(xué)習(xí)。機器學(xué)習(xí)是用計算機模擬人類學(xué)習(xí)的一門科學(xué),比較成熟的算法有神經(jīng)網(wǎng)絡(luò)、遺傳算法等。用數(shù)據(jù)庫管理系統(tǒng)來存儲數(shù)據(jù),用機器學(xué)習(xí)的方法來分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后的知識,這兩者的結(jié)合促成了數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD:Knowledge Discovery in Databases)的產(chǎn)生,因此,數(shù)據(jù)挖掘和知識發(fā)現(xiàn)(DMKD)技術(shù)應(yīng)運而生,并得以蓬勃發(fā)展,越來越顯示出其強大的生命力。
數(shù)據(jù)挖掘又稱從數(shù)據(jù)庫中發(fā)現(xiàn)知識(KDD)、數(shù)據(jù)分析、數(shù)據(jù)融合(Data
Fusion)以及決策支持。KDD一詞首次出現(xiàn)在1989年8月舉行的第11屆國際聯(lián)合人工智能學(xué)術(shù)會議上。隨后在1991年、1993年和1994年都舉行KDD
專題討論會,匯集來自各個領(lǐng)域的研究人員和應(yīng)用開發(fā)者,集中討論數(shù)據(jù)統(tǒng)計、海量數(shù)據(jù)分析算
法、知識表示、知識運用等問題。隨著參與人員的不斷增多,KDD國際會議發(fā)展成為年會。1998 年在美國紐約舉行的第四屆知識發(fā)現(xiàn)與數(shù)據(jù)
挖掘國際學(xué)術(shù)會議不僅進行了學(xué)術(shù)討論,并且有30多家軟件公司展示了他們的數(shù)據(jù)挖掘軟件產(chǎn)品,不少軟件已在北美、歐洲等國得到應(yīng)用。
2.2數(shù)據(jù)挖掘的概念
從1989年到現(xiàn)在,KDD的定義隨著人們研究的不斷深入也在不斷完善,目前比較公認的定義是Fayyad 等給出的:KDD是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的以及最終可理解模式的高級處理過程。從定義可以看出,數(shù)據(jù)挖掘(Data
Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。人們把原始數(shù)據(jù)看作是形成知識的源泉,就像從礦石中采礦一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護。因此,數(shù)據(jù)挖掘是一門很廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的學(xué)者和工程技術(shù)人員。
特別要指出的是,數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,而且要對這些數(shù)據(jù)進行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和推理,以指導(dǎo)實際問題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對未來的活動進行預(yù)測。
一般來說在科研領(lǐng)域中稱為KDD,而在工程領(lǐng)域則稱為數(shù)據(jù)挖掘。
二、數(shù)據(jù)挖掘的步驟
KDD包括以下步驟:
1、數(shù)據(jù)準備
KDD的處理對象是大量的數(shù)據(jù),這些數(shù)據(jù)一般存儲在數(shù)據(jù)庫系統(tǒng)中,是長期積累的結(jié)果。但往往不適合直接在這些數(shù)據(jù)上面進行知識挖
掘,需要做數(shù)據(jù)準備工作,一般包括數(shù)據(jù)的選擇(選擇相關(guān)的數(shù)據(jù))、凈化(消除噪音、冗余數(shù)據(jù))、推測(推算缺失數(shù)據(jù))、轉(zhuǎn)換(離散值
數(shù)據(jù)與連續(xù)值數(shù)據(jù)之間的相互轉(zhuǎn)換,數(shù)據(jù)值的分組分類,數(shù)據(jù)項之間的計算組合等)、數(shù)據(jù)縮減(減少數(shù)據(jù)量)。如果KDD的對象是數(shù)據(jù)倉
庫,那么這些工作往往在生成數(shù)據(jù)倉庫時已經(jīng)準備妥當(dāng)。數(shù)據(jù)準備是KDD 的第一個步驟,也是比較重要的一個步驟。數(shù)據(jù)準備是否做好將影 響到數(shù)據(jù)挖掘的效率和準確度以及最終模式的有效性。
2、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是KDD最關(guān)鍵的步驟,也是技術(shù)難點所在。研究KDD的人員中大部分都在研究數(shù)據(jù)挖掘技術(shù),采用較多的技術(shù)有決策樹、分類、 聚類、粗糙集、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。數(shù)據(jù)挖掘根據(jù)KDD的目標,選取相應(yīng)算法的參數(shù),分析數(shù)據(jù),得到可能形成知識的模式 模型。
3、評估、解釋模式模型
上面得到的模式模型,有可能是沒有實際意義或沒有實用價值的,也有可能是其不能準確反映數(shù)據(jù)的真實意義,甚至在某些情況下是與事
實相反的,因此需要評估,確定哪些是有效的、有用的模式。評估可以根據(jù)用戶多年的經(jīng)驗,有些模式也可以直接用數(shù)據(jù)來檢驗其準確性。
這個步驟還包括把模式以易于理解的方式呈現(xiàn)給用戶。
4、鞏固知識
用戶理解的、并被認為是符合實際和有價值的模式模型形成了知識。同時還要注意對知識做一
致性檢查,解決與以前得到的知識互相沖 突、矛盾的地方,使知識得到鞏固。
5、運用知識
發(fā)現(xiàn)知識是為了運用,如何使知識能被運用也是KDD的步驟之一。運用知識有兩種方法:一種是只需看知識本身所描述的關(guān)系或結(jié)果,就 可以對決策提供支持;另一種是要求對新的數(shù)據(jù)運用知識,由此可能產(chǎn)生新的問題,而需要對知識做進一步的優(yōu)化
三、數(shù)據(jù)挖掘的特點及功能
3.1、數(shù)據(jù)挖掘的特點
數(shù)據(jù)挖掘具有如下幾個特點,當(dāng)然,這些特點與數(shù)據(jù)挖掘要處理的數(shù)據(jù)和目的是密切相關(guān)的。
1、處理的數(shù)據(jù)規(guī)模十分巨大。
2、查詢一般是決策制定者(用戶)提出的即時隨機查詢,往往不能形成精確的查詢要求。
3、由于數(shù)據(jù)變化迅速并可能很快過時,因此需要對動態(tài)數(shù)據(jù)作出快速反應(yīng),以提供決策支持。
4、主要基于大樣本的統(tǒng)計規(guī)律,其發(fā)現(xiàn)的規(guī)則不一定適用于所有數(shù)據(jù)
3.2、數(shù)據(jù)挖掘的功能
數(shù)據(jù)挖掘所能發(fā)現(xiàn)的知識有如下幾種:
廣義型知識,反映同類事物共同性質(zhì)的知識;
特征型知識,反映事物各方面的特征知識;
差異型知識,反映不同事物之間屬性差別的知識 ;關(guān)聯(lián)型知識,反映事物之間依賴或關(guān)聯(lián)的知識;
預(yù)測型知識,根據(jù)歷史的和當(dāng)前的數(shù)據(jù)推測未來數(shù)據(jù);偏離型知識,揭示事物偏離常規(guī)的異常現(xiàn)象。
所有這些知識都可以在不同的概念層次上被發(fā)現(xiàn),隨著概念樹的提升,從微觀到中觀再到宏觀,以滿足不同用戶、不同層次決策的需要。例如,從一家超市的數(shù)據(jù)倉庫中,可以發(fā)現(xiàn)的一條典型關(guān)聯(lián)規(guī)則可能是”買面包和黃油的顧客十有八九也買牛奶”,也可能是”買食品的顧客幾乎都用信用卡”,這種規(guī)則對于商家開發(fā)和實施客戶化的銷售計劃和策略是非常有用的。至于發(fā)現(xiàn)工具和方法,常用的有分類、聚類、減維、模式識別、可視化、決策樹、遺傳算法、不確定性處理等。歸納起來,數(shù)據(jù)挖掘有如下幾個功能:
預(yù)測/驗證功能:預(yù)測/驗證功能指用數(shù)據(jù)庫的若干已知字段預(yù)測或驗證其他未知字段值。預(yù)測方法有統(tǒng)計分析方法、關(guān)聯(lián)規(guī)則和決策樹預(yù)測方法、回歸樹預(yù)測方法等。
描述功能:描述功能指找到描述數(shù)據(jù)的可理解模式。描述方法包括以下幾種:數(shù)據(jù)分類、回歸分析、簇聚、概括、構(gòu)造依賴模式、變化和偏差分析、模式發(fā)現(xiàn)、路徑發(fā)現(xiàn)等。
四、數(shù)據(jù)挖掘的模式
數(shù)據(jù)挖掘的任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)模式。模式是一個用語言L來表示的一個表達式E,它可用來描述數(shù)據(jù)集F中數(shù)據(jù)的特性,E
所描述的數(shù)據(jù)是集 合F的一個子集FE。E作為一個模式要求它比列舉數(shù)據(jù)子集FE中所有元素的描述方法簡單。例如,“如果成績在81
~90之間,則成績優(yōu)良”可稱 為一個模式,而“如果成績?yōu)?1、82、83、84、85、86、87、88、89
或90,則成績優(yōu)良”就不能稱之為一個模式。
模式有很多種,按功能可分有兩大類:預(yù)測型(Predictive)模式和描述型(Descriptive)模式。
預(yù)測型模式是可以根據(jù)數(shù)據(jù)項的值精確確定某種結(jié)果的模式。挖掘預(yù)測型模式所使用的數(shù)據(jù)也都是可以明確知道結(jié)果的。例如,根據(jù)各種 動物的資料,可以建立這樣的模式:凡是胎生的動物都是哺乳類動物。當(dāng)有新的動物資料時,就可以根據(jù)這個模式判別此動物是否是哺乳動物。
描述型模式是對數(shù)據(jù)中存在的規(guī)則做一種描述,或者根據(jù)數(shù)據(jù)的相似性把數(shù)據(jù)分組。描述型模式不能直接用于預(yù)測。例如,在地球上,70 %的表面被水覆蓋,30 %是土地。
在實際應(yīng)用中,往往根據(jù)模式的實際作用細分為以下6 種:
1、分類模式
分類模式是一個分類函數(shù)( 分 類 器),能夠把數(shù)據(jù)集中的數(shù)據(jù)項映射到某個給定的類上。分類模式往往表現(xiàn)為一棵分類樹,根據(jù)數(shù)據(jù)的 值從樹根開始搜索,沿著數(shù)據(jù)滿足的分支往上走,走到樹葉就能確定類別。
2、回歸模式
回歸模式的函數(shù)定義與分類模式相似,它們的差別在于分類模式的預(yù)測值是離散的,回歸模式的預(yù)測值是連續(xù)的。如給出某種動物的特征,可以用分類模式判定這種動物是哺乳動物還是鳥類;給出某個人的教育情況、工作經(jīng)驗,可以用回歸模式判定這個人的年工資在哪個范圍內(nèi),是在6000元以下,還是在6000元到1萬元之間,還是在1萬元以上。
3、時間序列模式
時間序列模式根據(jù)數(shù)據(jù)隨時間變化的趨勢預(yù)測將來的值。這里要考慮到時間的特殊性質(zhì),像一些周期性的時間定義如星期、月、季節(jié)、年
等,不同的日子如節(jié)假日可能造成的影響,日期本身的計算方法,還有一些需要特殊考慮的地方如時間前后的相關(guān)性(過去的事情對將來有
多大的影響力)等。只有充分考慮時間因素,利用現(xiàn)有數(shù)據(jù)隨時間變化的一系列的值,才能更好地預(yù)測將來的值。
4、聚類模式
聚類模式把數(shù)據(jù)劃分到不同的組中,組之間的差別盡可能大,組內(nèi)的差別盡可能小。與分類模式不同,進行聚類前并不知道將要劃分成幾
個組和什么樣的組,也不知道根據(jù)哪一(幾)個數(shù)據(jù)項來定義組。一般來說,業(yè)務(wù)知識豐富的人應(yīng)該可以理解這些組的含義,如果產(chǎn)生的模式無法理解或不可用,則該模式可能是無意義的,需要回到上階段重新組織數(shù)據(jù)。
5、關(guān)聯(lián)模式
關(guān)聯(lián)模式是數(shù)據(jù)項之間的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是如下形式的一種規(guī)則:“在無力償還貸款的人當(dāng)中,60%的人的月收入在3000元以下。”
6、序列模式
序列模式與關(guān)聯(lián)模式相仿,而把數(shù)據(jù)之間的關(guān)聯(lián)性與時間聯(lián)系起來。為了發(fā)現(xiàn)序列模式,不僅需要知道事件是否發(fā)生,而且需要確定事件 發(fā)生的時間。例如,在購買彩電的人們當(dāng)中,60%的人會在3個月內(nèi)購買影碟機
五、數(shù)據(jù)挖掘的發(fā)現(xiàn)任務(wù)
數(shù)據(jù)挖掘涉及的學(xué)科領(lǐng)域和方法很多,有多種分類法。根據(jù)挖掘任務(wù)分,可分為分類或預(yù)測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等等;根據(jù)挖掘?qū)ο蠓?,有關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫以及環(huán)球網(wǎng)Web;根據(jù)挖掘方法分,可粗分為:機器學(xué)習(xí)方法、統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。機器學(xué)習(xí)中,可細分為:歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納等)、基于范例學(xué)習(xí)、遺傳算法等。統(tǒng)計方法中,可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法等)等。神經(jīng)網(wǎng)絡(luò)方法中,可細分為:前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競爭學(xué)習(xí)等)等。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析或OLAP 方法,另外還有面向?qū)傩缘臍w納方法。
從挖掘任務(wù)和挖掘方法的角度而言有數(shù)據(jù)總結(jié)、分類發(fā)現(xiàn)、聚類和關(guān)聯(lián)規(guī)則發(fā)現(xiàn)四種非常重要的發(fā)現(xiàn)任務(wù)。
5.1、數(shù)據(jù)總結(jié)
數(shù)據(jù)總結(jié)目的是對數(shù)據(jù)進行濃縮,給出它的緊湊描述。傳統(tǒng)的也是最簡單的數(shù)據(jù)總結(jié)方法是計算出數(shù)據(jù)庫的各個字段上的求和值、平均值、方差值等統(tǒng)計值,或者用直方圖、餅狀圖等圖形方式表示。數(shù)據(jù)挖掘主要關(guān)心從數(shù)據(jù)泛化的角度來討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化是一種把數(shù)據(jù)庫中的有關(guān)數(shù)據(jù)從低層次抽象到高層次上的過程。由于數(shù)據(jù)庫上的數(shù)據(jù)或?qū)ο笏男畔⒖偸亲钤?、基本的信息(這是為了不遺漏任何可能有用的數(shù)據(jù)信息)。人們有時希望能從較高層次的視圖上處理或瀏覽數(shù)據(jù),因此需要對數(shù)據(jù)進行不同層次上的泛化以適應(yīng)各種查詢要求。數(shù)據(jù)泛化目前主要有兩種技術(shù):多維數(shù)據(jù)分析方法和面向?qū)傩缘臍w納方法。
1、多維數(shù)據(jù)分析方法是一種數(shù)據(jù)倉庫技術(shù),也稱作聯(lián)機分析處理(OLAP)。數(shù)據(jù)倉庫是面向決策支持的、集成的、穩(wěn)定的、不同時間的歷史數(shù)據(jù)集合。決策的前提是數(shù)據(jù)分析。在數(shù)據(jù)分析中經(jīng)常要用到諸如求和、總計、平均、最大、最小等匯集操作,這類操作的計算量特別大。因此一種很自然的想法是,把匯集操作結(jié)果預(yù)先計算并存儲起來,以便于決策支持系統(tǒng)使用。存儲匯集操作結(jié)果的地方稱作多維數(shù)據(jù)庫。多維數(shù)據(jù)分析技術(shù)已經(jīng)在決策支持系統(tǒng)中獲得了成功的應(yīng)用,如著名的SAS數(shù)據(jù)分析軟件包、Business Object公司的決策支持系統(tǒng)Business Object,以及IBM公司的決策分析工具都使用了多維數(shù)據(jù)分析技術(shù)。
采用多維數(shù)據(jù)分析方法進行數(shù)據(jù)總結(jié),它針對的是數(shù)據(jù)倉庫,數(shù)據(jù)倉庫存儲的是脫機的歷史數(shù)據(jù)。
2、為了處理聯(lián)機數(shù)據(jù),研究人員提出了一種面向?qū)傩缘臍w納方法。它的思路是直接對用戶感興趣的數(shù)據(jù)視圖(用一般的SQL查詢語言即可獲得)進行泛化,而不是像多維數(shù)據(jù)分析方法那樣預(yù)先就存儲好了泛化數(shù)據(jù)。方法的提出者對這種數(shù)據(jù)泛化技術(shù)稱之為面向?qū)傩缘臍w納方法。原始關(guān)系經(jīng)過泛化操作后得到的是一個泛化關(guān)系,它從較高的層次上總結(jié)了在低層次上的原始關(guān)系。有了泛化關(guān)系后,就可以對它進行各種深入的操作而生成滿足用戶需要的知識,如在泛化關(guān)系基礎(chǔ)上生成特性規(guī)則、判別規(guī)則、分類規(guī)則,以及關(guān)聯(lián)規(guī)則等。
5.2、分類發(fā)現(xiàn)
分類在數(shù)據(jù)挖掘中是一項非常重要的任務(wù),目前在商業(yè)上應(yīng)用最多。分類的目的是學(xué)會一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。分類和回歸都可用于預(yù)測。預(yù)測的目的是從利用歷史數(shù)據(jù)紀錄中自動推導(dǎo)出對給定數(shù)據(jù)的推廣描述,從而能對未來數(shù)據(jù)進行預(yù)測。和回歸方法不同的是,分類的輸出是離散的類別值,而回歸的輸出則是連續(xù)數(shù)值。
要構(gòu)造分類器,需要有一個訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集由一組數(shù)據(jù)庫記錄或元組構(gòu)成,每個元組是一個由有關(guān)字段(又稱屬性或特征)值組成的特征向量,此外,訓(xùn)練樣本還有一個類別標記。一個具體樣本的形式可為:(
v1, v2, …, vn; c );其中vi表示字段值,c表示類別。
分類器的構(gòu)造方法有統(tǒng)計方法、機器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等等。統(tǒng)計方法包括貝葉斯法和非參數(shù)法(近鄰學(xué)習(xí)或基于事例的學(xué)習(xí)),對應(yīng)的知識表示則為判別函數(shù)和原型事例。機器學(xué)習(xí)方法包括決策樹法和規(guī)則歸納法,前者對應(yīng)的表示為決策樹或判別樹,后者則一般為產(chǎn)生式規(guī)則。神經(jīng)網(wǎng)絡(luò)方法主要是BP算法,它的模型表示是前向反饋神經(jīng)網(wǎng)絡(luò)模型(由代表神經(jīng)元的節(jié)點和代表聯(lián)接權(quán)值的邊組成的一種體系結(jié)構(gòu)),BP算法本質(zhì)上是一種非線性判別函數(shù)。另外,最近又興起了一種新的方法:粗糙集(rough set),其知識表示是產(chǎn)生式規(guī)則。
不同的分類器有不同的特點。有三種分類器評價或比較尺度:1 預(yù)測準確度;2 計算復(fù)雜度;3
模型描述的簡潔度。預(yù)測準確度是用得最多的一種比較尺度,特別是對于預(yù)測型分類任務(wù),目前公認的方法是10番分層交叉驗證法。計算復(fù)雜度依賴于具體的實現(xiàn)細節(jié)和硬件環(huán)境,在數(shù)據(jù)挖掘中,由于操作對象是巨量的數(shù)據(jù)庫,因此空間和時間的復(fù)雜度問題將是非常重要的一個環(huán)節(jié)。對于描述型的分類任務(wù),模型描述越簡潔越受歡迎;例如,采用規(guī)則表示的分類器構(gòu)造法就更有用,而神經(jīng)網(wǎng)絡(luò)方法產(chǎn)生的結(jié)果就難以理解。
另外要注意的是,分類的效果一般和數(shù)據(jù)的特點有關(guān),有的數(shù)據(jù)噪聲大,有的有缺值, 有的分布稀疏,有的字段或?qū)傩蚤g相關(guān)性強,有的屬性是離散的而有的是連續(xù)值或混合式的。目前普遍認為不存在某種方法能適合于各種特點的數(shù)據(jù)。
5.3、聚類
聚類是把一組個體按照相似性歸成若干類別,即”物以類聚”。它的目的是使得屬于同一類別的個體之間的距離盡可能的小,而不同類別上的個體間的距離盡可能的大。聚類方法包括統(tǒng)計方法、機器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和面向數(shù)據(jù)庫的方法。
在統(tǒng)計方法中,聚類稱聚類分析,它是多元數(shù)據(jù)分析的三大方法之一(其它兩種是回歸分析和判別分析)。它主要研究基于幾何距離的聚類,如歐式距離、明考斯基距離等。傳統(tǒng)的統(tǒng)計聚類分析方法包括系統(tǒng)聚類法、分解法、加入法、動態(tài)聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。這種聚類方法是一種基于全局比較的聚類,它需要考察所有的個體才能決定類的劃分;因此它要求所有的數(shù)據(jù)必須預(yù)先給定,而不能動態(tài)增加新的數(shù)據(jù)對象。聚類分析方法不具有線性的計算復(fù)雜度,難以適用于數(shù)據(jù)庫非常大的情況。
在機器學(xué)習(xí)中聚類稱作無監(jiān)督或無教師歸納;因為和分類學(xué)習(xí)相比,分類學(xué)習(xí)的例子或數(shù)據(jù)對象有類別標記,而要聚類的例子則沒有標記,需要由聚類學(xué)習(xí)算法來自動確定。很多人工智能文獻中,聚類也稱概念聚類;因為這里的距離不再是統(tǒng)計方法中的幾何距離
,而是根據(jù)概念的描述來確定的。當(dāng)聚類對象可以動態(tài)增加時,概念聚類則稱是概念形成。
在神經(jīng)網(wǎng)絡(luò)中,有一類無監(jiān)督學(xué)習(xí)方法:自組織神經(jīng)網(wǎng)絡(luò)方法;如Kohonen自組織特征映射網(wǎng)絡(luò)、競爭學(xué)習(xí)網(wǎng)絡(luò)等等。在數(shù)據(jù)挖掘領(lǐng)域里,見報道的神經(jīng)網(wǎng)絡(luò)聚類方法主要是自組織特征映射方法,IBM在其發(fā)布的數(shù)據(jù)挖掘白皮書中就特別提到了使用此方法進行數(shù)據(jù)庫聚類分割。
5.4、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)
關(guān)聯(lián)規(guī)則是形式如下的一種規(guī)則,”在購買面包和黃油的顧客中,有90%的人同時也買了牛奶”(面包+黃油 ( 牛奶
)。用于關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的主要對象是事務(wù)型數(shù)據(jù)庫,其中針對的應(yīng)用則是售貨數(shù)據(jù),也稱貨籃數(shù)據(jù)。一個事務(wù)一般由如下幾個部分組成:事務(wù)處理時間
,一組顧客購買的物品,有時也有顧客標識號(如信用卡號)。
由于條形碼技術(shù)的發(fā)展,零售部門可以利用前端收款機收集存儲大量的售貨數(shù)據(jù)。因此,如果對這些歷史事務(wù)數(shù)據(jù)進行分析,則可對顧客的購買行為提供極有價值的信息。例如,可以幫助如何擺放貨架上的商品(如把顧客經(jīng)常同時買的商品放在一起),幫助如何規(guī)劃市場(怎樣相互搭配進貨)。由此可見,從事務(wù)數(shù)據(jù)中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,對于改進零售業(yè)等商業(yè)活動的決策非常重要。
如果不考慮關(guān)聯(lián)規(guī)則的支持度和可信度,那么在事務(wù)數(shù)據(jù)庫中存在無窮多的關(guān)聯(lián)規(guī)則。事實上,人們一般只對滿足一定的支持度和可信度的關(guān)聯(lián)規(guī)則感興趣。在文獻中,一般稱滿足一定要求的(如較大的支持度和可信度)的規(guī)則為強規(guī)則。因此,為了發(fā)現(xiàn)出有意義的關(guān)聯(lián)規(guī)則,需要給定兩個閾值:最小支持度和最小可信度。前者即用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小支持度,它表示了一組物品集在統(tǒng)計意義上的需滿足的最低程度;后者即用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小可信度,它反應(yīng)了關(guān)聯(lián)規(guī)則的最低可靠度。
在實際情況下,一種更有用的關(guān)聯(lián)規(guī)則是泛化關(guān)聯(lián)規(guī)則。因為物品概念間存在一種層次關(guān)系,如夾克衫、滑雪衫屬于外套類,外套、襯衣又屬于衣服類。有了層次關(guān)系后,可以幫助發(fā)現(xiàn)一些更多的有意義的規(guī)則。例如,”買外套,買鞋子”(此處,外套和鞋子是較高層次上的物品或概念,因而該規(guī)則是一種泛化的關(guān)聯(lián)規(guī)則)。由于商店或超市中有成千上萬種物品,平均來講,每種物品(如滑雪衫)的支持度很低,因此有時難以發(fā)現(xiàn)有用規(guī)則;但如果考慮到較高層次的物品(如外套),則其支持度就較高,從而可能發(fā)現(xiàn)有用的規(guī)則。另外,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的思路還可以用于序列模式發(fā)現(xiàn)。用戶在購買物品時,除了具有上述關(guān)聯(lián)規(guī)律,還有時間上或序列上的規(guī)律,因為,很多時候顧客會這次買這些東西,下次買同上次有關(guān)的一些東西,接著又買有關(guān)的某些東西。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10