
問題1:空間數(shù)據(jù)挖掘有哪些常用方法,舉例說明一種方法的原理及應(yīng)用.
答:空間數(shù)據(jù)挖掘的常用方法有:統(tǒng)計法,聚類方法,關(guān)聯(lián)規(guī)則發(fā)掘方法,Rough集方法,神經(jīng)網(wǎng)絡(luò)方法,云理論,證據(jù)理論,模糊集理論,遺傳算法等算法(出自丁信宙,仇環(huán),蘇曉慶. 基于云理論的缺損數(shù)據(jù)推理和預(yù)測 山東理工大學(xué)學(xué)報 2006年11月)。除此以外還有老師課件上提到的聚類檢測,決策樹方法等。
以下對于一些常見模型做一簡述:
1、空間分析方法 (Spatial Analysis Approach)
利用GIS的各種空間分析模型和空間操作對空間數(shù)據(jù)庫中的數(shù)據(jù)進行深加工,從而產(chǎn)生新的信息和知識。目前常用的空間分析方法有綜合屬性數(shù)據(jù)分析、拓撲分析、緩沖區(qū)分析、密度分析、距離分析、疊置分析、網(wǎng)絡(luò)分析、地形分析、趨勢面分析、預(yù)測分析等,可發(fā)現(xiàn)目標在空間上的相連、相鄰和共生等關(guān)聯(lián)規(guī)則,或發(fā)現(xiàn)目標之間的最短路徑、最優(yōu)路徑等輔助決策的知識??臻g分析方法常作為預(yù)處理和特征提取方法與其它數(shù)據(jù)挖掘方法結(jié)合使用。
2、統(tǒng)計分析方法 (Statistical Analysis Approach)
統(tǒng)計方法一直是分析空間數(shù)據(jù)的常用方法,著重于空間物體和現(xiàn)象的非空間特性的分析。在運用統(tǒng)計方法進行數(shù)據(jù)挖掘時,一般并不將數(shù)據(jù)的空間特性作為限制因子加以考慮,空間數(shù)據(jù)所描述的事物的具體空間位置在這類挖掘中也并不起制約作用。盡管此種挖掘方式與一般的數(shù)據(jù)挖掘并無本質(zhì)的差別,但其挖掘后發(fā)現(xiàn)的結(jié)果都是以地圖形式來描述的,對發(fā)現(xiàn)結(jié)果的解釋也必然要依托地理空間進行,挖掘的結(jié)果揭示和反映的必然是空間規(guī)律。但是,統(tǒng)計方法難以處理字符型數(shù)據(jù)。而且,應(yīng)用統(tǒng)計方法需要有領(lǐng)域知識和統(tǒng)計知識,一般由具有統(tǒng)計經(jīng)驗的領(lǐng)域?qū)<襾硗瓿?。統(tǒng)計方法的最大缺點是要假設(shè)空間分布數(shù)據(jù)具有統(tǒng)計不相關(guān)性。這在實際應(yīng)用中會出現(xiàn)問題,因為很多空間數(shù)據(jù)是相互關(guān)聯(lián)的。
3、歸納學(xué)習(xí)方法 (Induction Learning Approach)
歸納學(xué)習(xí)方法是從大量的經(jīng)驗數(shù)據(jù)中歸納抽取出一般的規(guī)則和模式,其大部分算法來源于機器學(xué)習(xí)領(lǐng)域。歸納學(xué)習(xí)的算法很多,如Michaski等的 AQ11,AQ15,洪家榮等的AE1,AE9,Hunt的CLS, Quinlan的ID3,C5.0等,其中最著名的是Quinlan提出的一種決策樹算法,由ID3算法發(fā)展而來,采用嫡來選擇屬性,分類速度快,適合于大數(shù)據(jù)庫的學(xué)習(xí),而C5.0在 ID3的基礎(chǔ)上增加了將決策樹轉(zhuǎn)換為等價的產(chǎn)生式規(guī)則的功能,并解決了連續(xù)取值數(shù)據(jù)的學(xué)習(xí)問題。Han Jiawei教授等提出了一種面向?qū)傩缘臍w納方法 (Attribute Oriented Induction, AOI),專門用于從數(shù)據(jù)庫中發(fā)現(xiàn)知識,通過概念樹的提升對數(shù)據(jù)進行概括和綜合,歸納出高層次的模式或特征。裴健等對面向?qū)傩缘臍w納方法進行了擴展,形成了基于空間屬性的歸納方法 (Spatial Attribute Oriented Induction, SAOI)。
4、空間關(guān)聯(lián)規(guī)則挖掘方法 (Spatial Association Rule Mining Approach)
挖掘關(guān)聯(lián)規(guī)則首先由Agrawal等提出,主要是從超級市場銷售事務(wù)數(shù)據(jù)庫中發(fā)現(xiàn)顧客購買多種商品時的搭配規(guī)律。最著名的關(guān)聯(lián)規(guī)則挖掘算法是 Agrawal提出的Apriori算法,其主要思路是統(tǒng)計多種商品在一次購買中共同出現(xiàn)的頻數(shù),然后將出現(xiàn)頻數(shù)多的搭配轉(zhuǎn)換為關(guān)聯(lián)規(guī)則。
5、聚類方法 (Clustering Approach)和分類方法 (Classification Approach)
聚類是按一定的距離或相似性系數(shù)將數(shù)據(jù)分成一系列相互區(qū)分的組,根據(jù)定義可以把其分為四類:基于層次的聚類方法;分區(qū)聚類算法;基于密度的聚類算法;網(wǎng)格的聚類算法。常用的經(jīng)典聚類方法有K-mean,K-medoids,ISODATA等。
分類就是假定數(shù)據(jù)庫中的每個對象(在關(guān)系數(shù)據(jù)庫中對象是元組)屬于一個預(yù)先給定的類,從而將數(shù)據(jù)庫中的數(shù)據(jù)分配到給定的類中,簡單的講就是f:D→L,其中f的域D是屬性數(shù)據(jù)的空間,L是標號的集合。
分類和聚類都是對目標進行空間劃分,劃分的標準是類內(nèi)差別最小而類間差別最大。分類和聚類的區(qū)別在于分類事先知道類別數(shù)和各類的典型特征,而聚類則事先不知道。
6、神經(jīng)網(wǎng)絡(luò)方法 (Neural Network Approach)
神經(jīng)網(wǎng)絡(luò)是由大量神經(jīng)元通過極其豐富和完善的連接而構(gòu)成的自適應(yīng)非線性動態(tài)系統(tǒng),具有分布存儲、聯(lián)想記憶、大規(guī)模并行處理、自學(xué)習(xí)、自組織、自適應(yīng)等功能。神經(jīng)網(wǎng)絡(luò)由輸入層、中間層和輸出層組成。大量神經(jīng)元集體通過訓(xùn)練來學(xué)習(xí)待分析數(shù)據(jù)中的模式,形成描述復(fù)雜非線性系統(tǒng)的非線性函數(shù),適于從環(huán)境信息復(fù)雜、背景知識模糊、推理規(guī)則不明確的非線性空間系統(tǒng)中挖掘分類知識。
7、決策樹方法 (Decision Tree Approach)
決策樹根據(jù)不同的特征,以樹型結(jié)構(gòu)表示分類或決策集合,產(chǎn)生規(guī)則和發(fā)現(xiàn)規(guī)律。在空間數(shù)據(jù)挖掘中,首先利用訓(xùn)練空間實體集生成測試函數(shù);其次根據(jù)不同取值建立樹的分支,在每個分支子集中重復(fù)建立下層結(jié)點和分支,形成決策樹;然后對決策樹進行剪枝處理,把決策樹轉(zhuǎn)化為據(jù)以對新實體進行分類的規(guī)則。
8、粗集理論 (Rough Sets Theory)
粗集理論是波蘭華沙大學(xué)Z.Pawlak教授在1982年提出的一種智能數(shù)據(jù)決策分析工具,被廣泛研究并應(yīng)用于不精確、不確定、不完全的信息的分類分析和知識獲取。粗集理論為空間數(shù)據(jù)的屬性分析和知識發(fā)現(xiàn)開辟了一條新途徑,可用于空間數(shù)據(jù)庫屬性表的一致性分析、屬性的重要性、屬性依賴、屬性表簡化、最小決策和分類算法生成等。粗集理論與其它知識發(fā)現(xiàn)算法結(jié)合可以在空間數(shù)據(jù)庫中數(shù)據(jù)不確定的情況下獲取多種知識。
9、模糊集理論 (Fuzzy Sets Theory)
模糊集理論是L.A.Zadeh教授在1965年提出的。它是經(jīng)典集合理論的擴展,專門處理自然界和人類社會中的模糊現(xiàn)象和問題。利用模糊集合理論,對實際問題進行模糊判斷、模糊決策、模糊模式識別、模糊簇聚分析。系統(tǒng)的復(fù)雜性越高,精確能力就越低,模糊性就越強,這是Zadeh總結(jié)出的互克性原理。模糊集理論在遙感圖像的模糊分類、GIS模糊查詢、空間數(shù)據(jù)不確定性表達和處理等方面得到了廣泛應(yīng)用。
10、空間特征和趨勢探側(cè)(Characterization and Trend Detection)方法
這是Ester等人在第4屆KDD國際研討會 (1998)上提出的基于鄰域圖 (neighborhoodgraphs)和鄰域路徑 (neighborhoodpath)概念的挖掘算法。Ester等將一個空間特征定義為空間數(shù)據(jù)庫中具有空間/非空間性質(zhì)的目標對象集,并以非空間屬性值出現(xiàn)的相對頻率和不同空間對象出現(xiàn)的相對頻率 (目標對象集相對于整個數(shù)據(jù)庫)作為感興趣的性質(zhì),從空間目標集合經(jīng)過它的相鄰擴展后的集合中,發(fā)現(xiàn)相對頻率的明顯不同,以此提取空間規(guī)則:空間趨勢探測挖掘是從一個開始點出發(fā),發(fā)現(xiàn)一個或多個非空間性質(zhì)的變化規(guī)律,這種算法的效率在很大程度上取決于其處理相鄰關(guān)系的能力。
11、云理論 (Cloudy Theory)
這是李德毅博士提出的用于處理不確定性的一種新理論,包括云模型 (Cloud Model),虛擬云 (Virtual Cloud)、云運算 (Cloud operation)、云變換 (Cloud Transform)和不確定性推理 (Reasoning under Uncertainty)等主要內(nèi)容。運用云理論進行空間數(shù)據(jù)挖掘,可進行概念和知識的表達、定量和定性的轉(zhuǎn)化、概念的綜合與分解、從數(shù)據(jù)中生成概念和概念層次結(jié)構(gòu)、不確定性推理和預(yù)測等。
12、圖像分析和模式識別 (Image Analysis and Pattern Recognition)方法
空間數(shù)據(jù)庫 (數(shù)據(jù)倉庫)中含有大量的圖形圖像數(shù)據(jù),一些圖像分析和模式識別方法可直接用于挖掘數(shù)據(jù)和發(fā)現(xiàn)知識,或作為其它挖掘方法的預(yù)處理方法。用于圖像分析和模式識別的方法主要有:決策樹方法、神經(jīng)元網(wǎng)絡(luò)方法、數(shù)學(xué)形態(tài)學(xué)方法、圖論方法等。
13、證據(jù)理論 (Evidence Theory)
由Schafer發(fā)展起來的證據(jù)理論是經(jīng)典概率論的擴展。證據(jù)理論又稱Dempster-Schafer理論,它是Dempster在20世紀60年代提出,在70年代中期由Schafer進一步發(fā)展,形成處理不確定性信息的證據(jù)理論,其重要貢獻在于嚴格區(qū)分不確定和不知道的界線。證據(jù)理論將實體分為確定部分和不確定部分,可以用于基于不確定性的空間數(shù)據(jù)挖掘。利用證據(jù)理論的結(jié)合規(guī)則、可以根據(jù)多個帶有不確定性的屬性進行決策挖掘。證據(jù)理論發(fā)展了更一般性的概率論,卻不能解決矛盾證據(jù)或微弱假設(shè)支持等問題。
14、遺傳算法 (Genetic Algorithms)
遺傳算法(簡稱GA)是模擬生物進化過程的算法,最先由美國的John Holland教授于20世紀60年代初提出,其本質(zhì)是一種求解問題的高效并行全局搜索方法,它能在搜索過程中自動獲取和積累有關(guān)搜索空間的知識,并自適應(yīng)地控制搜索過程以求得最優(yōu)解。遺傳算法已在優(yōu)化計算、分類、機器學(xué)習(xí)等方面發(fā)揮了顯著作用。數(shù)據(jù)挖掘中的許多問題,如分類、聚類、預(yù)測等知識的獲取,可以表達或轉(zhuǎn)換成最優(yōu)化問題,進而可以用遺傳算法來求解。
15、數(shù)據(jù)可視化方法 (Data Visualization Approach)
人類的可視化能力,允許人類對大量抽象的數(shù)據(jù)進行分析。人的創(chuàng)造性不僅取決于人的邏輯思維,而且取決于人的形象思維。人腦的空間認知分析能力目前尚無法全部用計算機代替,因此可視化技術(shù)為知識發(fā)現(xiàn)提供了有力的幫助。為了了解數(shù)據(jù)之間的相互關(guān)系及發(fā)展趨勢,人們可以求助于可視化技術(shù)。海量的數(shù)據(jù)只有通過可視化技術(shù)變成圖形或圖像,才能激發(fā)人的形象思維—— 從表面上看來是雜亂無章的海量數(shù)據(jù)中找出其中隱藏的規(guī)律。數(shù)據(jù)可視化技術(shù)將大量數(shù)據(jù)以多種形式表示出來,幫助人們尋找數(shù)據(jù)中的結(jié)構(gòu)、特征、模式、趨勢、異?,F(xiàn)象或相關(guān)關(guān)系等。從這個角度講,數(shù)據(jù)可視化技術(shù)不僅僅是一種計算方法,更是看見不可見事物或現(xiàn)象的一種重要手段和方法。
16、地學(xué)信息圖譜方法 (Geo-informatics Graphic Methodology)
地學(xué)信息圖譜是地球信息的重要表現(xiàn)形式與研究手段,也是地球信息科學(xué)的重要組成部分。地學(xué)信息圖譜綜合了景觀綜合圖的簡潔性和數(shù)學(xué)模型的抽象性,是現(xiàn)代空間技術(shù)與我國傳統(tǒng)研究成果結(jié)合的產(chǎn)物,可反演過去、預(yù)測未來。圖是指地圖、圖像、圖解,譜是指不同類別事物特征有規(guī)則的序列編排。圖譜是指經(jīng)過深入分析與高度綜合,反映事物和現(xiàn)象空間結(jié)構(gòu)特征與時空序列變化規(guī)律的圖形信息處理與顯示手段。地球信息圖譜是由遙感、地圖數(shù)據(jù)庫與地理信息系統(tǒng)(或數(shù)字地球)的大量地球信息,經(jīng)過圖形思維與抽象概括,并以計算機多維動態(tài)可視化技術(shù)顯示地球系統(tǒng)及各要素和現(xiàn)象的宏觀、中觀與微觀的時空變化規(guī)律;同時經(jīng)過中間模型與地學(xué)認知的深入分析研究,進行推理、反演與預(yù)測,形成對事物和現(xiàn)象更深層次的認識,有可能總結(jié)出重要的科學(xué)規(guī)律。地學(xué)信息圖譜不僅應(yīng)用于數(shù)據(jù)挖掘,而且服務(wù)于科學(xué)預(yù)測與決策方案。
地學(xué)信息圖譜具有以下4個重要功能:①借助圖譜可以反演和模擬時空變化;②可利用圖的形象表達能力,對復(fù)雜現(xiàn)象進行簡潔的表達;③多維的空間信息可展示在二維地圖上,從而大大減小了模型模擬的復(fù)雜性;④在數(shù)學(xué)模型的建立過程中,圖譜有助于模型構(gòu)建者對空間信息及其過程的理解。
地學(xué)信息圖譜是形、數(shù)、理的有機結(jié)合,是試圖從形態(tài)來反演空間過程的一種研究復(fù)雜系統(tǒng)的方法論。地學(xué)信息圖譜中的空間圖形思維、分形分維等方法均可直接用于空間數(shù)據(jù)挖掘領(lǐng)域。目前,地學(xué)信息圖譜的基本理論及其方法體系還不完善,還有待于進一步研究。
17、計算幾何方法 (Computer Geometry Methods)
1975年,Shamos和Hoey利用計算機有效地計算平面點集Voronoi圖,并發(fā)表了一篇著名論文,從此計算幾何誕生了。計算幾何中的研究成果已在計算機圖形學(xué)、化學(xué)、統(tǒng)計分析、模式識別、空間數(shù)據(jù)庫以及其它許多領(lǐng)域得到了廣泛應(yīng)用。計算幾何研究的典型問題包括幾何基元、幾何查找和幾何優(yōu)化等。其中,幾何基元包括凸殼和Voronoi圖、多邊形的三角剖分、劃分問題與相交問題:幾何查找包括點定位、可視化、區(qū)域查找等問題;幾何優(yōu)化包括參數(shù)查找和線性規(guī)劃。
上述每一種方法都有一定的適用范圍。在實際應(yīng)用中,為了發(fā)現(xiàn)某類知識,常常要綜合運用這些方法??臻g數(shù)據(jù)挖掘方法還要與常規(guī)的數(shù)據(jù)庫技術(shù)充分結(jié)合??傊?,空間數(shù)據(jù)挖掘利用的技術(shù)越多,得出的結(jié)果精確性就越高,因此,多種方法的集成也是空間數(shù)據(jù)挖掘的一個有前途的發(fā)展方向。
以下是對云模型和其在缺損數(shù)據(jù)的推理預(yù)測中的應(yīng)用做一簡述。
云模型:云是用語言值描述某個定性概念與其數(shù)值表示的不確定性轉(zhuǎn)換的模型。簡單地說,云模型是定性定量間轉(zhuǎn)換的不確定性模型。該模型用期望Ex,熵En,超熵He三個數(shù)值來表示,把模糊性和隨機性完全集成到一起,構(gòu)成定性和定量間的映射,作為表示的基礎(chǔ)。期望值Ex是概念在論域中的中心值;熵En是定性概念模糊度的度量,反映了在論域中可被這個概念所接受的數(shù)值范圍熵越大,概念所接受的數(shù)值范圍也越大,概念越模糊。超熵He是熵的不確定性度量,即熵的熵,由熵的隨機性和模糊性共同決定。超熵He反映了云滴的離散程度,超熵越大,離散度越大,隸屬度的隨機性越大。
設(shè)U 是一個用精確數(shù)值表示的論域(一維的、二維的或多維的),U 上對應(yīng)著定性概念?,對于論域中的任意一個元素x,都存在一個有穩(wěn)定傾向的隨機數(shù)y=μA(x),叫作x 對概念? 的確定度,x 在U上的分布稱為云模型,簡稱為云。云由許許多多個云滴組成,一個云滴是定性概念在數(shù)量上的一次實現(xiàn),單個云滴可能無足輕重,在不同的時刻產(chǎn)生的云的細節(jié)可能不盡相同,但云的整體形狀反映了定性概念的基本特征。云的“厚度”是不均勻的,腰部最分散,“厚度”最大,而頂部和底部匯聚性好,“厚度”小。云的 “厚度”反映了確定度的隨機性的大小,靠近概念中心或遠離概念中心處,確定度的隨機性較小,而離概念中心不近不遠的位置確定度的隨機性大,這與人的主觀感受相一致。
云的數(shù)字特征用期望Ex、熵En 和超熵He 來表征,它們反映了定性概念? 整體上的定量特征。
期望Ex:是概念在論域中的中心值,在數(shù)域空間最能夠代表定性概念? 的點,即這個概念量化的最典型樣本點,通常是云重心對應(yīng)的x 值,它應(yīng)該百分之百地隸屬于這個定性概念。Ex 反映了相應(yīng)的定性知識的信息中心值。
熵En:熵反映定性概念? 的不確定性。一方面,熵反映了在數(shù)域空間可以被語言值? 接受的云滴群的范圍的大小,即模糊度,是定性概念亦此亦彼性的度量;另一方面,熵還反映了代表定性概念的云滴出現(xiàn)的隨機性;此外,熵還揭示了模糊性和隨機
性的關(guān)聯(lián)性。熵可以用來代表一個定性概念的粒度。通常,熵越大,概念越宏觀,模糊性和隨機性也越大,確定性量化越難。
超熵He:超熵是熵的不確定性的度量,即熵的熵,反映了云滴的離散程度。超熵越大,云滴離散度越大,確定度的隨機性越大,云的“厚度”也越大。
正態(tài)云是一種很典型的云模型,被應(yīng)用于多種現(xiàn)實的模擬,十分具有代表性,因此,一下著重介紹一下與模型的建立方法。
正態(tài)云模型既不是一個確定的概率密度函數(shù),也不是一條明晰的隸屬函數(shù)曲線,而是由兩次串接的正態(tài)發(fā)生器[5]生成的許多云滴組成的、一對多的泛正態(tài)數(shù)學(xué)映射圖像,是一朵可伸縮、無確定邊沿、有彈性的云圖,完成定性和定量之間的相互映射。正態(tài)云模型的期望曲線是一個正態(tài)型曲線。當(dāng)正態(tài)云模型概念對應(yīng)的論域為一維時,定性定量的不確定性轉(zhuǎn)換通過正態(tài)云發(fā)生器算法實現(xiàn)。具體算法如下:
輸入:表示定性概念? 的3 個數(shù)字特征值Ex,En,He,云滴數(shù)N。
輸出:N 個云滴的定量值,以及每個云滴代表概念? 的確定度。
Step1:生成以En 為期望值,He 為標準差的一個正態(tài)隨機數(shù)E′n;
Step2:生成以Ex 為期望值,abs(E′n)為標準差的正態(tài)隨機數(shù)x;
Step3:令x 為定性概念? 的一次具體量化值,稱為云滴;
Step4:計算y=exp(-(x-Ex)2/2(E′n)2);
Step5:令y 為x 屬于定性概念? 的確定度;
Step6:{x,y}完整地反映了這一次定性定量轉(zhuǎn)換的全部內(nèi)容;
Step7:重復(fù)Step1~Step6,直到產(chǎn)生N 個云滴。
用該算法生成的云自然地具有不均勻厚度的特性,云的腰部、頂部、底部等并不需要精確地定義,三個數(shù)字特征值足以很好地描述整個云的形態(tài)。
云模型的應(yīng)用相當(dāng)廣泛,下面僅就其在軍事中的一個應(yīng)用做一描述。在《基于正態(tài)云模型的方法求解目標可能位置域》這篇論文當(dāng)中,作者利用云模型模擬目標可能出現(xiàn)的位置,通過一系列計算,確定一個區(qū)域,從而為魚雷發(fā)射提供數(shù)據(jù)支持。
潛艇使用導(dǎo)彈攻擊對方水面艦艇已經(jīng)成為越來越重要的作戰(zhàn)方式。由于潛艇對隱蔽性的要求,攻擊前很難實時獲得友方兵力的目標指示通報,因此需要根據(jù)此前某一時刻通報的目標位置 、速度 、航向 推測出當(dāng)前的目標可能位置。
模型中已知的前提條件:1.發(fā)現(xiàn)目標時刻 ;2. 時刻目標概略中心位置 和誤差分布橢圓的方向 、半軸 和 ;3. 時刻目標速度V、航向H 及其標準偏差 , 。模型運行的目的是求出時刻T 時的目標概略中心位置( , )以及誤差分布橢圓的方向 、半軸 和 。
確定目標可能位置域模型的建模思路:按模型中的前提條件,產(chǎn)生M 個 時刻目標隨機位置點;對這M 個點中的任一個點,按照目標速度、航向誤差分別取N1、N2 個隨機速度、航向,在時刻T時產(chǎn)生N1×N2 個隨機位置點。這樣最終產(chǎn)生M×N1×N2 個隨機位置點。最后對M×N1×N2 個隨機位置點進行數(shù)據(jù)分析得T 時刻的目標位置概率橢圓。該橢圓就是魚雷發(fā)射的目標區(qū)域。
問題2:論述數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘的異同點。
答:數(shù)據(jù)挖掘(Data Mining),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數(shù)據(jù)挖掘的廣義觀點:數(shù)據(jù)挖掘就是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫中的大量的數(shù)據(jù)中“挖掘”有趣知識的過程。數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD), 也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個基本步驟。
知識發(fā)現(xiàn)過程以下步驟組成:(1)數(shù)據(jù)清理,(2)數(shù)據(jù)集成,(3)數(shù)據(jù)選擇,(4)數(shù)據(jù)變換,(5)數(shù)據(jù)挖掘,(6)模式評估,(7)知識表示。數(shù)據(jù)挖掘可以與用戶或知識庫交互。
空間數(shù)據(jù)挖掘是指從空間數(shù)據(jù)庫中抽取沒有清楚表現(xiàn)出來的隱含的知識和空間關(guān)系,并發(fā)現(xiàn)其中有用的特征和模式的理論、方法和技術(shù)。 空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的過程大致可分為以下多個步驟:數(shù)據(jù)準備、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、數(shù)據(jù)縮減或者數(shù)據(jù)變換、確定數(shù)據(jù)挖掘目標、確定知識發(fā)現(xiàn)算法、數(shù)據(jù)挖掘、模式解釋、知識評價等,而數(shù)據(jù)挖掘只是其中的一個關(guān)鍵步驟。但是為了簡便,人們常常用空間數(shù)據(jù)挖掘來代替空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)。空間數(shù)據(jù)挖掘(Spatial Data Mining, SDM)是數(shù)據(jù)挖掘的一個分支,是在空間數(shù)據(jù)庫的基礎(chǔ)上,綜合利用各種技術(shù)方法,從大量的空間數(shù)據(jù)中自動挖掘事先未知的且潛在有用的知識,提取出非顯式存在的空間關(guān)系或其它有意義的模式等,揭示出蘊含在數(shù)據(jù)背后的客觀世界的本質(zhì)規(guī)律、內(nèi)在聯(lián)系和發(fā)展趨勢,實現(xiàn)知識的自動獲取,從而提供技術(shù)決策與經(jīng)營決策的依據(jù)。數(shù)據(jù)挖掘所能發(fā)現(xiàn)的知識最常見的有以下五種類型:廣義知識、關(guān)聯(lián)知識、分類知識、聚類知識和預(yù)測型知識。而要發(fā)現(xiàn)這些知識就需要運用相應(yīng)空間數(shù)據(jù)挖掘方法。
綜上所述,二者之間的共同點是:
1. 都是基于已經(jīng)獲得的數(shù)據(jù),無論是存儲在數(shù)據(jù)庫,數(shù)據(jù)倉庫,或者是文件當(dāng)中的數(shù)據(jù)進行分析;
2. 都是從大量的信息當(dāng)中,通過數(shù)據(jù)間的內(nèi)在聯(lián)系提取出操作者感興趣的數(shù)據(jù);
3. 提取出的數(shù)據(jù)都是非顯式存儲的,或者說是隱藏在原有數(shù)據(jù)當(dāng)中的;
4. 空間數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)的一個重要分支和發(fā)展;
5. 二者均以統(tǒng)計學(xué)為數(shù)學(xué)基礎(chǔ)。
另外二者的不同之處在于:
1. 傳統(tǒng)數(shù)據(jù)挖掘處理的是數(shù)字和類別,而空間數(shù)據(jù)則是一些更為復(fù)雜的數(shù)據(jù)類型,例如:點、線、多邊形等對象;
2. 傳統(tǒng)數(shù)據(jù)挖掘通常具有顯式的輸入,而空間數(shù)據(jù)挖掘的輸入則常常是隱式的;
3. 在傳統(tǒng)數(shù)據(jù)挖掘中,有一個至關(guān)重要的前提假設(shè),即數(shù)據(jù)樣品是獨立生成的,而這一假設(shè)在空間分析中是不成立的,事實上,空間數(shù)據(jù)之間是高度自關(guān)聯(lián)的。
4. 數(shù)據(jù)源十分豐富,數(shù)據(jù)量非常龐大,數(shù)據(jù)類型多,存取方法復(fù)雜;
5. 應(yīng)用領(lǐng)域十分廣泛,只要與空間位置相關(guān)的數(shù)據(jù),都可以對其進行挖掘;
6. 挖掘方法和算法非常多,而且大多數(shù)算法比較復(fù)雜,難度大;
7.知識的表達方式多樣,對知識的理解和評價依賴于人對客觀世界的認知程度。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03