
在這個大數(shù)據(jù)時代,空間數(shù)據(jù)正在從各個領(lǐng)域飛速累計(jì)??臻g數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘的一部分,現(xiàn)已成為人們研究空間數(shù)據(jù)的重點(diǎn)學(xué)科。
空間數(shù)據(jù)挖掘(Spatial Data Mining,SDM)即找出開始并不知道但是卻隱藏在空間數(shù)據(jù)中潛在的、有價(jià)值的規(guī)則的過程。具體來說,空間數(shù)據(jù)挖掘就是在海量空間數(shù)據(jù)集中,結(jié)合確定集、模糊集、仿生學(xué)等理論,利用人工智能、模式識別等科學(xué)技術(shù),提取出令人相信的、潛在有用的知識,發(fā)現(xiàn)空間數(shù)據(jù)集背后隱藏的規(guī)律、聯(lián)系,為空間決策提供理論技術(shù)上的依據(jù)[1]。
1 空間數(shù)據(jù)挖掘的一般步驟
空間數(shù)據(jù)挖掘系統(tǒng)大致可以分為以下步驟:
(1)空間數(shù)據(jù)準(zhǔn)備:選擇合適的多種數(shù)據(jù)來源,包括地圖數(shù)據(jù)、影像數(shù)據(jù)、地形數(shù)據(jù)、屬性數(shù)據(jù)等。
(2)空間數(shù)據(jù)預(yù)處理和特征提?。簲?shù)據(jù)預(yù)處理目的是去除數(shù)據(jù)中的噪聲,包括對數(shù)據(jù)的清洗、數(shù)據(jù)的轉(zhuǎn)換、數(shù)據(jù)的集成等。特征提取是剔除掉冗余或不相關(guān)的特征并將特征轉(zhuǎn)化為適合數(shù)據(jù)挖掘的新特征。
(3)空間數(shù)據(jù)挖掘和知識評估:采用空間數(shù)據(jù)挖掘技術(shù)對空間數(shù)據(jù)進(jìn)行分析處理和預(yù)測,從而發(fā)現(xiàn)數(shù)據(jù)背后的某種聯(lián)系。然后結(jié)合具體的領(lǐng)域知識進(jìn)行評估,看是否達(dá)到預(yù)期效果。
2 空間數(shù)據(jù)挖掘的方法研究
空間數(shù)據(jù)挖掘是一門綜合型的交叉學(xué)科,結(jié)合了計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、地理學(xué)等領(lǐng)域的很多特性,產(chǎn)生了大量處理空間數(shù)據(jù)的挖掘方法。
2.1 空間關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則挖掘是尋找數(shù)據(jù)項(xiàng)之間的聯(lián)系,表達(dá)式形式是X→Y,其中X與Y是兩種不相交的數(shù)據(jù)項(xiàng)集,即X∩Y=?覫。KOPERSKI K等人將關(guān)聯(lián)規(guī)則與空間數(shù)據(jù)庫相結(jié)合,提出了空間關(guān)聯(lián)規(guī)則挖掘[2]??臻g關(guān)聯(lián)規(guī)則將數(shù)據(jù)項(xiàng)替換為了空間謂詞,一般表達(dá)形式如下:
A1∧A2∧…∧An→B1∧B2∧…∧Bm(3)
令A(yù)=(A1,A2,…,An),B=(B1,B2,…,Bm),A和B分別表示Ai和Bj的謂詞集合,A和B可以是空間謂詞或非空間謂詞,但是必須至少包含一個空間謂詞且A∩B=?覫。SHEKHAR S和HUANG Y針對空間關(guān)聯(lián)規(guī)則的特點(diǎn)提出了把關(guān)聯(lián)規(guī)則的思想泛化成空間索引點(diǎn)集的空間同位規(guī)則的概念,在不違背空間相關(guān)性的同時用鄰域替換掉了事務(wù)[3]。時空關(guān)聯(lián)不僅涉及事件在空間中的關(guān)聯(lián),還考慮了空間位置和時間序列因素。國內(nèi)的柴思躍、蘇奮振和周成虎提出了基于周期表的時空關(guān)聯(lián)規(guī)則挖掘方法[4]。
2.2 空間聚類
空間聚類分析是普通聚類分析的擴(kuò)展,不能完全按照處理普通數(shù)據(jù)的聚類分析方法來處理空間數(shù)據(jù)。由于存在地理學(xué)第一定律,即空間對象之間都存在一定的相關(guān)性,因此在空間聚類分析中,對于簇內(nèi)的定義,要考慮空間自相關(guān)這一因素。通過對空間數(shù)據(jù)進(jìn)行自相關(guān)分析,可判斷對象之間是否存在空間相關(guān)性,從而可合理判斷出對象是否可以分為一簇。
基本的聚類挖掘算法有:
(1)劃分聚類算法:存在n個數(shù)據(jù)對象,對于給定k個分組(k≤n),將n個對象通過基于一定目標(biāo)劃分規(guī)則,不停迭代、優(yōu)化,直到將這n個對象分配到k個分組中,使得每組內(nèi)部對象相似度大于組之間相似度。
(2)層次聚類算法:通過將數(shù)據(jù)不停地拆分與重組,最終把數(shù)據(jù)轉(zhuǎn)為一棵符合一定標(biāo)準(zhǔn)的具有層次結(jié)構(gòu)的聚類樹。
(3)密度聚類算法:用低密度的區(qū)域?qū)?shù)據(jù)對象進(jìn)行分割,最終將數(shù)據(jù)對象聚類成為若干高密度的區(qū)域。
(4)圖聚類算法:用空間結(jié)點(diǎn)表示每個數(shù)據(jù)對象,然后基于一定標(biāo)準(zhǔn)形成若干子圖,最后把所有子圖聚類成一個包含所有空間對象的整圖,子圖則代表一個個空間簇。
(5)網(wǎng)格聚類算法:把空間區(qū)域分割成具有多重分辨率的和有網(wǎng)格結(jié)構(gòu)特性的若干網(wǎng)格單元,在網(wǎng)格單元上對數(shù)據(jù)進(jìn)行聚類。
(6)模型聚類算法:借助一定的數(shù)學(xué)模型,使用最佳擬合數(shù)據(jù)的數(shù)學(xué)模型來對數(shù)據(jù)進(jìn)行聚類,每一個簇用一個概率分布表示。
僅采用一種算法通常無法達(dá)到令人滿意的預(yù)期結(jié)果,王家耀、張雪萍、周海燕將遺傳算法與K-均值算法結(jié)合提出了用于空間聚類分析的遺傳K-均值算法[5]?,F(xiàn)實(shí)空間環(huán)境中,存在很多像道路、橋梁、河流的障礙物,張雪萍、楊騰飛等人把K-Medoids算法與量子粒子群算法結(jié)合進(jìn)行帶有空間障礙約束的聚類分析[6]。
2.3 空間分類
分類,簡單地說是通過學(xué)習(xí)得到一定的分類模型,然后把數(shù)據(jù)對象按照分類模型劃分至預(yù)先給定類的過程??臻g分類時,不僅考慮數(shù)據(jù)對象的非空間屬性,還要顧及鄰近對象的非空間屬性對其類別的影響,是一種監(jiān)督式的分析方法。
空間分類挖掘方法有統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)的方法和神經(jīng)網(wǎng)絡(luò)方法等。貝葉斯分類器是基于統(tǒng)計(jì)學(xué)的方法,利用數(shù)據(jù)對象的先驗(yàn)概率和貝葉斯公式計(jì)算出其后驗(yàn)概率,選擇較大后驗(yàn)概率的類作為該對象映射的類別。決策樹分類器是機(jī)器學(xué)習(xí)的方法,采取從上到下的貪心策略,比較決策樹內(nèi)部節(jié)點(diǎn)的屬性值來往下建立決策樹的各分支,每個葉節(jié)點(diǎn)代表滿足某個條件的屬性值,從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑表示一條合適的規(guī)則。支持向量機(jī)也是機(jī)器學(xué)習(xí)的方法,思路是使用非線性映射把訓(xùn)練數(shù)據(jù)集映射到較高維,然后尋找出最大邊緣超平面,將數(shù)據(jù)對象分類。神經(jīng)網(wǎng)絡(luò)是一種模擬人神經(jīng)的網(wǎng)絡(luò),由一組連接的輸入和輸出單元組成,賦予各個連接相應(yīng)的權(quán)值,通過調(diào)節(jié)各連接的權(quán)值使得數(shù)據(jù)對象得到正確分類。
針對融入空間自相關(guān)性的空間分類挖掘,SHEKHAR S等人使用空間自回歸模型和基于貝葉斯的馬可夫隨機(jī)場進(jìn)行空間分類挖掘[7],汪閩、駱劍承、周成虎等人將高斯馬爾可夫隨機(jī)場與支持向量機(jī)結(jié)合并將其用于遙感圖像的信息提取[8]。
2.4 其他空間挖掘方法
空間數(shù)據(jù)挖掘的方法多種多樣,其他還包括:空間分析的方法,即利用GIS的方法、技術(shù)和理論對空間數(shù)據(jù)進(jìn)行加工處理,從而找出未知有用的信息模式;基于模糊集、粗糙集和云理論的方法可用來分析具有不確定性的空間數(shù)據(jù);可視化方法是對空間數(shù)據(jù)對象的視覺表示,通過一定技術(shù)用圖像的形式表達(dá)要分析的空間數(shù)據(jù),從而得到其隱含的信息;國內(nèi)張自嘉、岳邦珊、潘琦等人將蟻群算法與自適應(yīng)濾波的模糊聚類算法相結(jié)合用以對圖像進(jìn)行分割[9]。
3 結(jié)論
空間數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘的延伸,有很好的傳統(tǒng)數(shù)據(jù)挖掘方法理論的基礎(chǔ),雖然取得了很大進(jìn)步,然而其理論和方法仍需進(jìn)一步的深入研究。伴隨著大數(shù)據(jù)時代,面對越來越多的空間數(shù)據(jù),提升數(shù)據(jù)挖掘的準(zhǔn)確度和精度是一個有待研究的問題。同時現(xiàn)在流行的空間數(shù)據(jù)挖掘算法的時間復(fù)雜度仍停留在O(nlog(n))~O(n3)之間,處理大量的異構(gòu)數(shù)據(jù),數(shù)據(jù)挖掘算法的效率也需要進(jìn)一步提高。數(shù)據(jù)挖掘在云環(huán)境下已經(jīng)得到很好的應(yīng)用[10],對于處理空間數(shù)據(jù)的空間云計(jì)算是有待學(xué)者們研究的方向。大多數(shù)空間數(shù)據(jù)挖掘算法沒有考慮含有障礙約束的情況,如何解決現(xiàn)實(shí)中障礙約束問題值得探討。帶有時間屬性的空間數(shù)據(jù)呈現(xiàn)出了一種動態(tài)、可變的空間現(xiàn)象,時空數(shù)據(jù)挖掘將是未來研究的重點(diǎn)。
由于數(shù)據(jù)挖掘涉及多種學(xué)科,其基本理論與方法也已經(jīng)比較成熟,針對空間數(shù)據(jù)挖掘,如何合理地利用和拓展這些理論方法以實(shí)現(xiàn)對空間數(shù)據(jù)的挖掘仍將是研究人員們需要長期努力的方向。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03