
在這個大數(shù)據(jù)時代,空間數(shù)據(jù)正在從各個領(lǐng)域飛速累計??臻g數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘的一部分,現(xiàn)已成為人們研究空間數(shù)據(jù)的重點學(xué)科。
空間數(shù)據(jù)挖掘(Spatial Data Mining,SDM)即找出開始并不知道但是卻隱藏在空間數(shù)據(jù)中潛在的、有價值的規(guī)則的過程。具體來說,空間數(shù)據(jù)挖掘就是在海量空間數(shù)據(jù)集中,結(jié)合確定集、模糊集、仿生學(xué)等理論,利用人工智能、模式識別等科學(xué)技術(shù),提取出令人相信的、潛在有用的知識,發(fā)現(xiàn)空間數(shù)據(jù)集背后隱藏的規(guī)律、聯(lián)系,為空間決策提供理論技術(shù)上的依據(jù)[1]。
1 空間數(shù)據(jù)挖掘的一般步驟
空間數(shù)據(jù)挖掘系統(tǒng)大致可以分為以下步驟:
(1)空間數(shù)據(jù)準(zhǔn)備:選擇合適的多種數(shù)據(jù)來源,包括地圖數(shù)據(jù)、影像數(shù)據(jù)、地形數(shù)據(jù)、屬性數(shù)據(jù)等。
(2)空間數(shù)據(jù)預(yù)處理和特征提取:數(shù)據(jù)預(yù)處理目的是去除數(shù)據(jù)中的噪聲,包括對數(shù)據(jù)的清洗、數(shù)據(jù)的轉(zhuǎn)換、數(shù)據(jù)的集成等。特征提取是剔除掉冗余或不相關(guān)的特征并將特征轉(zhuǎn)化為適合數(shù)據(jù)挖掘的新特征。
(3)空間數(shù)據(jù)挖掘和知識評估:采用空間數(shù)據(jù)挖掘技術(shù)對空間數(shù)據(jù)進(jìn)行分析處理和預(yù)測,從而發(fā)現(xiàn)數(shù)據(jù)背后的某種聯(lián)系。然后結(jié)合具體的領(lǐng)域知識進(jìn)行評估,看是否達(dá)到預(yù)期效果。
2 空間數(shù)據(jù)挖掘的方法研究
空間數(shù)據(jù)挖掘是一門綜合型的交叉學(xué)科,結(jié)合了計算機科學(xué)、統(tǒng)計學(xué)、地理學(xué)等領(lǐng)域的很多特性,產(chǎn)生了大量處理空間數(shù)據(jù)的挖掘方法。
2.1 空間關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則挖掘是尋找數(shù)據(jù)項之間的聯(lián)系,表達(dá)式形式是X→Y,其中X與Y是兩種不相交的數(shù)據(jù)項集,即X∩Y=?覫。KOPERSKI K等人將關(guān)聯(lián)規(guī)則與空間數(shù)據(jù)庫相結(jié)合,提出了空間關(guān)聯(lián)規(guī)則挖掘[2]??臻g關(guān)聯(lián)規(guī)則將數(shù)據(jù)項替換為了空間謂詞,一般表達(dá)形式如下:
A1∧A2∧…∧An→B1∧B2∧…∧Bm(3)
令A(yù)=(A1,A2,…,An),B=(B1,B2,…,Bm),A和B分別表示Ai和Bj的謂詞集合,A和B可以是空間謂詞或非空間謂詞,但是必須至少包含一個空間謂詞且A∩B=?覫。SHEKHAR S和HUANG Y針對空間關(guān)聯(lián)規(guī)則的特點提出了把關(guān)聯(lián)規(guī)則的思想泛化成空間索引點集的空間同位規(guī)則的概念,在不違背空間相關(guān)性的同時用鄰域替換掉了事務(wù)[3]。時空關(guān)聯(lián)不僅涉及事件在空間中的關(guān)聯(lián),還考慮了空間位置和時間序列因素。國內(nèi)的柴思躍、蘇奮振和周成虎提出了基于周期表的時空關(guān)聯(lián)規(guī)則挖掘方法[4]。
2.2 空間聚類
空間聚類分析是普通聚類分析的擴展,不能完全按照處理普通數(shù)據(jù)的聚類分析方法來處理空間數(shù)據(jù)。由于存在地理學(xué)第一定律,即空間對象之間都存在一定的相關(guān)性,因此在空間聚類分析中,對于簇內(nèi)的定義,要考慮空間自相關(guān)這一因素。通過對空間數(shù)據(jù)進(jìn)行自相關(guān)分析,可判斷對象之間是否存在空間相關(guān)性,從而可合理判斷出對象是否可以分為一簇。
基本的聚類挖掘算法有:
(1)劃分聚類算法:存在n個數(shù)據(jù)對象,對于給定k個分組(k≤n),將n個對象通過基于一定目標(biāo)劃分規(guī)則,不停迭代、優(yōu)化,直到將這n個對象分配到k個分組中,使得每組內(nèi)部對象相似度大于組之間相似度。
(2)層次聚類算法:通過將數(shù)據(jù)不停地拆分與重組,最終把數(shù)據(jù)轉(zhuǎn)為一棵符合一定標(biāo)準(zhǔn)的具有層次結(jié)構(gòu)的聚類樹。
(3)密度聚類算法:用低密度的區(qū)域?qū)?shù)據(jù)對象進(jìn)行分割,最終將數(shù)據(jù)對象聚類成為若干高密度的區(qū)域。
(4)圖聚類算法:用空間結(jié)點表示每個數(shù)據(jù)對象,然后基于一定標(biāo)準(zhǔn)形成若干子圖,最后把所有子圖聚類成一個包含所有空間對象的整圖,子圖則代表一個個空間簇。
(5)網(wǎng)格聚類算法:把空間區(qū)域分割成具有多重分辨率的和有網(wǎng)格結(jié)構(gòu)特性的若干網(wǎng)格單元,在網(wǎng)格單元上對數(shù)據(jù)進(jìn)行聚類。
(6)模型聚類算法:借助一定的數(shù)學(xué)模型,使用最佳擬合數(shù)據(jù)的數(shù)學(xué)模型來對數(shù)據(jù)進(jìn)行聚類,每一個簇用一個概率分布表示。
僅采用一種算法通常無法達(dá)到令人滿意的預(yù)期結(jié)果,王家耀、張雪萍、周海燕將遺傳算法與K-均值算法結(jié)合提出了用于空間聚類分析的遺傳K-均值算法[5]。現(xiàn)實空間環(huán)境中,存在很多像道路、橋梁、河流的障礙物,張雪萍、楊騰飛等人把K-Medoids算法與量子粒子群算法結(jié)合進(jìn)行帶有空間障礙約束的聚類分析[6]。
2.3 空間分類
分類,簡單地說是通過學(xué)習(xí)得到一定的分類模型,然后把數(shù)據(jù)對象按照分類模型劃分至預(yù)先給定類的過程??臻g分類時,不僅考慮數(shù)據(jù)對象的非空間屬性,還要顧及鄰近對象的非空間屬性對其類別的影響,是一種監(jiān)督式的分析方法。
空間分類挖掘方法有統(tǒng)計方法、機器學(xué)習(xí)的方法和神經(jīng)網(wǎng)絡(luò)方法等。貝葉斯分類器是基于統(tǒng)計學(xué)的方法,利用數(shù)據(jù)對象的先驗概率和貝葉斯公式計算出其后驗概率,選擇較大后驗概率的類作為該對象映射的類別。決策樹分類器是機器學(xué)習(xí)的方法,采取從上到下的貪心策略,比較決策樹內(nèi)部節(jié)點的屬性值來往下建立決策樹的各分支,每個葉節(jié)點代表滿足某個條件的屬性值,從根節(jié)點到葉節(jié)點的路徑表示一條合適的規(guī)則。支持向量機也是機器學(xué)習(xí)的方法,思路是使用非線性映射把訓(xùn)練數(shù)據(jù)集映射到較高維,然后尋找出最大邊緣超平面,將數(shù)據(jù)對象分類。神經(jīng)網(wǎng)絡(luò)是一種模擬人神經(jīng)的網(wǎng)絡(luò),由一組連接的輸入和輸出單元組成,賦予各個連接相應(yīng)的權(quán)值,通過調(diào)節(jié)各連接的權(quán)值使得數(shù)據(jù)對象得到正確分類。
針對融入空間自相關(guān)性的空間分類挖掘,SHEKHAR S等人使用空間自回歸模型和基于貝葉斯的馬可夫隨機場進(jìn)行空間分類挖掘[7],汪閩、駱劍承、周成虎等人將高斯馬爾可夫隨機場與支持向量機結(jié)合并將其用于遙感圖像的信息提取[8]。
2.4 其他空間挖掘方法
空間數(shù)據(jù)挖掘的方法多種多樣,其他還包括:空間分析的方法,即利用GIS的方法、技術(shù)和理論對空間數(shù)據(jù)進(jìn)行加工處理,從而找出未知有用的信息模式;基于模糊集、粗糙集和云理論的方法可用來分析具有不確定性的空間數(shù)據(jù);可視化方法是對空間數(shù)據(jù)對象的視覺表示,通過一定技術(shù)用圖像的形式表達(dá)要分析的空間數(shù)據(jù),從而得到其隱含的信息;國內(nèi)張自嘉、岳邦珊、潘琦等人將蟻群算法與自適應(yīng)濾波的模糊聚類算法相結(jié)合用以對圖像進(jìn)行分割[9]。
3 結(jié)論
空間數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘的延伸,有很好的傳統(tǒng)數(shù)據(jù)挖掘方法理論的基礎(chǔ),雖然取得了很大進(jìn)步,然而其理論和方法仍需進(jìn)一步的深入研究。伴隨著大數(shù)據(jù)時代,面對越來越多的空間數(shù)據(jù),提升數(shù)據(jù)挖掘的準(zhǔn)確度和精度是一個有待研究的問題。同時現(xiàn)在流行的空間數(shù)據(jù)挖掘算法的時間復(fù)雜度仍停留在O(nlog(n))~O(n3)之間,處理大量的異構(gòu)數(shù)據(jù),數(shù)據(jù)挖掘算法的效率也需要進(jìn)一步提高。數(shù)據(jù)挖掘在云環(huán)境下已經(jīng)得到很好的應(yīng)用[10],對于處理空間數(shù)據(jù)的空間云計算是有待學(xué)者們研究的方向。大多數(shù)空間數(shù)據(jù)挖掘算法沒有考慮含有障礙約束的情況,如何解決現(xiàn)實中障礙約束問題值得探討。帶有時間屬性的空間數(shù)據(jù)呈現(xiàn)出了一種動態(tài)、可變的空間現(xiàn)象,時空數(shù)據(jù)挖掘將是未來研究的重點。
由于數(shù)據(jù)挖掘涉及多種學(xué)科,其基本理論與方法也已經(jīng)比較成熟,針對空間數(shù)據(jù)挖掘,如何合理地利用和拓展這些理論方法以實現(xiàn)對空間數(shù)據(jù)的挖掘仍將是研究人員們需要長期努力的方向。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10