
5 FIU-Miner應用實例二:空間數據挖掘
FIU-Miner 已被成功應用于TerraFlyGeocloud[11],支持多種在線空間數據分析的平臺。
5.1 空間數據挖掘
隨著衛(wèi)星科技的發(fā)展及移動設備的普及,獲取一個對象實時完整的空間信息變得越來越容易。為了能夠從中實時性地獲取有用信息,需要有效的方法進行空間數據挖掘??臻g數據挖掘是從大型空間數據庫里發(fā)現有趣的、不知道的但非常有價值的模式的一個過程。但由于空間數據類型和空間關系的復雜性,從空間數據庫里挖掘有趣和有價值的模式比從傳統數據庫里挖掘難度更大。
5.2 TerraFlyGeocloud介紹
空間數據挖掘可以應用在很多領域, 包括水資源管理、交通管理、災難管理、犯罪分析、疾病分析和房地產等。一個典型的空間挖掘系統應支持以下功能:在線的空間數據分析、空間數據可視化和空間數據查詢。這里,介紹一個具體的空間數據挖掘系統:美國佛羅里達國際大學(FIU) 計算機學院的高性能數據研究中心實驗室開發(fā)的TerraFlyGeoCloud 系統。TerraFlyGeoCloud是建立在TerraFly系統之上的、支持多種在線空間數據分析的一個平臺。圖8和圖9分別給出了TerraFlyGeoCloud 的系統界面和工作流程。
圖8 TerraFlyGeoCloud 系統界面
圖9 分析工作流程
為了方便使用,TerraFlyGeoCloud 還提供了一種支持類SQL語句的空間數據查詢語言MapQL。它不但支持類SQL語句,更重要的是可根據用戶的不同要求,渲染和畫圖查詢得到空間數據,比如學校周邊一定距離內所有的開放住宅、離某條公路一定距離內所有的賓館、特定地區(qū)的交通情況及不同郵政區(qū)域的平均收入情況等。MapQL的實現如圖10(a)所示,其中MapQL語句是整個過程的輸入,如圖10(b)所示,輸出則是通過MapQL引擎渲染得到的可視化地圖,如圖10(c)所示。
下面簡要講述一下使用MapQL的具體過程。如圖10(a)所示,第一步語法檢查,保證語法符合語法規(guī)則,不出現關鍵字拼寫錯誤;第二步語義檢查,確保MapQL 將要訪問的數據是正確并存在的。接下來,系統會進行語句解析并把包含樣式信息的解析結果存入空間數據庫中。樣式信息包括“渲染什么”及“在哪渲染”。當所有的樣式信息保存入庫時, 系統就會為接下來的渲染創(chuàng)建樣式配置對象。最后,從空間數據庫里加載樣式信息,并根據樣式信息為每個對象進行渲染。比如想查詢佛羅里達國際大學周圍的房價,可通過如圖10(b)的MapQL語句查詢,結果如圖10(c)。
圖10 MapQL的實現、語句查詢及可視化地圖
MapQL提供了一個比地理信息系統應用程序編程接口(API)更友好的界面,使得開發(fā)人員和終端用戶能夠便捷自如地使用TerraFly地圖,同時能夠靈活地創(chuàng)建自己的地圖。
除了支持地理信息系統的各種應用外,TerraFly平臺還有豐富的GIS數據集, 包括美國和加拿大的道路數據、美國人口普查和社會經濟數據、1 500萬企業(yè)的統計和管理記錄、200萬專業(yè)醫(yī)生的數據、各種公共場所的數據集和全球環(huán)境數據等, 用戶可以通過TerraFlyGeoCloud瀏覽、使用和挖掘這些數據集。
5.3 TerraFlyGeocloud使用難點
通過對TerraFlyGeoCloud的進一步使用和研究,發(fā)現了如下幾個問題。這些問題非常典型,普遍存在于這類空間數據挖掘系統中。
(1)寫MapQL查詢語句的難度。雖然大多數開發(fā)人員熟悉SQL語句,可以很快地寫MapQL查詢。但對不熟悉SQL的用戶而言,學習MapQL還是比較困難的。所以, 對絕大多數用戶而言,利用MapQL來完成空間分析任務仍然比較困難。
(2)空間分析任務的復雜性。一個典型的空間分析任務往往涉及幾個子任務。此外,這些子任務之間并不是完全獨立的。其中一些子任務的輸出往往是其他子任務的輸入。根據這種依賴關系,一個空間數據分析任務可以自然地表示為一個工作流。但構造和管理這樣一個復雜的工作流程是空間數據分析的一個難點。
(3)順序執(zhí)行空間數據分析的工作流的效率往往很低。盡管一個工作流中的子任務并不是互相依賴,但這些子任務只能由最終用戶來順序執(zhí)行。這種順序執(zhí)行的方式沒有充分利用分布式計算環(huán)境來并行執(zhí)行獨立的子任務和優(yōu)化系統性能。
這3個問題給空間數據挖掘系統帶來了很大的局限,限制了用戶對系統的有效使用。將FIU-Miner 與TerraFlyGeocloud結合來解決這些問題。首先,根據序列模式挖掘算法從TerraFlyGeoCloud的MapQL查詢日志中發(fā)現順序查詢模式[11]。然后利用這些順序查詢模式,在FIU-Miner里面構建空間數據分析任務的工作流。最后使用FIU-Miner來最大化子任務的并行執(zhí)行, 優(yōu)化工作流的執(zhí)行效率。
TerraFlyGeocloud+FIU-Miner系統架構如圖11所示。主要有4層:用戶界面層、地理空間服務層、計算服務層和空間數據存儲和管理層。其中,從MapQL的查詢日志中挖掘查詢模式是一個關鍵的步驟,這個步驟發(fā)生在地理空間服務層。挖掘出的順序查詢模式可以用來產生查詢模板和構造空間分析的工作流。序列模式里面的每個查詢對應于工作流里面的一個子任務。FIU-Miner在計算服務層,主要負責工作流的構建、管理、調度和執(zhí)行。
圖11 TerraFlyGeocloud+FIU-Miner 系統架構
5.4 應用實例
利用FIU-Miner,系統可以通過構建空間數據分析的工作流來優(yōu)化分析流程, 提高分析效率。下面通過一個詳細的房產投資案例來展示[12]。
房產投資案例的目的是要尋找具有良好升值潛力的房產。如果一棟房產本身價值很低,但它周圍的房產卻相對來說比其高,那么對此房產進行投資將是一個非常不錯的選擇。根據歷史查詢數據,通過序列模式挖掘,發(fā)現這個任務一般有下面幾個步驟:
● 計算不同地區(qū)的平均價格,比較鄰近地區(qū)的價格,確定感興趣的地區(qū);
● 對感興趣的地區(qū)進行空間自相關分析,確定候選地區(qū);
● 驗證候選地區(qū)罪案率和平均收入, 確定選擇結果;
● 在地圖上對結果進行可視化。
這個任務的工作流如圖12所示。工作流里面所有的子任務都是由FIU-Miner來調度并在分布式環(huán)境中執(zhí)行的。
圖12 房產投資案例的工作流程
5.5 應用亮點評述
上述實際案例中,將FIU-Miner應用于空間數據挖掘,解決了空間數據挖掘中寫MapQL查詢語句困難、空間分析任務復雜性高及順序執(zhí)行空間數據分析工作流效率低這3個主要的難題。用戶可以輕松地從TerraFlyGeoCloud的MapQL查詢日志中發(fā)現順序查詢模式,并利用這些順序查詢模式,在FIU-Miner里面構建空間數據分析任務的工作流。最后使用FIU-Miner強大的分布式處理能力,提高工作流的執(zhí)行效率。
基于FIU-Miner的TerraFlyGeoCloud 在線空間數據挖掘系統,已成功應用于地理(如國土邊界、水位圖等)、自然(颶風數據分析)、經濟(如房產價格分析、人均收入等數據分析)、醫(yī)療(肝癌、關節(jié)炎等疾病數據分析)、社會(犯罪數據聚類等分析)等眾多領域,受到政府、企業(yè)、研究機構及個人的極大重視。
6 FIU-Miner應用實例三:庫存管理數據挖掘
FIU-Miner作為庫存管理數據挖掘平臺已被成功應用于企業(yè),成為商務智能數據挖掘應用中一個典范[13]。
6.1 庫存管理數據挖掘任務
庫存管理是指對制造業(yè)或服務業(yè)生產、經營全過程的各種物品、產品以及其他資源進行管理和控制,使其儲備保持在經濟合理的水平上。高效、可靠的庫存管理可以為制定合理的貨物安全庫存量和訂貨量提供可靠的依據,提高企業(yè)管理人員的決策質量,從而減小資金的占用和缺貨損失,提高企業(yè)的經濟效益。當今的零售業(yè), 供應商往往需要給不同的地區(qū)存儲大量的貨物,且交易活動復雜頻繁,必須提前合理規(guī)劃好庫存方案?,F有的庫存管理系統(如InFlow和Inventoria)僅僅應用傳統的統計分析方法分析現存的庫存數據,對當前的庫存信息分布進行跟蹤監(jiān)控。進行庫存決策時僅考慮單一算法模型,而無法根據綜合分析歷史數據和市場的實際狀況快速做出正確決策方案。因此,如何利用大數據挖掘技術開發(fā)智能庫存管理平臺, 實現高效可靠的庫存預測、庫存異常檢測及庫齡分析等任務,成為當前大型零售企業(yè)亟需解決的問題。
6.2 庫存管理數據挖掘挑戰(zhàn)
隨著庫存管理數據日益龐大,庫存管理系統處理問題的難度也在不斷攀升。以國內某大型電子消費產品制造企業(yè)的兩大類電視產品(液晶和等離子)交易為例,其庫存管理數據挖掘面臨的主要挑戰(zhàn)如下。
(1)交易記錄繁多:現代大型零售企業(yè)業(yè)務規(guī)模龐大,產生的交易記錄繁多,從2011年1月到2013年12月有將近6 000萬條,約50 GB數據。
(2)屬性關系復雜:庫存數據屬性繁多,記錄中包含種類眾多的屬性,有將近200個;數據層次繁多,在不同數據維度上,記錄可屬于不同的層次;庫存數據和屬性相關性復雜等。
(3)處理速度緩慢:現有數據分析工具大多基于內存,無法加載龐大數據集, 對數據輸入格式要求嚴格,適用性不強, 運行速度慢,無法響應大數據的要求。
因此,現代庫存管理需要采用大數據挖掘技術開發(fā)高效、可靠、能處理大規(guī)模數據的智能庫存管理系統。
6.3 具體例子
筆者的研究團隊開發(fā)了基于FIU-Miner 的智能庫存管理系統iMiner[13],該系統為智能庫存管理定制了專門的數據挖掘算法,實現了多個功能模塊,開發(fā)了大規(guī)模的數據分析平臺系統。
6.3.1 系統概況
圖13展示了iMiner系統整體框架、各功能層次和模塊。系統自底向上分為物理資源層、任務和系統管理層、數據分析層、用戶界面層。該系統分析平臺建立在支持高效數據分析的分布式系統——FIU-Miner中。這一分析平臺可提供高效率的數據分析處理工作流,并且可以有效地集成多種數據分析工具和語言,如R、Weka、Python、Hadoop等。數據分析層包括了數據預處理和各類數據挖掘算法,其中關鍵因素提取算法有助于提取對入庫/出庫量產生較大影響的因素或者對物料異常情況有決定性影響的因素;分布式K 近鄰算法有助于查找入庫/出庫行為相似的物料;分布式回歸分析有助于對大盤及具體物料的入庫/出庫量進行有效預測。
圖13 iMiner系統架構
系統主要聚焦于庫存預測、庫存異常檢測、庫齡挖掘三大核心功能,通過綜合評價和集成各種算法的輸出使得分析結果更加穩(wěn)定和準確。用戶界面層囊括了多種庫存分析結果的展示,用戶可以通過屬性選擇來查看不同的分析結果,也可以通過對個別參數的修改來更新分析結果,實現實時的人機互動。展示結果不僅有列表顯示,還提供了各種直觀的圖表顯示,更有利于用戶接收到數據整體分布、趨勢和關鍵信息點。
6.3.2 系統功能模塊
iMiner主要包含庫存預測(inventory forecasting)、庫存異常檢測(inventory anomaly detection)及庫齡分析(inventory aging analysis)三大功能模塊,如圖14所示。
圖14 iMiner主要功能模塊
(1)庫存預測
庫存管理中,精確和可信的庫存預測是關鍵。高效、可靠的預測可以大大減少庫存負荷,降低額外的貨物維護和損耗。庫存數據為標準的時序數據,數據量大、時間跨度長、涵蓋面廣、規(guī)律性差。iMiner 采用一種動態(tài)預測模型,首先根據歷史數據對出庫的基數進行預測,而后結合出庫數據的長期趨勢、周期性因素及事件性因素對基數進行動態(tài)調整,從而得到最終的預測結果。
(2)庫存異常檢測
對庫存指標進行監(jiān)控而達到異常檢測的目的,是庫存管理中不可或缺的部分。iMiner提供了多種庫存指標的實時監(jiān)控(如庫存周轉率、庫存周轉天數、存銷比、周轉提升率、庫存資金周轉率)和不同粒度下的指標查詢(如按時間周期包括按周和按月、按指定公司和物料、按指定物料類別和公司、按指定物料類別等)。同時, 系統從庫存數據多個角度入手,及時、準確地發(fā)現庫存的波動;采用相關物料的協同異常判定,使得對于異常結果的判定更有意義,系統還能夠同時準確判定整體性指標變化和個別指標異常。
(3)庫齡分析
庫齡挖掘是為了防止貨物積壓,提前發(fā)現潛在積壓貨物,減小貨物積壓投資。iMiner系統利用統計回歸模型實現庫齡分析,并提供了庫齡分析的基本工具和高級工具?;竟ぞ咴试S用戶可視化分析給定貨物的庫齡分布,比較不同貨物中當前的和歷史的庫齡變化,高級工具能夠幫助用戶找到與積壓相關的貨物屬性。iMiner系統中,庫齡挖掘主要包含了庫齡相關分類和標準、庫齡計算、庫齡金額計算以及安全庫存的計算等功能模塊。
6.4 應用亮點評述
iMiner是一種新的智能庫存管理系統,該系統能夠幫助大型供應商實現高效的庫存管理,著力解決大數據時代現有庫存管理面臨的兩大關鍵問題。
(1)大規(guī)模庫存數據分析
iMiner系統分析平臺建立在支持高效數據分析的分布式系統——FIU-Miner中。這一分析平臺是在分布式環(huán)境中管理所有的交易數據,因此,iMiner能夠自動配置和執(zhí)行大規(guī)模庫存數據預處理和數據分析任務。
(2)復雜庫存任務管理
iMiner結合多種先進的數據挖掘算法來分析庫存數據。在實踐中,系統采用多種回歸模型,結合時間序列分析方法來實現庫存預測;運用情境感知異常檢測算法來識別異常貨物;利用統計回歸模型來進行庫齡分析。從而實現高效、準確的復雜庫存任務管理。
基于FIU-Miner的iMiner商務智能庫存管理平臺已經應用于企業(yè),成功解決了產品出庫預測、指標異常檢查、庫齡挖掘等對企業(yè)產品生產和經濟效益有重要影響的實際問題。
7 結束語
大數據的復雜特征對數據挖掘在理論和算法研究方面提出了新的要求和挑戰(zhàn)。大數據是現象,核心是挖掘數據中蘊含的潛在信息,并使它們發(fā)揮價值。數據挖掘是理論技術和實際應用的完美結合。
本文通過目前業(yè)界對大數據的理解和認識,結合筆者及其研究團隊多年來對大數據挖掘的深入理論研究及廣泛的應用研究,綜合凝練出大數據的核心架構, 即大數據挖掘的本質是應用、算法、數據和平臺4個要素的有機結合。在此架構下, 從應用的角度重點介紹了研究團隊開發(fā)的能夠快速、有效地進行各類數據挖掘任務的數據挖掘系統FIU-Miner,并具體介紹了基于FIU-M i ner的高端制造業(yè)數據挖掘、空間數據挖掘和商務智能數據挖掘3個典型的應用案例。FIU-Miner在這些領域的成功應用也說明了提出的數據挖掘核心架構的效用。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數據生態(tài)中兩類核心工具的差異與協同 在數字化轉型加速的今天,企業(yè)對數據的需求已從 “存儲” 轉向 “ ...
2025-09-19CDA 數據分析師:讓統計基本概念成為業(yè)務決策的底層邏輯 統計基本概念是商業(yè)數據分析的 “基礎語言”—— 從描述數據分布的 “均 ...
2025-09-19CDA 數據分析師:表結構數據 “獲取 - 加工 - 使用” 全流程的賦能者 表結構數據(如數據庫表、Excel 表、CSV 文件)是企業(yè)數字 ...
2025-09-19SQL Server 中 CONVERT 函數的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數據處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數據庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數據分析師:解鎖表結構數據特征價值的專業(yè)核心 表結構數據(以 “行 - 列” 規(guī)范存儲的結構化數據,如數據庫表、Excel 表、 ...
2025-09-17Excel 導入數據含缺失值?詳解 dropna 函數的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數據時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數據分析與統計學領域,假設檢驗是驗證研究假設、判斷數據差異是否 “ ...
2025-09-16CDA 數據分析師:掌控表格結構數據全功能周期的專業(yè)操盤手 表格結構數據(以 “行 - 列” 存儲的結構化數據,如 Excel 表、數據 ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數據分析師:激活表格結構數據價值的核心操盤手 表格結構數據(如 Excel 表格、數據庫表)是企業(yè)最基礎、最核心的數據形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數據爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數據的科學計數法問題 為幫助 Python 數據從業(yè)者解決pd.read_csv讀取長浮點數據時的科學計數法問題 ...
2025-09-12CDA 數據分析師:業(yè)務數據分析步驟的落地者與價值優(yōu)化者 業(yè)務數據分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數據把關的實戰(zhàn)指南 在業(yè)務系統落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數據驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11