
大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘:從應(yīng)用的角度看大數(shù)據(jù)挖掘(下)
5 FIU-Miner應(yīng)用實(shí)例二:空間數(shù)據(jù)挖掘
FIU-Miner 已被成功應(yīng)用于TerraFlyGeocloud[11],支持多種在線空間數(shù)據(jù)分析的平臺(tái)。
5.1 空間數(shù)據(jù)挖掘
隨著衛(wèi)星科技的發(fā)展及移動(dòng)設(shè)備的普及,獲取一個(gè)對(duì)象實(shí)時(shí)完整的空間信息變得越來越容易。為了能夠從中實(shí)時(shí)性地獲取有用信息,需要有效的方法進(jìn)行空間數(shù)據(jù)挖掘。空間數(shù)據(jù)挖掘是從大型空間數(shù)據(jù)庫(kù)里發(fā)現(xiàn)有趣的、不知道的但非常有價(jià)值的模式的一個(gè)過程。但由于空間數(shù)據(jù)類型和空間關(guān)系的復(fù)雜性,從空間數(shù)據(jù)庫(kù)里挖掘有趣和有價(jià)值的模式比從傳統(tǒng)數(shù)據(jù)庫(kù)里挖掘難度更大。
5.2 TerraFlyGeocloud介紹
空間數(shù)據(jù)挖掘可以應(yīng)用在很多領(lǐng)域, 包括水資源管理、交通管理、災(zāi)難管理、犯罪分析、疾病分析和房地產(chǎn)等。一個(gè)典型的空間挖掘系統(tǒng)應(yīng)支持以下功能:在線的空間數(shù)據(jù)分析、空間數(shù)據(jù)可視化和空間數(shù)據(jù)查詢。這里,介紹一個(gè)具體的空間數(shù)據(jù)挖掘系統(tǒng):美國(guó)佛羅里達(dá)國(guó)際大學(xué)(FIU) 計(jì)算機(jī)學(xué)院的高性能數(shù)據(jù)研究中心實(shí)驗(yàn)室開發(fā)的TerraFlyGeoCloud 系統(tǒng)。TerraFlyGeoCloud是建立在TerraFly系統(tǒng)之上的、支持多種在線空間數(shù)據(jù)分析的一個(gè)平臺(tái)。圖8和圖9分別給出了TerraFlyGeoCloud 的系統(tǒng)界面和工作流程。
圖8 TerraFlyGeoCloud 系統(tǒng)界面
圖9 分析工作流程
為了方便使用,TerraFlyGeoCloud 還提供了一種支持類SQL語句的空間數(shù)據(jù)查詢語言MapQL。它不但支持類SQL語句,更重要的是可根據(jù)用戶的不同要求,渲染和畫圖查詢得到空間數(shù)據(jù),比如學(xué)校周邊一定距離內(nèi)所有的開放住宅、離某條公路一定距離內(nèi)所有的賓館、特定地區(qū)的交通情況及不同郵政區(qū)域的平均收入情況等。MapQL的實(shí)現(xiàn)如圖10(a)所示,其中MapQL語句是整個(gè)過程的輸入,如圖10(b)所示,輸出則是通過MapQL引擎渲染得到的可視化地圖,如圖10(c)所示。
下面簡(jiǎn)要講述一下使用MapQL的具體過程。如圖10(a)所示,第一步語法檢查,保證語法符合語法規(guī)則,不出現(xiàn)關(guān)鍵字拼寫錯(cuò)誤;第二步語義檢查,確保MapQL 將要訪問的數(shù)據(jù)是正確并存在的。接下來,系統(tǒng)會(huì)進(jìn)行語句解析并把包含樣式信息的解析結(jié)果存入空間數(shù)據(jù)庫(kù)中。樣式信息包括“渲染什么”及“在哪渲染”。當(dāng)所有的樣式信息保存入庫(kù)時(shí), 系統(tǒng)就會(huì)為接下來的渲染創(chuàng)建樣式配置對(duì)象。最后,從空間數(shù)據(jù)庫(kù)里加載樣式信息,并根據(jù)樣式信息為每個(gè)對(duì)象進(jìn)行渲染。比如想查詢佛羅里達(dá)國(guó)際大學(xué)周圍的房?jī)r(jià),可通過如圖10(b)的MapQL語句查詢,結(jié)果如圖10(c)。
圖10 MapQL的實(shí)現(xiàn)、語句查詢及可視化地圖
MapQL提供了一個(gè)比地理信息系統(tǒng)應(yīng)用程序編程接口(API)更友好的界面,使得開發(fā)人員和終端用戶能夠便捷自如地使用TerraFly地圖,同時(shí)能夠靈活地創(chuàng)建自己的地圖。
除了支持地理信息系統(tǒng)的各種應(yīng)用外,TerraFly平臺(tái)還有豐富的GIS數(shù)據(jù)集, 包括美國(guó)和加拿大的道路數(shù)據(jù)、美國(guó)人口普查和社會(huì)經(jīng)濟(jì)數(shù)據(jù)、1 500萬企業(yè)的統(tǒng)計(jì)和管理記錄、200萬專業(yè)醫(yī)生的數(shù)據(jù)、各種公共場(chǎng)所的數(shù)據(jù)集和全球環(huán)境數(shù)據(jù)等, 用戶可以通過TerraFlyGeoCloud瀏覽、使用和挖掘這些數(shù)據(jù)集。
5.3 TerraFlyGeocloud使用難點(diǎn)
通過對(duì)TerraFlyGeoCloud的進(jìn)一步使用和研究,發(fā)現(xiàn)了如下幾個(gè)問題。這些問題非常典型,普遍存在于這類空間數(shù)據(jù)挖掘系統(tǒng)中。
(1)寫MapQL查詢語句的難度。雖然大多數(shù)開發(fā)人員熟悉SQL語句,可以很快地寫MapQL查詢。但對(duì)不熟悉SQL的用戶而言,學(xué)習(xí)MapQL還是比較困難的。所以, 對(duì)絕大多數(shù)用戶而言,利用MapQL來完成空間分析任務(wù)仍然比較困難。
(2)空間分析任務(wù)的復(fù)雜性。一個(gè)典型的空間分析任務(wù)往往涉及幾個(gè)子任務(wù)。此外,這些子任務(wù)之間并不是完全獨(dú)立的。其中一些子任務(wù)的輸出往往是其他子任務(wù)的輸入。根據(jù)這種依賴關(guān)系,一個(gè)空間數(shù)據(jù)分析任務(wù)可以自然地表示為一個(gè)工作流。但構(gòu)造和管理這樣一個(gè)復(fù)雜的工作流程是空間數(shù)據(jù)分析的一個(gè)難點(diǎn)。
(3)順序執(zhí)行空間數(shù)據(jù)分析的工作流的效率往往很低。盡管一個(gè)工作流中的子任務(wù)并不是互相依賴,但這些子任務(wù)只能由最終用戶來順序執(zhí)行。這種順序執(zhí)行的方式?jīng)]有充分利用分布式計(jì)算環(huán)境來并行執(zhí)行獨(dú)立的子任務(wù)和優(yōu)化系統(tǒng)性能。
這3個(gè)問題給空間數(shù)據(jù)挖掘系統(tǒng)帶來了很大的局限,限制了用戶對(duì)系統(tǒng)的有效使用。將FIU-Miner 與TerraFlyGeocloud結(jié)合來解決這些問題。首先,根據(jù)序列模式挖掘算法從TerraFlyGeoCloud的MapQL查詢?nèi)罩局邪l(fā)現(xiàn)順序查詢模式[11]。然后利用這些順序查詢模式,在FIU-Miner里面構(gòu)建空間數(shù)據(jù)分析任務(wù)的工作流。最后使用FIU-Miner來最大化子任務(wù)的并行執(zhí)行, 優(yōu)化工作流的執(zhí)行效率。
TerraFlyGeocloud+FIU-Miner系統(tǒng)架構(gòu)如圖11所示。主要有4層:用戶界面層、地理空間服務(wù)層、計(jì)算服務(wù)層和空間數(shù)據(jù)存儲(chǔ)和管理層。其中,從MapQL的查詢?nèi)罩局型诰虿樵兡J绞且粋€(gè)關(guān)鍵的步驟,這個(gè)步驟發(fā)生在地理空間服務(wù)層。挖掘出的順序查詢模式可以用來產(chǎn)生查詢模板和構(gòu)造空間分析的工作流。序列模式里面的每個(gè)查詢對(duì)應(yīng)于工作流里面的一個(gè)子任務(wù)。FIU-Miner在計(jì)算服務(wù)層,主要負(fù)責(zé)工作流的構(gòu)建、管理、調(diào)度和執(zhí)行。
圖11 TerraFlyGeocloud+FIU-Miner 系統(tǒng)架構(gòu)
5.4 應(yīng)用實(shí)例
利用FIU-Miner,系統(tǒng)可以通過構(gòu)建空間數(shù)據(jù)分析的工作流來優(yōu)化分析流程, 提高分析效率。下面通過一個(gè)詳細(xì)的房產(chǎn)投資案例來展示[12]。
房產(chǎn)投資案例的目的是要尋找具有良好升值潛力的房產(chǎn)。如果一棟房產(chǎn)本身價(jià)值很低,但它周圍的房產(chǎn)卻相對(duì)來說比其高,那么對(duì)此房產(chǎn)進(jìn)行投資將是一個(gè)非常不錯(cuò)的選擇。根據(jù)歷史查詢數(shù)據(jù),通過序列模式挖掘,發(fā)現(xiàn)這個(gè)任務(wù)一般有下面幾個(gè)步驟:
● 計(jì)算不同地區(qū)的平均價(jià)格,比較鄰近地區(qū)的價(jià)格,確定感興趣的地區(qū);
● 對(duì)感興趣的地區(qū)進(jìn)行空間自相關(guān)分析,確定候選地區(qū);
● 驗(yàn)證候選地區(qū)罪案率和平均收入, 確定選擇結(jié)果;
● 在地圖上對(duì)結(jié)果進(jìn)行可視化。
這個(gè)任務(wù)的工作流如圖12所示。工作流里面所有的子任務(wù)都是由FIU-Miner來調(diào)度并在分布式環(huán)境中執(zhí)行的。
圖12 房產(chǎn)投資案例的工作流程
5.5 應(yīng)用亮點(diǎn)評(píng)述
上述實(shí)際案例中,將FIU-Miner應(yīng)用于空間數(shù)據(jù)挖掘,解決了空間數(shù)據(jù)挖掘中寫MapQL查詢語句困難、空間分析任務(wù)復(fù)雜性高及順序執(zhí)行空間數(shù)據(jù)分析工作流效率低這3個(gè)主要的難題。用戶可以輕松地從TerraFlyGeoCloud的MapQL查詢?nèi)罩局邪l(fā)現(xiàn)順序查詢模式,并利用這些順序查詢模式,在FIU-Miner里面構(gòu)建空間數(shù)據(jù)分析任務(wù)的工作流。最后使用FIU-Miner強(qiáng)大的分布式處理能力,提高工作流的執(zhí)行效率。
基于FIU-Miner的TerraFlyGeoCloud 在線空間數(shù)據(jù)挖掘系統(tǒng),已成功應(yīng)用于地理(如國(guó)土邊界、水位圖等)、自然(颶風(fēng)數(shù)據(jù)分析)、經(jīng)濟(jì)(如房產(chǎn)價(jià)格分析、人均收入等數(shù)據(jù)分析)、醫(yī)療(肝癌、關(guān)節(jié)炎等疾病數(shù)據(jù)分析)、社會(huì)(犯罪數(shù)據(jù)聚類等分析)等眾多領(lǐng)域,受到政府、企業(yè)、研究機(jī)構(gòu)及個(gè)人的極大重視。
6 FIU-Miner應(yīng)用實(shí)例三:庫(kù)存管理數(shù)據(jù)挖掘
FIU-Miner作為庫(kù)存管理數(shù)據(jù)挖掘平臺(tái)已被成功應(yīng)用于企業(yè),成為商務(wù)智能數(shù)據(jù)挖掘應(yīng)用中一個(gè)典范[13]。
6.1 庫(kù)存管理數(shù)據(jù)挖掘任務(wù)
庫(kù)存管理是指對(duì)制造業(yè)或服務(wù)業(yè)生產(chǎn)、經(jīng)營(yíng)全過程的各種物品、產(chǎn)品以及其他資源進(jìn)行管理和控制,使其儲(chǔ)備保持在經(jīng)濟(jì)合理的水平上。高效、可靠的庫(kù)存管理可以為制定合理的貨物安全庫(kù)存量和訂貨量提供可靠的依據(jù),提高企業(yè)管理人員的決策質(zhì)量,從而減小資金的占用和缺貨損失,提高企業(yè)的經(jīng)濟(jì)效益。當(dāng)今的零售業(yè), 供應(yīng)商往往需要給不同的地區(qū)存儲(chǔ)大量的貨物,且交易活動(dòng)復(fù)雜頻繁,必須提前合理規(guī)劃好庫(kù)存方案?,F(xiàn)有的庫(kù)存管理系統(tǒng)(如InFlow和Inventoria)僅僅應(yīng)用傳統(tǒng)的統(tǒng)計(jì)分析方法分析現(xiàn)存的庫(kù)存數(shù)據(jù),對(duì)當(dāng)前的庫(kù)存信息分布進(jìn)行跟蹤監(jiān)控。進(jìn)行庫(kù)存決策時(shí)僅考慮單一算法模型,而無法根據(jù)綜合分析歷史數(shù)據(jù)和市場(chǎng)的實(shí)際狀況快速做出正確決策方案。因此,如何利用大數(shù)據(jù)挖掘技術(shù)開發(fā)智能庫(kù)存管理平臺(tái), 實(shí)現(xiàn)高效可靠的庫(kù)存預(yù)測(cè)、庫(kù)存異常檢測(cè)及庫(kù)齡分析等任務(wù),成為當(dāng)前大型零售企業(yè)亟需解決的問題。
6.2 庫(kù)存管理數(shù)據(jù)挖掘挑戰(zhàn)
隨著庫(kù)存管理數(shù)據(jù)日益龐大,庫(kù)存管理系統(tǒng)處理問題的難度也在不斷攀升。以國(guó)內(nèi)某大型電子消費(fèi)產(chǎn)品制造企業(yè)的兩大類電視產(chǎn)品(液晶和等離子)交易為例,其庫(kù)存管理數(shù)據(jù)挖掘面臨的主要挑戰(zhàn)如下。
(1)交易記錄繁多:現(xiàn)代大型零售企業(yè)業(yè)務(wù)規(guī)模龐大,產(chǎn)生的交易記錄繁多,從2011年1月到2013年12月有將近6 000萬條,約50 GB數(shù)據(jù)。
(2)屬性關(guān)系復(fù)雜:庫(kù)存數(shù)據(jù)屬性繁多,記錄中包含種類眾多的屬性,有將近200個(gè);數(shù)據(jù)層次繁多,在不同數(shù)據(jù)維度上,記錄可屬于不同的層次;庫(kù)存數(shù)據(jù)和屬性相關(guān)性復(fù)雜等。
(3)處理速度緩慢:現(xiàn)有數(shù)據(jù)分析工具大多基于內(nèi)存,無法加載龐大數(shù)據(jù)集, 對(duì)數(shù)據(jù)輸入格式要求嚴(yán)格,適用性不強(qiáng), 運(yùn)行速度慢,無法響應(yīng)大數(shù)據(jù)的要求。
因此,現(xiàn)代庫(kù)存管理需要采用大數(shù)據(jù)挖掘技術(shù)開發(fā)高效、可靠、能處理大規(guī)模數(shù)據(jù)的智能庫(kù)存管理系統(tǒng)。
6.3 具體例子
筆者的研究團(tuán)隊(duì)開發(fā)了基于FIU-Miner 的智能庫(kù)存管理系統(tǒng)iMiner[13],該系統(tǒng)為智能庫(kù)存管理定制了專門的數(shù)據(jù)挖掘算法,實(shí)現(xiàn)了多個(gè)功能模塊,開發(fā)了大規(guī)模的數(shù)據(jù)分析平臺(tái)系統(tǒng)。
6.3.1 系統(tǒng)概況
圖13展示了iMiner系統(tǒng)整體框架、各功能層次和模塊。系統(tǒng)自底向上分為物理資源層、任務(wù)和系統(tǒng)管理層、數(shù)據(jù)分析層、用戶界面層。該系統(tǒng)分析平臺(tái)建立在支持高效數(shù)據(jù)分析的分布式系統(tǒng)——FIU-Miner中。這一分析平臺(tái)可提供高效率的數(shù)據(jù)分析處理工作流,并且可以有效地集成多種數(shù)據(jù)分析工具和語言,如R、Weka、Python、Hadoop等。數(shù)據(jù)分析層包括了數(shù)據(jù)預(yù)處理和各類數(shù)據(jù)挖掘算法,其中關(guān)鍵因素提取算法有助于提取對(duì)入庫(kù)/出庫(kù)量產(chǎn)生較大影響的因素或者對(duì)物料異常情況有決定性影響的因素;分布式K 近鄰算法有助于查找入庫(kù)/出庫(kù)行為相似的物料;分布式回歸分析有助于對(duì)大盤及具體物料的入庫(kù)/出庫(kù)量進(jìn)行有效預(yù)測(cè)。
圖13 iMiner系統(tǒng)架構(gòu)
系統(tǒng)主要聚焦于庫(kù)存預(yù)測(cè)、庫(kù)存異常檢測(cè)、庫(kù)齡挖掘三大核心功能,通過綜合評(píng)價(jià)和集成各種算法的輸出使得分析結(jié)果更加穩(wěn)定和準(zhǔn)確。用戶界面層囊括了多種庫(kù)存分析結(jié)果的展示,用戶可以通過屬性選擇來查看不同的分析結(jié)果,也可以通過對(duì)個(gè)別參數(shù)的修改來更新分析結(jié)果,實(shí)現(xiàn)實(shí)時(shí)的人機(jī)互動(dòng)。展示結(jié)果不僅有列表顯示,還提供了各種直觀的圖表顯示,更有利于用戶接收到數(shù)據(jù)整體分布、趨勢(shì)和關(guān)鍵信息點(diǎn)。
6.3.2 系統(tǒng)功能模塊
iMiner主要包含庫(kù)存預(yù)測(cè)(inventory forecasting)、庫(kù)存異常檢測(cè)(inventory anomaly detection)及庫(kù)齡分析(inventory aging analysis)三大功能模塊,如圖14所示。
圖14 iMiner主要功能模塊
(1)庫(kù)存預(yù)測(cè)
庫(kù)存管理中,精確和可信的庫(kù)存預(yù)測(cè)是關(guān)鍵。高效、可靠的預(yù)測(cè)可以大大減少庫(kù)存負(fù)荷,降低額外的貨物維護(hù)和損耗。庫(kù)存數(shù)據(jù)為標(biāo)準(zhǔn)的時(shí)序數(shù)據(jù),數(shù)據(jù)量大、時(shí)間跨度長(zhǎng)、涵蓋面廣、規(guī)律性差。iMiner 采用一種動(dòng)態(tài)預(yù)測(cè)模型,首先根據(jù)歷史數(shù)據(jù)對(duì)出庫(kù)的基數(shù)進(jìn)行預(yù)測(cè),而后結(jié)合出庫(kù)數(shù)據(jù)的長(zhǎng)期趨勢(shì)、周期性因素及事件性因素對(duì)基數(shù)進(jìn)行動(dòng)態(tài)調(diào)整,從而得到最終的預(yù)測(cè)結(jié)果。
(2)庫(kù)存異常檢測(cè)
對(duì)庫(kù)存指標(biāo)進(jìn)行監(jiān)控而達(dá)到異常檢測(cè)的目的,是庫(kù)存管理中不可或缺的部分。iMiner提供了多種庫(kù)存指標(biāo)的實(shí)時(shí)監(jiān)控(如庫(kù)存周轉(zhuǎn)率、庫(kù)存周轉(zhuǎn)天數(shù)、存銷比、周轉(zhuǎn)提升率、庫(kù)存資金周轉(zhuǎn)率)和不同粒度下的指標(biāo)查詢(如按時(shí)間周期包括按周和按月、按指定公司和物料、按指定物料類別和公司、按指定物料類別等)。同時(shí), 系統(tǒng)從庫(kù)存數(shù)據(jù)多個(gè)角度入手,及時(shí)、準(zhǔn)確地發(fā)現(xiàn)庫(kù)存的波動(dòng);采用相關(guān)物料的協(xié)同異常判定,使得對(duì)于異常結(jié)果的判定更有意義,系統(tǒng)還能夠同時(shí)準(zhǔn)確判定整體性指標(biāo)變化和個(gè)別指標(biāo)異常。
(3)庫(kù)齡分析
庫(kù)齡挖掘是為了防止貨物積壓,提前發(fā)現(xiàn)潛在積壓貨物,減小貨物積壓投資。iMiner系統(tǒng)利用統(tǒng)計(jì)回歸模型實(shí)現(xiàn)庫(kù)齡分析,并提供了庫(kù)齡分析的基本工具和高級(jí)工具?;竟ぞ咴试S用戶可視化分析給定貨物的庫(kù)齡分布,比較不同貨物中當(dāng)前的和歷史的庫(kù)齡變化,高級(jí)工具能夠幫助用戶找到與積壓相關(guān)的貨物屬性。iMiner系統(tǒng)中,庫(kù)齡挖掘主要包含了庫(kù)齡相關(guān)分類和標(biāo)準(zhǔn)、庫(kù)齡計(jì)算、庫(kù)齡金額計(jì)算以及安全庫(kù)存的計(jì)算等功能模塊。
6.4 應(yīng)用亮點(diǎn)評(píng)述
iMiner是一種新的智能庫(kù)存管理系統(tǒng),該系統(tǒng)能夠幫助大型供應(yīng)商實(shí)現(xiàn)高效的庫(kù)存管理,著力解決大數(shù)據(jù)時(shí)代現(xiàn)有庫(kù)存管理面臨的兩大關(guān)鍵問題。
(1)大規(guī)模庫(kù)存數(shù)據(jù)分析
iMiner系統(tǒng)分析平臺(tái)建立在支持高效數(shù)據(jù)分析的分布式系統(tǒng)——FIU-Miner中。這一分析平臺(tái)是在分布式環(huán)境中管理所有的交易數(shù)據(jù),因此,iMiner能夠自動(dòng)配置和執(zhí)行大規(guī)模庫(kù)存數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析任務(wù)。
(2)復(fù)雜庫(kù)存任務(wù)管理
iMiner結(jié)合多種先進(jìn)的數(shù)據(jù)挖掘算法來分析庫(kù)存數(shù)據(jù)。在實(shí)踐中,系統(tǒng)采用多種回歸模型,結(jié)合時(shí)間序列分析方法來實(shí)現(xiàn)庫(kù)存預(yù)測(cè);運(yùn)用情境感知異常檢測(cè)算法來識(shí)別異常貨物;利用統(tǒng)計(jì)回歸模型來進(jìn)行庫(kù)齡分析。從而實(shí)現(xiàn)高效、準(zhǔn)確的復(fù)雜庫(kù)存任務(wù)管理。
基于FIU-Miner的iMiner商務(wù)智能庫(kù)存管理平臺(tái)已經(jīng)應(yīng)用于企業(yè),成功解決了產(chǎn)品出庫(kù)預(yù)測(cè)、指標(biāo)異常檢查、庫(kù)齡挖掘等對(duì)企業(yè)產(chǎn)品生產(chǎn)和經(jīng)濟(jì)效益有重要影響的實(shí)際問題。
7 結(jié)束語
大數(shù)據(jù)的復(fù)雜特征對(duì)數(shù)據(jù)挖掘在理論和算法研究方面提出了新的要求和挑戰(zhàn)。大數(shù)據(jù)是現(xiàn)象,核心是挖掘數(shù)據(jù)中蘊(yùn)含的潛在信息,并使它們發(fā)揮價(jià)值。數(shù)據(jù)挖掘是理論技術(shù)和實(shí)際應(yīng)用的完美結(jié)合。
本文通過目前業(yè)界對(duì)大數(shù)據(jù)的理解和認(rèn)識(shí),結(jié)合筆者及其研究團(tuán)隊(duì)多年來對(duì)大數(shù)據(jù)挖掘的深入理論研究及廣泛的應(yīng)用研究,綜合凝練出大數(shù)據(jù)的核心架構(gòu), 即大數(shù)據(jù)挖掘的本質(zhì)是應(yīng)用、算法、數(shù)據(jù)和平臺(tái)4個(gè)要素的有機(jī)結(jié)合。在此架構(gòu)下, 從應(yīng)用的角度重點(diǎn)介紹了研究團(tuán)隊(duì)開發(fā)的能夠快速、有效地進(jìn)行各類數(shù)據(jù)挖掘任務(wù)的數(shù)據(jù)挖掘系統(tǒng)FIU-Miner,并具體介紹了基于FIU-M i ner的高端制造業(yè)數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘和商務(wù)智能數(shù)據(jù)挖掘3個(gè)典型的應(yīng)用案例。FIU-Miner在這些領(lǐng)域的成功應(yīng)用也說明了提出的數(shù)據(jù)挖掘核心架構(gòu)的效用。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04