
大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘:從應(yīng)用的角度看大數(shù)據(jù)挖掘(上)
1 對(duì)大數(shù)據(jù)的理解和認(rèn)識(shí)
大數(shù)據(jù)(big data)一詞經(jīng)常被用以描述和指代信息爆炸時(shí)代產(chǎn)生的海量信息。研究大數(shù)據(jù)的意義在于發(fā)現(xiàn)和理解信息內(nèi)容及信息與信息之間的聯(lián)系。研究大數(shù)據(jù)首先要理清和了解大數(shù)據(jù)的特點(diǎn)及基本概念,進(jìn)而理解和認(rèn)識(shí)大數(shù)據(jù)。
1.1 大數(shù)據(jù)的特點(diǎn)“4V+4V”
從數(shù)據(jù)的表現(xiàn)形式看,業(yè)界普遍認(rèn)為大數(shù)據(jù)具有如下的“4V”特點(diǎn)[1]。
● volume(大量):數(shù)據(jù)體量巨大,從TB級(jí)別躍升到PB級(jí)別。
● variety(多樣):數(shù)據(jù)類型繁多,如網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等。
● velocity(高速):處理速度快,實(shí)時(shí)分析,這也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)的本質(zhì)上的不同。
● value(價(jià)值):價(jià)值密度低,蘊(yùn)含有效價(jià)值高,合理利用低密度價(jià)值的數(shù)據(jù)并對(duì)其進(jìn)行正確、準(zhǔn)確的分析,將會(huì)帶來(lái)巨大的商業(yè)和社會(huì)價(jià)值。
上述“4V”特點(diǎn)描述了大數(shù)據(jù)與以往部分抽樣的“小數(shù)據(jù)”的主要區(qū)別。然而,實(shí)踐是大數(shù)據(jù)的最終價(jià)值體現(xiàn)的唯一途徑。從實(shí)際應(yīng)用和大數(shù)據(jù)處理的復(fù)雜性看,大數(shù)據(jù)還具有如下新的“4V”特點(diǎn)。
● variable(變化性):在不同的場(chǎng)景、不同的研究目標(biāo)下數(shù)據(jù)的結(jié)構(gòu)和意義可能會(huì)發(fā)生變化,因此,在實(shí)際研究中要考慮具體的上下文場(chǎng)景。
● veracity(真實(shí)性):獲取真實(shí)、可靠的數(shù)據(jù)是保證分析結(jié)果準(zhǔn)確、有效的前提。只有真實(shí)而準(zhǔn)確的數(shù)據(jù)才能獲取真正有意義的結(jié)果。
● volatility(波動(dòng)性):由于數(shù)據(jù)本身含有噪音及分析流程的不規(guī)范性,導(dǎo)致采用不同的算法或不同分析過(guò)程與手段會(huì)得到不穩(wěn)定的分析結(jié)果。
● visualization(可視化):在大數(shù)據(jù)環(huán)境下,通過(guò)數(shù)據(jù)可視化可以更加直觀地闡釋數(shù)據(jù)的意義,幫助理解數(shù)據(jù),解釋結(jié)果。
1.2 對(duì)大數(shù)據(jù)的理解
國(guó)內(nèi)外不同的專家和學(xué)者對(duì)大數(shù)據(jù)有不同的理解,中國(guó)科學(xué)院計(jì)算技術(shù)研究所李國(guó)杰院士認(rèn)為:大數(shù)據(jù)就是“海量數(shù)據(jù)” 加“復(fù)雜數(shù)據(jù)類型”[2]。維基百科對(duì)大數(shù)據(jù)的定義是:“大數(shù)據(jù)是由于規(guī)模、復(fù)雜性、實(shí)時(shí)性而導(dǎo)致的使之無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其進(jìn)行獲取、存貯、搜索、分享、分析、可視化的數(shù)據(jù)集合”。Gartner咨詢公司給出的定義是:“大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)”。而互聯(lián)網(wǎng)數(shù)據(jù)中心將大數(shù)據(jù)定義為:“為更經(jīng)濟(jì)地從高頻率、大容量、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價(jià)值而設(shè)計(jì)的新一代架構(gòu)和技術(shù)”。
結(jié)合上述大數(shù)據(jù)的“8V”特征,筆者認(rèn)為大數(shù)據(jù)的核心和本質(zhì)是應(yīng)用、算法、數(shù)據(jù)和平臺(tái)4個(gè)要素的有機(jī)結(jié)合,如圖1所示。大數(shù)據(jù)是應(yīng)用驅(qū)動(dòng)的,大數(shù)據(jù)來(lái)源于實(shí)踐,海量數(shù)據(jù)產(chǎn)生于實(shí)際應(yīng)用中。
數(shù)據(jù)挖掘源于實(shí)踐中的實(shí)際應(yīng)用需求,用具體的應(yīng)用數(shù)據(jù)作為驅(qū)動(dòng),以算法、工具和平臺(tái)作為支撐,最終將發(fā)現(xiàn)的知識(shí)和信息用到實(shí)踐中去,從而提供量化、合理、可行、能夠產(chǎn)生巨大價(jià)值的信息。另外,挖掘大數(shù)據(jù)所蘊(yùn)含的有用信息,需要設(shè)計(jì)和開(kāi)發(fā)相應(yīng)的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法。算法的設(shè)計(jì)和開(kāi)發(fā)要以具體的應(yīng)用數(shù)據(jù)為驅(qū)動(dòng),同時(shí)也要在實(shí)際問(wèn)題中得到應(yīng)用和驗(yàn)證,而算法的實(shí)現(xiàn)與應(yīng)用需要高效的處理平臺(tái)。高效的處理平臺(tái)需要有效地分析海量的數(shù)據(jù)及對(duì)多源數(shù)據(jù)進(jìn)行集成, 同時(shí)有力支持數(shù)據(jù)挖掘算法以及數(shù)據(jù)可視化的執(zhí)行,并對(duì)數(shù)據(jù)分析的流程進(jìn)行規(guī)范??偠灾@個(gè)應(yīng)用、算法、數(shù)據(jù)和平臺(tái)相結(jié)合的思想是對(duì)上述大數(shù)據(jù)的理解和認(rèn)識(shí)的一個(gè)綜合與凝練,體現(xiàn)了大數(shù)據(jù)的本質(zhì)和核心。建立在此架構(gòu)上的大數(shù)據(jù)挖掘,能夠有效處理大數(shù)據(jù)的復(fù)雜特征,挖掘大數(shù)據(jù)的價(jià)值。
本文在此框架下,從應(yīng)用的角度探討了大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘的機(jī)遇與挑戰(zhàn), 介紹了研究團(tuán)隊(duì)開(kāi)發(fā)的大數(shù)據(jù)挖掘平臺(tái)FIU-Miner以及成功應(yīng)用該平臺(tái)實(shí)現(xiàn)的高端制造業(yè)數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘和商務(wù)智能3個(gè)大型、復(fù)雜數(shù)據(jù)挖掘案例。
2 大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘
2.1 數(shù)據(jù)挖掘
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的產(chǎn)生和收集是基礎(chǔ),數(shù)據(jù)挖掘是關(guān)鍵。數(shù)據(jù)挖掘是大數(shù)據(jù)中最關(guān)鍵也最有價(jià)值的工作。通常,數(shù)據(jù)挖掘或知識(shí)發(fā)現(xiàn)泛指從大量數(shù)據(jù)中挖掘出隱含的、先前未知但潛在的有用信息和模式的一個(gè)工程化和系統(tǒng)化的過(guò)程。數(shù)據(jù)挖據(jù)可以用以下4個(gè)特性概括[3]。
(1)應(yīng)用性:數(shù)據(jù)挖掘是理論算法和應(yīng)用實(shí)踐的完美結(jié)合。數(shù)據(jù)挖掘源于實(shí)際生產(chǎn)生活中應(yīng)用的需求,挖掘的數(shù)據(jù)來(lái)自于具體應(yīng)用,同時(shí)通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn)的知識(shí)又要運(yùn)用到實(shí)踐中去,輔助實(shí)際決策。所以,數(shù)據(jù)挖掘來(lái)自于應(yīng)用實(shí)踐,同時(shí)也服務(wù)于應(yīng)用實(shí)踐。
(2)工程性:數(shù)據(jù)挖掘是一個(gè)由多個(gè)步驟組成的工程化過(guò)程。數(shù)據(jù)挖掘的應(yīng)用特性決定了數(shù)據(jù)挖掘不僅僅是算法分析和應(yīng)用,而是一個(gè)包含數(shù)據(jù)準(zhǔn)備和管理、數(shù)據(jù)預(yù)處理和轉(zhuǎn)換、挖掘算法開(kāi)發(fā)和應(yīng)用、結(jié)果展示和驗(yàn)證以及知識(shí)積累和使用的完整過(guò)程。而且在實(shí)際應(yīng)用中,典型的數(shù)據(jù)挖掘過(guò)程還是一個(gè)交互和循環(huán)的過(guò)程。
(3)集合性:數(shù)據(jù)挖掘是多種功能的集合。常用的數(shù)據(jù)挖掘功能包括數(shù)據(jù)探索分析、關(guān)聯(lián)規(guī)則挖掘、時(shí)間序列模式挖掘、分類預(yù)測(cè)、聚類分析、異常檢測(cè)、數(shù)據(jù)可視化和鏈接分析等。一個(gè)具體的應(yīng)用案例往往涉及多個(gè)不同的功能。不同的功能通常有不同的理論和技術(shù)基礎(chǔ),而且每一個(gè)功能都有不同的算法支撐。
(4)交叉性:數(shù)據(jù)挖掘是一個(gè)交叉學(xué)科,它利用了來(lái)自統(tǒng)計(jì)分析、模式識(shí)別、機(jī)器學(xué)習(xí)、人工智能、信息檢索、數(shù)據(jù)庫(kù)等諸多不同領(lǐng)域的研究成果和學(xué)術(shù)思想。同時(shí),一些其他領(lǐng)域如隨機(jī)算法、信息論、可視化、分布式計(jì)算和最優(yōu)化也對(duì)數(shù)據(jù)挖掘的發(fā)展起到重要的作用。數(shù)據(jù)挖掘與這些相關(guān)領(lǐng)域的區(qū)別可以由前面提到的數(shù)據(jù)挖掘的3個(gè)特性來(lái)總結(jié),最重要的是它更側(cè)重于應(yīng)用。
具體而言,實(shí)際應(yīng)用的需求是數(shù)據(jù)挖掘領(lǐng)域很多方法提出和發(fā)展的根源。從最開(kāi)始的顧客交易數(shù)據(jù)分析(market basket analysis)、多媒體數(shù)據(jù)挖掘(multimedia data mining)、隱私保護(hù)數(shù)據(jù)挖掘(privacy-preserving data mining)到文本數(shù)據(jù)挖掘(text mining) 和 Web 挖掘(Web mining),再到社交媒體挖掘(social media mining)都是由應(yīng)用推動(dòng)的。工程性和集合性決定了數(shù)據(jù)挖掘研究?jī)?nèi)容和方向的廣泛性。其中,工程性使得整個(gè)研究過(guò)程里的不同步驟都屬于數(shù)據(jù)挖掘的研究范疇。而集合性使得數(shù)據(jù)挖掘有多種不同的功能, 而如何將多種功能聯(lián)系和結(jié)合起來(lái),從一定程度上影響了數(shù)據(jù)挖掘研究方法的發(fā)展。比如,2 0 世紀(jì)9 0 年代中期,數(shù)據(jù)挖掘的研究主要集中在關(guān)聯(lián)規(guī)則和時(shí)間序列模式的挖掘。到20世紀(jì)9 0年代末,研究人員開(kāi)始研究基于關(guān)聯(lián)規(guī)則和時(shí)間序列模式的分類算法(如classification based on association),將兩種不同的數(shù)據(jù)挖掘功能有機(jī)地結(jié)合起來(lái)。21世紀(jì)初,一個(gè)研究的熱點(diǎn)是半監(jiān)督學(xué)習(xí)(semi-supervised learning)和半監(jiān)督聚類(semi-supervised clustering),也是將分類和聚類這兩種功能有機(jī)結(jié)合起來(lái)。近年來(lái)的一些其他研究方向如子空間聚類(subspace clustering)(特征抽取和聚類的結(jié)合)和圖分類(graph classification) (圖挖掘和分類的結(jié)合)也是將多種功能聯(lián)系和結(jié)合在一起。最后,交叉性導(dǎo)致了研究思路和方法設(shè)計(jì)的多樣化。
2.2 從數(shù)據(jù)挖掘應(yīng)用的角度看大數(shù)據(jù)
大數(shù)據(jù)是現(xiàn)象,核心是要挖掘數(shù)據(jù)的價(jià)值。結(jié)合數(shù)據(jù)挖掘的各種特性,尤其是其應(yīng)用性,從應(yīng)用業(yè)務(wù)的角度對(duì)大數(shù)據(jù)提出如下兩點(diǎn)的認(rèn)識(shí)[3]。
首先,大數(shù)據(jù)是“一把手工程”。在一個(gè)企業(yè)里,大數(shù)據(jù)通常涉及多個(gè)業(yè)務(wù)部門,業(yè)務(wù)邏輯復(fù)雜。一方面,要對(duì)大數(shù)據(jù)進(jìn)行收集和整合,需要業(yè)務(wù)部門的配合和溝通以及業(yè)務(wù)人員的大力參與,這些需要企業(yè)決策人員的重視和認(rèn)可,提供必要的資源調(diào)配和支持。另一方面,要對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行驗(yàn)證和運(yùn)用,更離不開(kāi)相關(guān)人員的決策。數(shù)據(jù)挖掘的結(jié)果大多是相關(guān)關(guān)系,而不是因果關(guān)系,這些結(jié)果還可能有不確定性。另外,有時(shí)候數(shù)據(jù)挖掘的結(jié)果與企業(yè)運(yùn)作的常識(shí)不一致,甚至相悖。所以,如何看待這些可能的不確定性和反常識(shí)的分析結(jié)論,充分利用好數(shù)據(jù)挖掘結(jié)果,必然離不開(kāi)決策者的遠(yuǎn)見(jiàn)卓識(shí)。
其次,大數(shù)據(jù)需要數(shù)據(jù)導(dǎo)入、整合和預(yù)處理。當(dāng)面對(duì)來(lái)自不同數(shù)據(jù)源的大量復(fù)雜數(shù)據(jù)時(shí),具體業(yè)務(wù)邏輯復(fù)雜與數(shù)據(jù)之間的關(guān)系瑣碎直接導(dǎo)致企業(yè)的業(yè)務(wù)流程和數(shù)據(jù)流程很難理解。因此,企業(yè)在實(shí)施大數(shù)據(jù)時(shí)可能并不清楚要挖掘和發(fā)現(xiàn)什么,對(duì)數(shù)據(jù)挖掘到底能幫助企業(yè)做什么并沒(méi)有直觀和清楚的認(rèn)識(shí)。所以,很多時(shí)候都不可能先把數(shù)據(jù)事先規(guī)劃好和準(zhǔn)備好,這樣在具體的數(shù)據(jù)挖掘中,就需要在數(shù)據(jù)的導(dǎo)入、整合和預(yù)處理上有很大的靈活性,只有通過(guò)業(yè)務(wù)人員和數(shù)據(jù)挖掘工程師的配合,不斷嘗試,才能有效地將企業(yè)的業(yè)務(wù)需求與數(shù)據(jù)挖掘的功能聯(lián)系起來(lái)。
2.3 大數(shù)據(jù)時(shí)代應(yīng)用數(shù)據(jù)挖掘的挑戰(zhàn)
大數(shù)據(jù)時(shí)代的來(lái)臨使得數(shù)據(jù)的規(guī)模和復(fù)雜性都出現(xiàn)爆炸式的增長(zhǎng),促使不同應(yīng)用領(lǐng)域的數(shù)據(jù)分析人員利用數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)進(jìn)行分析。在應(yīng)用領(lǐng)域中,如醫(yī)療保健、高端制造、金融等,一個(gè)典型的數(shù)據(jù)挖掘任務(wù)往往需要復(fù)雜的子任務(wù)配置,整合多種不同類型的挖掘算法以及在分布式計(jì)算環(huán)境中高效運(yùn)行。因此,在大數(shù)據(jù)時(shí)代進(jìn)行數(shù)據(jù)挖掘應(yīng)用的一個(gè)當(dāng)務(wù)之急是要開(kāi)發(fā)和建立計(jì)算平臺(tái)和工具,支持應(yīng)用領(lǐng)域的數(shù)據(jù)分析人員能夠有效地執(zhí)行數(shù)據(jù)分析任務(wù)。
現(xiàn)有的數(shù)據(jù)挖掘工具(如Weka[4]、SPSS和SQL Server等)提供了友好的界面,方便用戶進(jìn)行分析。然而,這些工具并不適合進(jìn)行大規(guī)模的數(shù)據(jù)分析。同時(shí)使用這些工具時(shí),用戶很難添加新的算法程序。流行的數(shù)據(jù)挖掘算法庫(kù)(如Mahout[5]、MLC++和MILK)提供了大量的數(shù)據(jù)挖掘算法。但是,這些算法庫(kù)需要有高級(jí)編程技能才能在一個(gè)具體的數(shù)據(jù)挖掘任務(wù)中進(jìn)行任務(wù)配置和算法集成。最近出現(xiàn)的一些集成的數(shù)據(jù)挖掘產(chǎn)品(如Radoop[6]和BC-PDM[7])通過(guò)提供友好的用戶界面來(lái)快速配置數(shù)據(jù)挖掘任務(wù)。然而,這些產(chǎn)品是基于Hadoop框架的,對(duì)非Hadoop算法程序的支持非常有限。此外,這些產(chǎn)品并沒(méi)有明確地解決在多用戶和多任務(wù)情況下的資源分配問(wèn)題。
為了解決現(xiàn)有工具和產(chǎn)品在大數(shù)據(jù)挖掘中的局限性,開(kāi)發(fā)了一個(gè)新的平臺(tái)——FIU-Miner(a fast, integrated, and user-friendly system for data mining in distributed environment[8]),是一個(gè)用戶友好并支持在分布式環(huán)境中進(jìn)行高效率計(jì)算和快速集成的數(shù)據(jù)挖掘系統(tǒng),該平臺(tái)支持?jǐn)?shù)據(jù)分析人員快速、有效地進(jìn)行數(shù)據(jù)挖掘任務(wù)。
3 大數(shù)據(jù)挖掘系統(tǒng)FIU-Miner的研究設(shè)計(jì)
3.1 FIU-Miner平臺(tái)介紹
與現(xiàn)有數(shù)據(jù)挖掘平臺(tái)相比,F(xiàn)IU-Miner提供了一組新的功能,能夠幫助數(shù)據(jù)分析人員方便并有效地開(kāi)展各項(xiàng)復(fù)雜的數(shù)據(jù)挖掘任務(wù)。
具體而言,F(xiàn)IU-Miner 具有以下突出的優(yōu)點(diǎn)。
(1)用戶友好、人性化、快速的數(shù)據(jù)挖掘任務(wù)配置:基于“軟件即服務(wù)”這一模式,F(xiàn)IU-Miner隱藏了與數(shù)據(jù)分析任務(wù)無(wú)關(guān)的低端細(xì)節(jié)。通過(guò)FIU-Miner提供的人性化用戶界面,用戶可以通過(guò)將現(xiàn)有算法直接組裝成工作流,輕松完成一個(gè)復(fù)雜數(shù)據(jù)挖掘問(wèn)題的任務(wù)配置,而不需要編寫任何代碼。
(2)靈活的多語(yǔ)言程序集成:FIU-Miner允許用戶將目前最先進(jìn)的數(shù)據(jù)挖掘算法直接導(dǎo)入系統(tǒng)算法庫(kù)中,以此對(duì)分析工具集合進(jìn)行擴(kuò)充和管理。同時(shí),由于FIU-Miner 能夠正確地將任務(wù)分配到有合適運(yùn)行環(huán)境的計(jì)算節(jié)點(diǎn)上,所以對(duì)這些導(dǎo)入的算法沒(méi)有實(shí)現(xiàn)語(yǔ)言的限制。
(3)異構(gòu)環(huán)境中有效的資源管理: FIU-Miner支持在異構(gòu)的計(jì)算環(huán)境中(包括圖形工作站、單個(gè)計(jì)算機(jī)和服務(wù)器等)運(yùn)行數(shù)據(jù)挖掘任務(wù)。FIU-Miner綜合考慮各種因素(包括算法實(shí)現(xiàn)、服務(wù)器負(fù)載平衡和數(shù)據(jù)位置)來(lái)優(yōu)化計(jì)算資源的利用率。
3.2 FIU-Miner系統(tǒng)架構(gòu)
FIU-Miner的系統(tǒng)架構(gòu)如圖2所示。該系統(tǒng)分為4層:user interface(用戶接口層)、task and system management(任務(wù)與系統(tǒng)管理層)、abstracted resources (抽象資源層)和heterogeneous physical resource(異構(gòu)物理資源層)。這種分層架構(gòu)充分考慮了海量數(shù)據(jù)的分布式存儲(chǔ)、不同數(shù)據(jù)挖掘算法的集成、多種分析任務(wù)的配置以及系統(tǒng)和用戶的交互功能。
圖2 FIU-Miner 系統(tǒng)架構(gòu)
3.2.1 用戶接口層
為了最大限度地提高系統(tǒng)的兼容性, 用戶接口層是完全用HTML 5開(kāi)發(fā)的Web 應(yīng)用程序。如圖3所示,用戶接口層有如下3個(gè)功能模塊。
(a)任務(wù)配置和執(zhí)行
(b)程序注冊(cè)模塊
(c)系統(tǒng)監(jiān)控模塊
圖 3 用戶接口層功能模塊
(1)任務(wù)配置和執(zhí)行(task configuration and execution)
該模塊支持面向工作流的數(shù)據(jù)挖掘任務(wù)配置。一個(gè)數(shù)據(jù)挖掘任務(wù)的工作流可以被表示為一個(gè)有向圖,其中圖的節(jié)點(diǎn)表示特定的算法,圖的邊表示算法中的數(shù)據(jù)相關(guān)性。在FIU-Miner 中,一個(gè)工作流程可通過(guò)圖形用戶界面來(lái)快速配置,而不需要編程。此外,用戶可以設(shè)置數(shù)據(jù)挖掘任務(wù)的執(zhí)行計(jì)劃,包括程序的定時(shí)、循環(huán)、順序等執(zhí)行方式。
(2)程序注冊(cè)(program registration)
該模塊可以讓用戶輕松地導(dǎo)入外部數(shù)據(jù)挖掘算法,充實(shí)FIU-Miner的算法庫(kù)。如果要導(dǎo)入外部程序,用戶需要上傳可執(zhí)行文件,提供詳細(xì)的描述信息,包括程序的功能描述、需要的運(yùn)行環(huán)境、程序和相關(guān)數(shù)據(jù)以及參數(shù)規(guī)范。導(dǎo)入的程序可以使用任何語(yǔ)言編寫,只要后端服務(wù)器能支持它需要的運(yùn)行環(huán)境。FIU-Miner目前支持Java(包括Hadoop的環(huán)境)、Shell、Python和C/C+ +等語(yǔ)言編寫的程序,因此幾乎所有實(shí)現(xiàn)的主流數(shù)據(jù)挖掘算法,如基于Weka、Mahout、MILK等數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法庫(kù)的程序,都可以很容易地導(dǎo)入FIU-Miner。用戶還可以將自己實(shí)現(xiàn)的算法導(dǎo)入系統(tǒng)中。
(3)系統(tǒng)監(jiān)控(system monitoring)
該模塊實(shí)時(shí)監(jiān)測(cè)FIU-Miner的資源利用率,并且動(dòng)態(tài)跟蹤系統(tǒng)中提交任務(wù)的運(yùn)行狀態(tài)。注意該模塊只顯示了抽象的資源(邏輯存儲(chǔ)和計(jì)算資源包括數(shù)據(jù)庫(kù)、文件系統(tǒng)、計(jì)算單元等),使底層物理資源對(duì)用戶透明。
3.2.2 任務(wù)及系統(tǒng)管理層
任務(wù)及系統(tǒng)管理層包含了兩個(gè)主要功能模塊:任務(wù)管理和系統(tǒng)管理。
(1)任務(wù)管理
FIU-Miner允許用戶動(dòng)態(tài)配置數(shù)據(jù)挖掘任務(wù),以滿足他們的分析需求。用戶可以選擇在算法庫(kù)(algorithm library)中注冊(cè)的算法作為基本模塊來(lái)構(gòu)造工作流。工作流集成器(workflow integrator)負(fù)責(zé)工作流的任務(wù)集成和驗(yàn)證,同時(shí)發(fā)現(xiàn)和報(bào)告無(wú)效的流程。一旦新的數(shù)據(jù)挖掘任務(wù)集成和配置完成后,它將被自動(dòng)添加到任務(wù)庫(kù)(task library),可以隨時(shí)被調(diào)度運(yùn)行。作業(yè)調(diào)度器(job scheduler)負(fù)責(zé)分配計(jì)算資源及優(yōu)化運(yùn)行時(shí)間。FIU-Miner里的調(diào)度比較復(fù)雜。一方面,F(xiàn)IU-Miner支持不同編程語(yǔ)言實(shí)現(xiàn)的程序在異構(gòu)的計(jì)算環(huán)境中運(yùn)行。一個(gè)任務(wù)里的不同程序可能會(huì)有不同的運(yùn)行環(huán)境要求。所以,簡(jiǎn)單地把任務(wù)分配到空閑的計(jì)算單元不一定可行。另一方面,將一個(gè)作業(yè)分成不同的步驟,讓每個(gè)步驟在不同的計(jì)算單元上運(yùn)行,可能會(huì)增加I/O成本。如果再考慮多用戶、多任務(wù)的情況,F(xiàn)IU-Miner里的調(diào)度就會(huì)變得更加困難和復(fù)雜。為了解決上面的難題,在實(shí)現(xiàn)FIU-Miner的調(diào)度時(shí),綜合考慮了如下因素:給定任務(wù)每一步的運(yùn)行環(huán)境要求; 每個(gè)計(jì)算單元支持的運(yùn)行環(huán)境;每個(gè)計(jì)算結(jié)點(diǎn)的當(dāng)前運(yùn)行狀態(tài);輸入數(shù)據(jù)的大小。
(2)系統(tǒng)管理
作業(yè)管理器(job manager)跟蹤執(zhí)行作業(yè)的運(yùn)行狀態(tài)。用戶會(huì)收到作業(yè)的實(shí)時(shí)狀態(tài)。除了作業(yè)監(jiān)視,F(xiàn)IU-Miner還會(huì)跟蹤計(jì)算單元以及相關(guān)計(jì)算資源的狀態(tài)。資源監(jiān)視器(resource monitor)監(jiān)視計(jì)算單元并提供作業(yè)調(diào)度程序的運(yùn)行狀態(tài), 以幫助調(diào)度決策。資源管理器(resource manager)管理所有可用的計(jì)算單元。FIU-Miner的一個(gè)獨(dú)特的優(yōu)點(diǎn)是,它不需要人工登記可用物理資源。一旦計(jì)算單元部署在物理服務(wù)器上,它會(huì)將服務(wù)器的信息發(fā)送給資源管理器,自動(dòng)將服務(wù)器在FIU-Miner里注冊(cè)。
3.2.3 抽象資源層
抽象資源層包括存儲(chǔ)和計(jì)算資源。存儲(chǔ)資源建立在物理設(shè)備的基礎(chǔ)上,包括傳統(tǒng)數(shù)據(jù)庫(kù)、本地文件系統(tǒng)、分布式文件系統(tǒng)(比如HDFS)等。計(jì)算單元是邏輯上的計(jì)算資源。平臺(tái)的計(jì)算能力依賴計(jì)算單元的數(shù)量。通過(guò)擴(kuò)展配置計(jì)算單元的數(shù)量,能有效地支撐上層的數(shù)據(jù)挖掘任務(wù)。
在FIU-Miner中,物理服務(wù)器的計(jì)算能力是由計(jì)算單元的數(shù)量和安排的數(shù)據(jù)挖掘任務(wù)來(lái)量化的。這種機(jī)制是一個(gè)系統(tǒng)虛擬化的簡(jiǎn)化版本,能夠最大限度地提高計(jì)算資源的利用率。為了有效地管理計(jì)算資源,每個(gè)計(jì)算單元都包含詳細(xì)規(guī)范的配置文件(信息包括計(jì)算能力、支持的運(yùn)行環(huán)境、運(yùn)行狀態(tài)等)。一臺(tái)物理服務(wù)器的存儲(chǔ)(包括可用的數(shù)據(jù)庫(kù)、HDFS和本地文件系統(tǒng))由該服務(wù)器上布置的計(jì)算單元共享。
3.2.4 異構(gòu)物理資源層
異構(gòu)物理資源層亦稱物理資源層,主要包括底層的物理設(shè)備。這些物理設(shè)備能有效地支撐數(shù)據(jù)存儲(chǔ)和擴(kuò)展。
3.3 FIU-Miner系統(tǒng)亮點(diǎn)評(píng)述
FIU-Miner 建立于分布式異構(gòu)環(huán)境之上,大大減少了不同物理環(huán)境給構(gòu)建數(shù)據(jù)分析任務(wù)帶來(lái)的復(fù)雜度,充分利用分布式計(jì)算的能力提升數(shù)據(jù)分析的效率。另外,F(xiàn)IU-Miner的計(jì)算資源是可動(dòng)態(tài)增減的,使其具備根據(jù)具體分析任務(wù)數(shù)量進(jìn)行在線調(diào)整計(jì)算物理資源的能力。最后,友好的用戶接口為基于FIU-Miner構(gòu)建不同的大數(shù)據(jù)挖掘應(yīng)用提供了極大的便捷。
4 FIU-Miner應(yīng)用實(shí)例一:高端制造業(yè)
4.1 高端制造業(yè)大數(shù)據(jù)挖掘任務(wù)
制造業(yè)是指大規(guī)模地把原材料加工成成品的工業(yè)生產(chǎn)過(guò)程。高端制造業(yè)是指制造業(yè)中新出現(xiàn)的具有高技術(shù)含量、高附加值、強(qiáng)競(jìng)爭(zhēng)力的產(chǎn)業(yè)。典型的高端制造業(yè)[9] 包括電子半導(dǎo)體生產(chǎn)、精密儀器制造、生物制藥等。這些制造領(lǐng)域往往涉及嚴(yán)密的工程設(shè)計(jì)、復(fù)雜的裝配生產(chǎn)線、大量的控制加工設(shè)備與工藝參數(shù)、精確的過(guò)程控制和材料的嚴(yán)格規(guī)范。產(chǎn)量和品質(zhì)極大地依賴流程管控和優(yōu)化決策。因此,制造企業(yè)不遺余力地采用各種措施優(yōu)化生產(chǎn)流程,調(diào)優(yōu)控制參數(shù),提高產(chǎn)品品質(zhì)和產(chǎn)量,從而提高企業(yè)的競(jìng)爭(zhēng)力。
隨著工藝、裝備和信息技術(shù)的不斷發(fā)展,現(xiàn)代制造業(yè)(特別是高端制造業(yè))產(chǎn)生和積累了大量生產(chǎn)過(guò)程的歷史數(shù)據(jù)。這些數(shù)據(jù)中蘊(yùn)含對(duì)生產(chǎn)和管理有很高價(jià)值的知識(shí)和信息。高端制造企業(yè)利用這些技術(shù)能夠更好地收集和管理生產(chǎn)流程數(shù)據(jù),也使得企業(yè)累積的相關(guān)數(shù)據(jù)在日益增多的同時(shí),也變得更加豐富、完備、準(zhǔn)確。
這些采集的數(shù)據(jù)來(lái)源于實(shí)際生產(chǎn),并與生產(chǎn)設(shè)計(jì)、機(jī)器設(shè)備、原材料、環(huán)境條件、生產(chǎn)流程等生產(chǎn)要素信息高度相關(guān)。通常情況下,工程人員通過(guò)人工分析很難察覺(jué)到參數(shù)間的關(guān)聯(lián)模式和影響品質(zhì)的重要生產(chǎn)要素等信息。然而,如何有效地利用這些數(shù)據(jù)優(yōu)化生產(chǎn)過(guò)程,提升生產(chǎn)效率,成為了企業(yè)關(guān)注的焦點(diǎn)。因此,制造企業(yè)需要一種高效、可靠的分析方法及工具,把隱藏在海量數(shù)據(jù)中有用的、深層次的知識(shí)和信息挖掘出來(lái),以提升高端制造業(yè)在控制、優(yōu)化、調(diào)度、管理等各個(gè)層面分析和解決問(wèn)題的能力。幸運(yùn)的是,利用數(shù)據(jù)挖掘可以對(duì)這些數(shù)據(jù)進(jìn)行有效的分析并轉(zhuǎn)換成有價(jià)值的生產(chǎn)知識(shí),從而能夠在實(shí)際應(yīng)用中改進(jìn)產(chǎn)品品質(zhì),提升產(chǎn)品性能和生產(chǎn)效率,最終達(dá)到提高企業(yè)行業(yè)競(jìng)爭(zhēng)力的目的。因此,數(shù)據(jù)挖掘技術(shù)是解決制造業(yè)海量信息數(shù)據(jù)處理的關(guān)鍵技術(shù)之一。
4.2 高端制造業(yè)大數(shù)據(jù)挖掘挑戰(zhàn)
高端制造業(yè)中的數(shù)據(jù)挖掘面臨很多挑戰(zhàn),比如:如何有效分析大規(guī)模數(shù)據(jù)、如何保證數(shù)據(jù)分析效率和分析結(jié)果的準(zhǔn)確性?在實(shí)際應(yīng)用中,從海量數(shù)據(jù)中依靠傳統(tǒng)信息系統(tǒng)進(jìn)行查詢和報(bào)警或單純利用專家經(jīng)驗(yàn)來(lái)分析和發(fā)現(xiàn)潛在有價(jià)值的信息已經(jīng)變得不太現(xiàn)實(shí)。因此,企業(yè)需要利用數(shù)據(jù)分析技術(shù)、工具或平臺(tái),智能地從大量復(fù)雜的生產(chǎn)原始數(shù)據(jù)中發(fā)現(xiàn)新的模式和知識(shí)作為改善生產(chǎn)過(guò)程的決策依據(jù),系統(tǒng)性地提高生產(chǎn)效率。
4.3 具體案例
FIU-Miner已經(jīng)被成功地應(yīng)用在四川虹歐顯示器件有限公司,作為等離子屏制造過(guò)程的數(shù)據(jù)分析平臺(tái)[3,10]。
4.3.1 等離子顯示器制造
等離子顯示器(plasma display panel,PDP)是一種利用氣體等離子效應(yīng)放出紫外線,從而激發(fā)三原色發(fā)光體獨(dú)立發(fā)光,達(dá)到顯示不同顏色和控制亮度的高端圖像顯示器。它具有亮度高、色彩多、面積大、視角廣、圖像清晰等眾多優(yōu)勢(shì),是大面積顯示需求(如家庭影院、電子廣告墻)的首選顯示器。
四川虹歐顯示器件有限公司是國(guó)內(nèi)最大的等離子生產(chǎn)公司,每天生產(chǎn)超過(guò)1萬(wàn)張等離子顯示面板,其生產(chǎn)線的一些指標(biāo)包括[10]:20個(gè)大工序、151個(gè)小工序;1 000多臺(tái)設(shè)備串聯(lián);工藝設(shè)備共計(jì)279臺(tái),設(shè)備種類達(dá)8 3 種;2 225個(gè)物流單元,全長(zhǎng)6 000 m;產(chǎn)品制造時(shí)間約76 h;單臺(tái)產(chǎn)品涉及的過(guò)程設(shè)備參數(shù)超過(guò)1.17 萬(wàn)個(gè)。
具體而言,在生產(chǎn)實(shí)踐中,技術(shù)人員關(guān)注如何提高產(chǎn)品的良品率。實(shí)現(xiàn)這個(gè)目標(biāo), 需要回答下面的一些問(wèn)題:哪些是關(guān)鍵的工藝參數(shù)(它們對(duì)產(chǎn)品的良品率有顯著的影響)、參數(shù)值的變動(dòng)會(huì)怎樣影響產(chǎn)品的良品率、哪些是有效的可以確保高良品率的工藝參數(shù)配方等。從PDP的數(shù)據(jù)特點(diǎn)來(lái)說(shuō),每天生產(chǎn)的數(shù)據(jù)存儲(chǔ)量是10 GB以上,每月有3~5億筆制造過(guò)程記錄,在數(shù)量、維度和數(shù)據(jù)產(chǎn)生速度上具有海量大數(shù)據(jù)特征。在生產(chǎn)工序復(fù)雜、設(shè)備參數(shù)眾多、數(shù)據(jù)量大的背景下,人為分析PDP生產(chǎn)過(guò)程,以期達(dá)到提高生產(chǎn)質(zhì)量的效果幾乎是無(wú)法實(shí)現(xiàn)的。因此,迫切需要研究基于等離子顯示屏制造過(guò)程的自動(dòng)化流程和產(chǎn)品優(yōu)化工具,從而提升制造過(guò)程參數(shù)管控能力和產(chǎn)品品質(zhì)。
4.3.2 基于FIU-Miner 的解決方案
在過(guò)去的幾年里,筆者的研究團(tuán)隊(duì)一直與四川虹歐顯示器件有限公司的技術(shù)人員和工程師緊密合作,利用數(shù)據(jù)挖掘來(lái)提高等離子屏的生產(chǎn)良品率。在這個(gè)合作過(guò)程中,確定了如下兩個(gè)主要的分析難點(diǎn),并提出了相應(yīng)的基于FIU-Miner 的解決方案。
● 7×24 h的自動(dòng)化生產(chǎn)方式和新數(shù)據(jù)采集工具的使用,使得數(shù)據(jù)量急劇增長(zhǎng), 需要強(qiáng)大的數(shù)據(jù)分析能力來(lái)支撐。
● 大量過(guò)程控制參數(shù)造成的數(shù)據(jù)高維特性對(duì)數(shù)據(jù)分析效率和分析結(jié)果的準(zhǔn)確性提出了更高要求。生產(chǎn)數(shù)據(jù)分析是對(duì)生產(chǎn)工作流程的一個(gè)認(rèn)知過(guò)程。這個(gè)過(guò)程本身就是對(duì)數(shù)據(jù)進(jìn)行探索、分析和理解的一個(gè)循序漸進(jìn)的迭代過(guò)程。因此,一個(gè)實(shí)用的系統(tǒng)應(yīng)該提供一個(gè)集成的、高效率的分析平臺(tái)來(lái)支持這個(gè)過(guò)程。
筆者的研究團(tuán)隊(duì)在FIU-Miner的基礎(chǔ)上,開(kāi)發(fā)了離子屏制造過(guò)程數(shù)據(jù)挖掘系統(tǒng)(PDP-Miner)[10]來(lái)解決PDP數(shù)據(jù)分析的難題。PDP-Miner的架構(gòu)如圖4所示。具體而言,在FIU-Miner的基礎(chǔ)上增加了數(shù)據(jù)分析層。
圖 4 PDP-Miner 的系統(tǒng)架構(gòu)
數(shù)據(jù)分析層提供具體分析任務(wù)的用戶執(zhí)行接口。以等離子屏數(shù)據(jù)挖掘系統(tǒng)為例, 數(shù)據(jù)分析任務(wù)主要包括數(shù)據(jù)立方、對(duì)比分析、回歸分析、參數(shù)選擇、參數(shù)配方、操作平臺(tái)、結(jié)果展示和報(bào)告管理。
其中,數(shù)據(jù)立方使分析人員能夠?qū)?shù)據(jù)進(jìn)行宏觀理解和快速預(yù)覽。數(shù)據(jù)立方子系統(tǒng)可以通過(guò)OLAP技術(shù)建立數(shù)據(jù)立方來(lái)幫助分析人員大致掌握數(shù)據(jù)特性。通過(guò)選擇維度和建立測(cè)度來(lái)對(duì)數(shù)據(jù)集進(jìn)行分析。通過(guò)數(shù)據(jù)立方操作(下鉆、上卷等)實(shí)現(xiàn)對(duì)數(shù)據(jù)的多粒度、多角度的理解。
對(duì)比分析子系統(tǒng),能快速發(fā)現(xiàn)敏感參數(shù)和驗(yàn)證重要參數(shù),因此,在PDP生產(chǎn)系統(tǒng)中顯得特別重要。通過(guò)比較參數(shù)在不同時(shí)期取值的統(tǒng)計(jì)特性,有效發(fā)現(xiàn)異常參數(shù)值,從而定位敏感設(shè)備或數(shù)據(jù)集。
數(shù)據(jù)分析子系統(tǒng)主要負(fù)責(zé)集成數(shù)據(jù)挖掘算法,提供業(yè)務(wù)操作接口。由于該系統(tǒng)面向非專業(yè)領(lǐng)域的操作人員,并聚焦到具體的分析業(yè)務(wù),因此數(shù)據(jù)挖掘算法被合理封裝到各個(gè)業(yè)務(wù)中,對(duì)操作人員透明?,F(xiàn)在的挖掘算法主要支持回歸分析、參數(shù)選擇、參數(shù)配方等任務(wù)。
分析報(bào)告系統(tǒng)基于業(yè)務(wù)分析結(jié)果產(chǎn)生分析報(bào)告。這些分析報(bào)告可以直接給決策者提供決策依據(jù)。同時(shí)報(bào)告系統(tǒng)也為領(lǐng)域?qū)<姨峁┦占答伒慕涌?。領(lǐng)域?qū)<抑R(shí)的引入對(duì)優(yōu)化模型、改進(jìn)算法具有很大的指導(dǎo)意義。
圖5給出了兩個(gè)具體PDP挖掘的工作流。其中第一個(gè)工作流(workflow 1)先集成多種特征選擇的方法來(lái)選出影響PDP生產(chǎn)的重要工藝參數(shù),然后利用回歸分析來(lái)建立這些參數(shù)與產(chǎn)品質(zhì)量的關(guān)系。第二個(gè)工作流(workflow 2)是利用頻繁模式分析來(lái)挖掘重要工藝參數(shù)的關(guān)聯(lián)關(guān)系,從而產(chǎn)生可能的參數(shù)配方。圖6給出了工作流的配置界面。
圖 5 PDP-Miner 工作流程
圖 6 PDP-Miner 工作流配置界面
使用等離子屏制造過(guò)程數(shù)據(jù)挖掘系統(tǒng)大大降低了對(duì)前臺(tái)使用人員的要求,可以使得操作人員能夠?qū)⒕劢沟娇焖侔l(fā)現(xiàn)問(wèn)題和解決問(wèn)題上。
通過(guò)技術(shù)人員將數(shù)據(jù)挖掘研究的結(jié)果和平臺(tái)進(jìn)行有效應(yīng)用,提高了對(duì)制造過(guò)程中所出現(xiàn)問(wèn)題的分析和解決的效率(見(jiàn)表1),使PDP屏生產(chǎn)線的綜合良品率及生產(chǎn)效率得到了快速提升。一方面,在顯示器件制造業(yè)首次采用大數(shù)據(jù)挖據(jù)技術(shù),實(shí)現(xiàn)了由傳統(tǒng)離散型的試驗(yàn)設(shè)計(jì)方法到數(shù)據(jù)挖掘模型來(lái)進(jìn)行制造過(guò)程參數(shù)管控的動(dòng)態(tài)在線分析處理方法,降低了制造過(guò)程品質(zhì)管控的試驗(yàn)成本。另一方面,通過(guò)數(shù)據(jù)挖掘平臺(tái),建立了等離子屏制造過(guò)程單工序/全工序的參數(shù)管控的主要數(shù)據(jù)挖掘分析模型,通過(guò)挖據(jù)結(jié)果的有效應(yīng)用,促進(jìn)了等離子顯示屏的制造良品率和生產(chǎn)效率的提升。最后,利用平臺(tái)挖掘方便快捷地指導(dǎo)技術(shù)人員進(jìn)行參數(shù)管控的常態(tài)化螺旋式提升。在成果應(yīng)用的這些年里, 促進(jìn)了PDP良品率和產(chǎn)能的快速提升,給公司帶來(lái)了巨大的生產(chǎn)經(jīng)濟(jì)效益。圖7給出了PDP-Miner的實(shí)際應(yīng)用的主界面,該系統(tǒng)的功能模塊包括數(shù)據(jù)探索(對(duì)比分析、數(shù)據(jù)立方)、數(shù)據(jù)分析(操作平臺(tái)、參數(shù)選擇、回歸分析、判別分析)、結(jié)果管理(可視化、結(jié)果列表和反饋收集)。需要特別指出的是,等離子顯示屏制造挖掘平臺(tái)可方便地移植于液晶面板、OLED面板等其他平板顯示領(lǐng)域,具備向整個(gè)平板行業(yè)推廣的基礎(chǔ)。
表 1 PDP-Miner 數(shù)據(jù)挖掘技術(shù)與傳統(tǒng)數(shù)據(jù)挖掘技術(shù)比較
圖 7 PDP-Miner 實(shí)際應(yīng)用的主界面
4.4 應(yīng)用亮點(diǎn)評(píng)述
將FIU-Miner應(yīng)用于高端制造業(yè)的實(shí)際案例,在國(guó)際上率先將數(shù)據(jù)挖掘技術(shù)應(yīng)用于顯示器件制造業(yè),為四川虹歐顯示器件有限公司構(gòu)建了制造過(guò)程單工序/全工序數(shù)據(jù)挖掘 分析模型,開(kāi)發(fā)了基于數(shù)據(jù)挖掘的PDP-Miner平臺(tái),有效提升了生產(chǎn)效率和產(chǎn)品質(zhì)量。該公司應(yīng)用PDP-Miner平臺(tái)后,產(chǎn)品綜合良品率得到了很大提高,同時(shí),生產(chǎn)效率的提升也帶來(lái)了很大的經(jīng)濟(jì)效益。該研究獲得2013年“中國(guó)制造業(yè)IT 新興技術(shù)應(yīng)用最佳實(shí)踐獎(jiǎng)”。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03