
大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)的應(yīng)用
隨著社會(huì)信息化的迅速發(fā)展,無論是數(shù)據(jù)的變化速率,還是數(shù)據(jù)的新增種類都在不斷更新,數(shù)據(jù)研究變得越來越復(fù)雜,這意味著“大數(shù)據(jù)時(shí)代”到來。2011年,互聯(lián)網(wǎng)數(shù)據(jù)中心(internet data center,IDC)將大數(shù)據(jù)重新定義為:在大數(shù)據(jù)原有的三維特征——數(shù)量、多樣、速度基礎(chǔ)上,增加了另一新的特征——“價(jià)值”。IDC強(qiáng)調(diào):“目前,對(duì)于龐大的數(shù)據(jù)量,通過經(jīng)濟(jì)的方式,極速發(fā)掘、獲取和分析處理的技術(shù),進(jìn)而提煉獲取價(jià)值,這是大數(shù)據(jù)新時(shí)代的專屬?!薄按髷?shù)據(jù)時(shí)代”的專屬特征被重新定義為:數(shù)量(volume)、多樣(variety)、速度(velocity)和價(jià)值(value),稱為“4V”。
隨著大數(shù)據(jù)時(shí)代的到來,社會(huì)對(duì)“挖掘”到的數(shù)據(jù)要求變得更加嚴(yán)格,每一個(gè)精準(zhǔn)的結(jié)果都具備獨(dú)自的“價(jià)值”,這時(shí),大數(shù)據(jù)時(shí)代的新增屬性——“價(jià)值”被演繹得有聲有色。數(shù)據(jù)挖掘(data mining, DM)是一門新興的、匯聚多個(gè)學(xué)科的交叉性學(xué)科,這是一個(gè)不平凡的處理過程,即從龐大的數(shù)據(jù)中,將未知、隱含及具備潛在價(jià)值的信息進(jìn)行提取的過程。1989年8月,在美國底特律市召開的第十一屆人工智能聯(lián)合會(huì)議的專題討論會(huì)上,知識(shí)發(fā)現(xiàn)(knowledge discover in database,KDD)初次被科學(xué)家們提出,同時(shí),也有人將知識(shí)發(fā)現(xiàn)稱為數(shù)據(jù)挖掘,但兩者并不完全等同。1995年,KDD這個(gè)術(shù)語在加拿大蒙特利爾市召開的第一屆知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘國際學(xué)術(shù)會(huì)議上被人們接受,會(huì)議分析了數(shù)據(jù)挖掘的整個(gè)流程。實(shí)質(zhì)上,數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)的子過程。
經(jīng)過了大約20年的發(fā)展,數(shù)據(jù)挖掘研究取得了可觀的成績(jī),漸漸地形成了一套基本的理論基礎(chǔ),主要包括:分類、聚類、模式挖掘和規(guī)則提取等。數(shù)據(jù)挖掘是一種從生活中的海量數(shù)據(jù)里“挖掘”出潛在的、前所未有的知識(shí)的技術(shù)。處理大數(shù)據(jù)需要一個(gè)綜合、復(fù)雜、多方位的系統(tǒng),系統(tǒng)中的處理模塊有很多,而數(shù)據(jù)挖掘技術(shù)以一個(gè)獨(dú)立的身份存在于處理大數(shù)據(jù)的整個(gè)系統(tǒng)之中,與其他模塊之間相輔相成、協(xié)調(diào)發(fā)展。在大數(shù)據(jù)時(shí)代中,數(shù)據(jù)挖掘技術(shù)的地位是無可比擬的。
數(shù)據(jù)挖掘的研究現(xiàn)狀
數(shù)據(jù)挖掘將高性能計(jì)算、機(jī)器學(xué)習(xí)、人工智能、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)可視化、數(shù)據(jù)庫技術(shù)和專家系統(tǒng)等多個(gè)范疇的理論和技術(shù)融合在一起。大數(shù)據(jù)時(shí)代對(duì)數(shù)據(jù)挖掘而言,既是機(jī)遇也是挑戰(zhàn),分析大數(shù)據(jù),建立適當(dāng)?shù)捏w系,不斷地優(yōu)化,提高決策的準(zhǔn)確性,從而更利于掌握并順應(yīng)市場(chǎng)的多端變化。在大數(shù)據(jù)時(shí)代下,數(shù)據(jù)挖掘作為最常用的數(shù)據(jù)分析手段得到了各個(gè)領(lǐng)域的認(rèn)可,目前國內(nèi)外學(xué)者主要研究數(shù)據(jù)挖掘中的分類、優(yōu)化、識(shí)別、預(yù)測(cè)等技術(shù)在眾多領(lǐng)域中的應(yīng)用。
分類
伴隨著時(shí)代的進(jìn)步和科技的飛速發(fā)展,作為人口大國,中國在健康醫(yī)療、老齡化社會(huì)等方面產(chǎn)生的公共數(shù)據(jù)呈幾何級(jí)數(shù)進(jìn)行增長(zhǎng),而基于大數(shù)據(jù)的挖掘數(shù)據(jù)所附有的價(jià)值問題急需解決。健康醫(yī)療數(shù)據(jù)的結(jié)構(gòu)、規(guī)模、范圍和復(fù)雜度等都在不斷擴(kuò)大,傳統(tǒng)的計(jì)算方法并不能完全滿足分析醫(yī)療數(shù)據(jù),數(shù)據(jù)挖掘技術(shù)則可以根據(jù)醫(yī)療數(shù)據(jù)的一些特點(diǎn):模式的多態(tài)性、信息的缺失性(數(shù)據(jù)中由于涉及個(gè)人隱私問題而導(dǎo)致的缺失值)、時(shí)序性、冗余性對(duì)健康醫(yī)療數(shù)據(jù)進(jìn)行分類,從而可以為醫(yī)生或病人提供準(zhǔn)確的輔助決策。
同時(shí),中國正加速進(jìn)入老齡化社會(huì),而互聯(lián)網(wǎng)是改善老齡化社會(huì)的重要媒介,大數(shù)據(jù)是評(píng)估老齡化社會(huì)重要的技術(shù)手段。屈芳等提出了“互聯(lián)網(wǎng)+大數(shù)據(jù)”模式的養(yǎng)老實(shí)現(xiàn)途徑,整個(gè)養(yǎng)老服務(wù)體系是建立在多元異構(gòu)信息匯聚和數(shù)據(jù)融合挖掘之上,“互聯(lián)網(wǎng)+大數(shù)據(jù)”的養(yǎng)老體系是將多種信息通信技術(shù)進(jìn)行融合,在這里,包括通信技術(shù)、數(shù)據(jù)挖掘技術(shù)及人工智能技術(shù)等。
優(yōu)化
道路的交通狀況與人們的出行關(guān)系密切,隨著城市的快速發(fā)展、生活水平的改善,機(jī)動(dòng)車的規(guī)模也逐漸擴(kuò)大,帶來了交通擁堵等問題。數(shù)據(jù)挖掘技術(shù)可以有效解決交通道路和物流網(wǎng)絡(luò)之間的優(yōu)化問題,Pan等提出了一種數(shù)據(jù)挖掘預(yù)測(cè)模型,該模型用于“實(shí)時(shí)預(yù)測(cè)”短期的交通狀況,給陷入交通擁堵的駕駛?cè)藛T帶來極大的幫助。
隨著科技的發(fā)展,網(wǎng)上購物越來越流行,同時(shí)帶來了物流運(yùn)輸擁堵及癱瘓等問題。京東——中國最大的在線交易平臺(tái)之一,在人工智能的優(yōu)化時(shí)代,使用無人機(jī)探測(cè)道路狀況反饋的數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù)精準(zhǔn)計(jì)算物流網(wǎng)絡(luò)運(yùn)輸所需要的參數(shù),可以輕松高效地緩解物流運(yùn)輸癱瘓的問題,從而產(chǎn)生了中國第一個(gè)機(jī)器人快遞員,將第一個(gè)商品送達(dá)至中國人民大學(xué)。而隨著日后交通網(wǎng)絡(luò)長(zhǎng)度、復(fù)雜性等方面的增加,實(shí)現(xiàn)無人駕駛的自動(dòng)化策略難度也大幅增加,只有通過數(shù)據(jù)挖掘技術(shù)才可以快速計(jì)算出結(jié)果,從而獲得從復(fù)雜道路信息中產(chǎn)生的高效價(jià)值。
識(shí)別
自從20世紀(jì)50年代數(shù)字圖像出現(xiàn)以來,數(shù)字圖像成為人類社會(huì)中必不可少的“數(shù)據(jù)”。在計(jì)算機(jī)應(yīng)用中,數(shù)據(jù)挖掘在圖像識(shí)別的應(yīng)用越來越普遍,有代表性應(yīng)用為人臉識(shí)別和指紋識(shí)別。人臉識(shí)別通過對(duì)獲得的信息庫進(jìn)行數(shù)據(jù)挖掘,進(jìn)一步分析和處理可靠的、潛在的數(shù)據(jù),充分準(zhǔn)備資料的分析工作和未來的開發(fā)工作。Wright等闡述了基于稀疏表示的魯棒人臉識(shí)別,并給出了詳細(xì)的理論分析與實(shí)踐總結(jié)。
沙亞清等針對(duì)目前的電子報(bào)稅系統(tǒng)中利用用戶名和口令的不安全性,提出了一種基于智能卡和指紋識(shí)別的身份認(rèn)證方案,并結(jié)合指紋技術(shù),構(gòu)建新的口令參數(shù),從而使得安全性明顯提高。隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,大數(shù)據(jù)識(shí)別人臉和指紋的精確度會(huì)越來越高。
預(yù)測(cè)
預(yù)測(cè)問題是各領(lǐng)域中研究最多的問題,其目的是通過歷史數(shù)據(jù)預(yù)測(cè)出未來的數(shù)據(jù)值或發(fā)展趨勢(shì)。大部分歷史數(shù)據(jù)是時(shí)間序列數(shù)據(jù),即指按照時(shí)間的順序排列,得到了一系列觀測(cè)值。由于信息技術(shù)的不斷進(jìn)步,時(shí)間序列的數(shù)據(jù)也日益劇增,如氣象預(yù)報(bào)、石油勘探、金融等。時(shí)間序列數(shù)據(jù)挖掘的最終目標(biāo)就是通過分析時(shí)間序列的歷史數(shù)據(jù),預(yù)測(cè)未來一段時(shí)間的變化趨勢(shì)及其帶來的影響。
“氣象”與地球的生態(tài)平衡和人們的正常生活息息相關(guān),因此,氣象的準(zhǔn)確預(yù)報(bào)顯得格外重要。周磊等總結(jié)了目前的氣象監(jiān)測(cè)模型,基于遙感數(shù)據(jù)的干旱方面,將目前的遙感監(jiān)測(cè)方法進(jìn)行分類,對(duì)于外界的環(huán)境條件(溫度、濕度等)進(jìn)行分類討論,提出解決復(fù)雜問題的新方法。
石油作為一種不可再生資源,目前全球儲(chǔ)量日益減少,從而使得石油勘探變得越來越重要。在石油勘探管理中,所采集的數(shù)據(jù)具有數(shù)據(jù)量大、計(jì)算量大、采集來源單一及數(shù)據(jù)處理流程復(fù)雜的特點(diǎn),用數(shù)據(jù)挖掘技術(shù)對(duì)其采集的大數(shù)據(jù)集進(jìn)行高性能并行計(jì)算和分析,才可以保證結(jié)果的有效性和準(zhǔn)確性。
在大數(shù)據(jù)時(shí)代下,銀行、證券公司、保險(xiǎn)公司等每天的業(yè)務(wù)都將生成海量數(shù)據(jù),采用當(dāng)前的數(shù)據(jù)庫系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢和統(tǒng)計(jì)等功能,目前,從簡(jiǎn)單的查詢提升到利用數(shù)據(jù)挖掘技術(shù)挖掘知識(shí)、提供決策支持的層次顯得格外重要。數(shù)據(jù)挖掘技術(shù)在金融行業(yè)應(yīng)用具有可行性,將理論基礎(chǔ)應(yīng)用到相關(guān)的實(shí)例包括預(yù)測(cè)股票指數(shù)、發(fā)現(xiàn)金融時(shí)間序列中的隱含模式、信用風(fēng)險(xiǎn)管理及匯率預(yù)測(cè)等。
數(shù)據(jù)挖掘主要方法
數(shù)據(jù)挖掘是一門交叉性的新興學(xué)科,它將數(shù)據(jù)可視化、數(shù)據(jù)庫技術(shù)、高性能計(jì)算機(jī)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、模式識(shí)別、人工智能等多個(gè)范疇的理論和技術(shù)融合在一起。數(shù)據(jù)挖掘的主要方法概括為:預(yù)測(cè)模型方法、數(shù)據(jù)分割方法、關(guān)聯(lián)分析法和偏離分析法(圖1)。解決實(shí)際問題時(shí),將已知的數(shù)據(jù)庫蘊(yùn)含的復(fù)雜信息轉(zhuǎn)換成數(shù)學(xué)的語言,建立數(shù)學(xué)模型,運(yùn)用相應(yīng)的處理方法結(jié)果會(huì)更加有效。
圖1 數(shù)據(jù)挖掘的主要方法
預(yù)測(cè)模型方法
預(yù)測(cè)模型方法是數(shù)據(jù)挖掘主要方法中分支較為復(fù)雜的一類,包括神經(jīng)網(wǎng)絡(luò)與決策樹等相關(guān)人工智能算法、進(jìn)化算法及支持向量機(jī)等算法。
1)神經(jīng)網(wǎng)絡(luò)與決策樹等相關(guān)人工智能算法
在預(yù)測(cè)模型方法中,神經(jīng)網(wǎng)絡(luò)算法、決策樹算法、貝葉斯分類算法、基于關(guān)聯(lián)規(guī)則分類算法等都是經(jīng)典的人工智能算法。
1943年,心理學(xué)家McCulloch和數(shù)理邏輯學(xué)家Pitts建立了神經(jīng)網(wǎng)絡(luò)和數(shù)學(xué)模型,稱為MP模型,證明了單個(gè)神經(jīng)元能夠執(zhí)行邏輯功能,從而開創(chuàng)了人工神經(jīng)網(wǎng)絡(luò)研究的新時(shí)代。通過仿真和模擬生物的神經(jīng)系統(tǒng)而獲得非線性處理能力的一種新的算法——人工神經(jīng)網(wǎng)絡(luò)算法(artificial neural network,ANN)。
現(xiàn)有的決策樹的分類算法有ID3、C4.5等。1986年,Quinlan提出了著名的ID3算法,在ID3的基礎(chǔ)上,1993年Quinlan又提出了C4.5算法。決策樹(decision tree,DT)分類算法是一種以決策樹形式表示的分類規(guī)則,它能夠根據(jù)一定的規(guī)則將眾多的數(shù)據(jù)分類,從中挖掘出那些有價(jià)值的、潛在的信息。決策樹的主要優(yōu)點(diǎn)在于處理大數(shù)據(jù)的能力強(qiáng),適合分類及處理預(yù)測(cè)模型的任務(wù),結(jié)論易于解釋和理解。
目前的主要研究有3種:CBA、CMAR和CPAR。自1993年Agrawal提出數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則挖掘后,基于關(guān)聯(lián)規(guī)則分類算法(classification base of association,CBA)及應(yīng)用得到迅速發(fā)展。1997年,Ali等提出了使用分類關(guān)聯(lián)規(guī)則進(jìn)行部分分類的思想。1998年,Liu等提出了基于分類關(guān)聯(lián)規(guī)則的關(guān)聯(lián)分類算法CBA,從此揭開了關(guān)聯(lián)分類的序幕?;?a href='/map/guanlianguize/' style='color:#000;font-size:inherit;'>關(guān)聯(lián)規(guī)則分析的分類算法搜索頻繁模式與類標(biāo)號(hào)之間的強(qiáng)關(guān)聯(lián),有效避免了決策樹歸納一次只考慮一個(gè)屬性的限制,使其比一些傳統(tǒng)的分類算法更為準(zhǔn)確。
貝葉斯(Bayes)分類算法是一種算法相對(duì)比較簡(jiǎn)單、分類精度相對(duì)較高的分類算法。在分類的性能方面,決策樹算法、貝葉斯分類算法及神經(jīng)網(wǎng)絡(luò)算法之間關(guān)系十分緊密。現(xiàn)有的貝葉斯分類算法包括樸素貝葉斯算法、動(dòng)態(tài)貝葉斯算法等。常見組合分類方法有隨機(jī)森林方法、bagging方法及boosting方法。其中,隨機(jī)森林方法是將多個(gè)決策樹分類器組合在一起的方法,在boosting算法中最常見的一種是AdaBoost算法。在準(zhǔn)確度上,二者不相上下,但是,在運(yùn)行速度上,隨機(jī)森林方法更占優(yōu)勢(shì)。朱凌云等提出了一種新的技術(shù)并在醫(yī)學(xué)中的應(yīng)用,體現(xiàn)了數(shù)據(jù)的處理、多屬性信息的融合、挖掘算法的高效性和魯棒性。由于神經(jīng)網(wǎng)絡(luò)系統(tǒng)具有高度的抗干擾能力,所以,在各個(gè)領(lǐng)域內(nèi)神經(jīng)網(wǎng)絡(luò)算法應(yīng)用廣泛,例如數(shù)據(jù)挖掘、信號(hào)處理、自動(dòng)控制、模式識(shí)別及圖像處理等多個(gè)范疇。
2)進(jìn)化算法
進(jìn)化算法,又稱“演化算法”(evolutionary algorithms,EAs),其代表性算法為遺傳算法。1969年,Holland提出了一種隨機(jī)搜索的最優(yōu)化方法,它是模擬自然界中的遺傳機(jī)制和生物進(jìn)化論而成的,稱為遺傳算法(genetic algorithms,GA)。它將利用自然界中的“優(yōu)勝劣汰,適者生存”的生物進(jìn)化原理改變優(yōu)化參數(shù),根據(jù)適應(yīng)度函數(shù)的選取,最終形成編碼串聯(lián)到群體中。遺傳算法的基本步驟:選擇、交叉和變異。遺傳算法的主要目的是留下適應(yīng)度值好的個(gè)體,淘汰適應(yīng)度值差的個(gè)體,繼續(xù)循環(huán)選擇、交叉和變異步驟。
近幾年,又演化出新的進(jìn)化算法,如粒子群算法、蟻群算法以及灰狼優(yōu)化算法等。粒子群算法(particle swarm optimization,PSO)是由Eberhart等開發(fā)的一種新的進(jìn)化算法。與模擬退火算法相似,PSO算法也是從隨機(jī)解出發(fā),通過迭代進(jìn)而尋找最優(yōu)解,與上述的“遺傳算法”相比而言,規(guī)則更為簡(jiǎn)單,它沒有遺傳算法基本步驟中的“交叉”和“變異”,而是通過追隨當(dāng)前搜索獲得的最優(yōu)值來尋找全局的最優(yōu)解。粒子群算法以實(shí)現(xiàn)簡(jiǎn)便、精度高、收斂快等優(yōu)點(diǎn)引起了學(xué)術(shù)界的重視,并且在解決實(shí)際問題中展示了其優(yōu)越性。
1995年,Corinna和Vapnik等首先提出了支持向量機(jī)(support vector machine,SVM),它是一種具備較強(qiáng)的分類能力和泛化能力的分類算法,主要解決小樣本、非線性、高維模式識(shí)別及函數(shù)擬合等其他機(jī)器學(xué)習(xí)問題。支持向量機(jī)主要分為以下3種情況。
線性可分情況。針對(duì)線性可分的情況,現(xiàn)實(shí)生活中存在大量的實(shí)例,例如,在一組醫(yī)療數(shù)據(jù)中,通過支持向量機(jī)可以將患者和正常人進(jìn)行分類(即二分類),判斷哪些是患者,哪些是正常人;在一組由民歌和古箏演奏的音樂辨別中進(jìn)行有效的分類,判斷哪些是民歌,哪些是古箏。
線性不可分情況。解決線性不可分問題時(shí),構(gòu)建核函數(shù),這是支持向量機(jī)的優(yōu)勢(shì)所在。但是,對(duì)于數(shù)據(jù)集訓(xùn)練的“復(fù)雜度”最終還是取決于它的規(guī)模,在處理大規(guī)模數(shù)據(jù)時(shí),模型局部受限,泛化能力有時(shí)也會(huì)有所消耗或損失。
非線性可分情況。支持向量機(jī)利用結(jié)構(gòu)風(fēng)險(xiǎn)最小化替代經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則,較好地解決了小樣本情況下的學(xué)習(xí)問題。針對(duì)非線性問題與線性問題是怎樣建立起聯(lián)系的,它們之間是如何進(jìn)行轉(zhuǎn)化的,“核函數(shù)的思想”提供了新的思路。
數(shù)據(jù)分割方法
數(shù)據(jù)分割是將數(shù)據(jù)依據(jù)某些屬性將其聚類,使之具有一定的意義。由于數(shù)據(jù)的類型、數(shù)據(jù)的復(fù)雜度和聚類的數(shù)目等特點(diǎn),聚類算法有很多,如劃分方法、基于網(wǎng)絡(luò)的方法、基于密度的方法、層次方法等。
肖娟等針對(duì)傳統(tǒng)的算法處理多層次的復(fù)雜建筑物中涉及的困難,提出了一種新的算法,對(duì)建筑物進(jìn)行分割,對(duì)幾何基元進(jìn)行提取。
關(guān)聯(lián)分析法
關(guān)聯(lián)分析法是尋找數(shù)據(jù)間的關(guān)聯(lián),但從大數(shù)據(jù)集中尋找關(guān)聯(lián)可能會(huì)導(dǎo)致效率降低,找到的關(guān)聯(lián)也可能毫無意義。在研究過程中存在“支持度”和“置信度”,“支持度”可以有根據(jù)地將那些毫無意義的數(shù)據(jù)刪除,而“置信度”可以衡量設(shè)置規(guī)則的可能性。關(guān)聯(lián)分析法的主要算法有Apriori算法、DHP算法和DIC算法等。
Chen等在現(xiàn)有的分析方法基礎(chǔ)上,積累了海量的數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù),提出了一種新的算法,即通過關(guān)聯(lián)分析法建立相關(guān)模式挖掘方法,借助多種新型優(yōu)化技術(shù),可以有效且高效地減少搜索空間。此外,將該算法應(yīng)用于現(xiàn)實(shí)世界的數(shù)據(jù)集中,展示了相關(guān)模式挖掘的實(shí)用性。
偏離分析法
偏差包括潛在的信息量,例如設(shè)定模式中的特例、分類中的異樣實(shí)例以及分析實(shí)驗(yàn)得到的最終結(jié)果與實(shí)驗(yàn)前設(shè)定的期望之間的偏差等。觀察比較最終的結(jié)果與參照量之間的偏差是偏離分析法的核心所在。
在企業(yè)的預(yù)警或是危機(jī)解決的過程中,專業(yè)的管理者對(duì)突發(fā)的意外規(guī)則更感興趣,在異常信息的發(fā)現(xiàn)、識(shí)別、觀察、分析、挖掘、評(píng)價(jià)和預(yù)警等方面,挖掘意外規(guī)則的應(yīng)用價(jià)值備受關(guān)注。
大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘的應(yīng)用
在大數(shù)據(jù)時(shí)代下,數(shù)據(jù)挖掘已經(jīng)廣泛地應(yīng)用到生活中各種各樣的領(lǐng)域中,成為當(dāng)今高科技發(fā)展的熱點(diǎn)問題。無論在軟件開發(fā)、醫(yī)療衛(wèi)生方面,還是在金融、教育等方面都可以隨處看到數(shù)據(jù)挖掘的影子,可以使用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)大數(shù)據(jù)的內(nèi)在的巨大價(jià)值。
惡意軟件的智能檢測(cè)
在大數(shù)據(jù)時(shí)代下,在惡意軟件檢測(cè)中數(shù)據(jù)挖掘技術(shù)得到廣泛的應(yīng)用。惡意軟件嚴(yán)重?fù)p害到網(wǎng)絡(luò)和計(jì)算機(jī),惡意軟件的檢查依賴于簽名數(shù)據(jù)庫(signature atabase,SD),通過SD,對(duì)文件進(jìn)行比較和檢查,如果字節(jié)數(shù)相等,則可疑文件將被識(shí)別為惡意文件。有些基于有標(biāo)簽的惡意軟件檢測(cè)的主題,集中在一個(gè)模糊的環(huán)境下,進(jìn)而,無法進(jìn)行惡意軟件行為的動(dòng)態(tài)修改,無法識(shí)別隱藏的惡意軟件。相反地,基于行為的惡意軟件檢測(cè)就可以找到惡意文件的真實(shí)行為。而如果采用基于數(shù)據(jù)挖掘技術(shù)的分類方法,就可以根據(jù)每個(gè)惡意軟件的特征和行為進(jìn)行檢測(cè),從而檢測(cè)到惡意軟件的存在。
生物信息學(xué)中的廣泛應(yīng)用
生物信息學(xué)是一門交叉學(xué)科,融合了生命科學(xué)、計(jì)算機(jī)科學(xué)、信息科學(xué)和數(shù)學(xué)等眾多學(xué)科。隨著科技的快速發(fā)展、技術(shù)的提升及結(jié)果的優(yōu)化,將高科技信息技術(shù)拓展到生物研究領(lǐng)域。但是,單純憑借原有的計(jì)算機(jī)技術(shù)是遠(yuǎn)遠(yuǎn)不夠的,需要以計(jì)算機(jī)科學(xué)做輔助,將生命科學(xué)、信息科學(xué)和數(shù)學(xué)等交叉學(xué)科融合在一起,通過數(shù)據(jù)挖掘技術(shù)進(jìn)行處理,仔細(xì)分析生物數(shù)據(jù)之間的內(nèi)在聯(lián)系,挖掘生物數(shù)據(jù)內(nèi)部的潛在信息。生物信息數(shù)據(jù)的特點(diǎn)有很多,孫勤紅總結(jié)了當(dāng)前生物信息數(shù)據(jù)的特點(diǎn),包括數(shù)量大、種類多、維度高、形式廣及序列性等。當(dāng)前生物信息學(xué)的熱點(diǎn)包括:從以序列分析為代表的組成分析向功能分析的轉(zhuǎn)變;從單個(gè)生物分析的研究到基因調(diào)控的轉(zhuǎn)變;對(duì)基因組數(shù)據(jù)進(jìn)行整體分析等。人類目前在生物基因組計(jì)劃中的研究,僅僅是冰山的一角,未來在差異基因表達(dá)、癌癥基因檢測(cè)、蛋白質(zhì)和RNA基因的編碼等生物基因方面的研究工作都與數(shù)據(jù)挖掘技術(shù)密不可分,只有更好地利用數(shù)據(jù)挖掘技術(shù),才可以挖掘出生物基因組中的非凡價(jià)值。
信用卡的違約預(yù)測(cè)
如今,隨著科技的高速發(fā)展,信息量急劇增加,內(nèi)容變得越來越豐富,信用卡在人們的生活中具有不可忽視的地位。眾所周知,信用卡是由銀行發(fā)放,銀行需要對(duì)申請(qǐng)人的個(gè)人信息進(jìn)行核實(shí),確認(rèn)無誤后再進(jìn)行發(fā)放信用卡,Chen等針對(duì)商業(yè)銀行貸款行為提出了一種關(guān)于信用率的模糊算法。信用卡在辦理之前,銀行首先需要對(duì)申請(qǐng)人進(jìn)行細(xì)致調(diào)查,根據(jù)申請(qǐng)人的實(shí)際情況判斷是否有能力來償還所貸金額,劉銘等在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上,采用灰狼優(yōu)化算法計(jì)算神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值,并提出了一種改進(jìn)的模糊神經(jīng)網(wǎng)絡(luò)的算法,通過建立的信用卡客戶的違約預(yù)測(cè)模型,與目前其他的預(yù)測(cè)方法進(jìn)行比較,得到較好的預(yù)測(cè)結(jié)果,進(jìn)一步,驗(yàn)證了模糊神經(jīng)網(wǎng)絡(luò)在信用卡客戶的預(yù)測(cè)上具有較好的魯棒性、準(zhǔn)確性和高效性。采用有效的數(shù)據(jù)挖掘技術(shù),針對(duì)信用卡客戶屬性和消費(fèi)行為的海量數(shù)據(jù)進(jìn)行分析,可以更好的維護(hù)優(yōu)質(zhì)客戶,消除違約客戶的風(fēng)險(xiǎn)行為,為信用卡等金融業(yè)務(wù)價(jià)值的提升提供了技術(shù)上的保障。
疾病的智能診斷
1)宮頸癌的診斷。
宮頸癌是國際上最普遍的婦科惡性腫瘤之一。2012年統(tǒng)計(jì)數(shù)字顯示,宮頸癌在全球的新發(fā)病例數(shù)為52.8萬,死亡數(shù)26.6萬,居女性生殖道惡性腫瘤發(fā)病率的首位。按照有關(guān)數(shù)據(jù)統(tǒng)計(jì),發(fā)展中國家占83%,其中死亡病例占85%,由于宮頸癌的篩查工作不夠完善,導(dǎo)致高發(fā)病率和高死亡率。相反地,在發(fā)達(dá)國家,很大程度上宮頸癌的低發(fā)病率源于有效的篩查和診斷。為了減少來自每個(gè)專家的標(biāo)簽數(shù)據(jù)量,F(xiàn)ernandes等提出一種基于正則化的轉(zhuǎn)移學(xué)習(xí)策略,鼓勵(lì)源模型和目標(biāo)模型共享相同的系數(shù)符號(hào)。
2)乳腺癌的診斷。
乳腺腫瘤是女性惡性腫瘤中最常見的腫瘤,影響婦女的身體和精神健康,甚至威脅生命。20世紀(jì)以來,全世界范圍內(nèi)乳腺癌的患病率均有所增加,特別是歐洲和北美地區(qū),分別占?xì)W洲和北美女性惡性腫瘤發(fā)病率的第一和第二位。目前,世界女性乳腺癌在癌癥中的發(fā)病率最高,據(jù)美國疾病預(yù)防中心統(tǒng)計(jì),早期乳腺癌的治愈率可高達(dá)97%,進(jìn)展期的治愈率僅為40%。因此,越早發(fā)現(xiàn)乳腺癌,治愈效果越好,即“早發(fā)現(xiàn),早治療”。
在大數(shù)據(jù)時(shí)代下,醫(yī)療方面的數(shù)據(jù)呈現(xiàn)出數(shù)量大、類型多、處理方法復(fù)雜等特點(diǎn),數(shù)據(jù)挖掘技術(shù)對(duì)這些問題的處理起到了至關(guān)重要的作用。威斯康星大學(xué)醫(yī)院Wolberg提供的乳腺腫瘤分析結(jié)果顯示,乳腺腫瘤的特征可以由9個(gè)參數(shù)來表示。基于改進(jìn)的BP神經(jīng)網(wǎng)絡(luò),劉銘建立了乳腺腫瘤的模擬模型,對(duì)傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn)和發(fā)展,當(dāng)Levenberg-Marquardt(L-M)迭代替代了梯度下降算法時(shí),網(wǎng)絡(luò)收斂速度得到了明顯的提高。
使用Matlab2010a進(jìn)行求解,采用L-M迭代后,目標(biāo)誤差為0.1,得到結(jié)果。通過圖2可知,神經(jīng)網(wǎng)絡(luò)在第7代達(dá)到收斂。測(cè)試數(shù)據(jù)有83個(gè)樣本。其中良性54例,惡性29例。采用檢測(cè)資料進(jìn)行檢測(cè),診斷結(jié)果為良性54例,良性發(fā)生率100%,惡性28例,惡性發(fā)生率96.6%,所以平均診斷發(fā)病率為98.8%,結(jié)果良好。
圖2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練性能
3)冠心病的診斷。
近年來,心血管疾病已成為威脅人類的最嚴(yán)重疾病之一,冠心病是心血管疾病中常見的疾病。因此,研究冠心病的有效診斷方法是必要的,有助于進(jìn)一步采取預(yù)防措施和及時(shí)治療。目前,冠狀動(dòng)脈造影是觀察冠狀動(dòng)脈形態(tài)的唯一直接途徑,被醫(yī)學(xué)界稱為“金標(biāo)準(zhǔn)”。然而,這是一項(xiàng)創(chuàng)傷性診斷,需要高水平的醫(yī)療條件,否則不慎操作會(huì)引起嚴(yán)重并發(fā)癥甚至死亡,這限制了診斷技術(shù)的發(fā)展。因此,許多專家專注于研究國內(nèi)外冠心病的有效和非創(chuàng)傷性診斷。經(jīng)對(duì)Cleveland診所基金會(huì)提供的冠心病病例分析后,劉銘得出了反映冠心病特征的14個(gè)參數(shù),采用BP算法,通過使用L-M算法的迭代對(duì)BP算法進(jìn)行改進(jìn)和開發(fā),提高了網(wǎng)絡(luò)收斂速度,在改進(jìn)的BP算法的基礎(chǔ)上,建立了智能診斷的仿真模型。隨著該方法的應(yīng)用,診斷率可達(dá)99.3%。
針對(duì)疾病的智能診斷,數(shù)據(jù)挖掘具有4個(gè)應(yīng)用角度:在醫(yī)院信息系統(tǒng)中的應(yīng)用、在疾病輔助診斷中的應(yīng)用、在藥物開發(fā)中的應(yīng)用、在遺傳學(xué)方面的應(yīng)用。
地質(zhì)災(zāi)害的風(fēng)險(xiǎn)評(píng)估
地質(zhì)災(zāi)害研究具有悠久的歷史,地質(zhì)災(zāi)害風(fēng)險(xiǎn)評(píng)估是一個(gè)新興的研究領(lǐng)域。近年來,在某些領(lǐng)域已經(jīng)開發(fā)出更準(zhǔn)確的預(yù)測(cè)和分析的方法,這些領(lǐng)域涉及到坍塌、地震、山體滑坡和泥石流等地質(zhì)災(zāi)害。
劉銘提出了一種新穎的智能計(jì)算方法,將數(shù)據(jù)挖掘技術(shù)與地質(zhì)災(zāi)害風(fēng)險(xiǎn)實(shí)際問題融合在一起,這種混合計(jì)算方法促進(jìn)了對(duì)地質(zhì)災(zāi)害風(fēng)險(xiǎn)的準(zhǔn)確評(píng)估。混合智能算法包括粒子群優(yōu)化、遺傳算法和反向傳播神經(jīng)網(wǎng)絡(luò)。反向傳播神經(jīng)網(wǎng)絡(luò)和粒子群算法優(yōu)化了網(wǎng)絡(luò)連接權(quán)重,閾值的初始化采用遺傳算法,同時(shí),在迭代過程中更新連接權(quán)重和閾值。這項(xiàng)地質(zhì)災(zāi)害預(yù)測(cè)研究是在吉林災(zāi)害監(jiān)測(cè)數(shù)據(jù)的基礎(chǔ)上,模擬中國東北地區(qū),通過混合智能算法獲得的準(zhǔn)確度遠(yuǎn)高于BP神經(jīng)網(wǎng)絡(luò)方法帶來的準(zhǔn)確度。隨著地質(zhì)災(zāi)害風(fēng)險(xiǎn)評(píng)估在國際風(fēng)險(xiǎn)評(píng)估機(jī)構(gòu)中得到肯定,混合方式得到更廣泛的應(yīng)用,如混合智能算法將促進(jìn)更有效的應(yīng)急響應(yīng)、環(huán)境管理、土地利用和開發(fā)規(guī)劃。
污水的成因分析
在大數(shù)據(jù)時(shí)代的背景下,當(dāng)研究水環(huán)境和污水處理時(shí),生物膜的組成和活性是兩個(gè)非常重要的參數(shù)。而處理污水問題時(shí),面對(duì)的數(shù)據(jù)海量,單一的傳統(tǒng)數(shù)學(xué)方法解決效果不夠理想,引入數(shù)據(jù)挖掘技術(shù)進(jìn)行分析,問題優(yōu)化的結(jié)果將會(huì)更令人滿意。
研究水環(huán)境的重點(diǎn)在于對(duì)污水處理、運(yùn)行和控制方面的實(shí)際需要,通過數(shù)據(jù)挖掘技術(shù)可以準(zhǔn)確找到生物膜的表征和活性,并進(jìn)行估計(jì),進(jìn)而對(duì)于參數(shù)不足以描述生物膜活性的問題得以解決。
在給定的限度內(nèi),隨著生物膜的厚度增加,生物膜的活性也隨之增強(qiáng)。測(cè)量或估計(jì)生物膜厚度和活性的方法是評(píng)估生物膜廢水處理效率的重要因素,然而目前用于預(yù)測(cè)生物膜厚度和空間分布適應(yīng)性的工具較差。對(duì)此林山松等基于碳-氮-磷濃度的空間分布生物膜厚度和活性,提出了支持向量回歸模型,用以預(yù)測(cè)反應(yīng)器中的生物膜的厚度和活力。
采用共聚焦激光掃描顯微鏡方法對(duì)12個(gè)樣點(diǎn)的4個(gè)隨機(jī)位置上形成的成熟生物膜的厚度進(jìn)行估算,并將其平均值作為每個(gè)載體的最終厚度。圖3為共聚焦激光掃描顯微鏡的微圖,展示了在運(yùn)行100天后載體上的典型生物膜的厚度,其中Z軸上的數(shù)字(30.6μm)是由激光共聚焦顯微鏡測(cè)量的生物膜厚度。得到的數(shù)據(jù)作為觀測(cè)值來估計(jì)反應(yīng)器中未被采樣點(diǎn)的生物膜厚度,這些未被采樣的點(diǎn)的生物膜厚度通過使用Kriging插值得到。
圖3 用于檢測(cè)生物膜厚度的激光共聚焦顯微鏡顯微照片的例子
基于實(shí)際值的Kriging插法和距離反應(yīng)器底部垂直35 cm處的生物膜厚度和生物膜活性的支持向量回歸模型預(yù)測(cè)值進(jìn)行了比較。圖4比較了使用支持向量回歸模型的生物膜厚度和生物膜的活性的實(shí)際值和預(yù)測(cè)值。結(jié)果表明較高的系數(shù)R2=(0.996,0.997),并且通過支持向量回歸基于碳-氮-磷值在碎石球狀骨料反應(yīng)器中預(yù)測(cè)生物膜厚度和生物膜活性的高度可行性,同時(shí)根據(jù)實(shí)際值驗(yàn)證Kriging插值的準(zhǔn)確性。
圖4 生物膜厚度(a)和生物膜活性(b)實(shí)際值與預(yù)測(cè)值
利用Kriging插值法分析組合共聚焦激光掃描顯微鏡和流式細(xì)胞術(shù)顯示,生物膜厚度從22μm到31μm,生物膜活性在反應(yīng)器的流動(dòng)方向上從80%降至30%。同時(shí),證實(shí)了化學(xué)需氧量,總氮量和總磷酸鹽去除特征與生物膜厚度和生物膜活性的水分分布之間存在明顯的相關(guān)性。
教育大數(shù)據(jù)的挖掘
教育是國家發(fā)展的根本,在大數(shù)據(jù)時(shí)代,教育大數(shù)據(jù)的挖掘是教育數(shù)據(jù)價(jià)值的體現(xiàn)。根據(jù)教育部的數(shù)據(jù)顯示,截至2013年,中國高校貧困學(xué)生數(shù)目已經(jīng)高達(dá)500余萬,中國高校的貧困學(xué)生比例已經(jīng)高達(dá)20%,其中,特困學(xué)生的比例已經(jīng)超過了總在校人數(shù)的5%。全國各個(gè)高校都對(duì)貧困學(xué)生都有各種資助政策,盡量不讓每個(gè)學(xué)生因?yàn)樨毨Ф艞墝W(xué)業(yè)。傳統(tǒng)的資助形式都是大學(xué)生進(jìn)行申請(qǐng),并遞交相關(guān)貧困證明材料,但部分學(xué)生因?yàn)檩^強(qiáng)的自尊心,不想讓同學(xué)發(fā)現(xiàn)自己的特殊性而放棄申請(qǐng),從而導(dǎo)致貧困助學(xué)金并不能準(zhǔn)確地發(fā)放到每個(gè)貧困學(xué)生的手中。2015年3月2日,南京理工大學(xué)的“暖心飯卡工程”受到來自各界的關(guān)注。南京理工大學(xué)教育發(fā)展基金會(huì)工作人員對(duì)學(xué)生在日常生活中的數(shù)據(jù)進(jìn)行了調(diào)查和數(shù)據(jù)的采集,該項(xiàng)調(diào)查涉及的共有16000余名南京理工大學(xué)當(dāng)前在校學(xué)習(xí)的本科生,采集的數(shù)據(jù)為在2014年9月中旬至11月中旬期間學(xué)生的飯卡刷卡記錄,將每個(gè)月平均在食堂消費(fèi)60次以上,消費(fèi)總額不足420元的學(xué)生確立為補(bǔ)助對(duì)象,不需要學(xué)生申報(bào),直接將補(bǔ)助打入學(xué)生的飯卡。這次針對(duì)學(xué)生生活行為的數(shù)據(jù)挖掘,不僅在教育大數(shù)據(jù)的基礎(chǔ)上實(shí)現(xiàn)了“精準(zhǔn)扶貧”,而且對(duì)學(xué)生真正做到了“人文關(guān)懷”,體現(xiàn)出了數(shù)據(jù)的價(jià)值性。
國內(nèi)圖書情報(bào)的研究
目前,數(shù)據(jù)挖掘技術(shù)在圖書情報(bào)領(lǐng)域的研究可分為6個(gè)方面:數(shù)字圖書館及個(gè)性化服務(wù);WEB和信息服務(wù);信息資源及參考咨詢;圖書館及信息檢索;高校圖書館及圖書館采購;情報(bào)學(xué)領(lǐng)域等。
大數(shù)據(jù)時(shí)代下,數(shù)據(jù)挖掘技術(shù)在中國圖書情報(bào)領(lǐng)域中,基于中國知網(wǎng)數(shù)據(jù)庫中圖書情報(bào)領(lǐng)域的相關(guān)研究論文,郭婷等分別利用了共詞分析法和文獻(xiàn)分析法對(duì)文獻(xiàn)的增長(zhǎng)規(guī)律和期刊的分布情況進(jìn)行分析,在中國圖書情報(bào)領(lǐng)域中,對(duì)數(shù)據(jù)挖掘的研究現(xiàn)狀進(jìn)行研討,進(jìn)一步強(qiáng)調(diào)了數(shù)據(jù)挖掘技術(shù)在圖書情報(bào)領(lǐng)域研究的熱點(diǎn)和重點(diǎn)。而且中國知網(wǎng)等在線圖書機(jī)構(gòu)采用數(shù)據(jù)挖掘技術(shù)研發(fā)的“學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)”有效地避免了學(xué)術(shù)舞弊行為,保證了中國科研工作的正常發(fā)展。
大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘的發(fā)展趨勢(shì)
無論是研究領(lǐng)域,還是商業(yè)應(yīng)用,數(shù)據(jù)挖掘都是熱點(diǎn)問題,得到越來越多的人們關(guān)注,人們逐漸了解、學(xué)習(xí)并加以運(yùn)用,相關(guān)領(lǐng)域日益成熟。在利用數(shù)據(jù)挖掘技術(shù)處理和解決實(shí)際問題時(shí),王光宏等提出了3個(gè)值得注意的角度:用數(shù)據(jù)挖掘技術(shù)解決問題的類型、解決數(shù)據(jù)挖掘的數(shù)據(jù)準(zhǔn)備工作及數(shù)據(jù)挖掘的理論基礎(chǔ)。在大數(shù)據(jù)時(shí)代下,數(shù)據(jù)挖掘的發(fā)展趨勢(shì)將會(huì)圍繞數(shù)據(jù)價(jià)值的挖掘體現(xiàn)在以下5個(gè)層面。
大數(shù)據(jù)時(shí)代下,視頻、音頻、圖像等都屬于多媒體的范疇,隨著時(shí)代的發(fā)展,海量的數(shù)據(jù)結(jié)構(gòu)變得復(fù)雜化和動(dòng)態(tài)化,而通過單獨(dú)的傳統(tǒng)數(shù)學(xué)方法去管理現(xiàn)實(shí)生活中的問題,得到的效果往往不能滿足人們的期待。無人機(jī)和無人車的實(shí)際應(yīng)用、公安天網(wǎng)工程的展開、智慧醫(yī)療項(xiàng)目的全面發(fā)展都會(huì)要求對(duì)多媒體數(shù)據(jù)進(jìn)行快速處理,為了得到更理想的效果,得到的效果變得最優(yōu)化,需要開發(fā)和設(shè)計(jì)數(shù)據(jù)挖掘的新智能算法。
金融領(lǐng)域潛在數(shù)據(jù)的挖掘
在信用卡業(yè)務(wù)中,違約預(yù)測(cè)的數(shù)據(jù)挖掘具有預(yù)言性、有效性、實(shí)用性的優(yōu)勢(shì)。在信用卡交易的過程中,數(shù)據(jù)挖掘的應(yīng)用類型也比較多,如在信用卡異常行為檢測(cè)、高端信用客戶的維護(hù)和信用卡風(fēng)險(xiǎn)控制等方面,均可以展開深入研究。
數(shù)據(jù)挖掘算法的改進(jìn)和可視化
當(dāng)采用數(shù)據(jù)挖掘的算法分析和處理海量數(shù)據(jù)時(shí),算法的改進(jìn)主要取決于算法的精度和速度,即算法的準(zhǔn)確度和效率。如今,學(xué)術(shù)研究主要集中在精度和效率之間設(shè)定適當(dāng)?shù)呐R界值和對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行可視化兩個(gè)方面。針對(duì)數(shù)據(jù)挖掘算法中的新貴——RNN、CNN、DNN、Capsule等一系列深度學(xué)習(xí)算法的研究,將成為引領(lǐng)大數(shù)據(jù)研究方法的風(fēng)向標(biāo)。
數(shù)據(jù)挖掘和隱私保護(hù)
在解決實(shí)際問題時(shí),難免會(huì)涉及隱私的數(shù)據(jù),例如在研究信用卡和用戶之間的關(guān)系時(shí),數(shù)據(jù)中難免會(huì)有用戶的個(gè)人信息;在研究宮頸癌(危險(xiǎn)因素)與人的年齡、懷孕次數(shù)、性伴侶數(shù)等關(guān)系時(shí),會(huì)有部分隱私信息不便透漏外界。在進(jìn)行數(shù)據(jù)挖掘過程中,不泄露用戶的個(gè)人隱私問題,對(duì)數(shù)據(jù)進(jìn)行脫敏處理,將成為人們研究數(shù)據(jù)挖掘的另一個(gè)重要方面。
數(shù)據(jù)挖掘技術(shù)與其他系統(tǒng)的集成
數(shù)據(jù)挖掘是一個(gè)完整的過程,而不是單純的某一個(gè)算法或者其中的幾個(gè)算法簡(jiǎn)單混合就可以的。將數(shù)據(jù)挖掘應(yīng)用到實(shí)戰(zhàn)演練的過程中,還是需要將數(shù)據(jù)挖掘與其他領(lǐng)域和系統(tǒng)有條理地集成,而不能理解成單獨(dú)的一個(gè)算法就足以解決一個(gè)問題,進(jìn)而最大化地體現(xiàn)了數(shù)據(jù)挖掘的優(yōu)勢(shì)。
結(jié) 論
在大數(shù)據(jù)時(shí)代下,當(dāng)運(yùn)用傳統(tǒng)的數(shù)學(xué)方法遇到困難時(shí),熟練地應(yīng)用數(shù)據(jù)挖掘技術(shù)顯得格外重要。本文通過對(duì)國內(nèi)外的研究現(xiàn)狀進(jìn)行剖析,分析了數(shù)據(jù)挖掘技術(shù)的主要方法,介紹了數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域,總結(jié)了在大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)未來的發(fā)展趨勢(shì)。
無論是在金融、醫(yī)療方面,還是在電信、教育等社會(huì)各個(gè)領(lǐng)域,每一時(shí)刻都會(huì)產(chǎn)生海量數(shù)據(jù),由于社會(huì)存在過多的不確定性因素,導(dǎo)致處理的數(shù)據(jù)類型越來越繁雜,即便是采用計(jì)算機(jī)輔助,對(duì)于傳統(tǒng)的處理方法、解決實(shí)際問題依然能力局限,但是通過數(shù)據(jù)挖掘技術(shù),解決大數(shù)據(jù)問題,則開辟了另一個(gè)途徑。未來的時(shí)代是“數(shù)據(jù)為王”,數(shù)據(jù)挖掘技術(shù)會(huì)面對(duì)更加嚴(yán)峻的挑戰(zhàn),利用數(shù)據(jù)挖掘的相關(guān)算法,處理實(shí)際問題和分析數(shù)據(jù)的能力將會(huì)更加顯著。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03