
大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術(shù)的應(yīng)用
隨著社會信息化的迅速發(fā)展,無論是數(shù)據(jù)的變化速率,還是數(shù)據(jù)的新增種類都在不斷更新,數(shù)據(jù)研究變得越來越復(fù)雜,這意味著“大數(shù)據(jù)時代”到來。2011年,互聯(lián)網(wǎng)數(shù)據(jù)中心(internet data center,IDC)將大數(shù)據(jù)重新定義為:在大數(shù)據(jù)原有的三維特征——數(shù)量、多樣、速度基礎(chǔ)上,增加了另一新的特征——“價值”。IDC強調(diào):“目前,對于龐大的數(shù)據(jù)量,通過經(jīng)濟(jì)的方式,極速發(fā)掘、獲取和分析處理的技術(shù),進(jìn)而提煉獲取價值,這是大數(shù)據(jù)新時代的專屬?!薄按髷?shù)據(jù)時代”的專屬特征被重新定義為:數(shù)量(volume)、多樣(variety)、速度(velocity)和價值(value),稱為“4V”。
隨著大數(shù)據(jù)時代的到來,社會對“挖掘”到的數(shù)據(jù)要求變得更加嚴(yán)格,每一個精準(zhǔn)的結(jié)果都具備獨自的“價值”,這時,大數(shù)據(jù)時代的新增屬性——“價值”被演繹得有聲有色。數(shù)據(jù)挖掘(data mining, DM)是一門新興的、匯聚多個學(xué)科的交叉性學(xué)科,這是一個不平凡的處理過程,即從龐大的數(shù)據(jù)中,將未知、隱含及具備潛在價值的信息進(jìn)行提取的過程。1989年8月,在美國底特律市召開的第十一屆人工智能聯(lián)合會議的專題討論會上,知識發(fā)現(xiàn)(knowledge discover in database,KDD)初次被科學(xué)家們提出,同時,也有人將知識發(fā)現(xiàn)稱為數(shù)據(jù)挖掘,但兩者并不完全等同。1995年,KDD這個術(shù)語在加拿大蒙特利爾市召開的第一屆知識發(fā)現(xiàn)和數(shù)據(jù)挖掘國際學(xué)術(shù)會議上被人們接受,會議分析了數(shù)據(jù)挖掘的整個流程。實質(zhì)上,數(shù)據(jù)挖掘是知識發(fā)現(xiàn)的子過程。
經(jīng)過了大約20年的發(fā)展,數(shù)據(jù)挖掘研究取得了可觀的成績,漸漸地形成了一套基本的理論基礎(chǔ),主要包括:分類、聚類、模式挖掘和規(guī)則提取等。數(shù)據(jù)挖掘是一種從生活中的海量數(shù)據(jù)里“挖掘”出潛在的、前所未有的知識的技術(shù)。處理大數(shù)據(jù)需要一個綜合、復(fù)雜、多方位的系統(tǒng),系統(tǒng)中的處理模塊有很多,而數(shù)據(jù)挖掘技術(shù)以一個獨立的身份存在于處理大數(shù)據(jù)的整個系統(tǒng)之中,與其他模塊之間相輔相成、協(xié)調(diào)發(fā)展。在大數(shù)據(jù)時代中,數(shù)據(jù)挖掘技術(shù)的地位是無可比擬的。
數(shù)據(jù)挖掘的研究現(xiàn)狀
數(shù)據(jù)挖掘將高性能計算、機器學(xué)習(xí)、人工智能、模式識別、統(tǒng)計學(xué)、數(shù)據(jù)可視化、數(shù)據(jù)庫技術(shù)和專家系統(tǒng)等多個范疇的理論和技術(shù)融合在一起。大數(shù)據(jù)時代對數(shù)據(jù)挖掘而言,既是機遇也是挑戰(zhàn),分析大數(shù)據(jù),建立適當(dāng)?shù)捏w系,不斷地優(yōu)化,提高決策的準(zhǔn)確性,從而更利于掌握并順應(yīng)市場的多端變化。在大數(shù)據(jù)時代下,數(shù)據(jù)挖掘作為最常用的數(shù)據(jù)分析手段得到了各個領(lǐng)域的認(rèn)可,目前國內(nèi)外學(xué)者主要研究數(shù)據(jù)挖掘中的分類、優(yōu)化、識別、預(yù)測等技術(shù)在眾多領(lǐng)域中的應(yīng)用。
分類
伴隨著時代的進(jìn)步和科技的飛速發(fā)展,作為人口大國,中國在健康醫(yī)療、老齡化社會等方面產(chǎn)生的公共數(shù)據(jù)呈幾何級數(shù)進(jìn)行增長,而基于大數(shù)據(jù)的挖掘數(shù)據(jù)所附有的價值問題急需解決。健康醫(yī)療數(shù)據(jù)的結(jié)構(gòu)、規(guī)模、范圍和復(fù)雜度等都在不斷擴(kuò)大,傳統(tǒng)的計算方法并不能完全滿足分析醫(yī)療數(shù)據(jù),數(shù)據(jù)挖掘技術(shù)則可以根據(jù)醫(yī)療數(shù)據(jù)的一些特點:模式的多態(tài)性、信息的缺失性(數(shù)據(jù)中由于涉及個人隱私問題而導(dǎo)致的缺失值)、時序性、冗余性對健康醫(yī)療數(shù)據(jù)進(jìn)行分類,從而可以為醫(yī)生或病人提供準(zhǔn)確的輔助決策。
同時,中國正加速進(jìn)入老齡化社會,而互聯(lián)網(wǎng)是改善老齡化社會的重要媒介,大數(shù)據(jù)是評估老齡化社會重要的技術(shù)手段。屈芳等提出了“互聯(lián)網(wǎng)+大數(shù)據(jù)”模式的養(yǎng)老實現(xiàn)途徑,整個養(yǎng)老服務(wù)體系是建立在多元異構(gòu)信息匯聚和數(shù)據(jù)融合挖掘之上,“互聯(lián)網(wǎng)+大數(shù)據(jù)”的養(yǎng)老體系是將多種信息通信技術(shù)進(jìn)行融合,在這里,包括通信技術(shù)、數(shù)據(jù)挖掘技術(shù)及人工智能技術(shù)等。
優(yōu)化
道路的交通狀況與人們的出行關(guān)系密切,隨著城市的快速發(fā)展、生活水平的改善,機動車的規(guī)模也逐漸擴(kuò)大,帶來了交通擁堵等問題。數(shù)據(jù)挖掘技術(shù)可以有效解決交通道路和物流網(wǎng)絡(luò)之間的優(yōu)化問題,Pan等提出了一種數(shù)據(jù)挖掘預(yù)測模型,該模型用于“實時預(yù)測”短期的交通狀況,給陷入交通擁堵的駕駛?cè)藛T帶來極大的幫助。
隨著科技的發(fā)展,網(wǎng)上購物越來越流行,同時帶來了物流運輸擁堵及癱瘓等問題。京東——中國最大的在線交易平臺之一,在人工智能的優(yōu)化時代,使用無人機探測道路狀況反饋的數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù)精準(zhǔn)計算物流網(wǎng)絡(luò)運輸所需要的參數(shù),可以輕松高效地緩解物流運輸癱瘓的問題,從而產(chǎn)生了中國第一個機器人快遞員,將第一個商品送達(dá)至中國人民大學(xué)。而隨著日后交通網(wǎng)絡(luò)長度、復(fù)雜性等方面的增加,實現(xiàn)無人駕駛的自動化策略難度也大幅增加,只有通過數(shù)據(jù)挖掘技術(shù)才可以快速計算出結(jié)果,從而獲得從復(fù)雜道路信息中產(chǎn)生的高效價值。
識別
自從20世紀(jì)50年代數(shù)字圖像出現(xiàn)以來,數(shù)字圖像成為人類社會中必不可少的“數(shù)據(jù)”。在計算機應(yīng)用中,數(shù)據(jù)挖掘在圖像識別的應(yīng)用越來越普遍,有代表性應(yīng)用為人臉識別和指紋識別。人臉識別通過對獲得的信息庫進(jìn)行數(shù)據(jù)挖掘,進(jìn)一步分析和處理可靠的、潛在的數(shù)據(jù),充分準(zhǔn)備資料的分析工作和未來的開發(fā)工作。Wright等闡述了基于稀疏表示的魯棒人臉識別,并給出了詳細(xì)的理論分析與實踐總結(jié)。
沙亞清等針對目前的電子報稅系統(tǒng)中利用用戶名和口令的不安全性,提出了一種基于智能卡和指紋識別的身份認(rèn)證方案,并結(jié)合指紋技術(shù),構(gòu)建新的口令參數(shù),從而使得安全性明顯提高。隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,大數(shù)據(jù)識別人臉和指紋的精確度會越來越高。
預(yù)測
預(yù)測問題是各領(lǐng)域中研究最多的問題,其目的是通過歷史數(shù)據(jù)預(yù)測出未來的數(shù)據(jù)值或發(fā)展趨勢。大部分歷史數(shù)據(jù)是時間序列數(shù)據(jù),即指按照時間的順序排列,得到了一系列觀測值。由于信息技術(shù)的不斷進(jìn)步,時間序列的數(shù)據(jù)也日益劇增,如氣象預(yù)報、石油勘探、金融等。時間序列數(shù)據(jù)挖掘的最終目標(biāo)就是通過分析時間序列的歷史數(shù)據(jù),預(yù)測未來一段時間的變化趨勢及其帶來的影響。
“氣象”與地球的生態(tài)平衡和人們的正常生活息息相關(guān),因此,氣象的準(zhǔn)確預(yù)報顯得格外重要。周磊等總結(jié)了目前的氣象監(jiān)測模型,基于遙感數(shù)據(jù)的干旱方面,將目前的遙感監(jiān)測方法進(jìn)行分類,對于外界的環(huán)境條件(溫度、濕度等)進(jìn)行分類討論,提出解決復(fù)雜問題的新方法。
石油作為一種不可再生資源,目前全球儲量日益減少,從而使得石油勘探變得越來越重要。在石油勘探管理中,所采集的數(shù)據(jù)具有數(shù)據(jù)量大、計算量大、采集來源單一及數(shù)據(jù)處理流程復(fù)雜的特點,用數(shù)據(jù)挖掘技術(shù)對其采集的大數(shù)據(jù)集進(jìn)行高性能并行計算和分析,才可以保證結(jié)果的有效性和準(zhǔn)確性。
在大數(shù)據(jù)時代下,銀行、證券公司、保險公司等每天的業(yè)務(wù)都將生成海量數(shù)據(jù),采用當(dāng)前的數(shù)據(jù)庫系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢和統(tǒng)計等功能,目前,從簡單的查詢提升到利用數(shù)據(jù)挖掘技術(shù)挖掘知識、提供決策支持的層次顯得格外重要。數(shù)據(jù)挖掘技術(shù)在金融行業(yè)應(yīng)用具有可行性,將理論基礎(chǔ)應(yīng)用到相關(guān)的實例包括預(yù)測股票指數(shù)、發(fā)現(xiàn)金融時間序列中的隱含模式、信用風(fēng)險管理及匯率預(yù)測等。
數(shù)據(jù)挖掘主要方法
數(shù)據(jù)挖掘是一門交叉性的新興學(xué)科,它將數(shù)據(jù)可視化、數(shù)據(jù)庫技術(shù)、高性能計算機、統(tǒng)計學(xué)、機器學(xué)習(xí)、模式識別、人工智能等多個范疇的理論和技術(shù)融合在一起。數(shù)據(jù)挖掘的主要方法概括為:預(yù)測模型方法、數(shù)據(jù)分割方法、關(guān)聯(lián)分析法和偏離分析法(圖1)。解決實際問題時,將已知的數(shù)據(jù)庫蘊含的復(fù)雜信息轉(zhuǎn)換成數(shù)學(xué)的語言,建立數(shù)學(xué)模型,運用相應(yīng)的處理方法結(jié)果會更加有效。
圖1 數(shù)據(jù)挖掘的主要方法
預(yù)測模型方法
預(yù)測模型方法是數(shù)據(jù)挖掘主要方法中分支較為復(fù)雜的一類,包括神經(jīng)網(wǎng)絡(luò)與決策樹等相關(guān)人工智能算法、進(jìn)化算法及支持向量機等算法。
1)神經(jīng)網(wǎng)絡(luò)與決策樹等相關(guān)人工智能算法
在預(yù)測模型方法中,神經(jīng)網(wǎng)絡(luò)算法、決策樹算法、貝葉斯分類算法、基于關(guān)聯(lián)規(guī)則分類算法等都是經(jīng)典的人工智能算法。
1943年,心理學(xué)家McCulloch和數(shù)理邏輯學(xué)家Pitts建立了神經(jīng)網(wǎng)絡(luò)和數(shù)學(xué)模型,稱為MP模型,證明了單個神經(jīng)元能夠執(zhí)行邏輯功能,從而開創(chuàng)了人工神經(jīng)網(wǎng)絡(luò)研究的新時代。通過仿真和模擬生物的神經(jīng)系統(tǒng)而獲得非線性處理能力的一種新的算法——人工神經(jīng)網(wǎng)絡(luò)算法(artificial neural network,ANN)。
現(xiàn)有的決策樹的分類算法有ID3、C4.5等。1986年,Quinlan提出了著名的ID3算法,在ID3的基礎(chǔ)上,1993年Quinlan又提出了C4.5算法。決策樹(decision tree,DT)分類算法是一種以決策樹形式表示的分類規(guī)則,它能夠根據(jù)一定的規(guī)則將眾多的數(shù)據(jù)分類,從中挖掘出那些有價值的、潛在的信息。決策樹的主要優(yōu)點在于處理大數(shù)據(jù)的能力強,適合分類及處理預(yù)測模型的任務(wù),結(jié)論易于解釋和理解。
目前的主要研究有3種:CBA、CMAR和CPAR。自1993年Agrawal提出數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則挖掘后,基于關(guān)聯(lián)規(guī)則分類算法(classification base of association,CBA)及應(yīng)用得到迅速發(fā)展。1997年,Ali等提出了使用分類關(guān)聯(lián)規(guī)則進(jìn)行部分分類的思想。1998年,Liu等提出了基于分類關(guān)聯(lián)規(guī)則的關(guān)聯(lián)分類算法CBA,從此揭開了關(guān)聯(lián)分類的序幕。基于關(guān)聯(lián)規(guī)則分析的分類算法搜索頻繁模式與類標(biāo)號之間的強關(guān)聯(lián),有效避免了決策樹歸納一次只考慮一個屬性的限制,使其比一些傳統(tǒng)的分類算法更為準(zhǔn)確。
貝葉斯(Bayes)分類算法是一種算法相對比較簡單、分類精度相對較高的分類算法。在分類的性能方面,決策樹算法、貝葉斯分類算法及神經(jīng)網(wǎng)絡(luò)算法之間關(guān)系十分緊密?,F(xiàn)有的貝葉斯分類算法包括樸素貝葉斯算法、動態(tài)貝葉斯算法等。常見組合分類方法有隨機森林方法、bagging方法及boosting方法。其中,隨機森林方法是將多個決策樹分類器組合在一起的方法,在boosting算法中最常見的一種是AdaBoost算法。在準(zhǔn)確度上,二者不相上下,但是,在運行速度上,隨機森林方法更占優(yōu)勢。朱凌云等提出了一種新的技術(shù)并在醫(yī)學(xué)中的應(yīng)用,體現(xiàn)了數(shù)據(jù)的處理、多屬性信息的融合、挖掘算法的高效性和魯棒性。由于神經(jīng)網(wǎng)絡(luò)系統(tǒng)具有高度的抗干擾能力,所以,在各個領(lǐng)域內(nèi)神經(jīng)網(wǎng)絡(luò)算法應(yīng)用廣泛,例如數(shù)據(jù)挖掘、信號處理、自動控制、模式識別及圖像處理等多個范疇。
2)進(jìn)化算法
進(jìn)化算法,又稱“演化算法”(evolutionary algorithms,EAs),其代表性算法為遺傳算法。1969年,Holland提出了一種隨機搜索的最優(yōu)化方法,它是模擬自然界中的遺傳機制和生物進(jìn)化論而成的,稱為遺傳算法(genetic algorithms,GA)。它將利用自然界中的“優(yōu)勝劣汰,適者生存”的生物進(jìn)化原理改變優(yōu)化參數(shù),根據(jù)適應(yīng)度函數(shù)的選取,最終形成編碼串聯(lián)到群體中。遺傳算法的基本步驟:選擇、交叉和變異。遺傳算法的主要目的是留下適應(yīng)度值好的個體,淘汰適應(yīng)度值差的個體,繼續(xù)循環(huán)選擇、交叉和變異步驟。
近幾年,又演化出新的進(jìn)化算法,如粒子群算法、蟻群算法以及灰狼優(yōu)化算法等。粒子群算法(particle swarm optimization,PSO)是由Eberhart等開發(fā)的一種新的進(jìn)化算法。與模擬退火算法相似,PSO算法也是從隨機解出發(fā),通過迭代進(jìn)而尋找最優(yōu)解,與上述的“遺傳算法”相比而言,規(guī)則更為簡單,它沒有遺傳算法基本步驟中的“交叉”和“變異”,而是通過追隨當(dāng)前搜索獲得的最優(yōu)值來尋找全局的最優(yōu)解。粒子群算法以實現(xiàn)簡便、精度高、收斂快等優(yōu)點引起了學(xué)術(shù)界的重視,并且在解決實際問題中展示了其優(yōu)越性。
3)支持向量機
1995年,Corinna和Vapnik等首先提出了支持向量機(support vector machine,SVM),它是一種具備較強的分類能力和泛化能力的分類算法,主要解決小樣本、非線性、高維模式識別及函數(shù)擬合等其他機器學(xué)習(xí)問題。支持向量機主要分為以下3種情況。
線性可分情況。針對線性可分的情況,現(xiàn)實生活中存在大量的實例,例如,在一組醫(yī)療數(shù)據(jù)中,通過支持向量機可以將患者和正常人進(jìn)行分類(即二分類),判斷哪些是患者,哪些是正常人;在一組由民歌和古箏演奏的音樂辨別中進(jìn)行有效的分類,判斷哪些是民歌,哪些是古箏。
線性不可分情況。解決線性不可分問題時,構(gòu)建核函數(shù),這是支持向量機的優(yōu)勢所在。但是,對于數(shù)據(jù)集訓(xùn)練的“復(fù)雜度”最終還是取決于它的規(guī)模,在處理大規(guī)模數(shù)據(jù)時,模型局部受限,泛化能力有時也會有所消耗或損失。
非線性可分情況。支持向量機利用結(jié)構(gòu)風(fēng)險最小化替代經(jīng)驗風(fēng)險最小化原則,較好地解決了小樣本情況下的學(xué)習(xí)問題。針對非線性問題與線性問題是怎樣建立起聯(lián)系的,它們之間是如何進(jìn)行轉(zhuǎn)化的,“核函數(shù)的思想”提供了新的思路。
數(shù)據(jù)分割方法
數(shù)據(jù)分割是將數(shù)據(jù)依據(jù)某些屬性將其聚類,使之具有一定的意義。由于數(shù)據(jù)的類型、數(shù)據(jù)的復(fù)雜度和聚類的數(shù)目等特點,聚類算法有很多,如劃分方法、基于網(wǎng)絡(luò)的方法、基于密度的方法、層次方法等。
肖娟等針對傳統(tǒng)的算法處理多層次的復(fù)雜建筑物中涉及的困難,提出了一種新的算法,對建筑物進(jìn)行分割,對幾何基元進(jìn)行提取。
關(guān)聯(lián)分析法
關(guān)聯(lián)分析法是尋找數(shù)據(jù)間的關(guān)聯(lián),但從大數(shù)據(jù)集中尋找關(guān)聯(lián)可能會導(dǎo)致效率降低,找到的關(guān)聯(lián)也可能毫無意義。在研究過程中存在“支持度”和“置信度”,“支持度”可以有根據(jù)地將那些毫無意義的數(shù)據(jù)刪除,而“置信度”可以衡量設(shè)置規(guī)則的可能性。關(guān)聯(lián)分析法的主要算法有Apriori算法、DHP算法和DIC算法等。
Chen等在現(xiàn)有的分析方法基礎(chǔ)上,積累了海量的數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù),提出了一種新的算法,即通過關(guān)聯(lián)分析法建立相關(guān)模式挖掘方法,借助多種新型優(yōu)化技術(shù),可以有效且高效地減少搜索空間。此外,將該算法應(yīng)用于現(xiàn)實世界的數(shù)據(jù)集中,展示了相關(guān)模式挖掘的實用性。
偏離分析法
偏差包括潛在的信息量,例如設(shè)定模式中的特例、分類中的異樣實例以及分析實驗得到的最終結(jié)果與實驗前設(shè)定的期望之間的偏差等。觀察比較最終的結(jié)果與參照量之間的偏差是偏離分析法的核心所在。
在企業(yè)的預(yù)警或是危機解決的過程中,專業(yè)的管理者對突發(fā)的意外規(guī)則更感興趣,在異常信息的發(fā)現(xiàn)、識別、觀察、分析、挖掘、評價和預(yù)警等方面,挖掘意外規(guī)則的應(yīng)用價值備受關(guān)注。
大數(shù)據(jù)時代下數(shù)據(jù)挖掘的應(yīng)用
在大數(shù)據(jù)時代下,數(shù)據(jù)挖掘已經(jīng)廣泛地應(yīng)用到生活中各種各樣的領(lǐng)域中,成為當(dāng)今高科技發(fā)展的熱點問題。無論在軟件開發(fā)、醫(yī)療衛(wèi)生方面,還是在金融、教育等方面都可以隨處看到數(shù)據(jù)挖掘的影子,可以使用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)大數(shù)據(jù)的內(nèi)在的巨大價值。
惡意軟件的智能檢測
在大數(shù)據(jù)時代下,在惡意軟件檢測中數(shù)據(jù)挖掘技術(shù)得到廣泛的應(yīng)用。惡意軟件嚴(yán)重?fù)p害到網(wǎng)絡(luò)和計算機,惡意軟件的檢查依賴于簽名數(shù)據(jù)庫(signature atabase,SD),通過SD,對文件進(jìn)行比較和檢查,如果字節(jié)數(shù)相等,則可疑文件將被識別為惡意文件。有些基于有標(biāo)簽的惡意軟件檢測的主題,集中在一個模糊的環(huán)境下,進(jìn)而,無法進(jìn)行惡意軟件行為的動態(tài)修改,無法識別隱藏的惡意軟件。相反地,基于行為的惡意軟件檢測就可以找到惡意文件的真實行為。而如果采用基于數(shù)據(jù)挖掘技術(shù)的分類方法,就可以根據(jù)每個惡意軟件的特征和行為進(jìn)行檢測,從而檢測到惡意軟件的存在。
生物信息學(xué)中的廣泛應(yīng)用
生物信息學(xué)是一門交叉學(xué)科,融合了生命科學(xué)、計算機科學(xué)、信息科學(xué)和數(shù)學(xué)等眾多學(xué)科。隨著科技的快速發(fā)展、技術(shù)的提升及結(jié)果的優(yōu)化,將高科技信息技術(shù)拓展到生物研究領(lǐng)域。但是,單純憑借原有的計算機技術(shù)是遠(yuǎn)遠(yuǎn)不夠的,需要以計算機科學(xué)做輔助,將生命科學(xué)、信息科學(xué)和數(shù)學(xué)等交叉學(xué)科融合在一起,通過數(shù)據(jù)挖掘技術(shù)進(jìn)行處理,仔細(xì)分析生物數(shù)據(jù)之間的內(nèi)在聯(lián)系,挖掘生物數(shù)據(jù)內(nèi)部的潛在信息。生物信息數(shù)據(jù)的特點有很多,孫勤紅總結(jié)了當(dāng)前生物信息數(shù)據(jù)的特點,包括數(shù)量大、種類多、維度高、形式廣及序列性等。當(dāng)前生物信息學(xué)的熱點包括:從以序列分析為代表的組成分析向功能分析的轉(zhuǎn)變;從單個生物分析的研究到基因調(diào)控的轉(zhuǎn)變;對基因組數(shù)據(jù)進(jìn)行整體分析等。人類目前在生物基因組計劃中的研究,僅僅是冰山的一角,未來在差異基因表達(dá)、癌癥基因檢測、蛋白質(zhì)和RNA基因的編碼等生物基因方面的研究工作都與數(shù)據(jù)挖掘技術(shù)密不可分,只有更好地利用數(shù)據(jù)挖掘技術(shù),才可以挖掘出生物基因組中的非凡價值。
信用卡的違約預(yù)測
如今,隨著科技的高速發(fā)展,信息量急劇增加,內(nèi)容變得越來越豐富,信用卡在人們的生活中具有不可忽視的地位。眾所周知,信用卡是由銀行發(fā)放,銀行需要對申請人的個人信息進(jìn)行核實,確認(rèn)無誤后再進(jìn)行發(fā)放信用卡,Chen等針對商業(yè)銀行貸款行為提出了一種關(guān)于信用率的模糊算法。信用卡在辦理之前,銀行首先需要對申請人進(jìn)行細(xì)致調(diào)查,根據(jù)申請人的實際情況判斷是否有能力來償還所貸金額,劉銘等在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上,采用灰狼優(yōu)化算法計算神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值,并提出了一種改進(jìn)的模糊神經(jīng)網(wǎng)絡(luò)的算法,通過建立的信用卡客戶的違約預(yù)測模型,與目前其他的預(yù)測方法進(jìn)行比較,得到較好的預(yù)測結(jié)果,進(jìn)一步,驗證了模糊神經(jīng)網(wǎng)絡(luò)在信用卡客戶的預(yù)測上具有較好的魯棒性、準(zhǔn)確性和高效性。采用有效的數(shù)據(jù)挖掘技術(shù),針對信用卡客戶屬性和消費行為的海量數(shù)據(jù)進(jìn)行分析,可以更好的維護(hù)優(yōu)質(zhì)客戶,消除違約客戶的風(fēng)險行為,為信用卡等金融業(yè)務(wù)價值的提升提供了技術(shù)上的保障。
疾病的智能診斷
1)宮頸癌的診斷。
宮頸癌是國際上最普遍的婦科惡性腫瘤之一。2012年統(tǒng)計數(shù)字顯示,宮頸癌在全球的新發(fā)病例數(shù)為52.8萬,死亡數(shù)26.6萬,居女性生殖道惡性腫瘤發(fā)病率的首位。按照有關(guān)數(shù)據(jù)統(tǒng)計,發(fā)展中國家占83%,其中死亡病例占85%,由于宮頸癌的篩查工作不夠完善,導(dǎo)致高發(fā)病率和高死亡率。相反地,在發(fā)達(dá)國家,很大程度上宮頸癌的低發(fā)病率源于有效的篩查和診斷。為了減少來自每個專家的標(biāo)簽數(shù)據(jù)量,F(xiàn)ernandes等提出一種基于正則化的轉(zhuǎn)移學(xué)習(xí)策略,鼓勵源模型和目標(biāo)模型共享相同的系數(shù)符號。
2)乳腺癌的診斷。
乳腺腫瘤是女性惡性腫瘤中最常見的腫瘤,影響婦女的身體和精神健康,甚至威脅生命。20世紀(jì)以來,全世界范圍內(nèi)乳腺癌的患病率均有所增加,特別是歐洲和北美地區(qū),分別占?xì)W洲和北美女性惡性腫瘤發(fā)病率的第一和第二位。目前,世界女性乳腺癌在癌癥中的發(fā)病率最高,據(jù)美國疾病預(yù)防中心統(tǒng)計,早期乳腺癌的治愈率可高達(dá)97%,進(jìn)展期的治愈率僅為40%。因此,越早發(fā)現(xiàn)乳腺癌,治愈效果越好,即“早發(fā)現(xiàn),早治療”。
在大數(shù)據(jù)時代下,醫(yī)療方面的數(shù)據(jù)呈現(xiàn)出數(shù)量大、類型多、處理方法復(fù)雜等特點,數(shù)據(jù)挖掘技術(shù)對這些問題的處理起到了至關(guān)重要的作用。威斯康星大學(xué)醫(yī)院Wolberg提供的乳腺腫瘤分析結(jié)果顯示,乳腺腫瘤的特征可以由9個參數(shù)來表示?;诟倪M(jìn)的BP神經(jīng)網(wǎng)絡(luò),劉銘建立了乳腺腫瘤的模擬模型,對傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn)和發(fā)展,當(dāng)Levenberg-Marquardt(L-M)迭代替代了梯度下降算法時,網(wǎng)絡(luò)收斂速度得到了明顯的提高。
使用Matlab2010a進(jìn)行求解,采用L-M迭代后,目標(biāo)誤差為0.1,得到結(jié)果。通過圖2可知,神經(jīng)網(wǎng)絡(luò)在第7代達(dá)到收斂。測試數(shù)據(jù)有83個樣本。其中良性54例,惡性29例。采用檢測資料進(jìn)行檢測,診斷結(jié)果為良性54例,良性發(fā)生率100%,惡性28例,惡性發(fā)生率96.6%,所以平均診斷發(fā)病率為98.8%,結(jié)果良好。
圖2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練性能
3)冠心病的診斷。
近年來,心血管疾病已成為威脅人類的最嚴(yán)重疾病之一,冠心病是心血管疾病中常見的疾病。因此,研究冠心病的有效診斷方法是必要的,有助于進(jìn)一步采取預(yù)防措施和及時治療。目前,冠狀動脈造影是觀察冠狀動脈形態(tài)的唯一直接途徑,被醫(yī)學(xué)界稱為“金標(biāo)準(zhǔn)”。然而,這是一項創(chuàng)傷性診斷,需要高水平的醫(yī)療條件,否則不慎操作會引起嚴(yán)重并發(fā)癥甚至死亡,這限制了診斷技術(shù)的發(fā)展。因此,許多專家專注于研究國內(nèi)外冠心病的有效和非創(chuàng)傷性診斷。經(jīng)對Cleveland診所基金會提供的冠心病病例分析后,劉銘得出了反映冠心病特征的14個參數(shù),采用BP算法,通過使用L-M算法的迭代對BP算法進(jìn)行改進(jìn)和開發(fā),提高了網(wǎng)絡(luò)收斂速度,在改進(jìn)的BP算法的基礎(chǔ)上,建立了智能診斷的仿真模型。隨著該方法的應(yīng)用,診斷率可達(dá)99.3%。
針對疾病的智能診斷,數(shù)據(jù)挖掘具有4個應(yīng)用角度:在醫(yī)院信息系統(tǒng)中的應(yīng)用、在疾病輔助診斷中的應(yīng)用、在藥物開發(fā)中的應(yīng)用、在遺傳學(xué)方面的應(yīng)用。
地質(zhì)災(zāi)害的風(fēng)險評估
地質(zhì)災(zāi)害研究具有悠久的歷史,地質(zhì)災(zāi)害風(fēng)險評估是一個新興的研究領(lǐng)域。近年來,在某些領(lǐng)域已經(jīng)開發(fā)出更準(zhǔn)確的預(yù)測和分析的方法,這些領(lǐng)域涉及到坍塌、地震、山體滑坡和泥石流等地質(zhì)災(zāi)害。
劉銘提出了一種新穎的智能計算方法,將數(shù)據(jù)挖掘技術(shù)與地質(zhì)災(zāi)害風(fēng)險實際問題融合在一起,這種混合計算方法促進(jìn)了對地質(zhì)災(zāi)害風(fēng)險的準(zhǔn)確評估。混合智能算法包括粒子群優(yōu)化、遺傳算法和反向傳播神經(jīng)網(wǎng)絡(luò)。反向傳播神經(jīng)網(wǎng)絡(luò)和粒子群算法優(yōu)化了網(wǎng)絡(luò)連接權(quán)重,閾值的初始化采用遺傳算法,同時,在迭代過程中更新連接權(quán)重和閾值。這項地質(zhì)災(zāi)害預(yù)測研究是在吉林災(zāi)害監(jiān)測數(shù)據(jù)的基礎(chǔ)上,模擬中國東北地區(qū),通過混合智能算法獲得的準(zhǔn)確度遠(yuǎn)高于BP神經(jīng)網(wǎng)絡(luò)方法帶來的準(zhǔn)確度。隨著地質(zhì)災(zāi)害風(fēng)險評估在國際風(fēng)險評估機構(gòu)中得到肯定,混合方式得到更廣泛的應(yīng)用,如混合智能算法將促進(jìn)更有效的應(yīng)急響應(yīng)、環(huán)境管理、土地利用和開發(fā)規(guī)劃。
污水的成因分析
在大數(shù)據(jù)時代的背景下,當(dāng)研究水環(huán)境和污水處理時,生物膜的組成和活性是兩個非常重要的參數(shù)。而處理污水問題時,面對的數(shù)據(jù)海量,單一的傳統(tǒng)數(shù)學(xué)方法解決效果不夠理想,引入數(shù)據(jù)挖掘技術(shù)進(jìn)行分析,問題優(yōu)化的結(jié)果將會更令人滿意。
研究水環(huán)境的重點在于對污水處理、運行和控制方面的實際需要,通過數(shù)據(jù)挖掘技術(shù)可以準(zhǔn)確找到生物膜的表征和活性,并進(jìn)行估計,進(jìn)而對于參數(shù)不足以描述生物膜活性的問題得以解決。
在給定的限度內(nèi),隨著生物膜的厚度增加,生物膜的活性也隨之增強。測量或估計生物膜厚度和活性的方法是評估生物膜廢水處理效率的重要因素,然而目前用于預(yù)測生物膜厚度和空間分布適應(yīng)性的工具較差。對此林山松等基于碳-氮-磷濃度的空間分布生物膜厚度和活性,提出了支持向量回歸模型,用以預(yù)測反應(yīng)器中的生物膜的厚度和活力。
采用共聚焦激光掃描顯微鏡方法對12個樣點的4個隨機位置上形成的成熟生物膜的厚度進(jìn)行估算,并將其平均值作為每個載體的最終厚度。圖3為共聚焦激光掃描顯微鏡的微圖,展示了在運行100天后載體上的典型生物膜的厚度,其中Z軸上的數(shù)字(30.6μm)是由激光共聚焦顯微鏡測量的生物膜厚度。得到的數(shù)據(jù)作為觀測值來估計反應(yīng)器中未被采樣點的生物膜厚度,這些未被采樣的點的生物膜厚度通過使用Kriging插值得到。
圖3 用于檢測生物膜厚度的激光共聚焦顯微鏡顯微照片的例子
基于實際值的Kriging插法和距離反應(yīng)器底部垂直35 cm處的生物膜厚度和生物膜活性的支持向量回歸模型預(yù)測值進(jìn)行了比較。圖4比較了使用支持向量回歸模型的生物膜厚度和生物膜的活性的實際值和預(yù)測值。結(jié)果表明較高的系數(shù)R2=(0.996,0.997),并且通過支持向量回歸基于碳-氮-磷值在碎石球狀骨料反應(yīng)器中預(yù)測生物膜厚度和生物膜活性的高度可行性,同時根據(jù)實際值驗證Kriging插值的準(zhǔn)確性。
圖4 生物膜厚度(a)和生物膜活性(b)實際值與預(yù)測值
利用Kriging插值法分析組合共聚焦激光掃描顯微鏡和流式細(xì)胞術(shù)顯示,生物膜厚度從22μm到31μm,生物膜活性在反應(yīng)器的流動方向上從80%降至30%。同時,證實了化學(xué)需氧量,總氮量和總磷酸鹽去除特征與生物膜厚度和生物膜活性的水分分布之間存在明顯的相關(guān)性。
教育大數(shù)據(jù)的挖掘
教育是國家發(fā)展的根本,在大數(shù)據(jù)時代,教育大數(shù)據(jù)的挖掘是教育數(shù)據(jù)價值的體現(xiàn)。根據(jù)教育部的數(shù)據(jù)顯示,截至2013年,中國高校貧困學(xué)生數(shù)目已經(jīng)高達(dá)500余萬,中國高校的貧困學(xué)生比例已經(jīng)高達(dá)20%,其中,特困學(xué)生的比例已經(jīng)超過了總在校人數(shù)的5%。全國各個高校都對貧困學(xué)生都有各種資助政策,盡量不讓每個學(xué)生因為貧困而放棄學(xué)業(yè)。傳統(tǒng)的資助形式都是大學(xué)生進(jìn)行申請,并遞交相關(guān)貧困證明材料,但部分學(xué)生因為較強的自尊心,不想讓同學(xué)發(fā)現(xiàn)自己的特殊性而放棄申請,從而導(dǎo)致貧困助學(xué)金并不能準(zhǔn)確地發(fā)放到每個貧困學(xué)生的手中。2015年3月2日,南京理工大學(xué)的“暖心飯卡工程”受到來自各界的關(guān)注。南京理工大學(xué)教育發(fā)展基金會工作人員對學(xué)生在日常生活中的數(shù)據(jù)進(jìn)行了調(diào)查和數(shù)據(jù)的采集,該項調(diào)查涉及的共有16000余名南京理工大學(xué)當(dāng)前在校學(xué)習(xí)的本科生,采集的數(shù)據(jù)為在2014年9月中旬至11月中旬期間學(xué)生的飯卡刷卡記錄,將每個月平均在食堂消費60次以上,消費總額不足420元的學(xué)生確立為補助對象,不需要學(xué)生申報,直接將補助打入學(xué)生的飯卡。這次針對學(xué)生生活行為的數(shù)據(jù)挖掘,不僅在教育大數(shù)據(jù)的基礎(chǔ)上實現(xiàn)了“精準(zhǔn)扶貧”,而且對學(xué)生真正做到了“人文關(guān)懷”,體現(xiàn)出了數(shù)據(jù)的價值性。
國內(nèi)圖書情報的研究
目前,數(shù)據(jù)挖掘技術(shù)在圖書情報領(lǐng)域的研究可分為6個方面:數(shù)字圖書館及個性化服務(wù);WEB和信息服務(wù);信息資源及參考咨詢;圖書館及信息檢索;高校圖書館及圖書館采購;情報學(xué)領(lǐng)域等。
大數(shù)據(jù)時代下,數(shù)據(jù)挖掘技術(shù)在中國圖書情報領(lǐng)域中,基于中國知網(wǎng)數(shù)據(jù)庫中圖書情報領(lǐng)域的相關(guān)研究論文,郭婷等分別利用了共詞分析法和文獻(xiàn)分析法對文獻(xiàn)的增長規(guī)律和期刊的分布情況進(jìn)行分析,在中國圖書情報領(lǐng)域中,對數(shù)據(jù)挖掘的研究現(xiàn)狀進(jìn)行研討,進(jìn)一步強調(diào)了數(shù)據(jù)挖掘技術(shù)在圖書情報領(lǐng)域研究的熱點和重點。而且中國知網(wǎng)等在線圖書機構(gòu)采用數(shù)據(jù)挖掘技術(shù)研發(fā)的“學(xué)術(shù)不端文獻(xiàn)檢測系統(tǒng)”有效地避免了學(xué)術(shù)舞弊行為,保證了中國科研工作的正常發(fā)展。
大數(shù)據(jù)時代下數(shù)據(jù)挖掘的發(fā)展趨勢
無論是研究領(lǐng)域,還是商業(yè)應(yīng)用,數(shù)據(jù)挖掘都是熱點問題,得到越來越多的人們關(guān)注,人們逐漸了解、學(xué)習(xí)并加以運用,相關(guān)領(lǐng)域日益成熟。在利用數(shù)據(jù)挖掘技術(shù)處理和解決實際問題時,王光宏等提出了3個值得注意的角度:用數(shù)據(jù)挖掘技術(shù)解決問題的類型、解決數(shù)據(jù)挖掘的數(shù)據(jù)準(zhǔn)備工作及數(shù)據(jù)挖掘的理論基礎(chǔ)。在大數(shù)據(jù)時代下,數(shù)據(jù)挖掘的發(fā)展趨勢將會圍繞數(shù)據(jù)價值的挖掘體現(xiàn)在以下5個層面。
大數(shù)據(jù)時代下,視頻、音頻、圖像等都屬于多媒體的范疇,隨著時代的發(fā)展,海量的數(shù)據(jù)結(jié)構(gòu)變得復(fù)雜化和動態(tài)化,而通過單獨的傳統(tǒng)數(shù)學(xué)方法去管理現(xiàn)實生活中的問題,得到的效果往往不能滿足人們的期待。無人機和無人車的實際應(yīng)用、公安天網(wǎng)工程的展開、智慧醫(yī)療項目的全面發(fā)展都會要求對多媒體數(shù)據(jù)進(jìn)行快速處理,為了得到更理想的效果,得到的效果變得最優(yōu)化,需要開發(fā)和設(shè)計數(shù)據(jù)挖掘的新智能算法。
金融領(lǐng)域潛在數(shù)據(jù)的挖掘
在信用卡業(yè)務(wù)中,違約預(yù)測的數(shù)據(jù)挖掘具有預(yù)言性、有效性、實用性的優(yōu)勢。在信用卡交易的過程中,數(shù)據(jù)挖掘的應(yīng)用類型也比較多,如在信用卡異常行為檢測、高端信用客戶的維護(hù)和信用卡風(fēng)險控制等方面,均可以展開深入研究。
數(shù)據(jù)挖掘算法的改進(jìn)和可視化
當(dāng)采用數(shù)據(jù)挖掘的算法分析和處理海量數(shù)據(jù)時,算法的改進(jìn)主要取決于算法的精度和速度,即算法的準(zhǔn)確度和效率。如今,學(xué)術(shù)研究主要集中在精度和效率之間設(shè)定適當(dāng)?shù)呐R界值和對數(shù)據(jù)挖掘的結(jié)果進(jìn)行可視化兩個方面。針對數(shù)據(jù)挖掘算法中的新貴——RNN、CNN、DNN、Capsule等一系列深度學(xué)習(xí)算法的研究,將成為引領(lǐng)大數(shù)據(jù)研究方法的風(fēng)向標(biāo)。
數(shù)據(jù)挖掘和隱私保護(hù)
在解決實際問題時,難免會涉及隱私的數(shù)據(jù),例如在研究信用卡和用戶之間的關(guān)系時,數(shù)據(jù)中難免會有用戶的個人信息;在研究宮頸癌(危險因素)與人的年齡、懷孕次數(shù)、性伴侶數(shù)等關(guān)系時,會有部分隱私信息不便透漏外界。在進(jìn)行數(shù)據(jù)挖掘過程中,不泄露用戶的個人隱私問題,對數(shù)據(jù)進(jìn)行脫敏處理,將成為人們研究數(shù)據(jù)挖掘的另一個重要方面。
數(shù)據(jù)挖掘技術(shù)與其他系統(tǒng)的集成
數(shù)據(jù)挖掘是一個完整的過程,而不是單純的某一個算法或者其中的幾個算法簡單混合就可以的。將數(shù)據(jù)挖掘應(yīng)用到實戰(zhàn)演練的過程中,還是需要將數(shù)據(jù)挖掘與其他領(lǐng)域和系統(tǒng)有條理地集成,而不能理解成單獨的一個算法就足以解決一個問題,進(jìn)而最大化地體現(xiàn)了數(shù)據(jù)挖掘的優(yōu)勢。
結(jié) 論
在大數(shù)據(jù)時代下,當(dāng)運用傳統(tǒng)的數(shù)學(xué)方法遇到困難時,熟練地應(yīng)用數(shù)據(jù)挖掘技術(shù)顯得格外重要。本文通過對國內(nèi)外的研究現(xiàn)狀進(jìn)行剖析,分析了數(shù)據(jù)挖掘技術(shù)的主要方法,介紹了數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域,總結(jié)了在大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術(shù)未來的發(fā)展趨勢。
無論是在金融、醫(yī)療方面,還是在電信、教育等社會各個領(lǐng)域,每一時刻都會產(chǎn)生海量數(shù)據(jù),由于社會存在過多的不確定性因素,導(dǎo)致處理的數(shù)據(jù)類型越來越繁雜,即便是采用計算機輔助,對于傳統(tǒng)的處理方法、解決實際問題依然能力局限,但是通過數(shù)據(jù)挖掘技術(shù),解決大數(shù)據(jù)問題,則開辟了另一個途徑。未來的時代是“數(shù)據(jù)為王”,數(shù)據(jù)挖掘技術(shù)會面對更加嚴(yán)峻的挑戰(zhàn),利用數(shù)據(jù)挖掘的相關(guān)算法,處理實際問題和分析數(shù)據(jù)的能力將會更加顯著。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03