らだ天堂√在线中文,春色校园激情另类小说综合

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術的應用

2018-06-05

大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術的應用

隨著社會信息化的迅速發(fā)展，無論是數(shù)據(jù)的變化速率，還是數(shù)據(jù)的新增種類都在不斷更新，數(shù)據(jù)研究變得越來越復雜，這意味著“大數(shù)據(jù)時代”到來。2011年，互聯(lián)網(wǎng)數(shù)據(jù)中心（internet data center，IDC）將大數(shù)據(jù)重新定義為：在大數(shù)據(jù)原有的三維特征——數(shù)量、多樣、速度基礎上，增加了另一新的特征——“價值”。IDC強調(diào)：“目前，對于龐大的數(shù)據(jù)量，通過經(jīng)濟的方式，極速發(fā)掘、獲取和分析處理的技術，進而提煉獲取價值，這是大數(shù)據(jù)新時代的專屬?！薄按髷?shù)據(jù)時代”的專屬特征被重新定義為：數(shù)量（volume）、多樣（variety）、速度（velocity）和價值（value），稱為“4V”。

隨著大數(shù)據(jù)時代的到來，社會對“挖掘”到的數(shù)據(jù)要求變得更加嚴格，每一個精準的結果都具備獨自的“價值”，這時，大數(shù)據(jù)時代的新增屬性——“價值”被演繹得有聲有色。數(shù)據(jù)挖掘（data mining, DM）是一門新興的、匯聚多個學科的交叉性學科，這是一個不平凡的處理過程，即從龐大的數(shù)據(jù)中，將未知、隱含及具備潛在價值的信息進行提取的過程。1989年8月，在美國底特律市召開的第十一屆人工智能聯(lián)合會議的專題討論會上，知識發(fā)現(xiàn)（knowledge discover in database，KDD）初次被科學家們提出，同時，也有人將知識發(fā)現(xiàn)稱為數(shù)據(jù)挖掘，但兩者并不完全等同。1995年，KDD這個術語在加拿大蒙特利爾市召開的第一屆知識發(fā)現(xiàn)和數(shù)據(jù)挖掘國際學術會議上被人們接受，會議分析了數(shù)據(jù)挖掘的整個流程。實質(zhì)上，數(shù)據(jù)挖掘是知識發(fā)現(xiàn)的子過程。

經(jīng)過了大約20年的發(fā)展，數(shù)據(jù)挖掘研究取得了可觀的成績，漸漸地形成了一套基本的理論基礎，主要包括：分類、聚類、模式挖掘和規(guī)則提取等。數(shù)據(jù)挖掘是一種從生活中的海量數(shù)據(jù)里“挖掘”出潛在的、前所未有的知識的技術。處理大數(shù)據(jù)需要一個綜合、復雜、多方位的系統(tǒng)，系統(tǒng)中的處理模塊有很多，而數(shù)據(jù)挖掘技術以一個獨立的身份存在于處理大數(shù)據(jù)的整個系統(tǒng)之中，與其他模塊之間相輔相成、協(xié)調(diào)發(fā)展。在大數(shù)據(jù)時代中，數(shù)據(jù)挖掘技術的地位是無可比擬的。

數(shù)據(jù)挖掘的研究現(xiàn)狀

數(shù)據(jù)挖掘將高性能計算、機器學習、人工智能、模式識別、統(tǒng)計學、數(shù)據(jù)可視化、數(shù)據(jù)庫技術和專家系統(tǒng)等多個范疇的理論和技術融合在一起。大數(shù)據(jù)時代對數(shù)據(jù)挖掘而言，既是機遇也是挑戰(zhàn)，分析大數(shù)據(jù)，建立適當?shù)捏w系，不斷地優(yōu)化，提高決策的準確性，從而更利于掌握并順應市場的多端變化。在大數(shù)據(jù)時代下，數(shù)據(jù)挖掘作為最常用的數(shù)據(jù)分析手段得到了各個領域的認可，目前國內(nèi)外學者主要研究數(shù)據(jù)挖掘中的分類、優(yōu)化、識別、預測等技術在眾多領域中的應用。

分類

伴隨著時代的進步和科技的飛速發(fā)展，作為人口大國，中國在健康醫(yī)療、老齡化社會等方面產(chǎn)生的公共數(shù)據(jù)呈幾何級數(shù)進行增長，而基于大數(shù)據(jù)的挖掘數(shù)據(jù)所附有的價值問題急需解決。健康醫(yī)療數(shù)據(jù)的結構、規(guī)模、范圍和復雜度等都在不斷擴大，傳統(tǒng)的計算方法并不能完全滿足分析醫(yī)療數(shù)據(jù)，數(shù)據(jù)挖掘技術則可以根據(jù)醫(yī)療數(shù)據(jù)的一些特點：模式的多態(tài)性、信息的缺失性（數(shù)據(jù)中由于涉及個人隱私問題而導致的缺失值）、時序性、冗余性對健康醫(yī)療數(shù)據(jù)進行分類，從而可以為醫(yī)生或病人提供準確的輔助決策。

同時，中國正加速進入老齡化社會，而互聯(lián)網(wǎng)是改善老齡化社會的重要媒介，大數(shù)據(jù)是評估老齡化社會重要的技術手段。屈芳等提出了“互聯(lián)網(wǎng)+大數(shù)據(jù)”模式的養(yǎng)老實現(xiàn)途徑，整個養(yǎng)老服務體系是建立在多元異構信息匯聚和數(shù)據(jù)融合挖掘之上，“互聯(lián)網(wǎng)+大數(shù)據(jù)”的養(yǎng)老體系是將多種信息通信技術進行融合，在這里，包括通信技術、數(shù)據(jù)挖掘技術及人工智能技術等。

優(yōu)化

道路的交通狀況與人們的出行關系密切，隨著城市的快速發(fā)展、生活水平的改善，機動車的規(guī)模也逐漸擴大，帶來了交通擁堵等問題。數(shù)據(jù)挖掘技術可以有效解決交通道路和物流網(wǎng)絡之間的優(yōu)化問題，Pan等提出了一種數(shù)據(jù)挖掘預測模型，該模型用于“實時預測”短期的交通狀況，給陷入交通擁堵的駕駛人員帶來極大的幫助。

隨著科技的發(fā)展，網(wǎng)上購物越來越流行，同時帶來了物流運輸擁堵及癱瘓等問題。京東——中國最大的在線交易平臺之一，在人工智能的優(yōu)化時代，使用無人機探測道路狀況反饋的數(shù)據(jù)，采用數(shù)據(jù)挖掘技術精準計算物流網(wǎng)絡運輸所需要的參數(shù)，可以輕松高效地緩解物流運輸癱瘓的問題，從而產(chǎn)生了中國第一個機器人快遞員，將第一個商品送達至中國人民大學。而隨著日后交通網(wǎng)絡長度、復雜性等方面的增加，實現(xiàn)無人駕駛的自動化策略難度也大幅增加，只有通過數(shù)據(jù)挖掘技術才可以快速計算出結果，從而獲得從復雜道路信息中產(chǎn)生的高效價值。

識別

自從20世紀50年代數(shù)字圖像出現(xiàn)以來，數(shù)字圖像成為人類社會中必不可少的“數(shù)據(jù)”。在計算機應用中，數(shù)據(jù)挖掘在圖像識別的應用越來越普遍，有代表性應用為人臉識別和指紋識別。人臉識別通過對獲得的信息庫進行數(shù)據(jù)挖掘，進一步分析和處理可靠的、潛在的數(shù)據(jù)，充分準備資料的分析工作和未來的開發(fā)工作。Wright等闡述了基于稀疏表示的魯棒人臉識別，并給出了詳細的理論分析與實踐總結。

沙亞清等針對目前的電子報稅系統(tǒng)中利用用戶名和口令的不安全性，提出了一種基于智能卡和指紋識別的身份認證方案，并結合指紋技術，構建新的口令參數(shù)，從而使得安全性明顯提高。隨著數(shù)據(jù)挖掘技術的不斷發(fā)展，大數(shù)據(jù)識別人臉和指紋的精確度會越來越高。

預測

預測問題是各領域中研究最多的問題，其目的是通過歷史數(shù)據(jù)預測出未來的數(shù)據(jù)值或發(fā)展趨勢。大部分歷史數(shù)據(jù)是時間序列數(shù)據(jù)，即指按照時間的順序排列，得到了一系列觀測值。由于信息技術的不斷進步，時間序列的數(shù)據(jù)也日益劇增，如氣象預報、石油勘探、金融等。時間序列數(shù)據(jù)挖掘的最終目標就是通過分析時間序列的歷史數(shù)據(jù)，預測未來一段時間的變化趨勢及其帶來的影響。

“氣象”與地球的生態(tài)平衡和人們的正常生活息息相關，因此，氣象的準確預報顯得格外重要。周磊等總結了目前的氣象監(jiān)測模型，基于遙感數(shù)據(jù)的干旱方面，將目前的遙感監(jiān)測方法進行分類，對于外界的環(huán)境條件（溫度、濕度等）進行分類討論，提出解決復雜問題的新方法。

石油作為一種不可再生資源，目前全球儲量日益減少，從而使得石油勘探變得越來越重要。在石油勘探管理中，所采集的數(shù)據(jù)具有數(shù)據(jù)量大、計算量大、采集來源單一及數(shù)據(jù)處理流程復雜的特點，用數(shù)據(jù)挖掘技術對其采集的大數(shù)據(jù)集進行高性能并行計算和分析，才可以保證結果的有效性和準確性。

在大數(shù)據(jù)時代下，銀行、證券公司、保險公司等每天的業(yè)務都將生成海量數(shù)據(jù)，采用當前的數(shù)據(jù)庫系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢和統(tǒng)計等功能，目前，從簡單的查詢提升到利用數(shù)據(jù)挖掘技術挖掘知識、提供決策支持的層次顯得格外重要。數(shù)據(jù)挖掘技術在金融行業(yè)應用具有可行性，將理論基礎應用到相關的實例包括預測股票指數(shù)、發(fā)現(xiàn)金融時間序列中的隱含模式、信用風險管理及匯率預測等。

數(shù)據(jù)挖掘主要方法

數(shù)據(jù)挖掘是一門交叉性的新興學科，它將數(shù)據(jù)可視化、數(shù)據(jù)庫技術、高性能計算機、統(tǒng)計學、機器學習、模式識別、人工智能等多個范疇的理論和技術融合在一起。數(shù)據(jù)挖掘的主要方法概括為：預測模型方法、數(shù)據(jù)分割方法、關聯(lián)分析法和偏離分析法（圖1）。解決實際問題時，將已知的數(shù)據(jù)庫蘊含的復雜信息轉(zhuǎn)換成數(shù)學的語言，建立數(shù)學模型，運用相應的處理方法結果會更加有效。

圖1 數(shù)據(jù)挖掘的主要方法

預測模型方法

預測模型方法是數(shù)據(jù)挖掘主要方法中分支較為復雜的一類，包括神經(jīng)網(wǎng)絡與決策樹等相關人工智能算法、進化算法及支持向量機等算法。

1）神經(jīng)網(wǎng)絡與決策樹等相關人工智能算法

在預測模型方法中，神經(jīng)網(wǎng)絡算法、決策樹算法、貝葉斯分類算法、基于關聯(lián)規(guī)則分類算法等都是經(jīng)典的人工智能算法。

1943年，心理學家McCulloch和數(shù)理邏輯學家Pitts建立了神經(jīng)網(wǎng)絡和數(shù)學模型，稱為MP模型，證明了單個神經(jīng)元能夠執(zhí)行邏輯功能，從而開創(chuàng)了人工神經(jīng)網(wǎng)絡研究的新時代。通過仿真和模擬生物的神經(jīng)系統(tǒng)而獲得非線性處理能力的一種新的算法——人工神經(jīng)網(wǎng)絡算法（artificial neural network，ANN）。

現(xiàn)有的決策樹的分類算法有ID3、C4.5等。1986年，Quinlan提出了著名的ID3算法，在ID3的基礎上，1993年Quinlan又提出了C4.5算法。決策樹（decision tree，DT）分類算法是一種以決策樹形式表示的分類規(guī)則，它能夠根據(jù)一定的規(guī)則將眾多的數(shù)據(jù)分類，從中挖掘出那些有價值的、潛在的信息。決策樹的主要優(yōu)點在于處理大數(shù)據(jù)的能力強，適合分類及處理預測模型的任務，結論易于解釋和理解。

目前的主要研究有3種：CBA、CMAR和CPAR。自1993年Agrawal提出數(shù)據(jù)庫中的關聯(lián)規(guī)則挖掘后，基于關聯(lián)規(guī)則分類算法（classification base of association，CBA）及應用得到迅速發(fā)展。1997年，Ali等提出了使用分類關聯(lián)規(guī)則進行部分分類的思想。1998年，Liu等提出了基于分類關聯(lián)規(guī)則的關聯(lián)分類算法CBA，從此揭開了關聯(lián)分類的序幕?；?a href='/map/guanlianguize/' style='color:#000;font-size:inherit;'>關聯(lián)規(guī)則分析的分類算法搜索頻繁模式與類標號之間的強關聯(lián)，有效避免了決策樹歸納一次只考慮一個屬性的限制，使其比一些傳統(tǒng)的分類算法更為準確。

貝葉斯（Bayes）分類算法是一種算法相對比較簡單、分類精度相對較高的分類算法。在分類的性能方面，決策樹算法、貝葉斯分類算法及神經(jīng)網(wǎng)絡算法之間關系十分緊密?，F(xiàn)有的貝葉斯分類算法包括樸素貝葉斯算法、動態(tài)貝葉斯算法等。常見組合分類方法有隨機森林方法、bagging方法及boosting方法。其中，隨機森林方法是將多個決策樹分類器組合在一起的方法，在boosting算法中最常見的一種是AdaBoost算法。在準確度上，二者不相上下，但是，在運行速度上，隨機森林方法更占優(yōu)勢。朱凌云等提出了一種新的技術并在醫(yī)學中的應用，體現(xiàn)了數(shù)據(jù)的處理、多屬性信息的融合、挖掘算法的高效性和魯棒性。由于神經(jīng)網(wǎng)絡系統(tǒng)具有高度的抗干擾能力，所以，在各個領域內(nèi)神經(jīng)網(wǎng)絡算法應用廣泛，例如數(shù)據(jù)挖掘、信號處理、自動控制、模式識別及圖像處理等多個范疇。

2）進化算法

進化算法，又稱“演化算法”（evolutionary algorithms，EAs），其代表性算法為遺傳算法。1969年，Holland提出了一種隨機搜索的最優(yōu)化方法，它是模擬自然界中的遺傳機制和生物進化論而成的，稱為遺傳算法（genetic algorithms，GA）。它將利用自然界中的“優(yōu)勝劣汰，適者生存”的生物進化原理改變優(yōu)化參數(shù)，根據(jù)適應度函數(shù)的選取，最終形成編碼串聯(lián)到群體中。遺傳算法的基本步驟：選擇、交叉和變異。遺傳算法的主要目的是留下適應度值好的個體，淘汰適應度值差的個體，繼續(xù)循環(huán)選擇、交叉和變異步驟。

近幾年，又演化出新的進化算法，如粒子群算法、蟻群算法以及灰狼優(yōu)化算法等。粒子群算法（particle swarm optimization，PSO）是由Eberhart等開發(fā)的一種新的進化算法。與模擬退火算法相似，PSO算法也是從隨機解出發(fā)，通過迭代進而尋找最優(yōu)解，與上述的“遺傳算法”相比而言，規(guī)則更為簡單，它沒有遺傳算法基本步驟中的“交叉”和“變異”，而是通過追隨當前搜索獲得的最優(yōu)值來尋找全局的最優(yōu)解。粒子群算法以實現(xiàn)簡便、精度高、收斂快等優(yōu)點引起了學術界的重視，并且在解決實際問題中展示了其優(yōu)越性。

3）支持向量機

1995年，Corinna和Vapnik等首先提出了支持向量機（support vector machine，SVM），它是一種具備較強的分類能力和泛化能力的分類算法，主要解決小樣本、非線性、高維模式識別及函數(shù)擬合等其他機器學習問題。支持向量機主要分為以下3種情況。

線性可分情況。針對線性可分的情況，現(xiàn)實生活中存在大量的實例，例如，在一組醫(yī)療數(shù)據(jù)中，通過支持向量機可以將患者和正常人進行分類（即二分類），判斷哪些是患者，哪些是正常人；在一組由民歌和古箏演奏的音樂辨別中進行有效的分類，判斷哪些是民歌，哪些是古箏。

線性不可分情況。解決線性不可分問題時，構建核函數(shù)，這是支持向量機的優(yōu)勢所在。但是，對于數(shù)據(jù)集訓練的“復雜度”最終還是取決于它的規(guī)模，在處理大規(guī)模數(shù)據(jù)時，模型局部受限，泛化能力有時也會有所消耗或損失。

非線性可分情況。支持向量機利用結構風險最小化替代經(jīng)驗風險最小化原則，較好地解決了小樣本情況下的學習問題。針對非線性問題與線性問題是怎樣建立起聯(lián)系的，它們之間是如何進行轉(zhuǎn)化的，“核函數(shù)的思想”提供了新的思路。

數(shù)據(jù)分割方法

數(shù)據(jù)分割是將數(shù)據(jù)依據(jù)某些屬性將其聚類，使之具有一定的意義。由于數(shù)據(jù)的類型、數(shù)據(jù)的復雜度和聚類的數(shù)目等特點，聚類算法有很多，如劃分方法、基于網(wǎng)絡的方法、基于密度的方法、層次方法等。

肖娟等針對傳統(tǒng)的算法處理多層次的復雜建筑物中涉及的困難，提出了一種新的算法，對建筑物進行分割，對幾何基元進行提取。

關聯(lián)分析法

關聯(lián)分析法是尋找數(shù)據(jù)間的關聯(lián)，但從大數(shù)據(jù)集中尋找關聯(lián)可能會導致效率降低，找到的關聯(lián)也可能毫無意義。在研究過程中存在“支持度”和“置信度”，“支持度”可以有根據(jù)地將那些毫無意義的數(shù)據(jù)刪除，而“置信度”可以衡量設置規(guī)則的可能性。關聯(lián)分析法的主要算法有Apriori算法、DHP算法和DIC算法等。

Chen等在現(xiàn)有的分析方法基礎上，積累了海量的數(shù)據(jù)，利用數(shù)據(jù)挖掘技術，提出了一種新的算法，即通過關聯(lián)分析法建立相關模式挖掘方法，借助多種新型優(yōu)化技術，可以有效且高效地減少搜索空間。此外，將該算法應用于現(xiàn)實世界的數(shù)據(jù)集中，展示了相關模式挖掘的實用性。

偏離分析法

偏差包括潛在的信息量，例如設定模式中的特例、分類中的異樣實例以及分析實驗得到的最終結果與實驗前設定的期望之間的偏差等。觀察比較最終的結果與參照量之間的偏差是偏離分析法的核心所在。

在企業(yè)的預警或是危機解決的過程中，專業(yè)的管理者對突發(fā)的意外規(guī)則更感興趣，在異常信息的發(fā)現(xiàn)、識別、觀察、分析、挖掘、評價和預警等方面，挖掘意外規(guī)則的應用價值備受關注。

大數(shù)據(jù)時代下數(shù)據(jù)挖掘的應用

在大數(shù)據(jù)時代下，數(shù)據(jù)挖掘已經(jīng)廣泛地應用到生活中各種各樣的領域中，成為當今高科技發(fā)展的熱點問題。無論在軟件開發(fā)、醫(yī)療衛(wèi)生方面，還是在金融、教育等方面都可以隨處看到數(shù)據(jù)挖掘的影子，可以使用數(shù)據(jù)挖掘技術發(fā)現(xiàn)大數(shù)據(jù)的內(nèi)在的巨大價值。

惡意軟件的智能檢測

在大數(shù)據(jù)時代下，在惡意軟件檢測中數(shù)據(jù)挖掘技術得到廣泛的應用。惡意軟件嚴重損害到網(wǎng)絡和計算機，惡意軟件的檢查依賴于簽名數(shù)據(jù)庫（signature atabase，SD），通過SD，對文件進行比較和檢查，如果字節(jié)數(shù)相等，則可疑文件將被識別為惡意文件。有些基于有標簽的惡意軟件檢測的主題，集中在一個模糊的環(huán)境下，進而，無法進行惡意軟件行為的動態(tài)修改，無法識別隱藏的惡意軟件。相反地，基于行為的惡意軟件檢測就可以找到惡意文件的真實行為。而如果采用基于數(shù)據(jù)挖掘技術的分類方法，就可以根據(jù)每個惡意軟件的特征和行為進行檢測，從而檢測到惡意軟件的存在。

生物信息學中的廣泛應用

生物信息學是一門交叉學科，融合了生命科學、計算機科學、信息科學和數(shù)學等眾多學科。隨著科技的快速發(fā)展、技術的提升及結果的優(yōu)化，將高科技信息技術拓展到生物研究領域。但是，單純憑借原有的計算機技術是遠遠不夠的，需要以計算機科學做輔助，將生命科學、信息科學和數(shù)學等交叉學科融合在一起，通過數(shù)據(jù)挖掘技術進行處理，仔細分析生物數(shù)據(jù)之間的內(nèi)在聯(lián)系，挖掘生物數(shù)據(jù)內(nèi)部的潛在信息。生物信息數(shù)據(jù)的特點有很多，孫勤紅總結了當前生物信息數(shù)據(jù)的特點，包括數(shù)量大、種類多、維度高、形式廣及序列性等。當前生物信息學的熱點包括：從以序列分析為代表的組成分析向功能分析的轉(zhuǎn)變；從單個生物分析的研究到基因調(diào)控的轉(zhuǎn)變；對基因組數(shù)據(jù)進行整體分析等。人類目前在生物基因組計劃中的研究，僅僅是冰山的一角，未來在差異基因表達、癌癥基因檢測、蛋白質(zhì)和RNA基因的編碼等生物基因方面的研究工作都與數(shù)據(jù)挖掘技術密不可分，只有更好地利用數(shù)據(jù)挖掘技術，才可以挖掘出生物基因組中的非凡價值。

信用卡的違約預測

如今，隨著科技的高速發(fā)展，信息量急劇增加，內(nèi)容變得越來越豐富，信用卡在人們的生活中具有不可忽視的地位。眾所周知，信用卡是由銀行發(fā)放，銀行需要對申請人的個人信息進行核實，確認無誤后再進行發(fā)放信用卡，Chen等針對商業(yè)銀行貸款行為提出了一種關于信用率的模糊算法。信用卡在辦理之前，銀行首先需要對申請人進行細致調(diào)查，根據(jù)申請人的實際情況判斷是否有能力來償還所貸金額，劉銘等在傳統(tǒng)的神經(jīng)網(wǎng)絡基礎上，采用灰狼優(yōu)化算法計算神經(jīng)網(wǎng)絡的初始權值和閾值，并提出了一種改進的模糊神經(jīng)網(wǎng)絡的算法，通過建立的信用卡客戶的違約預測模型，與目前其他的預測方法進行比較，得到較好的預測結果，進一步，驗證了模糊神經(jīng)網(wǎng)絡在信用卡客戶的預測上具有較好的魯棒性、準確性和高效性。采用有效的數(shù)據(jù)挖掘技術，針對信用卡客戶屬性和消費行為的海量數(shù)據(jù)進行分析，可以更好的維護優(yōu)質(zhì)客戶，消除違約客戶的風險行為，為信用卡等金融業(yè)務價值的提升提供了技術上的保障。

疾病的智能診斷

1）宮頸癌的診斷。

宮頸癌是國際上最普遍的婦科惡性腫瘤之一。2012年統(tǒng)計數(shù)字顯示，宮頸癌在全球的新發(fā)病例數(shù)為52.8萬，死亡數(shù)26.6萬，居女性生殖道惡性腫瘤發(fā)病率的首位。按照有關數(shù)據(jù)統(tǒng)計，發(fā)展中國家占83%，其中死亡病例占85%，由于宮頸癌的篩查工作不夠完善，導致高發(fā)病率和高死亡率。相反地，在發(fā)達國家，很大程度上宮頸癌的低發(fā)病率源于有效的篩查和診斷。為了減少來自每個專家的標簽數(shù)據(jù)量，F(xiàn)ernandes等提出一種基于正則化的轉(zhuǎn)移學習策略，鼓勵源模型和目標模型共享相同的系數(shù)符號。

2）乳腺癌的診斷。

乳腺腫瘤是女性惡性腫瘤中最常見的腫瘤，影響婦女的身體和精神健康，甚至威脅生命。20世紀以來，全世界范圍內(nèi)乳腺癌的患病率均有所增加，特別是歐洲和北美地區(qū)，分別占歐洲和北美女性惡性腫瘤發(fā)病率的第一和第二位。目前，世界女性乳腺癌在癌癥中的發(fā)病率最高，據(jù)美國疾病預防中心統(tǒng)計，早期乳腺癌的治愈率可高達97％，進展期的治愈率僅為40％。因此，越早發(fā)現(xiàn)乳腺癌，治愈效果越好，即“早發(fā)現(xiàn)，早治療”。

在大數(shù)據(jù)時代下，醫(yī)療方面的數(shù)據(jù)呈現(xiàn)出數(shù)量大、類型多、處理方法復雜等特點，數(shù)據(jù)挖掘技術對這些問題的處理起到了至關重要的作用。威斯康星大學醫(yī)院Wolberg提供的乳腺腫瘤分析結果顯示，乳腺腫瘤的特征可以由9個參數(shù)來表示?；诟倪M的BP神經(jīng)網(wǎng)絡，劉銘建立了乳腺腫瘤的模擬模型，對傳統(tǒng)的BP神經(jīng)網(wǎng)絡進行改進和發(fā)展，當Levenberg-Marquardt（L-M）迭代替代了梯度下降算法時，網(wǎng)絡收斂速度得到了明顯的提高。

使用Matlab2010a進行求解，采用L-M迭代后，目標誤差為0.1，得到結果。通過圖2可知，神經(jīng)網(wǎng)絡在第7代達到收斂。測試數(shù)據(jù)有83個樣本。其中良性54例，惡性29例。采用檢測資料進行檢測，診斷結果為良性54例，良性發(fā)生率100％，惡性28例，惡性發(fā)生率96.6％，所以平均診斷發(fā)病率為98.8％，結果良好。

圖2 神經(jīng)網(wǎng)絡訓練性能

3）冠心病的診斷。

近年來，心血管疾病已成為威脅人類的最嚴重疾病之一，冠心病是心血管疾病中常見的疾病。因此，研究冠心病的有效診斷方法是必要的，有助于進一步采取預防措施和及時治療。目前，冠狀動脈造影是觀察冠狀動脈形態(tài)的唯一直接途徑，被醫(yī)學界稱為“金標準”。然而，這是一項創(chuàng)傷性診斷，需要高水平的醫(yī)療條件，否則不慎操作會引起嚴重并發(fā)癥甚至死亡，這限制了診斷技術的發(fā)展。因此，許多專家專注于研究國內(nèi)外冠心病的有效和非創(chuàng)傷性診斷。經(jīng)對Cleveland診所基金會提供的冠心病病例分析后，劉銘得出了反映冠心病特征的14個參數(shù)，采用BP算法，通過使用L-M算法的迭代對BP算法進行改進和開發(fā)，提高了網(wǎng)絡收斂速度，在改進的BP算法的基礎上，建立了智能診斷的仿真模型。隨著該方法的應用，診斷率可達99.3％。

針對疾病的智能診斷，數(shù)據(jù)挖掘具有4個應用角度：在醫(yī)院信息系統(tǒng)中的應用、在疾病輔助診斷中的應用、在藥物開發(fā)中的應用、在遺傳學方面的應用。

地質(zhì)災害的風險評估

地質(zhì)災害研究具有悠久的歷史，地質(zhì)災害風險評估是一個新興的研究領域。近年來，在某些領域已經(jīng)開發(fā)出更準確的預測和分析的方法，這些領域涉及到坍塌、地震、山體滑坡和泥石流等地質(zhì)災害。

劉銘提出了一種新穎的智能計算方法，將數(shù)據(jù)挖掘技術與地質(zhì)災害風險實際問題融合在一起，這種混合計算方法促進了對地質(zhì)災害風險的準確評估?；旌现悄芩惴òＷ尤簝?yōu)化、遺傳算法和反向傳播神經(jīng)網(wǎng)絡。反向傳播神經(jīng)網(wǎng)絡和粒子群算法優(yōu)化了網(wǎng)絡連接權重，閾值的初始化采用遺傳算法，同時，在迭代過程中更新連接權重和閾值。這項地質(zhì)災害預測研究是在吉林災害監(jiān)測數(shù)據(jù)的基礎上，模擬中國東北地區(qū)，通過混合智能算法獲得的準確度遠高于BP神經(jīng)網(wǎng)絡方法帶來的準確度。隨著地質(zhì)災害風險評估在國際風險評估機構中得到肯定，混合方式得到更廣泛的應用，如混合智能算法將促進更有效的應急響應、環(huán)境管理、土地利用和開發(fā)規(guī)劃。

污水的成因分析

在大數(shù)據(jù)時代的背景下，當研究水環(huán)境和污水處理時，生物膜的組成和活性是兩個非常重要的參數(shù)。而處理污水問題時，面對的數(shù)據(jù)海量，單一的傳統(tǒng)數(shù)學方法解決效果不夠理想，引入數(shù)據(jù)挖掘技術進行分析，問題優(yōu)化的結果將會更令人滿意。

研究水環(huán)境的重點在于對污水處理、運行和控制方面的實際需要，通過數(shù)據(jù)挖掘技術可以準確找到生物膜的表征和活性，并進行估計，進而對于參數(shù)不足以描述生物膜活性的問題得以解決。

在給定的限度內(nèi)，隨著生物膜的厚度增加，生物膜的活性也隨之增強。測量或估計生物膜厚度和活性的方法是評估生物膜廢水處理效率的重要因素，然而目前用于預測生物膜厚度和空間分布適應性的工具較差。對此林山松等基于碳-氮-磷濃度的空間分布生物膜厚度和活性，提出了支持向量回歸模型，用以預測反應器中的生物膜的厚度和活力。

采用共聚焦激光掃描顯微鏡方法對12個樣點的4個隨機位置上形成的成熟生物膜的厚度進行估算，并將其平均值作為每個載體的最終厚度。圖3為共聚焦激光掃描顯微鏡的微圖，展示了在運行100天后載體上的典型生物膜的厚度，其中Z軸上的數(shù)字（30.6μm）是由激光共聚焦顯微鏡測量的生物膜厚度。得到的數(shù)據(jù)作為觀測值來估計反應器中未被采樣點的生物膜厚度，這些未被采樣的點的生物膜厚度通過使用Kriging插值得到。

圖3 用于檢測生物膜厚度的激光共聚焦顯微鏡顯微照片的例子

基于實際值的Kriging插法和距離反應器底部垂直35 cm處的生物膜厚度和生物膜活性的支持向量回歸模型預測值進行了比較。圖4比較了使用支持向量回歸模型的生物膜厚度和生物膜的活性的實際值和預測值。結果表明較高的系數(shù)R2=（0.996，0.997），并且通過支持向量回歸基于碳-氮-磷值在碎石球狀骨料反應器中預測生物膜厚度和生物膜活性的高度可行性，同時根據(jù)實際值驗證Kriging插值的準確性。

圖4 生物膜厚度（a）和生物膜活性（b）實際值與預測值

利用Kriging插值法分析組合共聚焦激光掃描顯微鏡和流式細胞術顯示，生物膜厚度從22μm到31μm，生物膜活性在反應器的流動方向上從80％降至30％。同時，證實了化學需氧量，總氮量和總磷酸鹽去除特征與生物膜厚度和生物膜活性的水分分布之間存在明顯的相關性。

教育大數(shù)據(jù)的挖掘

教育是國家發(fā)展的根本，在大數(shù)據(jù)時代，教育大數(shù)據(jù)的挖掘是教育數(shù)據(jù)價值的體現(xiàn)。根據(jù)教育部的數(shù)據(jù)顯示，截至2013年，中國高校貧困學生數(shù)目已經(jīng)高達500余萬，中國高校的貧困學生比例已經(jīng)高達20％，其中，特困學生的比例已經(jīng)超過了總在校人數(shù)的5％。全國各個高校都對貧困學生都有各種資助政策，盡量不讓每個學生因為貧困而放棄學業(yè)。傳統(tǒng)的資助形式都是大學生進行申請，并遞交相關貧困證明材料，但部分學生因為較強的自尊心，不想讓同學發(fā)現(xiàn)自己的特殊性而放棄申請，從而導致貧困助學金并不能準確地發(fā)放到每個貧困學生的手中。2015年3月2日，南京理工大學的“暖心飯卡工程”受到來自各界的關注。南京理工大學教育發(fā)展基金會工作人員對學生在日常生活中的數(shù)據(jù)進行了調(diào)查和數(shù)據(jù)的采集，該項調(diào)查涉及的共有16000余名南京理工大學當前在校學習的本科生，采集的數(shù)據(jù)為在2014年9月中旬至11月中旬期間學生的飯卡刷卡記錄，將每個月平均在食堂消費60次以上，消費總額不足420元的學生確立為補助對象，不需要學生申報，直接將補助打入學生的飯卡。這次針對學生生活行為的數(shù)據(jù)挖掘，不僅在教育大數(shù)據(jù)的基礎上實現(xiàn)了“精準扶貧”，而且對學生真正做到了“人文關懷”，體現(xiàn)出了數(shù)據(jù)的價值性。

國內(nèi)圖書情報的研究

目前，數(shù)據(jù)挖掘技術在圖書情報領域的研究可分為6個方面：數(shù)字圖書館及個性化服務；WEB和信息服務；信息資源及參考咨詢；圖書館及信息檢索；高校圖書館及圖書館采購；情報學領域等。

大數(shù)據(jù)時代下，數(shù)據(jù)挖掘技術在中國圖書情報領域中，基于中國知網(wǎng)數(shù)據(jù)庫中圖書情報領域的相關研究論文，郭婷等分別利用了共詞分析法和文獻分析法對文獻的增長規(guī)律和期刊的分布情況進行分析，在中國圖書情報領域中，對數(shù)據(jù)挖掘的研究現(xiàn)狀進行研討，進一步強調(diào)了數(shù)據(jù)挖掘技術在圖書情報領域研究的熱點和重點。而且中國知網(wǎng)等在線圖書機構采用數(shù)據(jù)挖掘技術研發(fā)的“學術不端文獻檢測系統(tǒng)”有效地避免了學術舞弊行為，保證了中國科研工作的正常發(fā)展。

大數(shù)據(jù)時代下數(shù)據(jù)挖掘的發(fā)展趨勢

無論是研究領域，還是商業(yè)應用，數(shù)據(jù)挖掘都是熱點問題，得到越來越多的人們關注，人們逐漸了解、學習并加以運用，相關領域日益成熟。在利用數(shù)據(jù)挖掘技術處理和解決實際問題時，王光宏等提出了3個值得注意的角度：用數(shù)據(jù)挖掘技術解決問題的類型、解決數(shù)據(jù)挖掘的數(shù)據(jù)準備工作及數(shù)據(jù)挖掘的理論基礎。在大數(shù)據(jù)時代下，數(shù)據(jù)挖掘的發(fā)展趨勢將會圍繞數(shù)據(jù)價值的挖掘體現(xiàn)在以下5個層面。

多媒體數(shù)據(jù)挖掘

大數(shù)據(jù)時代下，視頻、音頻、圖像等都屬于多媒體的范疇，隨著時代的發(fā)展，海量的數(shù)據(jù)結構變得復雜化和動態(tài)化，而通過單獨的傳統(tǒng)數(shù)學方法去管理現(xiàn)實生活中的問題，得到的效果往往不能滿足人們的期待。無人機和無人車的實際應用、公安天網(wǎng)工程的展開、智慧醫(yī)療項目的全面發(fā)展都會要求對多媒體數(shù)據(jù)進行快速處理，為了得到更理想的效果，得到的效果變得最優(yōu)化，需要開發(fā)和設計數(shù)據(jù)挖掘的新智能算法。

金融領域潛在數(shù)據(jù)的挖掘

在信用卡業(yè)務中，違約預測的數(shù)據(jù)挖掘具有預言性、有效性、實用性的優(yōu)勢。在信用卡交易的過程中，數(shù)據(jù)挖掘的應用類型也比較多，如在信用卡異常行為檢測、高端信用客戶的維護和信用卡風險控制等方面，均可以展開深入研究。

數(shù)據(jù)挖掘算法的改進和可視化

當采用數(shù)據(jù)挖掘的算法分析和處理海量數(shù)據(jù)時，算法的改進主要取決于算法的精度和速度，即算法的準確度和效率。如今，學術研究主要集中在精度和效率之間設定適當?shù)呐R界值和對數(shù)據(jù)挖掘的結果進行可視化兩個方面。針對數(shù)據(jù)挖掘算法中的新貴——RNN、CNN、DNN、Capsule等一系列深度學習算法的研究，將成為引領大數(shù)據(jù)研究方法的風向標。

數(shù)據(jù)挖掘和隱私保護

在解決實際問題時，難免會涉及隱私的數(shù)據(jù)，例如在研究信用卡和用戶之間的關系時，數(shù)據(jù)中難免會有用戶的個人信息；在研究宮頸癌（危險因素）與人的年齡、懷孕次數(shù)、性伴侶數(shù)等關系時，會有部分隱私信息不便透漏外界。在進行數(shù)據(jù)挖掘過程中，不泄露用戶的個人隱私問題，對數(shù)據(jù)進行脫敏處理，將成為人們研究數(shù)據(jù)挖掘的另一個重要方面。

數(shù)據(jù)挖掘技術與其他系統(tǒng)的集成

數(shù)據(jù)挖掘是一個完整的過程，而不是單純的某一個算法或者其中的幾個算法簡單混合就可以的。將數(shù)據(jù)挖掘應用到實戰(zhàn)演練的過程中，還是需要將數(shù)據(jù)挖掘與其他領域和系統(tǒng)有條理地集成，而不能理解成單獨的一個算法就足以解決一個問題，進而最大化地體現(xiàn)了數(shù)據(jù)挖掘的優(yōu)勢。

結論

在大數(shù)據(jù)時代下，當運用傳統(tǒng)的數(shù)學方法遇到困難時，熟練地應用數(shù)據(jù)挖掘技術顯得格外重要。本文通過對國內(nèi)外的研究現(xiàn)狀進行剖析，分析了數(shù)據(jù)挖掘技術的主要方法，介紹了數(shù)據(jù)挖掘技術的應用領域，總結了在大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術未來的發(fā)展趨勢。

無論是在金融、醫(yī)療方面，還是在電信、教育等社會各個領域，每一時刻都會產(chǎn)生海量數(shù)據(jù)，由于社會存在過多的不確定性因素，導致處理的數(shù)據(jù)類型越來越繁雜，即便是采用計算機輔助，對于傳統(tǒng)的處理方法、解決實際問題依然能力局限，但是通過數(shù)據(jù)挖掘技術，解決大數(shù)據(jù)問題，則開辟了另一個途徑。未來的時代是“數(shù)據(jù)為王”，數(shù)據(jù)挖掘技術會面對更加嚴峻的挑戰(zhàn)，利用數(shù)據(jù)挖掘的相關算法，處理實際問題和分析數(shù)據(jù)的能力將會更加顯著。

CDA數(shù)據(jù)分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；