狂野欧美激情性xxxx按摩,9420高清免费观看在线观看国语

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

數(shù)據(jù)挖掘研究的機遇及挑戰(zhàn)

2016-09-25

數(shù)據(jù)挖掘研究的機遇及挑戰(zhàn)

隨著計算機的大量應用和數(shù)據(jù)量的急速增長，數(shù)據(jù)挖掘發(fā)揮著越來越重要的作用．數(shù)據(jù)挖掘經(jīng)過近二十年的發(fā)展．取得了很大的突破，包括了數(shù)據(jù)庫技術(shù)、人工智能技術(shù)、數(shù)理統(tǒng)計、可視化技術(shù)等技術(shù)熱點．其應用也越來越廣泛，同時。也面臨著技術(shù)上的一些難題，如流數(shù)據(jù)挖掘、分布式數(shù)據(jù)挖掘、基因數(shù)據(jù)挖掘等等．

數(shù)據(jù)挖掘應用與機遇挑戰(zhàn) 隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應用，人們積累的數(shù)據(jù)越來越多．數(shù)據(jù)呈爆炸性增長。各種數(shù)據(jù)廣泛存在，數(shù)字。圖形、文字、表格、聲音等都是數(shù)據(jù)的種種表象，可謂是數(shù)據(jù)的海洋．要從這數(shù)據(jù)的海洋中尋找有用的資料．就要靠處理數(shù)據(jù)的手段來挖掘．人類分析數(shù)據(jù)到現(xiàn)在已經(jīng)有上千年的歷史了．從遠古時代人類開始在木頭上計數(shù)開始就是一個簡單的數(shù)據(jù)分析過程．但是近代數(shù)據(jù)分析是用統(tǒng)計學的概念去處理數(shù)據(jù)．隨著二戰(zhàn)的結(jié)束，一些非統(tǒng)計的數(shù)據(jù)分析工具．如人工智能方面的技術(shù)開始應用到行業(yè)經(jīng)濟中．到了二十世紀九十年代．美國的一些應用者和學者把在數(shù)據(jù)海洋中尋找知識的過程叫做”數(shù)據(jù)挖掘”．數(shù)據(jù)挖掘”（ＤａｔａＭｉｎｉｎｇ）是一種新的信息處理技術(shù)，其主要特點是對數(shù)據(jù)庫中的大量業(yè)務數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理．從中提取輔助決策的關(guān)鍵性數(shù)據(jù)．數(shù)據(jù) 挖掘與傳統(tǒng)的數(shù)據(jù)分析，如查詢、報表、ＯＬＡＰ（聯(lián)機應用分析）、統(tǒng)計分析等數(shù)據(jù)分析技術(shù)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在明確假設的前提下去挖掘信息、發(fā)現(xiàn)知識．

１、數(shù)據(jù)挖掘研究的起源ＵｓａｍａＦａｙｙａｄｍ是數(shù)據(jù)挖掘的開山師祖．１９８７年就讀密西根大學時參加通用的暑期工作．目的是從數(shù)以萬計的維修記錄中找出規(guī)則．協(xié)助維修人員迅速發(fā)現(xiàn)問題．Ｆａｙｙａｄ發(fā)現(xiàn)的ｐａｔｔｅｒｎ算法．不但成為他１９９１年論文的主題，也衍生出后來數(shù)據(jù)挖掘技術(shù)的發(fā)展．離開密西根后．Ｆａｙｙａｄ加入ＮＡＳＡ的噴射推進實驗室，他的算法在太空探測、地質(zhì)研究等工作中均展現(xiàn)出了非常驚人的潛力．數(shù)據(jù)挖掘最早被應用于天文學．即由機器學習、類型辯識及統(tǒng)計等技術(shù)．在短短４小時內(nèi)所發(fā)現(xiàn)的行星勝過了２０多位天文學家４年的成果．現(xiàn)在連美國軍方也開始應用這樣的技術(shù)增強雷達解讀與辯識數(shù)據(jù)的能力．對數(shù)據(jù)挖掘的定義存在多種說法：Ｇｒｏｔｈ啊認為”數(shù)據(jù)挖掘” 就是”挖掘”出數(shù)據(jù)中隱藏的模式，趨勢．關(guān)系的過程：Ｂｅｒｙｙ＆Ｌｉｎｏ樅為”數(shù)據(jù)挖掘”是通過自動或半自動的方式在海量數(shù)據(jù)中發(fā)現(xiàn)有用的模式，規(guī)則的過程；Ｈａｎｄ，Ｍａｎｎｉｌａ＆Ｓｍｙｔｈ〔田則認為”數(shù)據(jù)挖掘”是分析普通的數(shù)據(jù)（通常是海量的）來發(fā)現(xiàn)數(shù) 據(jù)之間比較穩(wěn)定地關(guān)系．以易于理解的方式將數(shù)據(jù)總結(jié)出來向數(shù)據(jù)所有者提供有價值的決策支持：Ｃａｂｅｎａｅｔａｌｍ將”數(shù)據(jù)挖掘” 定義為從大量的數(shù)據(jù)庫中抽取出此前還沒發(fā)現(xiàn)的有效實用地的信息，并且此后使用此信息來幫助制定關(guān)鍵的商業(yè)決策的過程．

綜合來說，數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程．數(shù)據(jù)挖掘是一門交叉學科。其技術(shù)歷經(jīng)了２０多年的發(fā)展．包括了數(shù)據(jù)庫技術(shù)、人工智能技術(shù)、數(shù)理統(tǒng)計、可視化技術(shù)、并行計算等技術(shù)熱點．

今天，這些成熟的技術(shù)。加上高性能的關(guān)系數(shù)據(jù)庫引擎以及廣泛的數(shù)據(jù)集成．讓數(shù)據(jù)挖掘技術(shù)在當前的數(shù)據(jù)倉庫環(huán)境中進入了實用的階段．在選擇數(shù)據(jù)挖掘的相關(guān)技術(shù)以及算法上．數(shù)據(jù)挖掘的理論技術(shù)可分為傳統(tǒng)技術(shù)與改良技術(shù)兩類．傳統(tǒng)技術(shù)以統(tǒng)計分析為代表．統(tǒng)計學內(nèi)所含序列統(tǒng)計、概率論、回歸分析、類別數(shù)據(jù)分析等都屬于傳統(tǒng)數(shù)據(jù)挖掘技術(shù)，尤其ＤａｔａＭｉｎｉｎｇ對象多為變量繁多且樣本數(shù)龐大的數(shù)據(jù)．高等統(tǒng)計學里之多變量分析中用來精簡變量的因素分析（ＦａｃｔｏｒＡｎａｌｙｓｉｓ）、用來分類的判別分析（Ｄ兇ｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ）．以及用來區(qū)隔群體的分群分析（ＣｌｕｓｔｅｒＡｎａｌｙｓｉｓ）等．在ＤａｔａＭｉｎｉｎｇ過程中特別常用．在改良技術(shù)方面．應用較普遍的有決策樹理論（ＤｅｃｉｓｉｏｎＴｒｅｅｓ）、類神經(jīng)網(wǎng)絡（Ｎｅｕ．ｒａｌＮｅｔｗｏｒｋ）以及規(guī)則歸納法（ＲｕｌｅｓＩｎｄｕｃｔｉｏｎ）等．對數(shù)據(jù)挖掘而言．研究者必須考慮所要進行挖掘分類領域的一些相關(guān)同題：如研究領域的特性、數(shù)據(jù)的質(zhì)量、數(shù)據(jù)庫的組成是否能表現(xiàn)這個議題、決策環(huán)境、人員因素以及這些因素間的潛在互動等等．都是需要考慮的因素．可以用圖２來表示這個概念．

２、數(shù)據(jù)挖掘研究的應用與機遇作為應用技術(shù)．數(shù)據(jù)挖掘可謂涵蓋廣泛。尤其在發(fā)達國家．數(shù)據(jù)挖掘技術(shù)的觸角已經(jīng)伸向了各行各業(yè)．只要某產(chǎn)業(yè)擁有具分析價值與需求的數(shù)據(jù)倉儲或數(shù)據(jù)庫．皆可利用挖掘工具進行有目的的挖掘分析．一般較常見的應用案例多發(fā)生在零售業(yè)、直效行銷界、制造業(yè)、財務金融保險、通訊業(yè)以及醫(yī)療服務等．數(shù) 據(jù)挖掘的應用領域具體可以分為三類：第一類．商業(yè)與電子商務數(shù)據(jù)．銀行、管理部門、網(wǎng)絡應用在商業(yè)運作過程中產(chǎn)生大量數(shù) 據(jù)．這些行業(yè)需要通過數(shù)據(jù)分析做出有效的決策．第二類，科學、工程學和衛(wèi)生保健數(shù)據(jù)．工程領域的數(shù)據(jù)往往比商業(yè)數(shù)據(jù)更復雜，此外．科學家和工程師越來越多地使用模擬系統(tǒng)．第三類：網(wǎng) 絡數(shù)據(jù)．網(wǎng)絡上的數(shù)據(jù)不僅在數(shù)量上日益膨脹，在內(nèi)容上也越來越復雜．網(wǎng)絡數(shù)據(jù)已經(jīng)不僅僅包括圖象、文本，還包括數(shù)據(jù)流和數(shù)值數(shù)據(jù)．下面對每一類的具體應用作一介紹．

商業(yè)交易：國外的數(shù)據(jù)挖掘技術(shù)主要應用在了銀行業(yè)，典型的例子就是信用卡，用數(shù)據(jù)挖掘技術(shù)來分析銀行客戶的信用等級和資產(chǎn)發(fā)展趨勢，用以規(guī)避銀行風險．保險業(yè)借以此技術(shù)來防止保險欺詐行為。并慢慢滲透到稅收、零售行業(yè)以及國家安全系統(tǒng)的保障等等．

電子商務：電子商務的發(fā)展促使公司內(nèi)部收集了大量的數(shù) 據(jù)。并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識，為公司　萬方數(shù)據(jù) 福建電腦２００９年第３期創(chuàng)造更多潛在的利潤．數(shù)據(jù)挖掘在電子商務的應用已進入了實用階段．并取得了良好的效果．

基因數(shù)據(jù)：基因組作序和作圖產(chǎn)生大量的數(shù)據(jù)庫，這些數(shù)據(jù) 庫絕大部分尚未被挖掘。因為缺少理想的數(shù)據(jù)挖掘技術(shù)，基因挖掘容易被忽視．

傳感器數(shù)據(jù)：衛(wèi)星、浮標、氣球還有許多其他傳感器產(chǎn)生關(guān) 于大氣層、海洋、和陸地的大量數(shù)據(jù)．一個最大的挑戰(zhàn)就是研究這些變量之間的關(guān)系，比如：工業(yè)污染影響全球氣候變暖嗎？

模擬系統(tǒng)數(shù)據(jù)：今天，模擬被認為是繼理論和實驗之后．科學的第三種模式．模擬系統(tǒng)同實驗一樣產(chǎn)生大量數(shù)據(jù)．數(shù)據(jù)挖掘被認為是理論、模擬和實驗之間一個關(guān)鍵的連接．

衛(wèi)生保健數(shù)據(jù)：衛(wèi)生保健日益成為國民生產(chǎn)總值中重要的組成部分．醫(yī)院、衛(wèi)生組織和保險公司擁有病人的大量信息：病人的健康問題、醫(yī)療程序、成本和收益，理解它們之間的關(guān)系相當重要．數(shù)據(jù)挖掘的一個獨特的用法就是用來預測手術(shù)、用藥、診斷、或是流程控制的效率．多媒體文本：文本的數(shù)量和使用文本的人日益增加，多媒體技術(shù)也越來越容易接觸到．同時也越來越難以獲取有用的數(shù)據(jù)．文本數(shù)據(jù)挖掘并不是一件容易的事情。尤其是在分析方法方面。還有很多需要研究的專題．

Ｗｅｂ數(shù)據(jù)：今天．Ｗｅｂ主要面向文本和多媒體設備．ＨＴＭＬ雖然已被認為是最強大、最有力的工具。但也受到許多使用者的批評．未來．Ｗｅｂ將是數(shù)據(jù)處理最重要的工具，以ｘＭＬ為基礎的新一代ＷＷＷ環(huán)境是直接面對Ｗｅｂ數(shù)據(jù)的．不僅可以很好地兼容原有的Ｗｅｂ應用．而且可以更好地實現(xiàn)Ｗｅｂ中的信息共享與交換．隨著ＸＭＬ的發(fā)展．數(shù)據(jù)挖掘將可成為網(wǎng)絡數(shù)據(jù)的關(guān)鍵技術(shù)．未來幾年．數(shù)據(jù)挖掘將是極為重要的成長領域，數(shù)據(jù)挖掘的應用越來越廣泛．

研究結(jié)果顯示．企業(yè)所處理的數(shù)據(jù)每五年就會璺現(xiàn)倍數(shù)增長．大部分的企業(yè)并沒有數(shù)據(jù)不足的問題．過度的數(shù) 據(jù)重復與不一致才是大問題．這使得企業(yè)無論在使用、有效管理、以及將這些數(shù)據(jù)用于決策過程方面都遭遇到了問題．因此市場需要的是能夠?qū)?shù)據(jù)轉(zhuǎn)變成可靠與可用信息的系統(tǒng)．不同領域的專家對數(shù)據(jù)挖掘都表現(xiàn)出了極大的興趣．例如在信息服務業(yè)中出現(xiàn)了一些應用．在Ｉｎｔｅｒｎｅｔ之數(shù)據(jù)倉儲和線上服務中也給企業(yè)增加了許多生機．同時在產(chǎn)學合作下．又發(fā)展出了許多實用的系統(tǒng)．例如ＭＤＴ、ＣｏｖｅｒｓｔｏｒｙａｎｄＳｐｏｔｌｉｇｈｔ、Ｎｉｅｈｗｏｒｋｖｉｓｕａｌｉｚａ－ｔｉｏｎｓｙｓｔｅｍＬＢＳ、ＦＡＬＣＯＮ、ＦＡＩＳ、ＮＹＮＥＸ、ＴＡＳＡ等等．目前已被許多研究者視為結(jié)合數(shù)據(jù)庫系統(tǒng)和機器學習技術(shù)的重要領域．對于研究者來說．數(shù)據(jù)挖掘是個充滿潛力和機遇無限的研究領域．

３．數(shù)據(jù)挖掘研究面臨的挑戰(zhàn)

目前．數(shù)據(jù)挖掘算法雖然已經(jīng)取得了很大的突破，但在實際應用中．數(shù)據(jù)挖掘技術(shù)還存在相當多的難題和困難，對于研究者來說．數(shù)據(jù)挖掘是個充滿挑戰(zhàn)性的領域．

３．１流數(shù)據(jù)挖掘．一個重要的問題是挖掘大數(shù)據(jù)庫（如１００ＴＳ）的數(shù)據(jù)流，這些數(shù)據(jù)流廣泛存在互聯(lián)網(wǎng)、無線通信網(wǎng)絡、地質(zhì)測量、氣象、天文觀測等方面，由于數(shù)據(jù)流迅速、大量、連續(xù)地到達，因此現(xiàn)有的數(shù) 據(jù)挖掘算法在處理如此大量的數(shù)據(jù)方面速度太慢了，需要研究新的算法．與此同時．數(shù)據(jù)流需要以近實時的方式對更新流進行復雜分析．這對研究者來說也是一個挑戰(zhàn)．

３．２分布式數(shù)據(jù)挖掘．出于對安全性、容錯性、商業(yè)競爭以及法律約束等多方面因素的考慮．在許多情況下，將所有數(shù)據(jù)集中在一起進行分析往往是不可行的．隨著各相關(guān)學科的飛速發(fā)展。各種網(wǎng)絡尤其是Ｉｎ－ｔｅｍｅｔ的廣泛使用．同時，實際應用要求數(shù)據(jù)挖掘系統(tǒng)具有更好的可擴展性．分布式數(shù)據(jù)挖掘系統(tǒng)則可以充分利用分布式計算的能力對相關(guān)的數(shù)據(jù)進行分析與綜合．如研究某種疾病在某地的發(fā)病情況與氣候的關(guān)系（疾病控制數(shù)據(jù)庫＋環(huán)境數(shù)據(jù)庫）；金融組織問通過合作防止信用卡欺詐（數(shù)據(jù)共享）；大型跨國公司營銷策略的制定（銷售點分散．數(shù)據(jù)倉庫構(gòu)造十分耗時）．分布式數(shù) 據(jù)挖掘正是在這一背景下產(chǎn)生的．它是數(shù)據(jù)挖掘技術(shù)與分布式計算的有機結(jié)合．主要用于分布式環(huán)境下的數(shù)據(jù)模式發(fā)現(xiàn)．分布式數(shù)據(jù)挖掘面臨的問題是研究算法．實現(xiàn)對不同數(shù)據(jù)源、多重數(shù) 據(jù)庫間的挖掘．

３．３時問序列數(shù)據(jù)挖掘．時問序列是數(shù)據(jù)存在的特殊形式，序列的過去值會影響到將來值。這種影響的大小以及影響的方式可由時間序列中的趨勢周期及非平穩(wěn)等行為來刻畫．一般來講，時間序列數(shù)據(jù)都具有噪聲、不穩(wěn)定、隨機性等特點，這就使得正確進行短期和長期的預測都非常困難．如何解決時間序列數(shù)據(jù)的噪聲問題。從而有效地聚類、分類和預測數(shù)據(jù)趨勢仍然是個有待解決的問題．對于這類數(shù)據(jù)的預測方法目前主要有自動回歸滑動平均（ＡＲＭＡ）和神經(jīng)網(wǎng)絡等，但這些方法有一些缺點是很難克服的．ＡＲＭＡ包含的是線性行為，對于非線性的因素沒有包含；而神經(jīng)網(wǎng)絡的結(jié)構(gòu)需要事先指定或應用啟發(fā)式算法在訓練過程中修正：同時神經(jīng)網(wǎng) 絡得到的解是局部最優(yōu)而非全局最優(yōu)．例如在金融時間序列預測中，雖然小波分析可去掉噪聲。但通常會帶來滯后的問題，從而減低了預測的準確程度．現(xiàn)今的數(shù)據(jù)挖掘方法在處理噪聲數(shù) 據(jù)方面仍然有很大的困難．

３．４生物醫(yī)學或基因數(shù)據(jù)挖掘目前．生物醫(yī)學或基因?qū)W領域的進步產(chǎn)生了大量的數(shù)據(jù)．對于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比．無論在數(shù)據(jù)的復雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言。都要復雜得多．例如：基因和蛋白質(zhì)在數(shù)量上巨大（ＤＮＡ分子可以有上億對），結(jié)構(gòu)非常復雜，彼此之間的作用善未被發(fā)現(xiàn)；在生物醫(yī) 學的許多方面如進化論、生物數(shù)據(jù)ｃｌｅａｎ、生物序列分析、生物網(wǎng) 絡分析．生物圖象分析等等．從分析算法上講．更需要一些新的和好的算法．現(xiàn)在很多廠商正在致力于這方面的研究．但就技術(shù) 和軟件而言．還遠沒有達到成熟的地步．

３．５可視化數(shù)據(jù)挖掘目前．在可視化工具方面已經(jīng)有所發(fā)展．可視化工具除了較常見的柱形或條形統(tǒng)計圖表、餅圖、曲線、柱狀圖、箱線圖等等，還有其他工具如幾何圖形（如平行坐標）、分級技術(shù)、圖標技術(shù)．可視化數(shù)據(jù)挖掘對于研究者是個充滿吸引力的領域．因為可視化技術(shù)可以幫助研究者更好地解釋數(shù)據(jù)、發(fā)現(xiàn)數(shù)據(jù)的模式．通過發(fā)展技術(shù)和系統(tǒng)來尋求數(shù)據(jù)挖掘過程中的可視化方法．使知識發(fā)現(xiàn)的過程易于被用戶理解和操縱．可使數(shù)據(jù)挖掘過程成為用戶業(yè)務流程的一部分．也便于在知識發(fā)現(xiàn)的過程中進行人機交互：包括數(shù)據(jù)用戶化呈現(xiàn)與交互操縱兩部分．

３．６過程數(shù)據(jù)挖掘一個重要的問題是如何使數(shù)據(jù)挖掘過程自動化．在數(shù)據(jù)挖掘系統(tǒng)里面建立一種方法來幫助用戶避免許多數(shù)據(jù)挖掘中的錯誤．如果我們能夠?qū)⒏鞣N數(shù)據(jù)挖掘過程自動化，就可以大大地減少勞力．莉用目前的技術(shù)雖然可以快速地建模和尋找模式．但９０％的成本浪費在預處理上，減少這些成本將極大地降低建模的成本．另一個重要的問題是如何將可視化和自動化數(shù)據(jù)挖掘技術(shù)結(jié)合在一起，在很多應用上，數(shù)據(jù)挖掘的目標和任務不太明確，特別是在實驗性數(shù)據(jù)分析．可視化可以幫助我們獲取數(shù)據(jù)的更多信息和明確數(shù)據(jù)挖掘的任務．

３．７動態(tài)數(shù)據(jù)、ＲＦＩＤ數(shù)據(jù)和傳感器網(wǎng)絡數(shù)據(jù)挖掘隨著傳感器網(wǎng)絡、ＧＰＳ、手機和其他移動設備和ＲＦＩＤ技術(shù) 的普遍。大量動態(tài)數(shù)據(jù)需要被分析．在動態(tài)數(shù)據(jù)、ＲＦＩＤ數(shù)據(jù)和傳感器數(shù)據(jù)挖掘領域里，還有許多尚未被研究的問題：例如。尋找關(guān)聯(lián)和規(guī)則性來ｃｌｅａｎ有噪音的傳感器網(wǎng)絡和ＲｎＤ數(shù)據(jù)、如何為這些數(shù)據(jù)構(gòu)建數(shù)據(jù)倉庫、如何對千兆字節(jié)的ＲＦＩＤ數(shù)據(jù)進行挖掘、如何ｃｈｅｓｔｙ多維軌道數(shù)據(jù)等等．

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；