99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀從概念到應(yīng)用,這一次終于把數(shù)據(jù)挖掘給講明白了
從概念到應(yīng)用,這一次終于把數(shù)據(jù)挖掘給講明白了
2019-09-17
收藏
從概念到應(yīng)用,這一次終于把<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>給講明白了

作者 | 陳封能

來源 | 《數(shù)據(jù)挖掘導(dǎo)論》(原書第2版)

導(dǎo)讀:數(shù)據(jù)采集和存儲(chǔ)技術(shù)的迅速發(fā)展,加之?dāng)?shù)據(jù)生成與傳播的便捷性,致使數(shù)據(jù)爆炸性增長(zhǎng),最終形成了當(dāng)前的大數(shù)據(jù)時(shí)代。圍繞這些數(shù)據(jù)集進(jìn)行可行的深入分析,對(duì)幾乎所有社會(huì)領(lǐng)域的決策都變得越來越重要:商業(yè)和工業(yè)、科學(xué)和工程、醫(yī)藥和生物技術(shù)以及政府和個(gè)人。

然而,數(shù)據(jù)的數(shù)量(體積)、復(fù)雜性(多樣性)以及收集和處理的速率(速度)對(duì)于人類來說都太大了,無法進(jìn)行獨(dú)立分析。因此,盡管大數(shù)據(jù)的規(guī)模性和多樣性給數(shù)據(jù)分析帶來了挑戰(zhàn),但仍然需要自動(dòng)化工具從大數(shù)據(jù)中提取有用的信息。

數(shù)據(jù)挖掘將傳統(tǒng)的數(shù)據(jù)分析方法與用于處理大量數(shù)據(jù)的復(fù)雜算法相結(jié)合,本文將介紹數(shù)據(jù)挖掘的概況。

01 數(shù)據(jù)挖掘及高級(jí)數(shù)據(jù)分析技術(shù)的應(yīng)用

1. 商業(yè)和工業(yè)

借助POS(銷售點(diǎn))數(shù)據(jù)收集技術(shù)(條碼掃描器、射頻識(shí)別(RFID)和智能卡技術(shù)),零售商可以在商店的收銀臺(tái)收集顧客購物的最新數(shù)據(jù)。零售商可以利用這些信息,加上電子商務(wù)網(wǎng)站的日志、客服中心的顧客服務(wù)記錄等其他的重要商務(wù)數(shù)據(jù),能夠更好地理解顧客的需求,做出更明智的商業(yè)決策。

數(shù)據(jù)挖掘技術(shù)可以用來支持廣泛的商務(wù)智能應(yīng)用,如顧客分析、定向營銷、工作流管理、商店分布、欺詐檢測(cè)以及自動(dòng)化購買和銷售。最近一個(gè)應(yīng)用是快速股票交易,在這個(gè)交易中,需要使用相關(guān)的金融交易數(shù)據(jù)在不到一秒的時(shí)間內(nèi)做出買賣決定。

數(shù)據(jù)挖掘還能幫助零售商回答一些重要的商業(yè)問題,如:“誰是最有價(jià)值的顧客?”“什么產(chǎn)品可以交叉銷售或提升銷售?”“公司明年的營收前景如何?”這些問題促使著數(shù)據(jù)挖掘技術(shù)的發(fā)展,比如關(guān)聯(lián)分析。

隨著互聯(lián)網(wǎng)不斷改變我們?nèi)粘I钪谢?dòng)和做決定的方式,能夠生成大量的在線體驗(yàn)數(shù)據(jù),例如網(wǎng)頁瀏覽、信息傳遞,以及在社交網(wǎng)站上發(fā)布信息,這為使用Web數(shù)據(jù)的商務(wù)應(yīng)用提供了機(jī)會(huì)。

例如,在電子商務(wù)領(lǐng)域,用戶的在線瀏覽或購物偏好數(shù)據(jù)可以用來推薦個(gè)性化的產(chǎn)品。數(shù)據(jù)挖掘技術(shù)也在支持其他基于互聯(lián)網(wǎng)的服務(wù)方面扮演著重要的角色,如過濾垃圾信息、回答搜索查詢,以及建議社交圈的更新和聯(lián)系。

互聯(lián)網(wǎng)上大量的文本、圖像和視頻使得數(shù)據(jù)挖掘方法有了許多進(jìn)展,如深度學(xué)習(xí)。這些進(jìn)展推動(dòng)了諸多應(yīng)用領(lǐng)域的進(jìn)步,如目標(biāo)識(shí)別、自然語言翻譯與自動(dòng)駕駛。

另一個(gè)經(jīng)歷大數(shù)據(jù)快速轉(zhuǎn)型的應(yīng)用領(lǐng)域是移動(dòng)傳感器和移動(dòng)設(shè)備的使用,如智能手機(jī)和可穿戴計(jì)算設(shè)備。借助更好的傳感器技術(shù),可以利用嵌入在相互連接的日常設(shè)備上的低成本傳感器(稱為物聯(lián)網(wǎng)(IOT))來收集物理世界的各種信息。

在數(shù)字系統(tǒng)中,物理傳感器的深度集成正開始產(chǎn)生大量與環(huán)境相關(guān)的多樣化和分布式的數(shù)據(jù),可用于設(shè)計(jì)方便、安全、節(jié)能的家庭系統(tǒng),以及規(guī)劃智能城市。

從概念到應(yīng)用,這一次終于把<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>給講明白了

2. 醫(yī)學(xué)、科學(xué)與工程

醫(yī)學(xué)、科學(xué)與工程界的研究者正在快速收集大量數(shù)據(jù),這些數(shù)據(jù)對(duì)獲得有價(jià)值的新發(fā)現(xiàn)至關(guān)重要。例如,為了更深入地理解地球的氣候系統(tǒng),NASA已經(jīng)部署了一系列的地球軌道衛(wèi)星,不停地收集地表、海洋和大氣的全球觀測(cè)數(shù)據(jù)。

然而,由于這些數(shù)據(jù)的規(guī)模和時(shí)空特性,傳統(tǒng)的方法常常不適合分析這些數(shù)據(jù)集。數(shù)據(jù)挖掘所開發(fā)的技術(shù)可以幫助地球科學(xué)家回答如下問題:“干旱和颶風(fēng)等生態(tài)系統(tǒng)擾動(dòng)的頻度和強(qiáng)度與全球變暖之間有何聯(lián)系?”“海洋表面溫度對(duì)地表降水量和溫度有何影響?”“如何準(zhǔn)確地預(yù)測(cè)一個(gè)地區(qū)的生長(zhǎng)季節(jié)的開始和結(jié)束?”

再舉一個(gè)例子,分子生物學(xué)研究者希望利用當(dāng)前收集的大量基因組數(shù)據(jù),更好地理解基因的結(jié)構(gòu)和功能。過去,傳統(tǒng)方法只允許科學(xué)家在一個(gè)實(shí)驗(yàn)中每次研究少量基因,微陣列技術(shù)的最新突破已經(jīng)能讓科學(xué)家在多種情況下比較數(shù)以千計(jì)的基因特性。

這種比較有助于確定每個(gè)基因的作用,或許可以查出導(dǎo)致特定疾病的基因。然而,由于數(shù)據(jù)的噪聲和高維性,需要新的數(shù)據(jù)分析方法。除了分析基因序列數(shù)據(jù)外,數(shù)據(jù)挖掘還能用來處理生物學(xué)的其他難題,如蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、多序列校準(zhǔn)、生物化學(xué)路徑建模和系統(tǒng)發(fā)育學(xué)。

另一個(gè)例子是利用數(shù)據(jù)挖掘技術(shù)來分析越來越多的電子健康記錄(EHR)數(shù)據(jù)。不久之前,對(duì)患者的研究需要手動(dòng)檢查每一個(gè)患者的身體記錄,并提取與所研究的特定問題相關(guān)的、具體的信息。EHR允許更快和更廣泛地探索這些數(shù)據(jù)。

然而,只有患者在看醫(yī)生或住院期間才能對(duì)他們進(jìn)行觀察,并且在任何特定訪問期間只能測(cè)量關(guān)于患者健康的少量細(xì)節(jié),因此存在重大挑戰(zhàn)。

目前,EHR分析側(cè)重于簡(jiǎn)單類型的數(shù)據(jù),如患者的血壓或某項(xiàng)疾病的診斷代碼。然而,很多類型更復(fù)雜的醫(yī)學(xué)數(shù)據(jù)也被收集起來,例如心電圖(ECG)和磁共振成像(MRI)或功能性磁共振成像(fMRI)的神經(jīng)元圖像。

盡管分析這些數(shù)據(jù)十分具有挑戰(zhàn)性,但其中包含了患者的重要信息。將這些數(shù)據(jù)與傳統(tǒng)的EHR和基因組數(shù)據(jù)集成分析是實(shí)現(xiàn)精準(zhǔn)醫(yī)學(xué)所需的功能之一,旨在提供更加個(gè)性化的患者護(hù)理。

從概念到應(yīng)用,這一次終于把<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>給講明白了

02 什么是數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是在大型數(shù)據(jù)庫中自動(dòng)地發(fā)現(xiàn)有用信息的過程。數(shù)據(jù)挖掘技術(shù)用來探查大型數(shù)據(jù)庫,發(fā)現(xiàn)先前未知的有用模式。數(shù)據(jù)挖掘還可以預(yù)測(cè)未來的觀測(cè)結(jié)果,比如顧客在網(wǎng)上或?qū)嶓w店的消費(fèi)金額。

并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如查詢?nèi)蝿?wù):在數(shù)據(jù)庫中查找個(gè)別記錄,或查找含特定關(guān)鍵字的網(wǎng)頁。這是因?yàn)檫@些任務(wù)可以通過與數(shù)據(jù)庫管理系統(tǒng)或信息檢索系統(tǒng)的簡(jiǎn)單交互來完成。而這些系統(tǒng)主要依賴傳統(tǒng)的計(jì)算機(jī)科學(xué)技術(shù),包括先進(jìn)高效的索引結(jié)構(gòu)和查詢處理算法,有效地組織和檢索大型數(shù)據(jù)存儲(chǔ)庫的信息。

盡管如此,數(shù)據(jù)挖掘技術(shù)可以基于搜索結(jié)果與輸入查詢的相關(guān)性來提高搜索結(jié)果的質(zhì)量,因此被用于提高這些系統(tǒng)的性能。

數(shù)據(jù)挖掘數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)不可缺少的一部分,而KDD是將未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個(gè)過程,如圖1所示。該過程包括一系列轉(zhuǎn)換步驟,從數(shù)據(jù)預(yù)處理到數(shù)據(jù)挖掘結(jié)果的后處理。

從概念到應(yīng)用,這一次終于把<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>給講明白了

▲圖1 數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)(KDD)過程

輸入數(shù)據(jù)可以以各種形式存儲(chǔ)(平面文件、電子表格或關(guān)系表),并且可以存儲(chǔ)在集中式數(shù)據(jù)庫中,或分布在多個(gè)數(shù)據(jù)站點(diǎn)上。預(yù)處理(preprocessing)的目的是將原始輸入數(shù)據(jù)轉(zhuǎn)換為適當(dāng)?shù)母袷?,以便進(jìn)行后續(xù)分析。

數(shù)據(jù)預(yù)處理涉及的步驟包括融合來自多個(gè)數(shù)據(jù)源的數(shù)據(jù),清洗數(shù)據(jù)以消除噪聲和重復(fù)的觀測(cè)值,選擇與當(dāng)前數(shù)據(jù)挖掘任務(wù)相關(guān)的記錄和特征。由于收集和存儲(chǔ)數(shù)據(jù)的方式多種多樣,數(shù)據(jù)預(yù)處理可能是整個(gè)知識(shí)發(fā)現(xiàn)過程中最費(fèi)力、最耗時(shí)的步驟。

“結(jié)束循環(huán)”(closing the loop)通常指將數(shù)據(jù)挖掘結(jié)果集成到?jīng)Q策支持系統(tǒng)的過程。例如,在商業(yè)應(yīng)用中,數(shù)據(jù)挖掘的結(jié)果所揭示的規(guī)律可以與商業(yè)活動(dòng)管理工具結(jié)合,從而開展或測(cè)試有效的商品促銷活動(dòng)。

這樣的結(jié)合需要后處理(postprocessing)步驟,確保只將那些有效的和有用的結(jié)果集成到?jīng)Q策支持系統(tǒng)中。后處理的一個(gè)例子是可視化,它使得數(shù)據(jù)分析者可以從各種不同的視角探査數(shù)據(jù)和數(shù)據(jù)挖掘結(jié)果。在后處理階段,還能使用統(tǒng)計(jì)度量或假設(shè)檢驗(yàn),刪除虛假的數(shù)據(jù)挖掘結(jié)果。

03 數(shù)據(jù)挖掘要解決的問題

前面提到,面臨大數(shù)據(jù)應(yīng)用帶來的挑戰(zhàn)時(shí),傳統(tǒng)的數(shù)據(jù)分析技術(shù)經(jīng)常遇到實(shí)際困難。下面是一些具體的問題,它們引發(fā)了人們對(duì)數(shù)據(jù)挖掘的研究。

1. 可伸縮

由于數(shù)據(jù)產(chǎn)生和采集技術(shù)的進(jìn)步,數(shù)太字節(jié)(TB)、數(shù)拍字節(jié)(PB)甚至數(shù)艾字節(jié)(EB)的數(shù)據(jù)集越來越普遍。如果數(shù)據(jù)挖掘算法要處理這些海量數(shù)據(jù)集,則算法必須是可伸縮的。許多數(shù)據(jù)挖掘算法采用特殊的搜索策略來處理指數(shù)級(jí)的搜索問題。為實(shí)現(xiàn)可伸縮可能還需要實(shí)現(xiàn)新的數(shù)據(jù)結(jié)構(gòu),才能以有效的方式訪問每個(gè)記錄。

例如,當(dāng)要處理的數(shù)據(jù)不能放進(jìn)內(nèi)存時(shí),可能需要核外算法。使用抽樣技術(shù)或開發(fā)并行和分布式算法也可以提高可伸縮程度。

2. 高維性

現(xiàn)在,常常會(huì)遇到具有成百上千屬性的數(shù)據(jù)集,而不是幾十年前常見的只具有少量屬性的數(shù)據(jù)集。在生物信息學(xué)領(lǐng)域,微陣列技術(shù)的進(jìn)步已經(jīng)產(chǎn)生了涉及數(shù)千特征的基因表達(dá)數(shù)據(jù)。具有時(shí)間分量或空間分量的數(shù)據(jù)集也通常具有很高的維度。

例如,考慮包含不同地區(qū)的溫度測(cè)量結(jié)果的數(shù)據(jù)集,如果在一個(gè)相當(dāng)長(zhǎng)的時(shí)間周期內(nèi)反復(fù)地測(cè)量,則維數(shù)特征數(shù))的增長(zhǎng)正比于測(cè)量的次數(shù)。為低維數(shù)據(jù)開發(fā)的傳統(tǒng)數(shù)據(jù)分析技術(shù)通常不能很好地處理這類高維數(shù)據(jù),如維災(zāi)難問題。此外,對(duì)于某些數(shù)據(jù)分析算法,隨著維數(shù)(特征數(shù))的增加,計(jì)算復(fù)雜度會(huì)迅速增加。

從概念到應(yīng)用,這一次終于把<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>給講明白了

3. 異構(gòu)數(shù)據(jù)和復(fù)雜數(shù)據(jù)

通常,傳統(tǒng)的數(shù)據(jù)分析方法只處理包含相同類型屬性的數(shù)據(jù)集,或者是連續(xù)的,或者是分類的。隨著數(shù)據(jù)挖掘在商務(wù)、科學(xué)、醫(yī)學(xué)和其他領(lǐng)域的作用越來越大,越來越需要能夠處理異構(gòu)屬性的技術(shù)。

近年來,出現(xiàn)了更復(fù)雜的數(shù)據(jù)對(duì)象。這種非傳統(tǒng)類型的數(shù)據(jù)如:含有文本、超鏈接、圖像、音頻和視頻的Web和社交媒體數(shù)據(jù),具有序列和三維結(jié)構(gòu)的DNA數(shù)據(jù),由地球表面不同位置、不同時(shí)間的測(cè)量值(溫度、壓力等)構(gòu)成的氣候數(shù)據(jù)。

為挖掘這種復(fù)雜對(duì)象而開發(fā)的技術(shù)應(yīng)當(dāng)考慮數(shù)據(jù)中的聯(lián)系,如時(shí)間和空間的自相關(guān)性、圖的連通性、半結(jié)構(gòu)化文本和XML文檔中元素之間的父子關(guān)系。

4. 數(shù)據(jù)的所有權(quán)與分布

有時(shí),需要分析的數(shù)據(jù)不會(huì)只存儲(chǔ)在一個(gè)站點(diǎn),或歸屬于一個(gè)機(jī)構(gòu),而是地理上分布在屬于多個(gè)機(jī)構(gòu)的數(shù)據(jù)源中。這就需要開發(fā)分布式數(shù)據(jù)挖掘技術(shù)。分布式數(shù)據(jù)挖掘算法面臨的主要挑戰(zhàn)包括:

  1. 如何降低執(zhí)行分布式計(jì)算所需的通信量?
  2. 如何有效地統(tǒng)一從多個(gè)數(shù)據(jù)源獲得的數(shù)據(jù)挖掘結(jié)果?
  3. 如何解決數(shù)據(jù)安全和隱私問題?

5. 非傳統(tǒng)分析

傳統(tǒng)的統(tǒng)計(jì)方法基于一種假設(shè)檢驗(yàn)模式,即提出一種假設(shè),設(shè)計(jì)實(shí)驗(yàn)來收集數(shù)據(jù),然后針對(duì)假設(shè)分析數(shù)據(jù)。但是,這一過程勞力費(fèi)神。當(dāng)前的數(shù)據(jù)分析任務(wù)常常需要產(chǎn)生和評(píng)估數(shù)千種假設(shè),因此需要自動(dòng)地產(chǎn)生和評(píng)估假設(shè),這促使人們開發(fā)了一些數(shù)據(jù)挖掘技術(shù)。

此外,數(shù)據(jù)挖掘所分析的數(shù)據(jù)集通常不是精心設(shè)計(jì)的實(shí)驗(yàn)的結(jié)果,并且它們通常代表數(shù)據(jù)的時(shí)機(jī)性樣本(opportunistic sample),而不是隨機(jī)樣本(random sample)。

04 數(shù)據(jù)挖掘與其他領(lǐng)域的關(guān)聯(lián)

一些其他領(lǐng)域也起到重要的支撐作用。特別是,需要數(shù)據(jù)庫系統(tǒng)提供高效的存儲(chǔ)、索引和查詢處理。源于高性能(并行)計(jì)算的技術(shù)在處理海量數(shù)據(jù)集方面常常是非常重要的。分布式技術(shù)還可以幫助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)顯得尤為重要。圖2顯示了數(shù)據(jù)挖掘與其他領(lǐng)域之間的聯(lián)系。

從概念到應(yīng)用,這一次終于把<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>給講明白了

▲圖2 數(shù)據(jù)挖掘匯集了許多學(xué)科的知識(shí)

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請(qǐng)參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }