
作者 | 陳封能
來源 | 《數(shù)據(jù)挖掘導(dǎo)論》(原書第2版)
導(dǎo)讀:數(shù)據(jù)采集和存儲(chǔ)技術(shù)的迅速發(fā)展,加之?dāng)?shù)據(jù)生成與傳播的便捷性,致使數(shù)據(jù)爆炸性增長(zhǎng),最終形成了當(dāng)前的大數(shù)據(jù)時(shí)代。圍繞這些數(shù)據(jù)集進(jìn)行可行的深入分析,對(duì)幾乎所有社會(huì)領(lǐng)域的決策都變得越來越重要:商業(yè)和工業(yè)、科學(xué)和工程、醫(yī)藥和生物技術(shù)以及政府和個(gè)人。
然而,數(shù)據(jù)的數(shù)量(體積)、復(fù)雜性(多樣性)以及收集和處理的速率(速度)對(duì)于人類來說都太大了,無法進(jìn)行獨(dú)立分析。因此,盡管大數(shù)據(jù)的規(guī)模性和多樣性給數(shù)據(jù)分析帶來了挑戰(zhàn),但仍然需要自動(dòng)化工具從大數(shù)據(jù)中提取有用的信息。
數(shù)據(jù)挖掘將傳統(tǒng)的數(shù)據(jù)分析方法與用于處理大量數(shù)據(jù)的復(fù)雜算法相結(jié)合,本文將介紹數(shù)據(jù)挖掘的概況。
1. 商業(yè)和工業(yè)
借助POS(銷售點(diǎn))數(shù)據(jù)收集技術(shù)(條碼掃描器、射頻識(shí)別(RFID)和智能卡技術(shù)),零售商可以在商店的收銀臺(tái)收集顧客購物的最新數(shù)據(jù)。零售商可以利用這些信息,加上電子商務(wù)網(wǎng)站的日志、客服中心的顧客服務(wù)記錄等其他的重要商務(wù)數(shù)據(jù),能夠更好地理解顧客的需求,做出更明智的商業(yè)決策。
數(shù)據(jù)挖掘技術(shù)可以用來支持廣泛的商務(wù)智能應(yīng)用,如顧客分析、定向營銷、工作流管理、商店分布、欺詐檢測(cè)以及自動(dòng)化購買和銷售。最近一個(gè)應(yīng)用是快速股票交易,在這個(gè)交易中,需要使用相關(guān)的金融交易數(shù)據(jù)在不到一秒的時(shí)間內(nèi)做出買賣決定。
數(shù)據(jù)挖掘還能幫助零售商回答一些重要的商業(yè)問題,如:“誰是最有價(jià)值的顧客?”“什么產(chǎn)品可以交叉銷售或提升銷售?”“公司明年的營收前景如何?”這些問題促使著數(shù)據(jù)挖掘技術(shù)的發(fā)展,比如關(guān)聯(lián)分析。
隨著互聯(lián)網(wǎng)不斷改變我們?nèi)粘I钪谢?dòng)和做決定的方式,能夠生成大量的在線體驗(yàn)數(shù)據(jù),例如網(wǎng)頁瀏覽、信息傳遞,以及在社交網(wǎng)站上發(fā)布信息,這為使用Web數(shù)據(jù)的商務(wù)應(yīng)用提供了機(jī)會(huì)。
例如,在電子商務(wù)領(lǐng)域,用戶的在線瀏覽或購物偏好數(shù)據(jù)可以用來推薦個(gè)性化的產(chǎn)品。數(shù)據(jù)挖掘技術(shù)也在支持其他基于互聯(lián)網(wǎng)的服務(wù)方面扮演著重要的角色,如過濾垃圾信息、回答搜索查詢,以及建議社交圈的更新和聯(lián)系。
互聯(lián)網(wǎng)上大量的文本、圖像和視頻使得數(shù)據(jù)挖掘方法有了許多進(jìn)展,如深度學(xué)習(xí)。這些進(jìn)展推動(dòng)了諸多應(yīng)用領(lǐng)域的進(jìn)步,如目標(biāo)識(shí)別、自然語言翻譯與自動(dòng)駕駛。
另一個(gè)經(jīng)歷大數(shù)據(jù)快速轉(zhuǎn)型的應(yīng)用領(lǐng)域是移動(dòng)傳感器和移動(dòng)設(shè)備的使用,如智能手機(jī)和可穿戴計(jì)算設(shè)備。借助更好的傳感器技術(shù),可以利用嵌入在相互連接的日常設(shè)備上的低成本傳感器(稱為物聯(lián)網(wǎng)(IOT))來收集物理世界的各種信息。
在數(shù)字系統(tǒng)中,物理傳感器的深度集成正開始產(chǎn)生大量與環(huán)境相關(guān)的多樣化和分布式的數(shù)據(jù),可用于設(shè)計(jì)方便、安全、節(jié)能的家庭系統(tǒng),以及規(guī)劃智能城市。
2. 醫(yī)學(xué)、科學(xué)與工程
醫(yī)學(xué)、科學(xué)與工程界的研究者正在快速收集大量數(shù)據(jù),這些數(shù)據(jù)對(duì)獲得有價(jià)值的新發(fā)現(xiàn)至關(guān)重要。例如,為了更深入地理解地球的氣候系統(tǒng),NASA已經(jīng)部署了一系列的地球軌道衛(wèi)星,不停地收集地表、海洋和大氣的全球觀測(cè)數(shù)據(jù)。
然而,由于這些數(shù)據(jù)的規(guī)模和時(shí)空特性,傳統(tǒng)的方法常常不適合分析這些數(shù)據(jù)集。數(shù)據(jù)挖掘所開發(fā)的技術(shù)可以幫助地球科學(xué)家回答如下問題:“干旱和颶風(fēng)等生態(tài)系統(tǒng)擾動(dòng)的頻度和強(qiáng)度與全球變暖之間有何聯(lián)系?”“海洋表面溫度對(duì)地表降水量和溫度有何影響?”“如何準(zhǔn)確地預(yù)測(cè)一個(gè)地區(qū)的生長(zhǎng)季節(jié)的開始和結(jié)束?”
再舉一個(gè)例子,分子生物學(xué)研究者希望利用當(dāng)前收集的大量基因組數(shù)據(jù),更好地理解基因的結(jié)構(gòu)和功能。過去,傳統(tǒng)方法只允許科學(xué)家在一個(gè)實(shí)驗(yàn)中每次研究少量基因,微陣列技術(shù)的最新突破已經(jīng)能讓科學(xué)家在多種情況下比較數(shù)以千計(jì)的基因特性。
這種比較有助于確定每個(gè)基因的作用,或許可以查出導(dǎo)致特定疾病的基因。然而,由于數(shù)據(jù)的噪聲和高維性,需要新的數(shù)據(jù)分析方法。除了分析基因序列數(shù)據(jù)外,數(shù)據(jù)挖掘還能用來處理生物學(xué)的其他難題,如蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、多序列校準(zhǔn)、生物化學(xué)路徑建模和系統(tǒng)發(fā)育學(xué)。
另一個(gè)例子是利用數(shù)據(jù)挖掘技術(shù)來分析越來越多的電子健康記錄(EHR)數(shù)據(jù)。不久之前,對(duì)患者的研究需要手動(dòng)檢查每一個(gè)患者的身體記錄,并提取與所研究的特定問題相關(guān)的、具體的信息。EHR允許更快和更廣泛地探索這些數(shù)據(jù)。
然而,只有患者在看醫(yī)生或住院期間才能對(duì)他們進(jìn)行觀察,并且在任何特定訪問期間只能測(cè)量關(guān)于患者健康的少量細(xì)節(jié),因此存在重大挑戰(zhàn)。
目前,EHR分析側(cè)重于簡(jiǎn)單類型的數(shù)據(jù),如患者的血壓或某項(xiàng)疾病的診斷代碼。然而,很多類型更復(fù)雜的醫(yī)學(xué)數(shù)據(jù)也被收集起來,例如心電圖(ECG)和磁共振成像(MRI)或功能性磁共振成像(fMRI)的神經(jīng)元圖像。
盡管分析這些數(shù)據(jù)十分具有挑戰(zhàn)性,但其中包含了患者的重要信息。將這些數(shù)據(jù)與傳統(tǒng)的EHR和基因組數(shù)據(jù)集成分析是實(shí)現(xiàn)精準(zhǔn)醫(yī)學(xué)所需的功能之一,旨在提供更加個(gè)性化的患者護(hù)理。
數(shù)據(jù)挖掘是在大型數(shù)據(jù)庫中自動(dòng)地發(fā)現(xiàn)有用信息的過程。數(shù)據(jù)挖掘技術(shù)用來探查大型數(shù)據(jù)庫,發(fā)現(xiàn)先前未知的有用模式。數(shù)據(jù)挖掘還可以預(yù)測(cè)未來的觀測(cè)結(jié)果,比如顧客在網(wǎng)上或?qū)嶓w店的消費(fèi)金額。
并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如查詢?nèi)蝿?wù):在數(shù)據(jù)庫中查找個(gè)別記錄,或查找含特定關(guān)鍵字的網(wǎng)頁。這是因?yàn)檫@些任務(wù)可以通過與數(shù)據(jù)庫管理系統(tǒng)或信息檢索系統(tǒng)的簡(jiǎn)單交互來完成。而這些系統(tǒng)主要依賴傳統(tǒng)的計(jì)算機(jī)科學(xué)技術(shù),包括先進(jìn)高效的索引結(jié)構(gòu)和查詢處理算法,有效地組織和檢索大型數(shù)據(jù)存儲(chǔ)庫的信息。
盡管如此,數(shù)據(jù)挖掘技術(shù)可以基于搜索結(jié)果與輸入查詢的相關(guān)性來提高搜索結(jié)果的質(zhì)量,因此被用于提高這些系統(tǒng)的性能。
數(shù)據(jù)挖掘是數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)不可缺少的一部分,而KDD是將未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個(gè)過程,如圖1所示。該過程包括一系列轉(zhuǎn)換步驟,從數(shù)據(jù)預(yù)處理到數(shù)據(jù)挖掘結(jié)果的后處理。
▲圖1 數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)(KDD)過程
輸入數(shù)據(jù)可以以各種形式存儲(chǔ)(平面文件、電子表格或關(guān)系表),并且可以存儲(chǔ)在集中式數(shù)據(jù)庫中,或分布在多個(gè)數(shù)據(jù)站點(diǎn)上。預(yù)處理(preprocessing)的目的是將原始輸入數(shù)據(jù)轉(zhuǎn)換為適當(dāng)?shù)母袷?,以便進(jìn)行后續(xù)分析。
數(shù)據(jù)預(yù)處理涉及的步驟包括融合來自多個(gè)數(shù)據(jù)源的數(shù)據(jù),清洗數(shù)據(jù)以消除噪聲和重復(fù)的觀測(cè)值,選擇與當(dāng)前數(shù)據(jù)挖掘任務(wù)相關(guān)的記錄和特征。由于收集和存儲(chǔ)數(shù)據(jù)的方式多種多樣,數(shù)據(jù)預(yù)處理可能是整個(gè)知識(shí)發(fā)現(xiàn)過程中最費(fèi)力、最耗時(shí)的步驟。
“結(jié)束循環(huán)”(closing the loop)通常指將數(shù)據(jù)挖掘結(jié)果集成到?jīng)Q策支持系統(tǒng)的過程。例如,在商業(yè)應(yīng)用中,數(shù)據(jù)挖掘的結(jié)果所揭示的規(guī)律可以與商業(yè)活動(dòng)管理工具結(jié)合,從而開展或測(cè)試有效的商品促銷活動(dòng)。
這樣的結(jié)合需要后處理(postprocessing)步驟,確保只將那些有效的和有用的結(jié)果集成到?jīng)Q策支持系統(tǒng)中。后處理的一個(gè)例子是可視化,它使得數(shù)據(jù)分析者可以從各種不同的視角探査數(shù)據(jù)和數(shù)據(jù)挖掘結(jié)果。在后處理階段,還能使用統(tǒng)計(jì)度量或假設(shè)檢驗(yàn),刪除虛假的數(shù)據(jù)挖掘結(jié)果。
前面提到,面臨大數(shù)據(jù)應(yīng)用帶來的挑戰(zhàn)時(shí),傳統(tǒng)的數(shù)據(jù)分析技術(shù)經(jīng)常遇到實(shí)際困難。下面是一些具體的問題,它們引發(fā)了人們對(duì)數(shù)據(jù)挖掘的研究。
1. 可伸縮
由于數(shù)據(jù)產(chǎn)生和采集技術(shù)的進(jìn)步,數(shù)太字節(jié)(TB)、數(shù)拍字節(jié)(PB)甚至數(shù)艾字節(jié)(EB)的數(shù)據(jù)集越來越普遍。如果數(shù)據(jù)挖掘算法要處理這些海量數(shù)據(jù)集,則算法必須是可伸縮的。許多數(shù)據(jù)挖掘算法采用特殊的搜索策略來處理指數(shù)級(jí)的搜索問題。為實(shí)現(xiàn)可伸縮可能還需要實(shí)現(xiàn)新的數(shù)據(jù)結(jié)構(gòu),才能以有效的方式訪問每個(gè)記錄。
例如,當(dāng)要處理的數(shù)據(jù)不能放進(jìn)內(nèi)存時(shí),可能需要核外算法。使用抽樣技術(shù)或開發(fā)并行和分布式算法也可以提高可伸縮程度。
2. 高維性
現(xiàn)在,常常會(huì)遇到具有成百上千屬性的數(shù)據(jù)集,而不是幾十年前常見的只具有少量屬性的數(shù)據(jù)集。在生物信息學(xué)領(lǐng)域,微陣列技術(shù)的進(jìn)步已經(jīng)產(chǎn)生了涉及數(shù)千特征的基因表達(dá)數(shù)據(jù)。具有時(shí)間分量或空間分量的數(shù)據(jù)集也通常具有很高的維度。
例如,考慮包含不同地區(qū)的溫度測(cè)量結(jié)果的數(shù)據(jù)集,如果在一個(gè)相當(dāng)長(zhǎng)的時(shí)間周期內(nèi)反復(fù)地測(cè)量,則維數(shù)(特征數(shù))的增長(zhǎng)正比于測(cè)量的次數(shù)。為低維數(shù)據(jù)開發(fā)的傳統(tǒng)數(shù)據(jù)分析技術(shù)通常不能很好地處理這類高維數(shù)據(jù),如維災(zāi)難問題。此外,對(duì)于某些數(shù)據(jù)分析算法,隨著維數(shù)(特征數(shù))的增加,計(jì)算復(fù)雜度會(huì)迅速增加。
3. 異構(gòu)數(shù)據(jù)和復(fù)雜數(shù)據(jù)
通常,傳統(tǒng)的數(shù)據(jù)分析方法只處理包含相同類型屬性的數(shù)據(jù)集,或者是連續(xù)的,或者是分類的。隨著數(shù)據(jù)挖掘在商務(wù)、科學(xué)、醫(yī)學(xué)和其他領(lǐng)域的作用越來越大,越來越需要能夠處理異構(gòu)屬性的技術(shù)。
近年來,出現(xiàn)了更復(fù)雜的數(shù)據(jù)對(duì)象。這種非傳統(tǒng)類型的數(shù)據(jù)如:含有文本、超鏈接、圖像、音頻和視頻的Web和社交媒體數(shù)據(jù),具有序列和三維結(jié)構(gòu)的DNA數(shù)據(jù),由地球表面不同位置、不同時(shí)間的測(cè)量值(溫度、壓力等)構(gòu)成的氣候數(shù)據(jù)。
為挖掘這種復(fù)雜對(duì)象而開發(fā)的技術(shù)應(yīng)當(dāng)考慮數(shù)據(jù)中的聯(lián)系,如時(shí)間和空間的自相關(guān)性、圖的連通性、半結(jié)構(gòu)化文本和XML文檔中元素之間的父子關(guān)系。
4. 數(shù)據(jù)的所有權(quán)與分布
有時(shí),需要分析的數(shù)據(jù)不會(huì)只存儲(chǔ)在一個(gè)站點(diǎn),或歸屬于一個(gè)機(jī)構(gòu),而是地理上分布在屬于多個(gè)機(jī)構(gòu)的數(shù)據(jù)源中。這就需要開發(fā)分布式數(shù)據(jù)挖掘技術(shù)。分布式數(shù)據(jù)挖掘算法面臨的主要挑戰(zhàn)包括:
5. 非傳統(tǒng)分析
傳統(tǒng)的統(tǒng)計(jì)方法基于一種假設(shè)檢驗(yàn)模式,即提出一種假設(shè),設(shè)計(jì)實(shí)驗(yàn)來收集數(shù)據(jù),然后針對(duì)假設(shè)分析數(shù)據(jù)。但是,這一過程勞力費(fèi)神。當(dāng)前的數(shù)據(jù)分析任務(wù)常常需要產(chǎn)生和評(píng)估數(shù)千種假設(shè),因此需要自動(dòng)地產(chǎn)生和評(píng)估假設(shè),這促使人們開發(fā)了一些數(shù)據(jù)挖掘技術(shù)。
此外,數(shù)據(jù)挖掘所分析的數(shù)據(jù)集通常不是精心設(shè)計(jì)的實(shí)驗(yàn)的結(jié)果,并且它們通常代表數(shù)據(jù)的時(shí)機(jī)性樣本(opportunistic sample),而不是隨機(jī)樣本(random sample)。
一些其他領(lǐng)域也起到重要的支撐作用。特別是,需要數(shù)據(jù)庫系統(tǒng)提供高效的存儲(chǔ)、索引和查詢處理。源于高性能(并行)計(jì)算的技術(shù)在處理海量數(shù)據(jù)集方面常常是非常重要的。分布式技術(shù)還可以幫助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)顯得尤為重要。圖2顯示了數(shù)據(jù)挖掘與其他領(lǐng)域之間的聯(lián)系。
▲圖2 數(shù)據(jù)挖掘匯集了許多學(xué)科的知識(shí)
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03