
大數(shù)據(jù)挖掘技術(shù)和流程
如何從海量的數(shù)據(jù)中發(fā)現(xiàn)有用的知識(shí)并為企業(yè)發(fā)展提供幫助和指導(dǎo),數(shù)據(jù)分析師就是專門為企業(yè)解決這一難題的。
簡單來說,數(shù)據(jù)挖掘就是利用人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、模式識(shí)別等技術(shù),從大量的、含有噪聲的實(shí)際數(shù)據(jù)中提取其中隱含的、事先不為人所知的有效信息的過程。一方面,數(shù)據(jù)分析師對(duì)數(shù)據(jù)分析或數(shù)據(jù)挖掘所處理的數(shù)據(jù)對(duì)象是真實(shí)的、包含噪音,因此是一門實(shí)際應(yīng)用科學(xué);另一方面,其目的在于發(fā)現(xiàn)人們感興趣的知識(shí),與市場(chǎng)邏輯存在著緊密聯(lián)系。大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)并不是一門新的學(xué)科,其基本原理與傳統(tǒng)數(shù)據(jù)挖掘并無本質(zhì)區(qū)別。只是由于所需要處理的數(shù)據(jù)規(guī)模龐大、且價(jià)值密度低,在處理方法和邏輯上被賦予了新的含義。比如傳統(tǒng)數(shù)據(jù)挖掘由于數(shù)據(jù)量較小,為真實(shí)反應(yīng)實(shí)際情況,需要構(gòu)建相對(duì)復(fù)雜的模型;而大數(shù)據(jù)時(shí)代提供了海量的數(shù)據(jù),可能使用相對(duì)簡單的模型便可以滿足需求。
所示為數(shù)據(jù)挖掘基本流程,包括商業(yè)理解、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)理解、模型建立、模型評(píng)估和模型應(yīng)用幾個(gè)步驟。
首先是商業(yè)理解,也就是對(duì)數(shù)據(jù)挖掘問題本身的定義。所謂做正確的事比正確的做事更重要,在著手做數(shù)據(jù)模型之前一定要花時(shí)間去理解需求,弄清楚真正要解決的問題是什么,根據(jù)需求制定工作方案。這個(gè)過程需要比較多的溝通和市場(chǎng)調(diào)研,了解問題提出的商業(yè)邏輯。在溝通交流過程中,為了便于對(duì)溝通效果進(jìn)行把控,可以采取思維導(dǎo)圖等工具對(duì)的結(jié)果進(jìn)行記錄、整理。
明確需求后,接下來就是要收集并整理數(shù)據(jù)建模所需要的數(shù)據(jù)。這個(gè)過程是資源調(diào)配的過程,需要與企業(yè)的相關(guān)部門明確可以使用的數(shù)據(jù)維度有哪些,哪些維度與建模任務(wù)相關(guān)性比價(jià)高。這個(gè)過程通常需要一定的專業(yè)背景知識(shí)。
數(shù)據(jù)理解指的是對(duì)用于挖掘數(shù)據(jù)的預(yù)處理和統(tǒng)計(jì)分析過程,有時(shí)也稱為ETL過程。主要包括數(shù)據(jù)的抽取、清洗、轉(zhuǎn)換和加載,是整個(gè)數(shù)據(jù)挖掘過程最耗時(shí)的過程,也是最為關(guān)鍵的一環(huán)。數(shù)據(jù)處理方法是否得當(dāng),對(duì)數(shù)據(jù)中所體現(xiàn)出來的業(yè)務(wù)特點(diǎn)理解是否到位,將直接影響到后面模型的選擇及模型的效果,甚至決定整個(gè)數(shù)據(jù)挖掘工作能否完成預(yù)定目標(biāo)。該過程需要有一定的統(tǒng)計(jì)學(xué)理論和實(shí)際經(jīng)驗(yàn),并具備一定的項(xiàng)目經(jīng)驗(yàn)。
模型建立是是整個(gè)數(shù)據(jù)挖掘流程中最為關(guān)鍵的一步,需要在數(shù)據(jù)理解的基礎(chǔ)上選擇并實(shí)現(xiàn)相關(guān)的挖掘算法,并對(duì)算法進(jìn)行反復(fù)調(diào)試、實(shí)驗(yàn)。通常模型建立和數(shù)據(jù)理解是相互影響,經(jīng)常需要經(jīng)過反復(fù)的嘗試、磨合,多次迭代后方可訓(xùn)練處真正有效的模型。數(shù)據(jù)分析師培訓(xùn)
模型評(píng)估是在數(shù)據(jù)挖掘工作基本結(jié)束的時(shí)候,對(duì)最終模型效果進(jìn)行評(píng)測(cè)的過程。在挖掘算法初期需要制定好最終模型的評(píng)測(cè)方法、相關(guān)指標(biāo)等,在這個(gè)過程中對(duì)這些評(píng)測(cè)指標(biāo)進(jìn)行量化,判斷最終模型是否可以達(dá)到預(yù)期目標(biāo)。通常模型的評(píng)估人員和模型的構(gòu)建人員不是同一批人,以保證模型評(píng)估的客觀、公正性。
最終,當(dāng)挖掘得到的模型通過評(píng)測(cè)后可以安排上線、正式進(jìn)入商業(yè)化流程中。為了避免由于建模數(shù)據(jù)與線上真實(shí)情況不一致而導(dǎo)致模型失效的狀況出現(xiàn),通常在應(yīng)用過程中采取A/B測(cè)試的步驟,對(duì)模型在實(shí)際線上環(huán)境中的運(yùn)行狀況進(jìn)行觀察跟蹤,確保模型在線上環(huán)境中符合預(yù)期。
了解了數(shù)據(jù)挖掘的基本流程,常用的數(shù)據(jù)挖掘任務(wù)和所用到的挖掘技術(shù)有哪些?總的來說,數(shù)據(jù)挖掘任務(wù)可以概括為描述性預(yù)測(cè)性兩大類。描述性任務(wù)主要是對(duì)現(xiàn)有數(shù)據(jù)的理解和整理,從中發(fā)現(xiàn)其中的一般特性,是對(duì)歷史知識(shí)的總結(jié)和歸納。預(yù)測(cè)性任務(wù)則是利用當(dāng)前數(shù)據(jù)對(duì)事務(wù)的未來發(fā)展趨勢(shì)進(jìn)行推斷,是知識(shí)的外延和推理過程。
比較常見的數(shù)據(jù)挖掘技術(shù)有如下幾類:
關(guān)聯(lián)規(guī)則分析:包括頻繁模式挖掘、序列模式挖掘,用于發(fā)現(xiàn)能夠描述數(shù)據(jù)項(xiàng)之間關(guān)系的規(guī)則。典型應(yīng)用是用戶購物籃分析,發(fā)現(xiàn)用戶經(jīng)常一起購買的商品集合,如購買啤酒的人經(jīng)常也會(huì)順手購買小孩尿布;及用戶購買某商品之后后續(xù)最有可能購買的其他商品,如用戶購買自行車兩個(gè)月左右后通常會(huì)再購買打氣筒。前者可以用來指導(dǎo)商場(chǎng)的商品陳列,將用戶最可能在一起購買的商品擺列在一起。后者則可以用來對(duì)用戶的未來消費(fèi)行為進(jìn)行推薦引導(dǎo)。
分類和預(yù)測(cè):分類是按照已知的分類模式找出數(shù)據(jù)對(duì)象的共同特點(diǎn),并將樣本劃分到相應(yīng)的類別中,是最為基本的數(shù)據(jù)挖掘技術(shù),廣泛用于客戶喜好分析、滿意度分析等場(chǎng)景。如銀行根據(jù)用戶的消費(fèi)能力和還款記錄對(duì)其信用評(píng)級(jí)進(jìn)行劃分等。預(yù)測(cè)是將樣本映射到連續(xù)的數(shù)值型目標(biāo)值,發(fā)現(xiàn)屬性見的依賴關(guān)系。如對(duì)產(chǎn)品未來一段時(shí)間的銷售狀況進(jìn)行預(yù)測(cè)等。
聚類分析:將一組對(duì)象按照相似性和差異程度劃分到幾個(gè)類別,使同一類別中樣本的相似性盡可能大。如在金融行業(yè)中對(duì)不同股票的發(fā)展趨勢(shì)進(jìn)行歸類,找出股價(jià)波動(dòng)趨勢(shì)相近的股票集合。
推薦技術(shù):根據(jù)用戶的興趣特點(diǎn)和歷史的行為,向用戶推薦其感興趣的信息或商品。其最為成功的應(yīng)用是在電子商務(wù)網(wǎng)站中,向用戶推薦其可能購買的商品,從而增加商品的銷售規(guī)模并提高用戶粘性。
鏈接分析:根據(jù)樣本或數(shù)據(jù)對(duì)象之間的關(guān)聯(lián),可以構(gòu)建對(duì)象之間的鏈接網(wǎng)絡(luò)。鏈接分析是指利用圖論模型對(duì)這些鏈接網(wǎng)絡(luò)進(jìn)行分析挖掘的一系列技術(shù)。其中最為知名的當(dāng)屬Google通過分析網(wǎng)頁之間的跳轉(zhuǎn)關(guān)系對(duì)頁面權(quán)威度進(jìn)行排序的PageRank算法。CDA數(shù)據(jù)分析師培訓(xùn)
其他相關(guān)挖掘技術(shù)還包括孤立點(diǎn)分析、數(shù)據(jù)演變分析等。
上述挖掘技術(shù)均在互聯(lián)網(wǎng)、金融、生物醫(yī)學(xué)、零售業(yè)等多個(gè)行業(yè)和領(lǐng)域得到廣泛應(yīng)用,并為相關(guān)企業(yè)帶來豐厚的收益。以下將通過具體行業(yè)案例,說明數(shù)據(jù)挖掘技術(shù)的使用方法及其價(jià)值。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03