
作者 | 陳封能
來(lái)源 | 《數(shù)據(jù)挖掘導(dǎo)論》(原書(shū)第2版)
導(dǎo)讀:數(shù)據(jù)采集和存儲(chǔ)技術(shù)的迅速發(fā)展,加之?dāng)?shù)據(jù)生成與傳播的便捷性,致使數(shù)據(jù)爆炸性增長(zhǎng),最終形成了當(dāng)前的大數(shù)據(jù)時(shí)代。圍繞這些數(shù)據(jù)集進(jìn)行可行的深入分析,對(duì)幾乎所有社會(huì)領(lǐng)域的決策都變得越來(lái)越重要:商業(yè)和工業(yè)、科學(xué)和工程、醫(yī)藥和生物技術(shù)以及政府和個(gè)人。
然而,數(shù)據(jù)的數(shù)量(體積)、復(fù)雜性(多樣性)以及收集和處理的速率(速度)對(duì)于人類來(lái)說(shuō)都太大了,無(wú)法進(jìn)行獨(dú)立分析。因此,盡管大數(shù)據(jù)的規(guī)模性和多樣性給數(shù)據(jù)分析帶來(lái)了挑戰(zhàn),但仍然需要自動(dòng)化工具從大數(shù)據(jù)中提取有用的信息。
數(shù)據(jù)挖掘將傳統(tǒng)的數(shù)據(jù)分析方法與用于處理大量數(shù)據(jù)的復(fù)雜算法相結(jié)合,本文將介紹數(shù)據(jù)挖掘的概況。
1. 商業(yè)和工業(yè)
借助POS(銷售點(diǎn))數(shù)據(jù)收集技術(shù)(條碼掃描器、射頻識(shí)別(RFID)和智能卡技術(shù)),零售商可以在商店的收銀臺(tái)收集顧客購(gòu)物的最新數(shù)據(jù)。零售商可以利用這些信息,加上電子商務(wù)網(wǎng)站的日志、客服中心的顧客服務(wù)記錄等其他的重要商務(wù)數(shù)據(jù),能夠更好地理解顧客的需求,做出更明智的商業(yè)決策。
數(shù)據(jù)挖掘技術(shù)可以用來(lái)支持廣泛的商務(wù)智能應(yīng)用,如顧客分析、定向營(yíng)銷、工作流管理、商店分布、欺詐檢測(cè)以及自動(dòng)化購(gòu)買和銷售。最近一個(gè)應(yīng)用是快速股票交易,在這個(gè)交易中,需要使用相關(guān)的金融交易數(shù)據(jù)在不到一秒的時(shí)間內(nèi)做出買賣決定。
數(shù)據(jù)挖掘還能幫助零售商回答一些重要的商業(yè)問(wèn)題,如:“誰(shuí)是最有價(jià)值的顧客?”“什么產(chǎn)品可以交叉銷售或提升銷售?”“公司明年的營(yíng)收前景如何?”這些問(wèn)題促使著數(shù)據(jù)挖掘技術(shù)的發(fā)展,比如關(guān)聯(lián)分析。
隨著互聯(lián)網(wǎng)不斷改變我們?nèi)粘I钪谢?dòng)和做決定的方式,能夠生成大量的在線體驗(yàn)數(shù)據(jù),例如網(wǎng)頁(yè)瀏覽、信息傳遞,以及在社交網(wǎng)站上發(fā)布信息,這為使用Web數(shù)據(jù)的商務(wù)應(yīng)用提供了機(jī)會(huì)。
例如,在電子商務(wù)領(lǐng)域,用戶的在線瀏覽或購(gòu)物偏好數(shù)據(jù)可以用來(lái)推薦個(gè)性化的產(chǎn)品。數(shù)據(jù)挖掘技術(shù)也在支持其他基于互聯(lián)網(wǎng)的服務(wù)方面扮演著重要的角色,如過(guò)濾垃圾信息、回答搜索查詢,以及建議社交圈的更新和聯(lián)系。
互聯(lián)網(wǎng)上大量的文本、圖像和視頻使得數(shù)據(jù)挖掘方法有了許多進(jìn)展,如深度學(xué)習(xí)。這些進(jìn)展推動(dòng)了諸多應(yīng)用領(lǐng)域的進(jìn)步,如目標(biāo)識(shí)別、自然語(yǔ)言翻譯與自動(dòng)駕駛。
另一個(gè)經(jīng)歷大數(shù)據(jù)快速轉(zhuǎn)型的應(yīng)用領(lǐng)域是移動(dòng)傳感器和移動(dòng)設(shè)備的使用,如智能手機(jī)和可穿戴計(jì)算設(shè)備。借助更好的傳感器技術(shù),可以利用嵌入在相互連接的日常設(shè)備上的低成本傳感器(稱為物聯(lián)網(wǎng)(IOT))來(lái)收集物理世界的各種信息。
在數(shù)字系統(tǒng)中,物理傳感器的深度集成正開(kāi)始產(chǎn)生大量與環(huán)境相關(guān)的多樣化和分布式的數(shù)據(jù),可用于設(shè)計(jì)方便、安全、節(jié)能的家庭系統(tǒng),以及規(guī)劃智能城市。
2. 醫(yī)學(xué)、科學(xué)與工程
醫(yī)學(xué)、科學(xué)與工程界的研究者正在快速收集大量數(shù)據(jù),這些數(shù)據(jù)對(duì)獲得有價(jià)值的新發(fā)現(xiàn)至關(guān)重要。例如,為了更深入地理解地球的氣候系統(tǒng),NASA已經(jīng)部署了一系列的地球軌道衛(wèi)星,不停地收集地表、海洋和大氣的全球觀測(cè)數(shù)據(jù)。
然而,由于這些數(shù)據(jù)的規(guī)模和時(shí)空特性,傳統(tǒng)的方法常常不適合分析這些數(shù)據(jù)集。數(shù)據(jù)挖掘所開(kāi)發(fā)的技術(shù)可以幫助地球科學(xué)家回答如下問(wèn)題:“干旱和颶風(fēng)等生態(tài)系統(tǒng)擾動(dòng)的頻度和強(qiáng)度與全球變暖之間有何聯(lián)系?”“海洋表面溫度對(duì)地表降水量和溫度有何影響?”“如何準(zhǔn)確地預(yù)測(cè)一個(gè)地區(qū)的生長(zhǎng)季節(jié)的開(kāi)始和結(jié)束?”
再舉一個(gè)例子,分子生物學(xué)研究者希望利用當(dāng)前收集的大量基因組數(shù)據(jù),更好地理解基因的結(jié)構(gòu)和功能。過(guò)去,傳統(tǒng)方法只允許科學(xué)家在一個(gè)實(shí)驗(yàn)中每次研究少量基因,微陣列技術(shù)的最新突破已經(jīng)能讓科學(xué)家在多種情況下比較數(shù)以千計(jì)的基因特性。
這種比較有助于確定每個(gè)基因的作用,或許可以查出導(dǎo)致特定疾病的基因。然而,由于數(shù)據(jù)的噪聲和高維性,需要新的數(shù)據(jù)分析方法。除了分析基因序列數(shù)據(jù)外,數(shù)據(jù)挖掘還能用來(lái)處理生物學(xué)的其他難題,如蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、多序列校準(zhǔn)、生物化學(xué)路徑建模和系統(tǒng)發(fā)育學(xué)。
另一個(gè)例子是利用數(shù)據(jù)挖掘技術(shù)來(lái)分析越來(lái)越多的電子健康記錄(EHR)數(shù)據(jù)。不久之前,對(duì)患者的研究需要手動(dòng)檢查每一個(gè)患者的身體記錄,并提取與所研究的特定問(wèn)題相關(guān)的、具體的信息。EHR允許更快和更廣泛地探索這些數(shù)據(jù)。
然而,只有患者在看醫(yī)生或住院期間才能對(duì)他們進(jìn)行觀察,并且在任何特定訪問(wèn)期間只能測(cè)量關(guān)于患者健康的少量細(xì)節(jié),因此存在重大挑戰(zhàn)。
目前,EHR分析側(cè)重于簡(jiǎn)單類型的數(shù)據(jù),如患者的血壓或某項(xiàng)疾病的診斷代碼。然而,很多類型更復(fù)雜的醫(yī)學(xué)數(shù)據(jù)也被收集起來(lái),例如心電圖(ECG)和磁共振成像(MRI)或功能性磁共振成像(fMRI)的神經(jīng)元圖像。
盡管分析這些數(shù)據(jù)十分具有挑戰(zhàn)性,但其中包含了患者的重要信息。將這些數(shù)據(jù)與傳統(tǒng)的EHR和基因組數(shù)據(jù)集成分析是實(shí)現(xiàn)精準(zhǔn)醫(yī)學(xué)所需的功能之一,旨在提供更加個(gè)性化的患者護(hù)理。
數(shù)據(jù)挖掘是在大型數(shù)據(jù)庫(kù)中自動(dòng)地發(fā)現(xiàn)有用信息的過(guò)程。數(shù)據(jù)挖掘技術(shù)用來(lái)探查大型數(shù)據(jù)庫(kù),發(fā)現(xiàn)先前未知的有用模式。數(shù)據(jù)挖掘還可以預(yù)測(cè)未來(lái)的觀測(cè)結(jié)果,比如顧客在網(wǎng)上或?qū)嶓w店的消費(fèi)金額。
并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如查詢?nèi)蝿?wù):在數(shù)據(jù)庫(kù)中查找個(gè)別記錄,或查找含特定關(guān)鍵字的網(wǎng)頁(yè)。這是因?yàn)檫@些任務(wù)可以通過(guò)與數(shù)據(jù)庫(kù)管理系統(tǒng)或信息檢索系統(tǒng)的簡(jiǎn)單交互來(lái)完成。而這些系統(tǒng)主要依賴傳統(tǒng)的計(jì)算機(jī)科學(xué)技術(shù),包括先進(jìn)高效的索引結(jié)構(gòu)和查詢處理算法,有效地組織和檢索大型數(shù)據(jù)存儲(chǔ)庫(kù)的信息。
盡管如此,數(shù)據(jù)挖掘技術(shù)可以基于搜索結(jié)果與輸入查詢的相關(guān)性來(lái)提高搜索結(jié)果的質(zhì)量,因此被用于提高這些系統(tǒng)的性能。
數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)不可缺少的一部分,而KDD是將未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個(gè)過(guò)程,如圖1所示。該過(guò)程包括一系列轉(zhuǎn)換步驟,從數(shù)據(jù)預(yù)處理到數(shù)據(jù)挖掘結(jié)果的后處理。
▲圖1 數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(KDD)過(guò)程
輸入數(shù)據(jù)可以以各種形式存儲(chǔ)(平面文件、電子表格或關(guān)系表),并且可以存儲(chǔ)在集中式數(shù)據(jù)庫(kù)中,或分布在多個(gè)數(shù)據(jù)站點(diǎn)上。預(yù)處理(preprocessing)的目的是將原始輸入數(shù)據(jù)轉(zhuǎn)換為適當(dāng)?shù)母袷?,以便進(jìn)行后續(xù)分析。
數(shù)據(jù)預(yù)處理涉及的步驟包括融合來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù),清洗數(shù)據(jù)以消除噪聲和重復(fù)的觀測(cè)值,選擇與當(dāng)前數(shù)據(jù)挖掘任務(wù)相關(guān)的記錄和特征。由于收集和存儲(chǔ)數(shù)據(jù)的方式多種多樣,數(shù)據(jù)預(yù)處理可能是整個(gè)知識(shí)發(fā)現(xiàn)過(guò)程中最費(fèi)力、最耗時(shí)的步驟。
“結(jié)束循環(huán)”(closing the loop)通常指將數(shù)據(jù)挖掘結(jié)果集成到?jīng)Q策支持系統(tǒng)的過(guò)程。例如,在商業(yè)應(yīng)用中,數(shù)據(jù)挖掘的結(jié)果所揭示的規(guī)律可以與商業(yè)活動(dòng)管理工具結(jié)合,從而開(kāi)展或測(cè)試有效的商品促銷活動(dòng)。
這樣的結(jié)合需要后處理(postprocessing)步驟,確保只將那些有效的和有用的結(jié)果集成到?jīng)Q策支持系統(tǒng)中。后處理的一個(gè)例子是可視化,它使得數(shù)據(jù)分析者可以從各種不同的視角探査數(shù)據(jù)和數(shù)據(jù)挖掘結(jié)果。在后處理階段,還能使用統(tǒng)計(jì)度量或假設(shè)檢驗(yàn),刪除虛假的數(shù)據(jù)挖掘結(jié)果。
前面提到,面臨大數(shù)據(jù)應(yīng)用帶來(lái)的挑戰(zhàn)時(shí),傳統(tǒng)的數(shù)據(jù)分析技術(shù)經(jīng)常遇到實(shí)際困難。下面是一些具體的問(wèn)題,它們引發(fā)了人們對(duì)數(shù)據(jù)挖掘的研究。
1. 可伸縮
由于數(shù)據(jù)產(chǎn)生和采集技術(shù)的進(jìn)步,數(shù)太字節(jié)(TB)、數(shù)拍字節(jié)(PB)甚至數(shù)艾字節(jié)(EB)的數(shù)據(jù)集越來(lái)越普遍。如果數(shù)據(jù)挖掘算法要處理這些海量數(shù)據(jù)集,則算法必須是可伸縮的。許多數(shù)據(jù)挖掘算法采用特殊的搜索策略來(lái)處理指數(shù)級(jí)的搜索問(wèn)題。為實(shí)現(xiàn)可伸縮可能還需要實(shí)現(xiàn)新的數(shù)據(jù)結(jié)構(gòu),才能以有效的方式訪問(wèn)每個(gè)記錄。
例如,當(dāng)要處理的數(shù)據(jù)不能放進(jìn)內(nèi)存時(shí),可能需要核外算法。使用抽樣技術(shù)或開(kāi)發(fā)并行和分布式算法也可以提高可伸縮程度。
2. 高維性
現(xiàn)在,常常會(huì)遇到具有成百上千屬性的數(shù)據(jù)集,而不是幾十年前常見(jiàn)的只具有少量屬性的數(shù)據(jù)集。在生物信息學(xué)領(lǐng)域,微陣列技術(shù)的進(jìn)步已經(jīng)產(chǎn)生了涉及數(shù)千特征的基因表達(dá)數(shù)據(jù)。具有時(shí)間分量或空間分量的數(shù)據(jù)集也通常具有很高的維度。
例如,考慮包含不同地區(qū)的溫度測(cè)量結(jié)果的數(shù)據(jù)集,如果在一個(gè)相當(dāng)長(zhǎng)的時(shí)間周期內(nèi)反復(fù)地測(cè)量,則維數(shù)(特征數(shù))的增長(zhǎng)正比于測(cè)量的次數(shù)。為低維數(shù)據(jù)開(kāi)發(fā)的傳統(tǒng)數(shù)據(jù)分析技術(shù)通常不能很好地處理這類高維數(shù)據(jù),如維災(zāi)難問(wèn)題。此外,對(duì)于某些數(shù)據(jù)分析算法,隨著維數(shù)(特征數(shù))的增加,計(jì)算復(fù)雜度會(huì)迅速增加。
3. 異構(gòu)數(shù)據(jù)和復(fù)雜數(shù)據(jù)
通常,傳統(tǒng)的數(shù)據(jù)分析方法只處理包含相同類型屬性的數(shù)據(jù)集,或者是連續(xù)的,或者是分類的。隨著數(shù)據(jù)挖掘在商務(wù)、科學(xué)、醫(yī)學(xué)和其他領(lǐng)域的作用越來(lái)越大,越來(lái)越需要能夠處理異構(gòu)屬性的技術(shù)。
近年來(lái),出現(xiàn)了更復(fù)雜的數(shù)據(jù)對(duì)象。這種非傳統(tǒng)類型的數(shù)據(jù)如:含有文本、超鏈接、圖像、音頻和視頻的Web和社交媒體數(shù)據(jù),具有序列和三維結(jié)構(gòu)的DNA數(shù)據(jù),由地球表面不同位置、不同時(shí)間的測(cè)量值(溫度、壓力等)構(gòu)成的氣候數(shù)據(jù)。
為挖掘這種復(fù)雜對(duì)象而開(kāi)發(fā)的技術(shù)應(yīng)當(dāng)考慮數(shù)據(jù)中的聯(lián)系,如時(shí)間和空間的自相關(guān)性、圖的連通性、半結(jié)構(gòu)化文本和XML文檔中元素之間的父子關(guān)系。
4. 數(shù)據(jù)的所有權(quán)與分布
有時(shí),需要分析的數(shù)據(jù)不會(huì)只存儲(chǔ)在一個(gè)站點(diǎn),或歸屬于一個(gè)機(jī)構(gòu),而是地理上分布在屬于多個(gè)機(jī)構(gòu)的數(shù)據(jù)源中。這就需要開(kāi)發(fā)分布式數(shù)據(jù)挖掘技術(shù)。分布式數(shù)據(jù)挖掘算法面臨的主要挑戰(zhàn)包括:
5. 非傳統(tǒng)分析
傳統(tǒng)的統(tǒng)計(jì)方法基于一種假設(shè)檢驗(yàn)模式,即提出一種假設(shè),設(shè)計(jì)實(shí)驗(yàn)來(lái)收集數(shù)據(jù),然后針對(duì)假設(shè)分析數(shù)據(jù)。但是,這一過(guò)程勞力費(fèi)神。當(dāng)前的數(shù)據(jù)分析任務(wù)常常需要產(chǎn)生和評(píng)估數(shù)千種假設(shè),因此需要自動(dòng)地產(chǎn)生和評(píng)估假設(shè),這促使人們開(kāi)發(fā)了一些數(shù)據(jù)挖掘技術(shù)。
此外,數(shù)據(jù)挖掘所分析的數(shù)據(jù)集通常不是精心設(shè)計(jì)的實(shí)驗(yàn)的結(jié)果,并且它們通常代表數(shù)據(jù)的時(shí)機(jī)性樣本(opportunistic sample),而不是隨機(jī)樣本(random sample)。
一些其他領(lǐng)域也起到重要的支撐作用。特別是,需要數(shù)據(jù)庫(kù)系統(tǒng)提供高效的存儲(chǔ)、索引和查詢處理。源于高性能(并行)計(jì)算的技術(shù)在處理海量數(shù)據(jù)集方面常常是非常重要的。分布式技術(shù)還可以幫助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)顯得尤為重要。圖2顯示了數(shù)據(jù)挖掘與其他領(lǐng)域之間的聯(lián)系。
▲圖2 數(shù)據(jù)挖掘匯集了許多學(xué)科的知識(shí)
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10