
數(shù)據(jù)分析中的缺失值處理
沒(méi)有高質(zhì)量的數(shù)據(jù),就沒(méi)有高質(zhì)量的數(shù)據(jù)挖掘結(jié)果,數(shù)據(jù)值缺失是數(shù)據(jù)分析中經(jīng)常遇到的問(wèn)題之一。當(dāng)缺失比例很小時(shí),可直接對(duì)缺失記錄進(jìn)行舍棄或進(jìn)行手工處理。但在實(shí)際數(shù)據(jù)中,往往缺失數(shù)據(jù)占有相當(dāng)?shù)谋戎亍_@時(shí)如果手工處理非常低效,如果舍棄缺失記錄,則會(huì)丟失大量信息,使不完全觀測(cè)數(shù)據(jù)與完全觀測(cè)數(shù)據(jù)間產(chǎn)生系統(tǒng)差異,對(duì)這樣的數(shù)據(jù)進(jìn)行分析,你很可能會(huì)得出錯(cuò)誤的結(jié)論。
造成數(shù)據(jù)缺失的原因
現(xiàn)實(shí)世界中的數(shù)據(jù)異常雜亂,屬性值缺失的情況經(jīng)常發(fā)全甚至是不可避免的。造成數(shù)據(jù)缺失的原因是多方面的:
信息暫時(shí)無(wú)法獲取。例如在醫(yī)療數(shù)據(jù)庫(kù)中,并非所有病人的所有臨床檢驗(yàn)結(jié)果都能在給定的時(shí)間內(nèi)得到,就致使一部分屬性值空缺出來(lái)。
信息被遺漏。可能是因?yàn)檩斎霑r(shí)認(rèn)為不重要、忘記填寫(xiě)了或?qū)?shù)據(jù)理解錯(cuò)誤而遺漏,也可能是由于數(shù)據(jù)采集設(shè)備的故障、存儲(chǔ)介質(zhì)的故障、傳輸媒體的故障、一些人為因素等原因而丟失。
有些對(duì)象的某個(gè)或某些屬性是不可用的。如一個(gè)未婚者的配偶姓名、一個(gè)兒童的固定收入狀況等。
有些信息(被認(rèn)為)是不重要的。如一個(gè)屬性的取值與給定語(yǔ)境是無(wú)關(guān)。
獲取這些信息的代價(jià)太大。
系統(tǒng)實(shí)時(shí)性能要求較高。即要求得到這些信息前迅速做出判斷或決策。
對(duì)缺失值的處理要具體問(wèn)題具體分析,為什么要具體問(wèn)題具體分析呢?因?yàn)閷傩匀笔в袝r(shí)并不意味著數(shù)據(jù)缺失,缺失本身是包含信息的,所以需要根據(jù)不同應(yīng)用場(chǎng)景下缺失值可能包含的信息進(jìn)行合理填充。下面通過(guò)一些例子來(lái)說(shuō)明如何具體問(wèn)題具體分析,仁者見(jiàn)仁智者見(jiàn)智,僅供參考:
“年收入”:商品推薦場(chǎng)景下填充平均值,借貸額度場(chǎng)景下填充最小值;
“行為時(shí)間點(diǎn)”:填充眾數(shù);
“價(jià)格”:商品推薦場(chǎng)景下填充最小值,商品匹配場(chǎng)景下填充平均值;
“人體壽命”:保險(xiǎn)費(fèi)用估計(jì)場(chǎng)景下填充最大值,人口估計(jì)場(chǎng)景下填充平均值;
“駕齡”:沒(méi)有填寫(xiě)這一項(xiàng)的用戶可能是沒(méi)有車(chē),為它填充為0較為合理;
”本科畢業(yè)時(shí)間”:沒(méi)有填寫(xiě)這一項(xiàng)的用戶可能是沒(méi)有上大學(xué),為它填充正無(wú)窮比較合理;
“婚姻狀態(tài)”:沒(méi)有填寫(xiě)這一項(xiàng)的用戶可能對(duì)自己的隱私比較敏感,應(yīng)單獨(dú)設(shè)為一個(gè)分類,如已婚1、未婚0、未填-1。
缺失的類型
在對(duì)缺失數(shù)據(jù)進(jìn)行處理前,了解數(shù)據(jù)缺失的機(jī)制和形式是十分必要的。將數(shù)據(jù)集中不含缺失值的變量稱為完全變量,數(shù)據(jù)集中含有缺失值的變量稱為不完全變量。從缺失的分布來(lái)將缺失可以分為完全隨機(jī)缺失,隨機(jī)缺失和完全非隨機(jī)缺失。
完全隨機(jī)缺失(missing completely at random,MCAR):指的是數(shù)據(jù)的缺失是完全隨機(jī)的,不依賴于任何不完全變量或完全變量,不影響樣本的無(wú)偏性。如家庭地址缺失。
隨機(jī)缺失(missing at random,MAR):指的是數(shù)據(jù)的缺失不是完全隨機(jī)的,即該類數(shù)據(jù)的缺失依賴于其他完全變量。例如財(cái)務(wù)數(shù)據(jù)缺失情況與企業(yè)的大小有關(guān)。
非隨機(jī)缺失(missing not at random,MNAR):指的是數(shù)據(jù)的缺失與不完全變量自身的取值有關(guān)。如高收入人群的不原意提供家庭收入。
對(duì)于隨機(jī)缺失和非隨機(jī)缺失,刪除記錄是不合適的,隨機(jī)缺失可以通過(guò)已知變量對(duì)缺失值進(jìn)行估計(jì);而非隨機(jī)缺失還沒(méi)有很好的解決辦法。
說(shuō)明:對(duì)于分類問(wèn)題,可以分析缺失的樣本中,類別之間的比例和整體數(shù)據(jù)集中,類別的比例
缺失值處理的必要性
數(shù)據(jù)缺失在許多研究領(lǐng)域都是一個(gè)復(fù)雜的問(wèn)題。對(duì)數(shù)據(jù)挖掘來(lái)說(shuō),缺省值的存在,造成了以下影響:
系統(tǒng)丟失了大量的有用信息;
系統(tǒng)中所表現(xiàn)出的不確定性更加顯著,系統(tǒng)中蘊(yùn)涵的確定性成分更難把握;
包含空值的數(shù)據(jù)會(huì)使挖掘過(guò)程陷入混亂,導(dǎo)致不可靠的輸出。
數(shù)據(jù)挖掘算法本身更致力于避免數(shù)據(jù)過(guò)分?jǐn)M合所建的模型,這一特性使得它難以通過(guò)自身的算法去很好地處理不完整數(shù)據(jù)。因此,缺省值需要通過(guò)專門(mén)的方法進(jìn)行推導(dǎo)、填充等,以減少數(shù)據(jù)挖掘算法與實(shí)際應(yīng)用之間的差距。
缺失值處理方法的分析與比較
處理不完整數(shù)據(jù)集的方法主要有三大類:刪除元組、數(shù)據(jù)補(bǔ)齊、不處理。
刪除元組
也就是將存在遺漏信息屬性值的對(duì)象(元組,記錄)刪除,從而得到一個(gè)完備的信息表。這種方法簡(jiǎn)單易行,在對(duì)象有多個(gè)屬性缺失值、被刪除的含缺失值的對(duì)象與初始數(shù)據(jù)集的數(shù)據(jù)量相比非常小的情況下非常有效,類標(biāo)號(hào)缺失時(shí)通常使用該方法。
然而,這種方法卻有很大的局限性。它以減少歷史數(shù)據(jù)來(lái)?yè)Q取信息的完備,會(huì)丟棄大量隱藏在這些對(duì)象中的信息。在初始數(shù)據(jù)集包含的對(duì)象很少的情況下,刪除少量對(duì)象足以嚴(yán)重影響信息的客觀性和結(jié)果的正確性;因此,當(dāng)缺失數(shù)據(jù)所占比例較大,特別當(dāng)遺漏數(shù)據(jù)非隨機(jī)分布時(shí),這種方法可能導(dǎo)致數(shù)據(jù)發(fā)生偏離,從而引出錯(cuò)誤的結(jié)論。
說(shuō)明:刪除元組,或者直接刪除該列特征,有時(shí)候會(huì)導(dǎo)致性能下降。
數(shù)據(jù)補(bǔ)齊
這類方法是用一定的值去填充空值,從而使信息表完備化。通?;诮y(tǒng)計(jì)學(xué)原理,根據(jù)初始數(shù)據(jù)集中其余對(duì)象取值的分布情況來(lái)對(duì)一個(gè)缺失值進(jìn)行填充。數(shù)據(jù)挖掘中常用的有以下幾種補(bǔ)齊方法:
人工填寫(xiě)(filling manually)
由于最了解數(shù)據(jù)的還是用戶自己,因此這個(gè)方法產(chǎn)生數(shù)據(jù)偏離最小,可能是填充效果最好的一種。然而一般來(lái)說(shuō),該方法很費(fèi)時(shí),當(dāng)數(shù)據(jù)規(guī)模很大、空值很多的時(shí)候,該方法是不可行的。
特殊值填充(Treating Missing Attribute values as Special values)
將空值作為一種特殊的屬性值來(lái)處理,它不同于其他的任何屬性值。如所有的空值都用“unknown”填充。這樣將形成另一個(gè)有趣的概念,可能導(dǎo)致嚴(yán)重的數(shù)據(jù)偏離,一般不推薦使用。
平均值填充(Mean/Mode Completer)
將初始數(shù)據(jù)集中的屬性分為數(shù)值屬性和非數(shù)值屬性來(lái)分別進(jìn)行處理。
如果空值是數(shù)值型的,就根據(jù)該屬性在其他所有對(duì)象的取值的平均值來(lái)填充該缺失的屬性值;
如果空值是非數(shù)值型的,就根據(jù)統(tǒng)計(jì)學(xué)中的眾數(shù)原理,用該屬性在其他所有對(duì)象的取值次數(shù)最多的值(即出現(xiàn)頻率最高的值)來(lái)補(bǔ)齊該缺失的屬性值。與其相似的另一種方法叫條件平均值填充法(Conditional Mean Completer)。在該方法中,用于求平均的值并不是從數(shù)據(jù)集的所有對(duì)象中取,而是從與該對(duì)象具有相同決策屬性值的對(duì)象中取得。
這兩種數(shù)據(jù)的補(bǔ)齊方法,其基本的出發(fā)點(diǎn)都是一樣的,以最大概率可能的取值來(lái)補(bǔ)充缺失的屬性值,只是在具體方法上有一點(diǎn)不同。與其他方法相比,它是用現(xiàn)存數(shù)據(jù)的多數(shù)信息來(lái)推測(cè)缺失值。
熱卡填充(Hot deck imputation,或就近補(bǔ)齊)
對(duì)于一個(gè)包含空值的對(duì)象,熱卡填充法在完整數(shù)據(jù)中找到一個(gè)與它最相似的對(duì)象,然后用這個(gè)相似對(duì)象的值來(lái)進(jìn)行填充。不同的問(wèn)題可能會(huì)選用不同的標(biāo)準(zhǔn)來(lái)對(duì)相似進(jìn)行判定。該方法概念上很簡(jiǎn)單,且利用了數(shù)據(jù)間的關(guān)系來(lái)進(jìn)行空值估計(jì)。這個(gè)方法的缺點(diǎn)在于難以定義相似標(biāo)準(zhǔn),主觀因素較多。
K最近距離鄰法(K-means clustering)
先根據(jù)歐式距離或相關(guān)分析來(lái)確定距離具有缺失數(shù)據(jù)樣本最近的K個(gè)樣本,將這K個(gè)值加權(quán)平均來(lái)估計(jì)該樣本的缺失數(shù)據(jù)。
使用所有可能的值填充(Assigning All Possible values of the Attribute)
用空缺屬性值的所有可能的屬性取值來(lái)填充,能夠得到較好的補(bǔ)齊效果。但是,當(dāng)數(shù)據(jù)量很大或者遺漏的屬性值較多時(shí),其計(jì)算的代價(jià)很大,可能的測(cè)試方案很多。
組合完整化方法(Combinatorial Completer)
用空缺屬性值的所有可能的屬性取值來(lái)試,并從最終屬性的約簡(jiǎn)結(jié)果中選擇最好的一個(gè)作為填補(bǔ)的屬性值。這是以約簡(jiǎn)為目的的數(shù)據(jù)補(bǔ)齊方法,能夠得到好的約簡(jiǎn)結(jié)果;但是,當(dāng)數(shù)據(jù)量很大或者遺漏的屬性值較多時(shí),其計(jì)算的代價(jià)很大。
回歸(Regression)
基于完整的數(shù)據(jù)集,建立回歸方程。對(duì)于包含空值的對(duì)象,將已知屬性值代入方程來(lái)估計(jì)未知屬性值,以此估計(jì)值來(lái)進(jìn)行填充。當(dāng)變量不是線性相關(guān)時(shí)會(huì)導(dǎo)致有偏差的估計(jì)。
期望值最大化方法(Expectation maximization,EM)
EM算法是一種在不完全數(shù)據(jù)情況下計(jì)算極大似然估計(jì)或者后驗(yàn)分布的迭代算法。在每一迭代循環(huán)過(guò)程中交替執(zhí)行兩個(gè)步驟:E步(Excepctaion step,期望步),在給定完全數(shù)據(jù)和前一次迭代所得到的參數(shù)估計(jì)的情況下計(jì)算完全數(shù)據(jù)對(duì)應(yīng)的對(duì)數(shù)似然函數(shù)的條件期望;M步(Maximzation step,極大化步),用極大化對(duì)數(shù)似然函數(shù)以確定參數(shù)的值,并用于下步的迭代。算法在E步和M步之間不斷迭代直至收斂,即兩次迭代之間的參數(shù)變化小于一個(gè)預(yù)先給定的閾值時(shí)結(jié)束。該方法可能會(huì)陷入局部極值,收斂速度也不是很快,并且計(jì)算很復(fù)雜。
多重填補(bǔ)(Multiple Imputation,MI)
多重填補(bǔ)方法分為三個(gè)步驟:
為每個(gè)空值產(chǎn)生一套可能的填補(bǔ)值,這些值反映了無(wú)響應(yīng)模型的不確定性;每個(gè)值都被用來(lái)填補(bǔ)數(shù)據(jù)集中的缺失值,產(chǎn)生若干個(gè)完整數(shù)據(jù)集合。
每個(gè)填補(bǔ)數(shù)據(jù)集合都用針對(duì)完整數(shù)據(jù)集的統(tǒng)計(jì)方法進(jìn)行統(tǒng)計(jì)分析。
對(duì)來(lái)自各個(gè)填補(bǔ)數(shù)據(jù)集的結(jié)果進(jìn)行綜合,產(chǎn)生最終的統(tǒng)計(jì)推斷,這一推斷考慮到了由于數(shù)據(jù)填補(bǔ)而產(chǎn)生的不確定性。該方法將空缺值視為隨機(jī)樣本,這樣計(jì)算出來(lái)的統(tǒng)計(jì)推斷可能受到空缺值的不確定性的影響。該方法的計(jì)算也很復(fù)雜。
C4.5方法
通過(guò)尋找屬性間的關(guān)系來(lái)對(duì)遺失值填充。它尋找之間具有最大相關(guān)性的兩個(gè)屬性,其中沒(méi)有遺失值的一個(gè)稱為代理屬性,另一個(gè)稱為原始屬性,用代理屬性決定原始屬性中的遺失值。這種基于規(guī)則歸納的方法只能處理基數(shù)較小的名詞型屬性。
就幾種基于統(tǒng)計(jì)的方法而言,刪除元組法和平均值法差于熱卡填充法、期望值最大化方法和多重填充法;回歸是比較好的一種方法,但仍比不上hot deck和EM;EM缺少M(fèi)I包含的不確定成分。值得注意的是,這些方法直接處理的是模型參數(shù)的估計(jì)而不是空缺值預(yù)測(cè)本身。它們合適于處理無(wú)監(jiān)督學(xué)習(xí)的問(wèn)題,而對(duì)有監(jiān)督學(xué)習(xí)來(lái)說(shuō),情況就不盡相同了。譬如,你可以刪除包含空值的對(duì)象用完整的數(shù)據(jù)集來(lái)進(jìn)行訓(xùn)練,但預(yù)測(cè)時(shí)你卻不能忽略包含空值的對(duì)象。另外,C4.5和使用所有可能的值填充方法也有較好的補(bǔ)齊效果,人工填寫(xiě)和特殊值填充則是一般不推薦使用的。
不處理
補(bǔ)齊處理只是將未知值補(bǔ)以我們的主觀估計(jì)值,不一定完全符合客觀事實(shí),在對(duì)不完備信息進(jìn)行補(bǔ)齊處理的同時(shí),我們或多或少地改變了原始的信息系統(tǒng)。而且,對(duì)空值不正確的填充往往將新的噪聲引入數(shù)據(jù)中,使挖掘任務(wù)產(chǎn)生錯(cuò)誤的結(jié)果。因此,在許多情況下,我們還是希望在保持原始信息不發(fā)生變化的前提下對(duì)信息系統(tǒng)進(jìn)行處理。
不處理缺失值,直接在包含空值的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘的方法包括貝葉斯網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)等。
貝葉斯網(wǎng)絡(luò)提供了一種自然的表示變量間因果信息的方法,用來(lái)發(fā)現(xiàn)數(shù)據(jù)間的潛在關(guān)系。在這個(gè)網(wǎng)絡(luò)中,用節(jié)點(diǎn)表示變量,有向邊表示變量間的依賴關(guān)系。貝葉斯網(wǎng)絡(luò)僅適合于對(duì)領(lǐng)域知識(shí)具有一定了解的情況,至少對(duì)變量間的依賴關(guān)系較清楚的情況。否則直接從數(shù)據(jù)中學(xué)習(xí)貝葉斯網(wǎng)的結(jié)構(gòu)不但復(fù)雜性較高(隨著變量的增加,指數(shù)級(jí)增加),網(wǎng)絡(luò)維護(hù)代價(jià)昂貴,而且它的估計(jì)參數(shù)較多,為系統(tǒng)帶來(lái)了高方差,影響了它的預(yù)測(cè)精度。
人工神經(jīng)網(wǎng)絡(luò)可以有效的對(duì)付缺失值,但人工神經(jīng)網(wǎng)絡(luò)在這方面的研究還有待進(jìn)一步深入展開(kāi)。
知乎上的一種方案:
4.把變量映射到高維空間。比如性別,有男、女、缺失三種情況,則映射成3個(gè)變量:是否男、是否女、是否缺失。連續(xù)型變量也可以這樣處理。比如Google、百度的CTR預(yù)估模型,預(yù)處理時(shí)會(huì)把所有變量都這樣處理,達(dá)到幾億維。這樣做的好處是完整保留了原始數(shù)據(jù)的全部信息、不用考慮缺失值、不用考慮線性不可分之類的問(wèn)題。缺點(diǎn)是計(jì)算量大大提升。
而且只有在樣本量非常大的時(shí)候效果才好,否則會(huì)因?yàn)檫^(guò)于稀疏,效果很差。
總結(jié)
大多數(shù)數(shù)據(jù)挖掘系統(tǒng)都是在數(shù)據(jù)挖掘之前的數(shù)據(jù)預(yù)處理階段采用第一、第二類方法來(lái)對(duì)空缺數(shù)據(jù)進(jìn)行處理。并不存在一種處理空值的方法可以適合于任何問(wèn)題。無(wú)論哪種方式填充,都無(wú)法避免主觀因素對(duì)原系統(tǒng)的影響,并且在空值過(guò)多的情形下將系統(tǒng)完備化是不可行的。從理論上來(lái)說(shuō),貝葉斯考慮了一切,但是只有當(dāng)數(shù)據(jù)集較小或滿足某些條件(如多元正態(tài)分布)時(shí)完全貝葉斯分析才是可行的。而現(xiàn)階段人工神經(jīng)網(wǎng)絡(luò)方法在數(shù)據(jù)挖掘中的應(yīng)用仍很有限。值得一提的是,采用不精確信息處理數(shù)據(jù)的不完備性已得到了廣泛的研究。不完備數(shù)據(jù)的表達(dá)方法所依據(jù)的理論主要有可信度理論、概率論、模糊集合論、可能性理論,D-S的證據(jù)理論等。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實(shí)踐的落地者與價(jià)值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價(jià)值,最終要在 “實(shí)踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場(chǎng)景的分 ...
2025-09-10機(jī)器學(xué)習(xí)解決實(shí)際問(wèn)題的核心關(guān)鍵:從業(yè)務(wù)到落地的全流程解析 在人工智能技術(shù)落地的浪潮中,機(jī)器學(xué)習(xí)作為核心工具,已廣泛應(yīng)用于 ...
2025-09-09SPSS 編碼狀態(tài)區(qū)域中 Unicode 的功能與價(jià)值解析 在 SPSS(Statistical Product and Service Solutions,統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案 ...
2025-09-09