
數(shù)據(jù)挖掘:推薦系統(tǒng)綜述以及美團(tuán)推薦系統(tǒng)介紹
文 | 宿痕
來源 | 知乎
其實推薦系統(tǒng)前面已經(jīng)講過不少,那時候主要是放在機器學(xué)習(xí)上講的,既然這次要系統(tǒng)擼一遍數(shù)據(jù)挖掘,就把推薦系統(tǒng)單獨拿出來說一說。相信如果做過推薦系統(tǒng)的人,都知道是什么回事。一堆features,一堆算法模型,一堆online、offline規(guī)則和計算,還有若干的場景。包括著名的netflix、Amazon做的推薦場景都有哪些,有哪些坑需要注意的,之前都有說過。
像阿里還時不時會搞搞天池算法大賽,像最近在弄一個簡歷篩選推薦算法競賽,有興趣的小伙伴都可以去參與了解下。拿些數(shù)據(jù)來練練,對自己經(jīng)驗的積累還是挺有好處的。
LZ最近也是在接觸量化投資,通過機器學(xué)習(xí)的方式來預(yù)測股價走勢以及買入賣出等,還是比較有意思啊,如果有做這塊的可以私下交流,當(dāng)然知道做這塊的相對來說都比較保守,畢竟策略、思想等東西都是比較寶貴。
閑話不多說,今天既然說到推薦系統(tǒng)概述,重點會推薦的場景、推薦的算法、推薦的架構(gòu)以及美團(tuán)的推薦算法都是怎么做的講下。
前面介紹的推薦的場景、算法介紹更適合剛?cè)腴T的同學(xué)了解,已經(jīng)在這塊領(lǐng)域馳騁疆場的老鳥可以直接跳步到后面的架構(gòu)和美團(tuán)案例上了。
推薦系統(tǒng)為何物?
先說個事實,為什么需要有推薦系統(tǒng)這個東西?
當(dāng)我們在龐大的一間圖書館里想找我們要看的一本書時;
當(dāng)我們在沃爾瑪超市想買個清潔劑時;
當(dāng)我們想在淘寶上搜個價格合適、質(zhì)量又不錯的衣服時;
當(dāng)海量的垃圾郵件和廣告不斷充斥著你的郵箱時;
當(dāng)我們的信息嚴(yán)重過載時,我們已經(jīng)沒辦法通過人的肉眼來篩選了。
沒錯,就是像樓上這哥兒們這樣,我們已經(jīng)茫然了!(聽取某些同學(xué)的意見,要求多放些圖片O(∩_∩)O)
所以應(yīng)運而生,出現(xiàn)了如Amazon的商品推薦
而據(jù)說Amazon的推薦系統(tǒng)給他們帶來35%的銷售!
還有像YouTube
netflix
天貓
google
這些案例不計其數(shù),本質(zhì)上他們都解決了幾個問題:
用戶的信息過載;
更精準(zhǔn)的個性化推薦和營銷;
減少資源的浪費和最大化收益。因而推薦系統(tǒng)其實更多的是解決的資源分配的問題,當(dāng)然從用戶的角度來說是解決的信息篩選的成本問題。
不可避免推薦系統(tǒng)就把人、產(chǎn)品、數(shù)據(jù)這些都捆綁在一起。
而人、產(chǎn)品都是復(fù)雜的,怎么能夠通過推薦系統(tǒng)來實現(xiàn)量化呢?自然而然的就考慮到“人以類聚、物以群分”的feature。
這些feature的選擇是個開放的話題,主要是圍繞人的基本屬性、社會關(guān)系、金融資產(chǎn)、地理位置、信用歷史、行為偏好等維度去考慮。
一句話就是能把這個人的吃喝拉撒、從什么時候出生到活到多少歲、他們平時都接觸什么人、都在哪里活動、都做些什么事情都知道了。是不是想象就比較可怕,這樣作為個人還有隱私可言嗎?沒錯,數(shù)據(jù)安全、個人隱私問題是數(shù)據(jù)方面的一個重大話題。
而推薦作為機器學(xué)習(xí)中很重要的一個部分,它所解決的就是把這個人的過去歷史行為、用戶間的relation、item相似度、用戶的個人信息、item特征等信息綜合起來去打分,來評估預(yù)測這個用戶對于這個item的喜好程度。LR相比較DT的好處就是能圍繞最終result會有個probability。
推薦算法
常見的推薦算法有這些:
具體的算法公式我就不列了,講了可能會有人會看睡著。
CF遇到的問題就是1.冷啟動,沒數(shù)據(jù)的時候比較尷尬,本身需要大量的可信用戶數(shù)據(jù)來訓(xùn)練;2.數(shù)據(jù)稀疏的情況,;3.數(shù)據(jù)分布的問題,長尾部分相似度計算不準(zhǔn)確。這里常用的model有聚類、分類、回歸、SVD等等。
CB主要是基于內(nèi)容的推薦,比如文本內(nèi)容、圖片、音頻等方面的推薦,優(yōu)點就是沒有上面說到的冷啟動問題,可以給小眾的用戶推薦內(nèi)容,但是難點就是在實際業(yè)務(wù)中沒有太大的效果。這種比較適合在數(shù)據(jù)特征比較豐富的情況下做。比如像觀看的視頻,圍繞導(dǎo)演、時長、粉絲等各種方面來training。
推薦架構(gòu)
涉及到推薦架構(gòu)方面,能說的就特別多了。本身因為到了架構(gòu)這層就和實際情況結(jié)合了,包括計算性能、成本、實時性、評估效果、用戶體驗等很多方面的問題。
之前整理了個推薦系統(tǒng)的基本平臺架構(gòu),大體的內(nèi)容有這些:
像在系統(tǒng)推薦平臺邏輯大體上有這些:
包括你看到的netflix、Amazon大體的架構(gòu)也是這樣分布,特別要強調(diào)的是當(dāng)你的ML模型最終目標(biāo)是在生產(chǎn)環(huán)節(jié)有重要影響,你有必要得思考正確的系統(tǒng)架構(gòu)。
在延時和復(fù)雜性之間權(quán)衡很重要,一些計算需要實時,盡快響應(yīng)給用戶反饋,另外復(fù)雜的ML模型需要大量數(shù)據(jù),需要長時間才能計算好,還有一些近乎在線NearLine,操作不保證實時發(fā)生,但是最好盡可能快地執(zhí)行。
這方面阿里云是比較強悍,技術(shù)杠桿的,在雙十一這種場景里是大展拳腳。
美團(tuán)的推薦系統(tǒng)
美團(tuán)在線上線下O2O做的產(chǎn)品體驗的確是不錯,他們的技術(shù)分享也比較勤快。所以有很多地方還是值得我們?nèi)W(xué)習(xí)的吧。特別是美團(tuán)在線上線下這塊應(yīng)該有不少用戶數(shù)據(jù)和行為數(shù)據(jù)可以來做分析。也真的希望他們能夠有時間來線下多搞些活動分享分享。
美團(tuán)推薦框架
從框架的角度看,推薦系統(tǒng)基本可以分為數(shù)據(jù)層、觸發(fā)層、融合過濾層和排序?qū)印?shù)據(jù)層包括數(shù)據(jù)生成和數(shù)據(jù)存儲,主要是利用各種數(shù)據(jù)處理工具對原始日志進(jìn)行清洗,處理成格式化的數(shù)據(jù),落地到不同類型的存儲系統(tǒng)中,供下游的算法和模型使用。候選集觸發(fā)層主要是從用戶的歷史行為、實時行為、地理位置等角度利用各種觸發(fā)策略產(chǎn)生推薦的候選集。候選集融合和過濾層有兩個功能,一是對出發(fā)層產(chǎn)生的不同候選集進(jìn)行融合,提高推薦策略的覆蓋度和精度;另外還要承擔(dān)一定的過濾職責(zé),從產(chǎn)品、運營的角度確定一些人工規(guī)則,過濾掉不符合條件的item。排序?qū)又饕抢?a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學(xué)習(xí)的模型對觸發(fā)層篩選出來的候選集進(jìn)行重排序。
同時,對與候選集觸發(fā)和重排序兩層而言,為了效果迭代是需要頻繁修改的兩層,因此需要支持ABtest。為了支持高效率的迭代,對候選集觸發(fā)和重排序兩層進(jìn)行了解耦,這兩層的結(jié)果是正交的,因此可以分別進(jìn)行對比試驗,不會相互影響。同時在每一層的內(nèi)部,會根據(jù)用戶將流量劃分為多份,支持多個策略同時在線對比。
數(shù)據(jù)feature
像數(shù)據(jù)feature大概有這些:
數(shù)據(jù)描述:
用戶主動行為數(shù)據(jù)記錄了用戶在美團(tuán)平臺上不同的環(huán)各種行為,這些行為一方面用于候選集觸發(fā)算法(在下一部分介紹)中的離線計算(主要是瀏覽、下單),另外一方面,這些行為代表的意圖的強弱不同,因此在訓(xùn)練重排序模型時可以針對不同的行為設(shè)定不同的回歸目標(biāo)值,以更細(xì)地刻畫用戶的行為強弱程度。此外,用戶對deal的這些行為還可以作為重排序模型的交叉特征,用于模型的離線訓(xùn)練和在線預(yù)測。
負(fù)反饋數(shù)據(jù)反映了當(dāng)前的結(jié)果可能在某些方面不能滿足用戶的需求,因此在后續(xù)的候選集觸發(fā)過程中需要考慮對特定的因素進(jìn)行過濾或者降權(quán),降低負(fù)面因素再次出現(xiàn)的幾率,提高用戶體驗;同時在重排序的模型訓(xùn)練中,負(fù)反饋數(shù)據(jù)可以作為不可多得的負(fù)例參與模型訓(xùn)練,這些負(fù)例要比那些展示后未點擊、未下單的樣本顯著的多。
用戶畫像是刻畫用戶屬性的基礎(chǔ)數(shù)據(jù),其中有些是直接獲取的原始數(shù)據(jù),有些是經(jīng)過挖掘的二次加工數(shù)據(jù),這些屬性一方面可以用于候選集觸發(fā)過程中對deal進(jìn)行加權(quán)或降權(quán),另外一方面可以作為重排序模型中的用戶維度特征。
通過對UGC數(shù)據(jù)的挖掘可以提取出一些關(guān)鍵詞,然后使用這些關(guān)鍵詞給deal打標(biāo)簽,用于deal的個性化展示。
策略
策略方面主要是架構(gòu)中得CF、LB、QB、GB、替補策略這些。
1.CF
CF是推薦這塊應(yīng)用的比較廣的算法了,很簡單但是要用好要看具體的場景問題。
清除作弊、刷單、代購等噪聲數(shù)據(jù)。這些數(shù)據(jù)的存在會嚴(yán)重影響算法的效果,因此要在第一步的數(shù)據(jù)清洗中就將這些數(shù)據(jù)剔除。
合理選取訓(xùn)練數(shù)據(jù)。選取的訓(xùn)練數(shù)據(jù)的時間窗口不宜過長,當(dāng)然也不能過短。具體的窗口期數(shù)值需要經(jīng)過多次的實驗來確定。同時可以考慮引入時間衰減,因為近期的用戶行為更能反映用戶接下來的行為動作。
user-based與item-based相結(jié)合。
嘗試不同的相似度計算方法。在實踐中,我們采用了一種稱作loglikelihood ratio[1]的相似度計算方法。在mahout中,loglikelihood ratio也作為一種相似度計算方法被采用。
下表表示了Event A和Event B之間的相互關(guān)系,其中:
k11 :Event A和Event B共現(xiàn)的次數(shù)
k12 :Event B發(fā)生,Event A未發(fā)生的次數(shù)
k21 :Event A發(fā)生,Event B未發(fā)生的次數(shù)
k22 :Event A和Event B都不發(fā)生的次數(shù)
Event AEverything but AEvent BA and B together (k_11)B, but not A (k_12)Everything but BA without B (k_21)Neither A nor B (k_22)
則logLikelihoodRatio=2 * (matrixEntropy - rowEntropy - columnEntropy)
其中
rowEntropy = entropy(k11, k12) + entropy(k21, k22)
columnEntropy = entropy(k11, k21) + entropy(k12, k22)
matrixEntropy = entropy(k11, k12, k21, k22)(entropy為幾個元素組成的系統(tǒng)的香農(nóng)熵)
2.LB
對于移動設(shè)備而言,與PC端最大的區(qū)別之一是移動設(shè)備的位置是經(jīng)常發(fā)生變化的。不同的地理位置反映了不同的用戶場景,在具體的業(yè)務(wù)中可以充分利用用戶所處的地理位置。在推薦的候選集觸發(fā)中,我們也會根據(jù)用戶的實時地理位置、工作地、居住地等地理位置觸發(fā)相應(yīng)的策略。
根據(jù)用戶的歷史消費、歷史瀏覽等,挖掘出某一粒度的區(qū)域(比如商圈)內(nèi)的區(qū)域消費熱單和區(qū)域購買熱單
區(qū)域消費熱單
區(qū)域購買熱單
當(dāng)新的線上用戶請求到達(dá)時,根據(jù)用戶的幾個地理位置對相應(yīng)地理位置的區(qū)域消費熱單和區(qū)域購買熱單進(jìn)行加權(quán),最終得到一個推薦列表。
此外,還可以根據(jù)用戶出現(xiàn)的地理位置,采用協(xié)同過濾的方式計算用戶的相似度。
3. QB
搜索是一種強用戶意圖,比較明確的反應(yīng)了用戶的意愿,但是在很多情況下,因為各種各樣的原因,沒有形成最終的轉(zhuǎn)換。盡管如此,這種情景還是代表了一定的用戶意愿,可以加以利用。具體做法如下:
對用戶過去一段時間的搜索無轉(zhuǎn)換行為進(jìn)行挖掘,計算每一個用戶對不同query的權(quán)重。
計算每個query下不同deal的權(quán)重。
當(dāng)用戶再次請求時,根據(jù)用戶對不同query的權(quán)重及query下不同deal的權(quán)重進(jìn)行加權(quán),取出權(quán)重最大的TopN進(jìn)行推薦。
4. GB
對于協(xié)同過濾而言,user之間或者deal之間的圖距離是兩跳,對于更遠(yuǎn)距離的關(guān)系則不能考慮在內(nèi)。而圖算法可以打破這一限制,將user與deal的關(guān)系視作一個二部圖,相互間的關(guān)系可以在圖上傳播。simrank: a measure of structural-context similarity是一種衡量對等實體相似度的圖算法。它的基本思想是,如果兩個實體與另外的相似實體有相關(guān)關(guān)系,那它們也是相似的,即相似性是可以傳播的。
5. 實時用戶行為
目前美團(tuán)的業(yè)務(wù)會產(chǎn)生包括搜索、篩選、收藏、瀏覽、下單等豐富的用戶行為,這些是進(jìn)行效果優(yōu)化的重要基礎(chǔ)。推薦當(dāng)然希望每一個用戶行為流都能到達(dá)轉(zhuǎn)化的環(huán)節(jié),但是事實上遠(yuǎn)非這樣。
當(dāng)用戶產(chǎn)生了下單行為上游的某些行為時,會有相當(dāng)一部分因為各種原因使行為流沒有形成轉(zhuǎn)化。但是,用戶的這些上游行為是非常重要的先驗知識。很多情況下,用戶當(dāng)時沒有轉(zhuǎn)化并不代表用戶對當(dāng)前的item不感興趣。當(dāng)用戶再次到達(dá)推薦展位時,根據(jù)用戶之前產(chǎn)生的先驗行為理解并識別用戶的真正意圖,將符合用戶意圖的相關(guān)deal再次展現(xiàn)給用戶,引導(dǎo)用戶沿著行為流向下游行進(jìn),最終達(dá)到下單這個終極目標(biāo)。
目前引入的實時用戶行為包括:實時瀏覽、實時收藏。
6. 替補策略
雖然現(xiàn)在有一系列基于用戶歷史行為的候選集觸發(fā)算法,但對于部分新用戶或者歷史行為不太豐富的用戶,上述算法觸發(fā)的候選集太小,因此需要使用一些替補策略進(jìn)行填充。
熱銷單:在一定時間內(nèi)銷量最多的item,可以考慮時間衰減的影響等。
好評單:用戶產(chǎn)生的評價中,評分較高的item。
城市單:滿足基本的限定條件,在用戶的請求城市內(nèi)的。
7.子策略融合
為了結(jié)合不同觸發(fā)算法的優(yōu)點,同時提高候選集的多樣性和覆蓋率,需要將不同的觸發(fā)算法融合在一起。常見的融合的方法有以下幾種:
加權(quán)型:最簡單的融合方法就是根據(jù)經(jīng)驗值對不同算法賦給不同的權(quán)重,對各個算法產(chǎn)生的候選集按照給定的權(quán)重進(jìn)行加權(quán),然后再按照權(quán)重排序。
分級型:優(yōu)先采用效果好的算法,當(dāng)產(chǎn)生的候選集大小不足以滿足目標(biāo)值時,再使用效果次好的算法,依此類推。
調(diào)制型:不同的算法按照不同的比例產(chǎn)生一定量的候選集,然后疊加產(chǎn)生最終總的候選集。
過濾型:當(dāng)前的算法對前一級算法產(chǎn)生的候選集進(jìn)行過濾,依此類推,候選集被逐級過濾,最終產(chǎn)生一個小而精的候選集合。
目前美團(tuán)使用的方法集成了調(diào)制和分級兩種融合方法,不同的算法根據(jù)歷史效果表現(xiàn)給定不同的候選集構(gòu)成比例,同時優(yōu)先采用效果好的算法觸發(fā),如果候選集不夠大,再采用效果次之的算法觸發(fā),依此類推。
候選集重排序
如上所述,對于不同算法觸發(fā)出來的候選集,只是根據(jù)算法的歷史效果決定算法產(chǎn)生的item的位置顯得有些簡單粗暴,同時,在每個算法的內(nèi)部,不同item的順序也只是簡單的由一個或者幾個因素決定,這些排序的方法只能用于第一步的初選過程,最終的排序結(jié)果需要借助機器學(xué)習(xí)的方法,使用相關(guān)的排序模型,綜合多方面的因素來確定。
模型
非線性模型能較好的捕捉特征中的非線性關(guān)系,但訓(xùn)練和預(yù)測的代價相對線性模型要高一些,這也導(dǎo)致了非線性模型的更新周期相對要長。反之,線性模型對特征的處理要求比較高,需要憑借領(lǐng)域知識和經(jīng)驗人工對特征做一些先期處理,但因為線性模型簡單,在訓(xùn)練和預(yù)測時效率較高。因此在更新周期上也可以做的更短,還可以結(jié)合業(yè)務(wù)做一些在線學(xué)習(xí)的嘗試。在實踐中,非線性模型和線性模型都有應(yīng)用。
非線性模型
目前主要采用了非線性的樹模型Additive Groves(簡稱AG),相對于線性模型,非線性模型可以更好的處理特征中的非線性關(guān)系,不必像線性模型那樣在特征處理和特征組合上花費比較大的精力。AG是一個加性模型,由很多個Grove組成,不同的Grove之間進(jìn)行bagging得出最后的預(yù)測結(jié)果,由此可以減小過擬合的影響。
每一個Grove有多棵樹組成,在訓(xùn)練時每棵樹的擬合目標(biāo)為真實值與其他樹預(yù)測結(jié)果之和之間的殘差。當(dāng)達(dá)到給定數(shù)目的樹時,重新訓(xùn)練的樹會逐棵替代以前的樹。經(jīng)過多次迭代后,達(dá)到收斂。
線性模型
目前應(yīng)用比較多的線性模型非Logistic Regression莫屬了。為了能實時捕捉數(shù)據(jù)分布的變化,引入了online learning,接入實時數(shù)據(jù)流,使用google提出的FTRL方法對模型進(jìn)行在線更新。
主要的步驟如下:
在線寫特征向量到HBase
Storm解析實時點擊和下單日志流,改寫HBase中對應(yīng)特征向量的label
通過FTRL更新模型權(quán)重
將新的模型參數(shù)應(yīng)用于線上
Training
采樣:對于點擊率預(yù)估而言,正負(fù)樣本嚴(yán)重不均衡,所以需要對負(fù)例做一些采樣。
負(fù)例:正例一般是用戶產(chǎn)生點擊、下單等轉(zhuǎn)換行為的樣本,但是用戶沒有轉(zhuǎn)換行為的樣本是否就一定是負(fù)例呢?其實不然,很多展現(xiàn)其實用戶根本沒有看到,所以把這樣樣本視為負(fù)例是不合理的,也會影響模型的效果。比較常用的方法是skip-above,即用戶點擊的item位置以上的展現(xiàn)才可能視作負(fù)例。當(dāng)然,上面的負(fù)例都是隱式的負(fù)反饋數(shù)據(jù),除此之外,還有用戶主動刪除的顯示負(fù)反饋數(shù)據(jù),這些數(shù)據(jù)是高質(zhì)量的負(fù)例。
去噪:對于數(shù)據(jù)中混雜的刷單等類作弊行為的數(shù)據(jù),要將其排除出訓(xùn)練數(shù)據(jù),否則會直接影響模型的效果。
Feature
在目前的重排序模型中,大概分為以下幾類特征:
deal(即團(tuán)購單,下同)維度的特征:主要是deal本身的一些屬性,包括價格、折扣、銷量、評分、類別、點擊率等
user維度的特征:包括用戶等級、用戶的人口屬性、用戶的客戶端類型等user、deal的交叉特征:包括用戶對deal的點擊、收藏、購買等
距離特征:包括用戶的實時地理位置、常去地理位置、工作地、居住地等與poi的距離對于非線性模型,上述特征可以直接使用;而對于線性模型,則需要對特征值做一些分桶、歸一化等處理,使特征值成為0~1之間的連續(xù)值或01二值。
conclusion
以數(shù)據(jù)為基礎(chǔ),用算法去雕琢,只有將二者有機結(jié)合,才會帶來效果的提升。以下兩個節(jié)點是優(yōu)化過程中的里程碑:
將候選集進(jìn)行融合:提高了推薦的覆蓋度、多樣性和精度
引入重排序模型:解決了候選集增加以后deal之間排列順序的問題這些對于O2O場景的推薦有非常代表性的借鑒意義。
如果有什么不完善的地方,還請多補充。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03