
探尋微博背后的大數(shù)據(jù)原理:微博推薦算法簡述
“We are leaving the age of information and entering the age of recommendation” — Chris Anderson in The Long Tail。
我們正在遠離信息,而進入推薦時代?!死锼埂ぐ驳律?/span>
在介紹微博推薦算法之前,我們先聊一聊推薦系統(tǒng)和推薦算法。有這樣一些問題:推薦系統(tǒng)適用哪些場景?用來解決什么問題、具有怎樣的價值?效果如何衡量?
推薦系統(tǒng)誕生很早,但真正被大家所重視,緣起于以”facebook”為代表的社會化網(wǎng)絡(luò)的興起和以“淘寶“為代表的電商的繁榮,”選擇“的時代已經(jīng)來臨,信息和物品的極大豐富,讓用戶如浩瀚宇宙中的小點,無所適從。推薦系統(tǒng)迎來爆發(fā)的機會,變得離用戶更近:
推薦系統(tǒng)的適用場景還有很多,不再一一列舉;其主要解決的問題是為用戶找到合適的item(連接和排序),并找到一個合理的理由來解釋推薦結(jié)果。而問題的解決,就是系統(tǒng)的價值,即建立關(guān)聯(lián)、促進流動和傳播、加速優(yōu)勝劣汰。
推薦算法是實現(xiàn)推薦系統(tǒng)目標(biāo)的方法和手段。算法與產(chǎn)品相結(jié)合,搭載在高效穩(wěn)定的架構(gòu)上,才能發(fā)揮它的最大功效。
接下來我們說一下微博推薦,微博本身的產(chǎn)品設(shè)計,使得即使沒有推薦系統(tǒng),仍然會形成一個大的用戶關(guān)系網(wǎng)絡(luò),實現(xiàn)信息快速傳播;而衡量一個事物的價值,一個簡單的方法是對比看看保留它和去掉它時的差別。微博需要健康的用戶關(guān)系網(wǎng)絡(luò),保障用戶feed流的質(zhì)量,且需要優(yōu)質(zhì)信息快速流動,通過傳播淘汰低質(zhì)信息。微博推薦的作用在于加速這一過程,并在特定的情況下控制信息的流向,所以微博推薦的角色是一個加速器和控制器。
最后回到微博推薦算法中來,上面扯了那么多,只是為了讓大家能對微博推薦算法有更好的理解。我們的工作,是將微博推薦的目標(biāo)和需要解決的問題,抽樣為一系列的數(shù)學(xué)問題,然后運用多種數(shù)據(jù)工具進行求解。
接下來首先用一個圖梳理下我們用到的方法和技術(shù),然后再逐一介紹。
這一層算法的主要作用是為微博推薦挖掘必要的基礎(chǔ)資源、解決推薦時的通用技術(shù)問題、完成必要的數(shù)據(jù)分析為推薦業(yè)務(wù)提供指導(dǎo)。
這一部分中常用的算法和技術(shù)如下:
是微博內(nèi)容推薦的基礎(chǔ),用于將微博內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化向量,包括詞語切分、詞語信息標(biāo)注、內(nèi)容核心詞/實體詞提取、語義依存分析等。
用于微博內(nèi)容推薦候選的分析,包含微博內(nèi)容分類和營銷廣告/色情類微博識別;
內(nèi)容分類采用決策樹分類模型實現(xiàn),共3級分類體系,148個類別;營銷廣告/色情類微博的識別,采用貝葉斯與最大熵的混合模型。
主要用于熱點話題挖掘,以及為內(nèi)容相關(guān)推薦提供關(guān)聯(lián)資源。屬于微博自主研發(fā)的聚類技術(shù)WVT算法(word vector topic),依據(jù)微博內(nèi)容特點和傳播規(guī)律設(shè)計。
開展微博傳播模型研究和用戶網(wǎng)絡(luò)影響力分析(包含深度影響力、廣度影響力和領(lǐng)域內(nèi)影響力)。
微博具有這樣的特點:用戶貢獻內(nèi)容,社會化途徑傳播,帶來信息的爆炸式傳播。之所以稱作graph-based 推薦算法,而不是業(yè)界通用的memory-based 算法,主要原因在于:
從graph的宏觀角度看,我們的目標(biāo)是建立一個具有更高價值的用戶關(guān)系網(wǎng)絡(luò),促進優(yōu)質(zhì)信息的快速傳播,提升feed流質(zhì)量;其中的重要工作是關(guān)鍵節(jié)點挖掘、面向關(guān)鍵節(jié)點的內(nèi)容推薦、用戶推薦。
對這部分的算法做相應(yīng)的梳理,如下面的表格:
這里的困難點在于graph的“邊”怎樣量化與取舍,依據(jù)多個“邊”與“節(jié)點”的綜合評分計算,以及與網(wǎng)絡(luò)挖掘分析結(jié)果的融合。
這部分的算法研發(fā)中,產(chǎn)出了如下的數(shù)據(jù)附產(chǎn)品:
Content-based 是微博推薦中最常用也是最基礎(chǔ)的推薦算法,它的主要技術(shù)環(huán)節(jié)在于候選集的內(nèi)容結(jié)構(gòu)化分析和相關(guān)性運算。
正文頁相關(guān)推薦是content-based 應(yīng)用最廣的地方,以它為例,簡要的說一下
內(nèi)容分析的很多點已在前面描述過了,這里重點說2個地方:
相關(guān)計算的技術(shù)點在于向量的量化和距離度量,我們通常使用“tf*idf權(quán)重量化 + 余弦距離”或者“topic 概率 + KLD距離“的兩種方法。
微博作為中國最大的社會化媒體產(chǎn)品,具有海量的用戶和信息資源;這就給推薦帶來了2個挑戰(zhàn):
來源融合與排序
候選的極大豐富,意味著我們有更多的選擇,于是我們推薦結(jié)果的產(chǎn)生包含兩層:多種推薦算法的初選與來源融合排序的精選,為了得到更客觀準(zhǔn)確的排序結(jié)果,我們需要引入機器學(xué)習(xí)模型,來學(xué)習(xí)隱藏在用戶群體行為背后的規(guī)律。
內(nèi)容動態(tài)分類和語義相關(guān)
微博UGC的內(nèi)容生產(chǎn)模式,以及信息快速傳播和更新的特點,意味著之前人工標(biāo)注樣本,訓(xùn)練靜態(tài)分類模型的方法已經(jīng)過時了,我們需要很好的聚類模型把近期的全量信息聚合成類,然后建立語義相關(guān),完成推薦。
Model-based 算法就是為了解決上述的問題,下面是我們兩塊最重要的機器學(xué)習(xí)工作:
3.1 CTR/RPM(每千次推薦關(guān)系達成率)預(yù)估模型,采用的基本算法為Logistic regression,下面是我們CTR預(yù)估模型整體的架構(gòu)圖:
這部分工作包含樣本選擇、數(shù)據(jù)清洗、特征提取與選擇、模型訓(xùn)練、在線預(yù)估和排序。值得一提的是,模型訓(xùn)練前的數(shù)據(jù)清洗和噪音剔除非常重要,數(shù)據(jù)質(zhì)量是算法效果的上界,我們之前就在這個地方吃過虧。
Logisitic regression是一個2分類概率模型
優(yōu)化的目標(biāo)在于最大化“樣本正確分類概率的連乘值“;我們借助yahoo 研發(fā)的vowpal_wabbit機器學(xué)習(xí)平臺來完成模型特征值求解的最優(yōu)化過程。
3.2 LFM(Latent Factor Model):LDA、矩陣分解(SVD++、SVD Feature)
LDA是2014年初重點開展的項目,現(xiàn)在已經(jīng)有了較好的產(chǎn)出,也在推薦線上產(chǎn)品中得到了應(yīng)用;LDA本身是一個非常漂亮和嚴謹?shù)臄?shù)學(xué)模型,下面是我們一個LDA topic的例子,僅供參考。
至于矩陣分解,2013年的時候做過相應(yīng)的嘗試,效果不是特別理想,沒有繼續(xù)投入。
隱語義模型是推薦精度最高的單一模型,其困難在于數(shù)據(jù)規(guī)模大時,計算效率會成為瓶頸;我們在這個地方開展了一些工作,后續(xù)會有同學(xué)專門介紹這一塊。
三個臭皮匠頂個諸葛亮,每一種方法都有其局限性,將不同的算法取長補短,各自發(fā)揮價值,是極為有效的方式。微博推薦算法主要采用了下面的混合技術(shù):
即在推薦過程的不同時間段,采用不同的推薦算法;以正文頁相關(guān)推薦為例,在正文頁曝光的前期階段,采用content-based + ctr預(yù)估的方法生成推薦結(jié)果,待產(chǎn)生的足量可信的用戶點擊行為后,再采用user-based 協(xié)同過濾的方法得到推薦結(jié)果,如下圖所示:
這樣利用content-based很好的解決了冷啟動的問題,又充分發(fā)揮了user-based CF的作用,實現(xiàn)1+1>2的效果。
很多情況下,一個模型無法很好的得到想要的效果,而分層組合往往會取得比較好的效果,分層模型混合即“將上一層模型的輸出作為下層模型的特征值,來綜合訓(xùn)練模型,完成推薦任務(wù)“。比如我們在做微博首頁右側(cè)的ctr預(yù)估排序時,采用分層邏輯回歸模型,解決了不同產(chǎn)品間特征天然缺失與樣本量差異、曝光位置帶來的效果偏差等問題。
這類混合技術(shù)思路非常簡單,即在推薦候選非常豐富的情況下,采用逐層過濾的方法的得到推薦結(jié)果,通常將運算快、區(qū)分度低的算法放在前面,完成大量候選集的篩選;將運算慢、區(qū)分度高的算法放在后面,精細計算剩下的小規(guī)模集合。這類混合在微博推薦中大量使用,我們采用各種輕量算法完成候選集粗選,然后采用ctr預(yù)估做精細化排序。
各類推薦算法中子技術(shù),可以在另外的推薦算法中綜合使用,比如content-based在相關(guān)性計算中積累的距離計算方法,可以很好的應(yīng)用在協(xié)同過濾的量化計算中。實際的例子,我們將研究LDA時積累的向量計算方法成功的應(yīng)用到用戶推薦中。
微博數(shù)據(jù)的特點(海量、多樣、靜態(tài)與動態(tài)數(shù)據(jù)混在一起),決定了大部分推薦產(chǎn)品的結(jié)果需要同時借助online和offline的計算來完成。從系統(tǒng)和算法設(shè)計的角度,這是一個“重”與“輕”的問題,計算分解和組合是關(guān)鍵,我們需要將對時間不敏感的重型計算放在offline端,而將時間敏感性強的輕型快速計算放在online端。幾種我們常用的方式如下圖:
Online需要簡單可靠的算法,快速得到結(jié)果;簡要說明下上面的圖,如下
1)計算過程拆解的離線部分,如user-based CF中的用戶相似度,online通過數(shù)據(jù)庫讀取后在線計算完成user-based 推薦。
2)離線挖掘的優(yōu)質(zhì)候選集,如正文頁相關(guān)推薦的內(nèi)容候選集,online通過索引獲取到數(shù)據(jù)后,再通過相關(guān)性和ctr預(yù)估排序生成推薦結(jié)果。
3)具有較高相似度的推薦結(jié)果集,如offline計算好粉絲相似高的用戶,在線對用戶行為做出實時反饋,實時補充推薦與其剛關(guān)注用戶相似的用戶。
此外,我們也有直接online計算完成的推薦結(jié)果,如首頁右側(cè)話題推薦,由于用戶對話題需求的差異非常小,它基本上是一個排行榜的需求,但熱門微博也可以有精巧的設(shè)計,我們采用了一個曝光動態(tài)收益模型,通過上一段時段的(點擊收益-曝光成本)來控制下一時段的item曝光幾率,取得了非常好的效果,ctr和導(dǎo)流量有3倍以上的提升。
不同類型的推薦結(jié)果,要輔以不同的推薦理由,這一點需要前端的多種展示嘗試和offline的日志分析。
算法效果的度量方式?jīng)Q定了大家努力的方向,而對于不同類型的推薦,最好根據(jù)產(chǎn)品的定位和目標(biāo),采用不同的標(biāo)準(zhǔn)體系去衡量工作結(jié)果。實際效果的評測分為3個層次:用戶滿意度、產(chǎn)品層指標(biāo)(如ctr)、算法層指標(biāo),我們的效果評測也會分為人工評測、線上A/B測試、離線算法效果評測3種。
產(chǎn)品指標(biāo)的制定,應(yīng)該從產(chǎn)品期望達成的目標(biāo)出發(fā),體現(xiàn)用戶滿意度。
對算法離線評測而言,關(guān)鍵的是找到一套合理的算法評測指標(biāo)去擬合產(chǎn)品層指標(biāo),因為算法離線評測總是在上線前進行,這個對應(yīng)做的越好,算法的優(yōu)化成果才能更好的轉(zhuǎn)化為線上的產(chǎn)品指標(biāo)。
下圖為我們的算法離線效果評測的架構(gòu)圖
常用的離線評測指標(biāo)有:RMSE、召回率、AUC、用戶內(nèi)多樣性、用戶間多樣性、新穎性等。對于不同的產(chǎn)品有不同的組合指標(biāo)去衡量,比如用戶推薦中“用戶間多樣性”非常重要,而熱點話題卻可以允許用戶間有較大的結(jié)果重合度。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03