
懂你的推薦算法,推薦邏輯是怎樣的?
作為一個喜歡思考人生的美男子,我時常感慨,現(xiàn)在這個年代,人們上網(wǎng)獲取信息的成本真的好低。智能手機(jī),人手一臺,打開3G就能上網(wǎng),百度一搜,什 么都有。當(dāng)然百度上搜出來的大多數(shù)可能并不是你想要的,但這并不妨礙上面的論點(diǎn)成立。也正是因?yàn)槌杀咎?,人們反而不愿意主動取獲取信息,于是各種各樣的 推薦系統(tǒng)有了大展身手的機(jī)會。
推薦在生活中是一個再平常不過的事情,你失業(yè)了,有人會給你推薦工作,你失戀了,有人會給你推薦姑娘。但是在我們這個機(jī)器遠(yuǎn)沒有人類聰明的時代,這 些事情要是交給機(jī)器去做,你就得設(shè)計出一套機(jī)器能理解的算法出來,這就是所謂的推薦算法。大家看到算法兩個字不要慌,以為我又要搬一個大東西出來嚇唬人。 你可以把算法看做現(xiàn)實(shí)生活中的辦事流程,它規(guī)定了你第一步干什么,第二步干什么,只要你按它說的做,就可以把事情辦好。舉個例子,你現(xiàn)在要做一個電影推薦 APP,我們來看下整個過程是怎樣的。
在推薦算法中,我們第一步要有一大堆要推薦的東西。也就是說,你的電影首先要足夠多,才能滿足不同用戶的需求。算法再精準(zhǔn),最后發(fā)現(xiàn)推導(dǎo)出來的結(jié) 果,在你的數(shù)據(jù)庫中并沒有,就悲劇了。第二步是要有用戶的行為數(shù)據(jù)。這個也是越多越詳細(xì)越好。這時候你要把看了哪部電影,看完沒有,評價怎么樣悄悄的記下 來,上傳到后臺服務(wù)器。經(jīng)過長期的積累,這些數(shù)據(jù)將為你以后的精準(zhǔn)推薦奠定基礎(chǔ)。
有了上面的數(shù)據(jù)基礎(chǔ),我們就可以進(jìn)入正題了。推薦算法有不少,我們今天介紹一種最基本的叫做協(xié)同過濾算法。它的核心思想是物以類聚,人以群分。具體 可以分為基于用戶的協(xié)同過濾算法和基于物品的協(xié)同過濾算法。我一直覺得專業(yè)領(lǐng)域起這種高大上的名字,是用來過濾智商的,因?yàn)楹芏嗳丝吹竭@里就不打算往下看 了,哈哈。
先看第一種基于用戶的協(xié)同過濾??梢院唵卫斫鉃槲译m然不認(rèn)識你,但是我通過查看你的朋友圈都是些什么人,根據(jù)人以群分的道理,他們喜歡的很可能就是你喜歡的。
假設(shè)從歷史數(shù)據(jù)上來看,用戶A喜歡《捉妖記》、《大圣歸來》,用戶B喜歡《梔子花開》、《小時代》,用戶C喜歡《捉妖記》。那我們就可以簡單認(rèn)為 AC二人口味相似,可以歸到一個朋友圈里,C極有可能也喜歡A所喜歡的《大圣歸來》。這是最簡單的情況,實(shí)際上僅僅用喜不喜歡來評價感興趣程度是遠(yuǎn)遠(yuǎn)不夠 的,用戶不可能看完還填個調(diào)查表選擇yes or no,但是會通過一些其他行為比如影評、是否收藏來反應(yīng)他們的喜歡程度。機(jī)器只能理解量化的東西,所以在算法中,這些行為會轉(zhuǎn)化成相應(yīng)的分?jǐn)?shù)。比如完整看 完的,給3分;看完還給了正面評價的,給5分;看到一半就怒刪的,給負(fù)10分。這樣每個用戶都會有一個電影評分表,在計算兩個用戶相似度的時候,把這些數(shù) 據(jù)代入下面這種專門計算相似度的公式,就能得到二人口味的相似程度。
現(xiàn)在我們要給用戶D推薦電影,分別計算AD、BD、CD的相似度,找到跟D最相似的用戶,然后把他喜歡的,都推薦給D,就行了。(下面的公式叫做余弦相似度公式,通過計算n維空間中兩個向量的夾角余弦,來表示相似度,大家感受一下就好,感興趣的可以去問google。)
第二種是基于物品的協(xié)同過濾?;舅枷胧羌僭O(shè)甲乙是相似的物品,那么喜歡甲的人,很可能也喜歡乙。還是上面的例子,現(xiàn)在假設(shè)用戶E喜歡《梔子花開》 和《小時代》,那我們可以推導(dǎo)出,喜歡《梔子花開》的用戶(B和E)都喜歡《小時代》,那基本可以確定兩部電影是相似的,下回來個用戶F,他喜歡《梔子花 開》,那我順便就把《小時代》推薦給他,他可能比較容易接受。
大家可能要問,我的APP第一天上線,沒有這些所謂的用戶行為數(shù)據(jù)怎么推薦啊。這就是推薦算法面臨的冷啟動問題。這時候可以用基于內(nèi)容的算法了。你 可以事先把所有電影歸個類,戰(zhàn)爭片歸到一起,喜劇片歸到一起,動畫片歸到一起。用戶H看了一部喜劇片,你就把所有喜劇片推薦給他。顯而易見,這種算法簡單 粗暴,當(dāng)然命中率也最低。
真正的推薦系統(tǒng)會綜合運(yùn)用各種算法,加之機(jī)器學(xué)習(xí)和人工調(diào)優(yōu)的不斷改進(jìn),所以是非常復(fù)雜的。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03