
提起FM類APP,你都會(huì)想起哪些應(yīng)用程序?來自易觀智庫數(shù)據(jù)顯示,2014年3月電臺(tái)類應(yīng)用月度活躍人數(shù)最高的APP仍是考拉FM。上線不到一年的考拉FM,為何發(fā)展如此之猛?
與其他移動(dòng)端電臺(tái)不同的是,考拉FM采用個(gè)性化推薦音頻流的播放邏輯,在用戶未進(jìn)行主動(dòng)選擇的情況下依舊能夠收聽到心儀的節(jié)目。移動(dòng)音頻娛樂與大數(shù)據(jù)挖掘的結(jié)合會(huì)是怎樣的爆發(fā)?幾天前,在中國電子學(xué)會(huì)主辦的“云計(jì)算大會(huì)”上,考拉FM的CTO崔義超發(fā)表主題演講,闡述考拉FM的數(shù)據(jù)挖掘和處理方法。小編在聽完崔義超的發(fā)言后趕腳很有價(jià)值,為了讓咱的粉絲們也能分享到這份干貨,小編放棄休息時(shí)間把速記文本整理成文。
大數(shù)據(jù)在數(shù)字娛樂行業(yè)應(yīng)用,音頻媒體特點(diǎn)分析
1、音頻伴隨性高于視頻、文字內(nèi)容:
崔義超:現(xiàn)在大家上網(wǎng)可以看圖文、視頻,為什么還要“聽”呢?因?yàn)椤奥牎庇衅洫?dú)特性,其目的是滿足用戶情感或資訊的需求,但最重要的一點(diǎn):“聽”是一種伴隨狀態(tài),即在做重要事情時(shí)的伴隨效應(yīng):比如開車時(shí)不能看視頻,工作學(xué)習(xí)時(shí)不能上網(wǎng)閱讀文章,唯獨(dú)音頻是可以在這些情況下進(jìn)行伴隨和消費(fèi)的媒介。
2、移動(dòng)互聯(lián)網(wǎng)時(shí)代,音頻將成為主流
崔義超:2000年前后,已經(jīng)有先驅(qū)嘗試在互聯(lián)網(wǎng)上做音頻內(nèi)容,就是所謂的互聯(lián)網(wǎng)電臺(tái),比如糖蒜廣播到現(xiàn)在已經(jīng)做了十來年,有上百萬的粉絲,但這些嘗試一直沒有形成網(wǎng)絡(luò)媒介的主流。隨著移動(dòng)互聯(lián)網(wǎng)時(shí)代到來,手機(jī)的普及,以及今年開始的車聯(lián)網(wǎng)普及,使音頻與移動(dòng)互聯(lián)網(wǎng)高度結(jié)合,聲音以一種新的形式重新呈現(xiàn)在大家面前,這就是我們現(xiàn)在做的考拉FM。另外還有電臺(tái)匯總類APP,比如蜻蜓FM,或點(diǎn)播聽書類APP等。
3、考拉FM是真正的移動(dòng)電臺(tái)——源源不斷的音頻流
崔義超:考拉FM是一個(gè)什么樣的產(chǎn)品?我們把它叫做個(gè)性化的手機(jī)電臺(tái)。這是什么含義?首先我們是一個(gè)電臺(tái)。傳統(tǒng)電臺(tái)大家可能都聽過,電臺(tái)的特性是一個(gè)源源不斷的流,只要不手動(dòng)停止,它就一直播下去;另外具有聲音不期而遇的特點(diǎn),聽眾可以突然聽到一段非常打動(dòng)人心的聲音,而不像聽CD。我們做的手機(jī)電臺(tái)也想堅(jiān)持這樣的特點(diǎn),給聽眾帶來不期而遇的驚喜和觸動(dòng)。
考拉FM個(gè)性化大數(shù)據(jù)挖掘和處理
1、考拉FM定義的個(gè)性化
崔義超:什么是個(gè)性化?考拉FM將其定義為“每一個(gè)人聽到的都是自己愛聽的,或至少是我不討厭的?!边@叫個(gè)性化。為什么在手機(jī)電臺(tái)上需要個(gè)性化呢?音頻的特性是伴隨,試想一個(gè)場(chǎng)景:比如在家里做家務(wù)、做飯,用戶打開考拉FM丟到旁邊,讓它自動(dòng)播放。這種狀態(tài)下,如果你聽到的不是你想聽的就需要操作,這就失去了伴隨的意義,所以只有你聽到是你愛聽的才會(huì)實(shí)現(xiàn)伴隨,丟到旁邊不用管。
2、音頻個(gè)性化體驗(yàn)重在專業(yè)編排,仿照傳統(tǒng)電臺(tái)
崔義超:音頻個(gè)性化推薦,不是考拉FM先提出來的,之前有很多先驅(qū)做這方面的事情。在互聯(lián)網(wǎng)或移動(dòng)互聯(lián)網(wǎng)之前,傳統(tǒng)電臺(tái)是怎么做的?經(jīng)常聽電臺(tái)的人可能覺得傳統(tǒng)電臺(tái)做得很好,很直觀的感受,但為什么好聽,怎么樣做到好聽?聽眾可能說不出來。其實(shí)這就是編排,即通過專家把節(jié)目串成音頻流,這是一個(gè)經(jīng)驗(yàn)工種。比如一檔節(jié)目播幾分鐘的音樂,插一個(gè)主持人的幾句話,然后可能插播一段廣告,接著每個(gè)話題聊5分鐘、7分鐘……這些都是需要經(jīng)驗(yàn)的。我們希望比照傳統(tǒng)電臺(tái)聽起來不累,可以一直聽下去,達(dá)到伴隨的效果。
進(jìn)入互聯(lián)網(wǎng)時(shí)代,每個(gè)人聽到的內(nèi)容不一樣,不可能靠專家預(yù)先給每個(gè)人編排好節(jié)目。于是就需要算法,美國的PANDORA和豆瓣FM都做了嘗試。對(duì)考拉FM,與其他音頻APP最大的不同即是我們比照傳統(tǒng)電臺(tái),通過獨(dú)特的算法編排把聲音串起來,努力讓音頻流達(dá)到既讓用戶想聽又好聽的效果,這就是音頻個(gè)性化推薦要做的事情。
3、分類、標(biāo)簽等輔助推薦
崔義超:在后臺(tái)內(nèi)容組織體系里,為了完成個(gè)性化推薦,傳統(tǒng)視頻網(wǎng)站都建立了媒資系統(tǒng),比如上傳、發(fā)布、版權(quán)、編解碼等,但在與個(gè)性化推薦有關(guān)的獨(dú)特地方,就需要更精確的內(nèi)容分類,這需要有專家經(jīng)驗(yàn)推薦,還有標(biāo)簽體系。像PANDORA,從2004年開始把每首歌打了400多個(gè)不同維度的標(biāo)簽。所以考拉FM要做到個(gè)性化推薦必須要有強(qiáng)大的標(biāo)簽體系,對(duì)不同維度進(jìn)行管理,建立規(guī)則體系。
4、建立用戶模型
崔義超:每個(gè)用戶的用戶行為非常多且復(fù)雜,對(duì)于考拉FM就有喜歡、不喜歡、跳過等等。我們了解用戶,可能要收集上傳很多用戶數(shù)據(jù),比如地域、收集時(shí)間,瀏覽路徑,收聽順序、時(shí)間,是否使用快進(jìn)、快退等,所有這些數(shù)據(jù)都是具體了解用戶對(duì)節(jié)目的需求或用戶的使用場(chǎng)景狀況的基礎(chǔ)。
上報(bào)以后,我們用什么方式把這些數(shù)據(jù)進(jìn)行存儲(chǔ)?大家都很熟悉大數(shù)據(jù)用Hadoop存日志,怎樣做到在線進(jìn)行推薦,這和存儲(chǔ)結(jié)構(gòu)相關(guān)。這些數(shù)據(jù)要能夠用來做推薦,數(shù)據(jù)清晰肯定也是很重要的。比如測(cè)試機(jī)打開以后24小時(shí)播放,每一個(gè)節(jié)目都不做操作,這種數(shù)據(jù)對(duì)實(shí)際分析來說應(yīng)該去掉,因?yàn)闆]有提供任何價(jià)值。還有同樣測(cè)試時(shí),每個(gè)節(jié)目快速滑過,看到底能夠出現(xiàn)多少節(jié)目,下面是什么樣的,可能每個(gè)節(jié)目聽了都不到2秒鐘,這種數(shù)據(jù)在做預(yù)處理時(shí)刪掉。在拿到有效數(shù)據(jù)后,考拉FM會(huì)分析用戶行為特征,比如通過聚類,看用戶到底有哪些特征,比如聚成30多類用戶,有些用戶特征明顯,早上起來就聽新聞,放其他都滑過;還有用戶中午就喜歡聽音樂,放其他的都不喜歡聽,最終建立用戶模型。
5、興趣圖譜分析
崔義超:接下來做興趣分析。用興趣圖譜的分析,首先進(jìn)行用戶分析,建立興趣圖譜,針對(duì)每個(gè)用戶建立一個(gè)推薦節(jié)目的列表,也就是給他一個(gè)排序,我們有幾萬期節(jié)目可能分成幾百上千檔,每個(gè)用戶興趣點(diǎn)不同,如果他非常喜歡某節(jié)目,這檔節(jié)目的排名就靠前,有些不喜歡的節(jié)目排名就非常低,甚至通過一些過濾條件把不喜歡的節(jié)目排除掉,除了用數(shù)據(jù)做分析,我們也可以用到數(shù)據(jù)挖掘,同樣類型的用戶通過使用協(xié)同過濾、邏輯回歸、樸素貝葉斯等方法協(xié)助生成每一個(gè)用戶節(jié)目的排名。哪些用戶喜歡這個(gè)節(jié)目的小池子,就放到他的喜歡池里。
接著這些池子是不是按順序播放?如果這樣做,可能有些用戶喜歡,但每天都聽到的是固定的,其實(shí)聽起來并不好聽,這時(shí)候就要用到電臺(tái)獨(dú)特的編排。我們?cè)谧隹祭璅M初期,在不了解用戶時(shí),考拉FM先做一個(gè)普世的人工電臺(tái)播法,比如先播昨天所有新聞掃描,然后放國內(nèi)新聞、國際新聞,但實(shí)際用戶操作以后,這個(gè)預(yù)先編排就不成立了;比如我放體育新聞,一個(gè)女生對(duì)新聞完全不感興趣,她聽到的新聞就會(huì)減少。這種情況下,我們?cè)趺礃油瓿删幣?,就要說到一些規(guī)則,通過規(guī)則體系逐漸形成用算法代替人工,同時(shí)還要結(jié)合音頻獨(dú)特的時(shí)段分析,比如很多用戶早晨喜歡聽新聞,晚上女生可能會(huì)聽一些情感類的,當(dāng)然也有一些用戶喜歡聽鬼故事睡覺。
編排確定以后,再把用戶興趣圖譜結(jié)合起來,就知道了用戶某時(shí)段想聽情感類節(jié)目,這類節(jié)目可能有上百檔,再根據(jù)剛才的排名按順序給大家進(jìn)行推送。這是整個(gè)推薦的體系架構(gòu),但實(shí)際執(zhí)行中我們碰到很多技術(shù)上的難點(diǎn),比如存儲(chǔ)的體系,用戶數(shù)據(jù)是海量的,在收集了大概三四個(gè)月時(shí)間用戶數(shù)據(jù)就上了T,這些數(shù)據(jù)如果都參加實(shí)時(shí)計(jì)算,效率肯定非常低,所以我們?cè)趺礃訁^(qū)分活躍用戶和冷用戶,用不同方式存起來就是個(gè)問題??祭璅M的解決方案是把不常用數(shù)據(jù)用文件存起來,有些則用其他手段存儲(chǔ)結(jié)構(gòu)性數(shù)據(jù),把不同存儲(chǔ)的數(shù)據(jù)抓過來進(jìn)行計(jì)算,同時(shí)計(jì)算效率。我們把內(nèi)容以及用戶數(shù)據(jù)結(jié)合起來,選擇參與計(jì)算的數(shù)據(jù)和離線數(shù)據(jù)。
考拉FM的大數(shù)據(jù)分析到底效果好不好?這不是憑空決定的,既然都用數(shù)據(jù)說話,就要有數(shù)據(jù)來評(píng)估效果??祭璅M是不是用收聽人數(shù)增長來考慮,這很難考量,因?yàn)槿藬?shù)有很多其他因素決定,比如推廣渠道、節(jié)假日因素等等。比如我做了一個(gè)算法改進(jìn)之后,用戶總收聽時(shí)長是否增加,或者完整收聽率,即每一個(gè)節(jié)目是否聽了,聽了90%,還是聽了85%,可以判斷這個(gè)算法到底是不是改進(jìn)了,或者是不是還有改進(jìn)的空間,這就是我們現(xiàn)在正在做的事情。
Q:對(duì)于考拉來說,用戶需要花多長時(shí)間進(jìn)行操作學(xué)習(xí)?
崔義超:這是好問題,對(duì)所有數(shù)據(jù)挖掘來說,訓(xùn)練時(shí)間都是很重要的。但我不能籠統(tǒng)回答,這個(gè)用戶只要使用了,可以說一直在訓(xùn)練,而且他的提升都是一直在改進(jìn)。比如完整收聽率,可能之前完全是收聽的專家編排的節(jié)目,這時(shí)候完整收聽率平均30%多,現(xiàn)在完整收聽率達(dá)到60%、70%,這是一個(gè)持續(xù)不斷改進(jìn)的過程。對(duì)于一個(gè)新用戶來說,你用到“訓(xùn)練”這個(gè)詞,有一個(gè)最大的問題其實(shí)不是訓(xùn)練,在用戶還沒有感受到你的個(gè)性化好處的時(shí)候,他可能不再使用了,所以預(yù)設(shè)的規(guī)則非常重要。我們會(huì)對(duì)大多數(shù)人進(jìn)行簡單的了解,然后給出預(yù)設(shè)電臺(tái),這個(gè)電臺(tái)聽起來至少不討厭,然后才會(huì)參與到所謂的訓(xùn)練中。用戶使用時(shí)間越長,推送內(nèi)容越精確,我很難答需要多長時(shí)間,但如果用戶一周使用兩三次,基本上推送精確性就有明顯提升,使用時(shí)間越長,效果越好。
Q:作為一個(gè)新用戶,能否利用我的一些社交數(shù)據(jù),比如微博或豆瓣閱讀之類的個(gè)人信息來提供這樣的幫助?
崔義超:你這個(gè)問題非常好,這是我們?nèi)ツ暌恢痹谧龅氖虑?。先講我們的思路和你的問題非常接近,之前用戶進(jìn)來以后先不讓他收聽,希望用戶用微博登陸,如果用戶不用微博登陸我們有一個(gè)選項(xiàng)是“隨便聽聽”,為什么用微博登陸,因?yàn)槲覀冇幸惶壮墒斓耐ㄟ^微博數(shù)據(jù)分析方法,從而得出用戶興趣圖譜。但現(xiàn)在雖然還提供微博登陸入口,但不是強(qiáng)制登陸,因?yàn)閮牲c(diǎn):強(qiáng)制登陸提高了用戶使用門檻,導(dǎo)致部分用戶直接走掉了;第二和去年大環(huán)境有關(guān),當(dāng)時(shí)微博活躍度一直在下降,所以我們覺得微博這樣一個(gè)入口并不能提供很好的解決冷啟動(dòng)的渠道,所以我們后來換用其他方式。你說的非常重要,我們非常希望能通過社交數(shù)據(jù)的引入來部分解決冷啟動(dòng)的問題。
Q:我剛剛下載的考拉,因?yàn)槲乙郧坝闷渌?,如果偶爾誤操作,比如點(diǎn)紅心或垃圾筒會(huì)不會(huì)影響到數(shù)據(jù)分析?
崔義超:我們最重要參考指標(biāo)是從大量的數(shù)據(jù)來得出的用戶行為模型,這個(gè)模型肯定不是一兩次操作的數(shù)據(jù)得出的,但我們也會(huì)體現(xiàn)“快速反應(yīng)”的效果,如果用戶總是操作以后推送不給反饋,用戶也不會(huì)愿意。怎么樣解決兩者之間的矛盾?考拉FM總體上的推送是通過大量數(shù)據(jù)分析給出的,但用戶的實(shí)時(shí)操作我們亦會(huì)提供一些實(shí)時(shí)反饋,這不影響到總體數(shù)據(jù)分析,但會(huì)讓用戶感覺到操作是有反饋的。
Q:您剛剛說并不是所有數(shù)據(jù)都會(huì)參加實(shí)時(shí)的計(jì)算,大概是多少比例會(huì)參加?
崔義超:數(shù)據(jù)分成離線還是在線的,基本所有的在線數(shù)據(jù)都參加計(jì)算,實(shí)時(shí)的是按照音頻特性,比如新聞,只有最近兩天的新聞的數(shù)據(jù)才參加計(jì)算。從用戶屬性,我們最近一個(gè)月活躍的用戶才參與計(jì)算,用戶兩個(gè)月前下載了聽了幾次,大概一個(gè)半月沒來過,他的數(shù)據(jù)我們不參與計(jì)算,他再來了我們才參與計(jì)算。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10