
提起FM類APP,你都會想起哪些應(yīng)用程序?來自易觀智庫數(shù)據(jù)顯示,2014年3月電臺類應(yīng)用月度活躍人數(shù)最高的APP仍是考拉FM。上線不到一年的考拉FM,為何發(fā)展如此之猛?
與其他移動端電臺不同的是,考拉FM采用個性化推薦音頻流的播放邏輯,在用戶未進(jìn)行主動選擇的情況下依舊能夠收聽到心儀的節(jié)目。移動音頻娛樂與大數(shù)據(jù)挖掘的結(jié)合會是怎樣的爆發(fā)?幾天前,在中國電子學(xué)會主辦的“云計算大會”上,考拉FM的CTO崔義超發(fā)表主題演講,闡述考拉FM的數(shù)據(jù)挖掘和處理方法。小編在聽完崔義超的發(fā)言后趕腳很有價值,為了讓咱的粉絲們也能分享到這份干貨,小編放棄休息時間把速記文本整理成文。
大數(shù)據(jù)在數(shù)字娛樂行業(yè)應(yīng)用,音頻媒體特點(diǎn)分析
1、音頻伴隨性高于視頻、文字內(nèi)容:
崔義超:現(xiàn)在大家上網(wǎng)可以看圖文、視頻,為什么還要“聽”呢?因?yàn)椤奥牎庇衅洫?dú)特性,其目的是滿足用戶情感或資訊的需求,但最重要的一點(diǎn):“聽”是一種伴隨狀態(tài),即在做重要事情時的伴隨效應(yīng):比如開車時不能看視頻,工作學(xué)習(xí)時不能上網(wǎng)閱讀文章,唯獨(dú)音頻是可以在這些情況下進(jìn)行伴隨和消費(fèi)的媒介。
2、移動互聯(lián)網(wǎng)時代,音頻將成為主流
崔義超:2000年前后,已經(jīng)有先驅(qū)嘗試在互聯(lián)網(wǎng)上做音頻內(nèi)容,就是所謂的互聯(lián)網(wǎng)電臺,比如糖蒜廣播到現(xiàn)在已經(jīng)做了十來年,有上百萬的粉絲,但這些嘗試一直沒有形成網(wǎng)絡(luò)媒介的主流。隨著移動互聯(lián)網(wǎng)時代到來,手機(jī)的普及,以及今年開始的車聯(lián)網(wǎng)普及,使音頻與移動互聯(lián)網(wǎng)高度結(jié)合,聲音以一種新的形式重新呈現(xiàn)在大家面前,這就是我們現(xiàn)在做的考拉FM。另外還有電臺匯總類APP,比如蜻蜓FM,或點(diǎn)播聽書類APP等。
3、考拉FM是真正的移動電臺——源源不斷的音頻流
崔義超:考拉FM是一個什么樣的產(chǎn)品?我們把它叫做個性化的手機(jī)電臺。這是什么含義?首先我們是一個電臺。傳統(tǒng)電臺大家可能都聽過,電臺的特性是一個源源不斷的流,只要不手動停止,它就一直播下去;另外具有聲音不期而遇的特點(diǎn),聽眾可以突然聽到一段非常打動人心的聲音,而不像聽CD。我們做的手機(jī)電臺也想堅持這樣的特點(diǎn),給聽眾帶來不期而遇的驚喜和觸動。
考拉FM個性化大數(shù)據(jù)挖掘和處理
1、考拉FM定義的個性化
崔義超:什么是個性化?考拉FM將其定義為“每一個人聽到的都是自己愛聽的,或至少是我不討厭的?!边@叫個性化。為什么在手機(jī)電臺上需要個性化呢?音頻的特性是伴隨,試想一個場景:比如在家里做家務(wù)、做飯,用戶打開考拉FM丟到旁邊,讓它自動播放。這種狀態(tài)下,如果你聽到的不是你想聽的就需要操作,這就失去了伴隨的意義,所以只有你聽到是你愛聽的才會實(shí)現(xiàn)伴隨,丟到旁邊不用管。
2、音頻個性化體驗(yàn)重在專業(yè)編排,仿照傳統(tǒng)電臺
崔義超:音頻個性化推薦,不是考拉FM先提出來的,之前有很多先驅(qū)做這方面的事情。在互聯(lián)網(wǎng)或移動互聯(lián)網(wǎng)之前,傳統(tǒng)電臺是怎么做的?經(jīng)常聽電臺的人可能覺得傳統(tǒng)電臺做得很好,很直觀的感受,但為什么好聽,怎么樣做到好聽?聽眾可能說不出來。其實(shí)這就是編排,即通過專家把節(jié)目串成音頻流,這是一個經(jīng)驗(yàn)工種。比如一檔節(jié)目播幾分鐘的音樂,插一個主持人的幾句話,然后可能插播一段廣告,接著每個話題聊5分鐘、7分鐘……這些都是需要經(jīng)驗(yàn)的。我們希望比照傳統(tǒng)電臺聽起來不累,可以一直聽下去,達(dá)到伴隨的效果。
進(jìn)入互聯(lián)網(wǎng)時代,每個人聽到的內(nèi)容不一樣,不可能靠專家預(yù)先給每個人編排好節(jié)目。于是就需要算法,美國的PANDORA和豆瓣FM都做了嘗試。對考拉FM,與其他音頻APP最大的不同即是我們比照傳統(tǒng)電臺,通過獨(dú)特的算法編排把聲音串起來,努力讓音頻流達(dá)到既讓用戶想聽又好聽的效果,這就是音頻個性化推薦要做的事情。
3、分類、標(biāo)簽等輔助推薦
崔義超:在后臺內(nèi)容組織體系里,為了完成個性化推薦,傳統(tǒng)視頻網(wǎng)站都建立了媒資系統(tǒng),比如上傳、發(fā)布、版權(quán)、編解碼等,但在與個性化推薦有關(guān)的獨(dú)特地方,就需要更精確的內(nèi)容分類,這需要有專家經(jīng)驗(yàn)推薦,還有標(biāo)簽體系。像PANDORA,從2004年開始把每首歌打了400多個不同維度的標(biāo)簽。所以考拉FM要做到個性化推薦必須要有強(qiáng)大的標(biāo)簽體系,對不同維度進(jìn)行管理,建立規(guī)則體系。
4、建立用戶模型
崔義超:每個用戶的用戶行為非常多且復(fù)雜,對于考拉FM就有喜歡、不喜歡、跳過等等。我們了解用戶,可能要收集上傳很多用戶數(shù)據(jù),比如地域、收集時間,瀏覽路徑,收聽順序、時間,是否使用快進(jìn)、快退等,所有這些數(shù)據(jù)都是具體了解用戶對節(jié)目的需求或用戶的使用場景狀況的基礎(chǔ)。
上報以后,我們用什么方式把這些數(shù)據(jù)進(jìn)行存儲?大家都很熟悉大數(shù)據(jù)用Hadoop存日志,怎樣做到在線進(jìn)行推薦,這和存儲結(jié)構(gòu)相關(guān)。這些數(shù)據(jù)要能夠用來做推薦,數(shù)據(jù)清晰肯定也是很重要的。比如測試機(jī)打開以后24小時播放,每一個節(jié)目都不做操作,這種數(shù)據(jù)對實(shí)際分析來說應(yīng)該去掉,因?yàn)闆]有提供任何價值。還有同樣測試時,每個節(jié)目快速滑過,看到底能夠出現(xiàn)多少節(jié)目,下面是什么樣的,可能每個節(jié)目聽了都不到2秒鐘,這種數(shù)據(jù)在做預(yù)處理時刪掉。在拿到有效數(shù)據(jù)后,考拉FM會分析用戶行為特征,比如通過聚類,看用戶到底有哪些特征,比如聚成30多類用戶,有些用戶特征明顯,早上起來就聽新聞,放其他都滑過;還有用戶中午就喜歡聽音樂,放其他的都不喜歡聽,最終建立用戶模型。
5、興趣圖譜分析
崔義超:接下來做興趣分析。用興趣圖譜的分析,首先進(jìn)行用戶分析,建立興趣圖譜,針對每個用戶建立一個推薦節(jié)目的列表,也就是給他一個排序,我們有幾萬期節(jié)目可能分成幾百上千檔,每個用戶興趣點(diǎn)不同,如果他非常喜歡某節(jié)目,這檔節(jié)目的排名就靠前,有些不喜歡的節(jié)目排名就非常低,甚至通過一些過濾條件把不喜歡的節(jié)目排除掉,除了用數(shù)據(jù)做分析,我們也可以用到數(shù)據(jù)挖掘,同樣類型的用戶通過使用協(xié)同過濾、邏輯回歸、樸素貝葉斯等方法協(xié)助生成每一個用戶節(jié)目的排名。哪些用戶喜歡這個節(jié)目的小池子,就放到他的喜歡池里。
接著這些池子是不是按順序播放?如果這樣做,可能有些用戶喜歡,但每天都聽到的是固定的,其實(shí)聽起來并不好聽,這時候就要用到電臺獨(dú)特的編排。我們在做考拉FM初期,在不了解用戶時,考拉FM先做一個普世的人工電臺播法,比如先播昨天所有新聞掃描,然后放國內(nèi)新聞、國際新聞,但實(shí)際用戶操作以后,這個預(yù)先編排就不成立了;比如我放體育新聞,一個女生對新聞完全不感興趣,她聽到的新聞就會減少。這種情況下,我們怎么樣完成編排,就要說到一些規(guī)則,通過規(guī)則體系逐漸形成用算法代替人工,同時還要結(jié)合音頻獨(dú)特的時段分析,比如很多用戶早晨喜歡聽新聞,晚上女生可能會聽一些情感類的,當(dāng)然也有一些用戶喜歡聽鬼故事睡覺。
編排確定以后,再把用戶興趣圖譜結(jié)合起來,就知道了用戶某時段想聽情感類節(jié)目,這類節(jié)目可能有上百檔,再根據(jù)剛才的排名按順序給大家進(jìn)行推送。這是整個推薦的體系架構(gòu),但實(shí)際執(zhí)行中我們碰到很多技術(shù)上的難點(diǎn),比如存儲的體系,用戶數(shù)據(jù)是海量的,在收集了大概三四個月時間用戶數(shù)據(jù)就上了T,這些數(shù)據(jù)如果都參加實(shí)時計算,效率肯定非常低,所以我們怎么樣區(qū)分活躍用戶和冷用戶,用不同方式存起來就是個問題??祭璅M的解決方案是把不常用數(shù)據(jù)用文件存起來,有些則用其他手段存儲結(jié)構(gòu)性數(shù)據(jù),把不同存儲的數(shù)據(jù)抓過來進(jìn)行計算,同時計算效率。我們把內(nèi)容以及用戶數(shù)據(jù)結(jié)合起來,選擇參與計算的數(shù)據(jù)和離線數(shù)據(jù)。
考拉FM的大數(shù)據(jù)分析到底效果好不好?這不是憑空決定的,既然都用數(shù)據(jù)說話,就要有數(shù)據(jù)來評估效果??祭璅M是不是用收聽人數(shù)增長來考慮,這很難考量,因?yàn)槿藬?shù)有很多其他因素決定,比如推廣渠道、節(jié)假日因素等等。比如我做了一個算法改進(jìn)之后,用戶總收聽時長是否增加,或者完整收聽率,即每一個節(jié)目是否聽了,聽了90%,還是聽了85%,可以判斷這個算法到底是不是改進(jìn)了,或者是不是還有改進(jìn)的空間,這就是我們現(xiàn)在正在做的事情。
Q:對于考拉來說,用戶需要花多長時間進(jìn)行操作學(xué)習(xí)?
崔義超:這是好問題,對所有數(shù)據(jù)挖掘來說,訓(xùn)練時間都是很重要的。但我不能籠統(tǒng)回答,這個用戶只要使用了,可以說一直在訓(xùn)練,而且他的提升都是一直在改進(jìn)。比如完整收聽率,可能之前完全是收聽的專家編排的節(jié)目,這時候完整收聽率平均30%多,現(xiàn)在完整收聽率達(dá)到60%、70%,這是一個持續(xù)不斷改進(jìn)的過程。對于一個新用戶來說,你用到“訓(xùn)練”這個詞,有一個最大的問題其實(shí)不是訓(xùn)練,在用戶還沒有感受到你的個性化好處的時候,他可能不再使用了,所以預(yù)設(shè)的規(guī)則非常重要。我們會對大多數(shù)人進(jìn)行簡單的了解,然后給出預(yù)設(shè)電臺,這個電臺聽起來至少不討厭,然后才會參與到所謂的訓(xùn)練中。用戶使用時間越長,推送內(nèi)容越精確,我很難答需要多長時間,但如果用戶一周使用兩三次,基本上推送精確性就有明顯提升,使用時間越長,效果越好。
Q:作為一個新用戶,能否利用我的一些社交數(shù)據(jù),比如微博或豆瓣閱讀之類的個人信息來提供這樣的幫助?
崔義超:你這個問題非常好,這是我們?nèi)ツ暌恢痹谧龅氖虑?。先講我們的思路和你的問題非常接近,之前用戶進(jìn)來以后先不讓他收聽,希望用戶用微博登陸,如果用戶不用微博登陸我們有一個選項是“隨便聽聽”,為什么用微博登陸,因?yàn)槲覀冇幸惶壮墒斓耐ㄟ^微博數(shù)據(jù)分析方法,從而得出用戶興趣圖譜。但現(xiàn)在雖然還提供微博登陸入口,但不是強(qiáng)制登陸,因?yàn)閮牲c(diǎn):強(qiáng)制登陸提高了用戶使用門檻,導(dǎo)致部分用戶直接走掉了;第二和去年大環(huán)境有關(guān),當(dāng)時微博活躍度一直在下降,所以我們覺得微博這樣一個入口并不能提供很好的解決冷啟動的渠道,所以我們后來換用其他方式。你說的非常重要,我們非常希望能通過社交數(shù)據(jù)的引入來部分解決冷啟動的問題。
Q:我剛剛下載的考拉,因?yàn)槲乙郧坝闷渌?,如果偶爾誤操作,比如點(diǎn)紅心或垃圾筒會不會影響到數(shù)據(jù)分析?
崔義超:我們最重要參考指標(biāo)是從大量的數(shù)據(jù)來得出的用戶行為模型,這個模型肯定不是一兩次操作的數(shù)據(jù)得出的,但我們也會體現(xiàn)“快速反應(yīng)”的效果,如果用戶總是操作以后推送不給反饋,用戶也不會愿意。怎么樣解決兩者之間的矛盾?考拉FM總體上的推送是通過大量數(shù)據(jù)分析給出的,但用戶的實(shí)時操作我們亦會提供一些實(shí)時反饋,這不影響到總體數(shù)據(jù)分析,但會讓用戶感覺到操作是有反饋的。
Q:您剛剛說并不是所有數(shù)據(jù)都會參加實(shí)時的計算,大概是多少比例會參加?
崔義超:數(shù)據(jù)分成離線還是在線的,基本所有的在線數(shù)據(jù)都參加計算,實(shí)時的是按照音頻特性,比如新聞,只有最近兩天的新聞的數(shù)據(jù)才參加計算。從用戶屬性,我們最近一個月活躍的用戶才參與計算,用戶兩個月前下載了聽了幾次,大概一個半月沒來過,他的數(shù)據(jù)我們不參與計算,他再來了我們才參與計算。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03