
社交網(wǎng)絡數(shù)據(jù)分析與應用
根據(jù)最近的一份調(diào)查數(shù)據(jù)顯示,美國互聯(lián)網(wǎng)媒體的市值已達10890億美元,是傳統(tǒng)媒體的3倍,類似的在中國,根據(jù)艾瑞咨詢發(fā)布的2014年第二季度網(wǎng)絡經(jīng)濟核心數(shù)據(jù)顯示,截止2014年6月30日,中國主要上市互聯(lián)網(wǎng)公司市值前五的為騰訊(1405.6億美元)、百度(654.5億美元)、京東(389.7億美元)、奇虎360(120.9億美元)、唯品會(111.9億美元)。與此同時,以Facebook,Twitter,微博,微信等為代表的社交網(wǎng)絡應用正蓬勃發(fā)展,開啟了互聯(lián)網(wǎng)時代的社交概念。據(jù)全球最大的社會化媒體傳播咨詢公司W(wǎng)e Are Very Social Limited分析指出,目前社交類軟件使用的人數(shù)已達25億——占世界總人數(shù)約的35%,另據(jù)艾瑞咨詢發(fā)布的2014年第二季度社區(qū)交友數(shù)據(jù)顯示,2014年5月,社區(qū)交友類服務月度覆蓋人數(shù)達到4.7億,在總體網(wǎng)民中滲透率為92.5%;2014年5月社交服務在移動App端月度覆蓋人數(shù)為1.9億人,其中微博服務在移動端優(yōu)勢較為明顯,月度覆蓋人數(shù)達到1.1億人;互聯(lián)網(wǎng)媒體和社交網(wǎng)絡是Web2.0時代兩個非常重要的應用,那么一個自然的問題是這兩個領域將會如何互動發(fā)展?本報告主要從數(shù)據(jù)分析(非財務、非戰(zhàn)略)的角度嘗試探討網(wǎng)絡結構會給互聯(lián)網(wǎng)媒體帶來什么樣的機遇和挑戰(zhàn)。具體而言,我們根據(jù)自己的研究經(jīng)驗只關注以下幾個方面:新聞、影音和搜索,根據(jù)艾瑞咨詢發(fā)布的2013網(wǎng)絡經(jīng)濟核心數(shù)據(jù)顯示,這三部分的收入占到中國市值TOP20互聯(lián)網(wǎng)企業(yè)總市值的32.16%,其重要性不可忽視。我們通過具體的案例并結合理論前沿做探索性的研討。
一、音樂推薦
根據(jù)《2013中國網(wǎng)絡音樂市場年度報告》顯示,2013年底,我國網(wǎng)絡音樂用戶規(guī)模達到4.5億。其中,手機音樂用戶人數(shù)由2012年的0.96億增長到2013年的2.91億,年增長率達203%。從網(wǎng)絡音樂用戶規(guī)模的飛躍式增長可以看到音樂流媒體服務蘊含著巨大的商機。在國外,科技巨頭爭奪音樂市場的野心也初露端倪,今年年初,蘋果斥資30億美元買下Beats Electronics,而谷歌也隨后收購了流媒體音樂服務提供商Songza。
音樂產(chǎn)業(yè)在新媒體時代占據(jù)重要地位。本報告主要關注移動互聯(lián)網(wǎng)環(huán)境下在線音樂服務商(酷狗音樂、QQ音樂、天天動聽等)的發(fā)展現(xiàn)狀并且對當前的音樂個性化推薦提出我們的一些見解。
1.1 音樂推薦與社交網(wǎng)絡
根據(jù)國內(nèi)知名研究機構CNIT-Research 8月份發(fā)布的《2014年第二季度中國手機音樂APP市場報告》的數(shù)據(jù)顯示,排名前三的手機音樂App為酷狗音樂、QQ音樂、天天動聽。他們所占的市場份額分別為:20.1%,17.0%以及15.8%。
酷狗音樂 QQ音樂 天天動聽
其中,酷狗音樂和天天動聽憑借在在線音樂領域長期積累的用戶資源、高品質(zhì)音質(zhì)、卓越的UI界面以及完美的下載體驗取勝。而QQ音樂主要依附強大的社交工具QQ應運而生,可謂是“社交音樂”領域的先驅者。從2014年第二季度手機音樂數(shù)據(jù)來看,QQ音樂增勢迅猛,連續(xù)三個月用戶下載量增速均超過行業(yè)增速水平,而酷狗音樂、天天動聽均增速低于市場行業(yè)增速,用戶市場份額有所下降。
根據(jù)速途研究院對手機音樂用戶愿景的調(diào)查顯示,有58%的用戶希望增強個性化音樂推薦的功能,這說明有很多用戶在收聽音樂時其實并不清楚自己喜歡什么類型的歌曲,如果音樂電臺能根據(jù)用戶的個人喜好“猜出”用戶喜歡什么歌曲并為其進行推薦,那將會給用戶帶來意想不到的完美體驗。目前的很多音樂軟件都支持推薦這一功能。以下是音樂App市場中常見的音樂產(chǎn)品的個性化推薦以及定制方式:
酷狗音樂 QQ音樂 天天動聽
根據(jù)研究,推薦模式主要分為以下幾種:(1) 熱點推薦,可以根據(jù)大眾的搜索記錄,通過排行榜的形式得到,也可以根據(jù)近期發(fā)生的音樂娛樂事件推薦,如中國好聲音、我是歌手等;(2)根據(jù)用戶的聽歌記錄推薦,包括用戶對每首歌的喜惡記錄;(3)根據(jù)地理位置信息結合用戶興趣進行推薦;(4)根據(jù)用戶喜歡的歌手信息進行推薦。但是,以上這些推薦模式都沒有能夠充分利用社交網(wǎng)絡的信息。在社交網(wǎng)絡風靡全球的時代,有越來越多的音樂服務商發(fā)現(xiàn),社交網(wǎng)絡可以幫助商家留住更多的用戶,同時,充分利用社交網(wǎng)絡信息將帶來更加卓越完美的用戶體驗。可以看到,酷狗音樂和天天動聽都允許用戶使用第三方賬戶(微博、QQ)進行綁定登錄,并提供分享到微博、微信等選項;QQ音樂特設了“動態(tài)”專欄,用于顯示好友分享的音樂。另外,酷狗和QQ音樂都可以通過定位的方式推薦附近的志趣相投的好友。
酷狗音樂 QQ音樂 天天動聽
上述事實說明,社交音樂存在巨大的潛力和價值。那么,這一方面有無突出的企業(yè)呢?其中英國的Last.fm和中國的QQ音樂可以算得上是這方面的一個代表。
Last.fm QQ音樂
Last.fm是 Audioscrobbler 音樂引擎設計團隊的旗艦產(chǎn)品,有遍布232個國家超過1500萬的活躍聽眾。2007年被CBS Interactive以2.8億美元價格收購,目前,Last.fm是全球最大的社交音樂平臺。QQ音樂是中國互聯(lián)網(wǎng)領域領先的網(wǎng)絡音樂平臺及正版數(shù)字音樂服務提供商,在中國手機音樂市場所占份額躋身四大巨頭(其他三個分別是酷狗、天天動聽、酷我),月活躍用戶已達到3億,是中國社交音樂領域的領軍人物。
以QQ音樂為例,我們詳細分析它在利用社交網(wǎng)絡信息進行個性化推薦的優(yōu)勢與可能存在的不足。QQ音樂依附強大的社交工具QQ而生,長期以來受到廣大用戶的喜愛,這與QQ背后的億萬級用戶是無法割離的,可以說,QQ音樂是有先天的社交優(yōu)勢的。用戶登錄QQ音樂后,可以看到動態(tài)欄中顯示的好友音樂動態(tài),同時,它還允許用戶綁定自己的微博賬號,把音樂分享給微博好友。不僅如此,QQ音樂允許用戶自己編輯生成歌單,并分享給好友,這起到了一定的自媒體的作用。在“明星部落”這一功能中,QQ音樂允許粉絲之間交流互動,并形成一定的社交規(guī)模。從上述總結中,我們已經(jīng)可以看到,QQ音樂已經(jīng)有意識的把社交信息融合到產(chǎn)品設計和運營中,以增加客戶粘性。但是從數(shù)據(jù)分析的基礎和推薦算法的構建上,是否真正做到有效利用社交網(wǎng)絡信息了呢?為此,使用QQ音樂于2012年全面更新升級的“猜你喜歡”功能,并發(fā)現(xiàn)了如下問題:當筆者沒有任何聽歌記錄時,這一模塊并不能為筆者推薦歌曲。根據(jù)提示內(nèi)容,目前該功能可能主要依靠用戶的歷史聽歌記錄進行推薦。同樣的問題出現(xiàn)在QQ音樂館的推薦欄中:大部分初始推薦音樂來源于當下熱門音樂歌曲,缺少個性化成分。
QQ音樂:猜你喜歡 QQ音樂館
以上事實說明音樂服務商在推薦算法上沒有充分利用社交網(wǎng)絡的信息。事實上,在獲得用戶個人綁定社交網(wǎng)絡賬號的基礎上,可以得到用戶的朋友關系,進一步可以獲得用戶好友的聽歌記錄,這些歌曲可以成為初始推薦曲目的備選項,將這些備選項通過一定規(guī)則(熱度、好友相似度)排序,可以用于音樂推薦;另外,眾所周知,社交網(wǎng)絡(如微博)是明星與粉絲互動的一個重要渠道,因此,可以重點提取用戶對于社交網(wǎng)絡中歌手以及音樂人的關注關系,以獲得對用戶偏好的推測。以上這些過程可以用下圖表示。
可以看到,在以社交網(wǎng)絡綁定的音樂社區(qū)中,每個人并不是孤立的個體,而是通過好友關系,以及粉絲與明星的關注關系聯(lián)系起來。音樂活動的多元化為QQ音樂的推薦場景帶來了新的挑戰(zhàn)。我們認為存在以下幾個需要處理的問題:(1)如何高效利用好友的音樂信息對用戶進行推薦?用戶的好友眾多,每個好友會留下很多音樂記錄,這些信息綜合起來的話數(shù)量極其龐大,如何迅速整合朋友及其收聽記錄并按照優(yōu)先程度排序對用戶進行推薦是提高用戶體驗的前提條件。(2)如何整合多種信息渠道進行推薦?隨著時間的推進,一個音樂賬戶留下的信息是多元化的。例如,用戶主動搜索的音樂記錄、用戶對歷史收聽音樂記錄的反饋,用戶選擇的電臺種類、用戶自己總結生成的歌單、用戶對朋友分享音樂的反饋信息等。因此,如何對這些異質(zhì)的信息來源進行有效整合,或者,在資源有限的情況下,如何判斷和篩選出對于提高推薦精度最有效的指標是提高音樂推薦效果的關鍵法寶。(3)如何整合當前音樂潮流趨勢與用戶個人興趣基因?音樂是充滿了潮流和娛樂性的產(chǎn)業(yè),因此,用戶的音樂興趣不僅受其自身興趣基因驅使,也受到當前音樂流驅使的影響。因此,如何結合用戶個人興趣以及音樂潮流趨勢對用戶進行有效推薦,是對于音樂這一特殊娛樂行業(yè)的特別要求。綜上我們認為QQ音樂雖然是利用社交關系進行音樂推薦的先驅者,但是在利用網(wǎng)絡數(shù)據(jù)的層面上仍有很大的改進和提升空間。
1.2 基于社交網(wǎng)絡的音樂推薦
在此我們給出如何利用網(wǎng)絡數(shù)據(jù)對用戶進行推薦的技術思想。由于音樂推薦場景實體的多元化,我們將常見的推薦場景列舉如下:推薦歌曲、推薦歌單、推薦電臺、推薦歌手、推薦用戶。接下來,我們將從音樂分類與結構化、用戶信息整合、網(wǎng)絡結構應用三個步驟詳細闡述我們的觀點。
音樂結構化與歸一化
1.歌曲標簽化
首先,基于音樂的不同風格,我們需要對系統(tǒng)中存在的海量歌曲進行分類,通過打標簽的方式,使音頻信息通過文本的方式結構化。分類的方法多種多樣,標準各異,從幾個音樂主流網(wǎng)站的標簽組織形式看來,主要從客觀、主觀兩個角度進行分析。從客觀的角度講,音樂可以按照流派、地域、年代、演奏樂器等方式分類,如“流行”、“搖滾”、“鄉(xiāng)村音樂”、“90后”、“鋼琴曲”等等,且大類下面可以設小類,如“流行”下可以設置“華語流行”、“歐美流行”等小類;從主觀的角度講,音樂風格與聽歌時的心情、場景高度相關,如分為“甜蜜”、“安靜”、“治愈”、“酒吧”、“咖啡館”等等,這種標簽使得用戶在聽音樂時仿佛有一種身臨其境的感覺,帶來更高的視聽享受。除此之外,標簽也可以由用戶自己生成,如用戶的熱搜關鍵詞記錄、用戶自行備注標簽等。這在一定程度上正是利用自媒體的形式擴充標簽庫,使之更能反應用戶興趣。
2.歌手信息提取
除了可以將歌曲標簽化,我們還可以進一步的對歌手信息進行提取。比如根據(jù)地域我們可以把歌手分為大陸、港臺、歐美等,根據(jù)年代可以分為60后、70后、80后歌手,根據(jù)他們的曲風可以分為搖滾、抒情、朋克等。通過打標簽的形式把歌手進行分類,從而形成結構化的數(shù)據(jù)格式,方便以后快速清晰的定位用戶喜歡哪一類型的歌手。同樣的我們也可以對歌單、作詞者、作曲者進行標簽化處理,例如歌單的標簽可以模仿歌曲的形式,因為歌單是由歌曲組成,所以可以用歌曲的標簽來代表歌單的標簽。作詞者和作曲者的標簽可以參考歌手打標簽的方法,另外值得注意的是,由于音樂人之間形成合作、作曲、寫詞等合作關系,可以認為是一個社交網(wǎng)絡關系,常??梢砸姷降默F(xiàn)象是某些歌手與詞作者存在密切的合作關系,而這部分信息也可用于音樂的個性化推薦。例如,對于一些有特定合作的歌手和詞(曲)作者,我們應該特別留意,比如周杰倫和方文山這對組合。
3.歌詞的語義分析
歌曲的重要組成部分就是歌詞,由于歌詞屬于文本,我們不可能直接對其打標簽,所以首先要進行的是語義分析,通過語義分析我們可以大概知道歌詞的內(nèi)容,比如我們可以把歌詞切分成短語,然后對每一個短語進行歸納總結,可以判斷短語的情感極性(如積極還是消極),對短語進行主題分類,由于歌詞數(shù)目龐大,可以利用自然語言處理的方式,如主題模型等預先提取主題,再通過人工加以校正。這樣就可以對歌詞進行標簽化處理了。下面我們以歌曲為例,簡要的說明具體標簽化過程。
通過標簽的形式我們可以對每個歌曲的主題予以分類和描述。用于描述一支單曲的標簽數(shù)目越多,對于音樂主題的描述就更加清晰、明朗;但同時,冗余和重復的信息也可能越多,處理的難度就越大。因此,我們要對標簽進行排序和篩選,一個比較簡單高效的辦法是選擇最熱門的N個標簽作為我們的目標詞庫,并且對該詞庫定期進行更新。具體來說,我們將所有標簽按照重要程度由高到低進行排序,選擇前p個標簽作為我們的標簽集合。給定一首歌曲t,我們用一個超高維向量Xt=(Xt1,…,Xtp)∈?p表示它的標簽信息,其中Xtj=1表示該歌曲含有第j個標簽,否則,該歌曲不含有第j個標簽。例如對于一首鋼琴曲演奏的純音樂,對其打的標簽可能是:鋼琴曲、安靜、咖啡館等。設鋼琴曲、安靜、咖啡館分別對應于標號為1、3、5的標簽,那么向量Xt可以表示為Xt=(1,0,1,0,1,0,…0) 。通過以上步驟,我們就可以把看似雜亂的音樂風格通過打標簽的形式進行結構化,用一個只含0、1元素的超高維向量對每首歌曲進行分類。
對于歌單、電臺這些由歌曲集合而成的實體,我們也可以通過標簽的方式對其進行刻畫。例如,對于給定的一個歌單m,我們同樣用一個超高維向量
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10