
在大數(shù)據(jù)概念下,美國(guó)視頻網(wǎng)站Netflix豪賭1億美元制作的連續(xù)劇《紙牌屋》迅速走紅。這讓國(guó)內(nèi)視頻網(wǎng)站蠢蠢欲動(dòng)。
數(shù)據(jù)的力量能否指導(dǎo)他們自制劇的拍攝?
愛(ài)奇藝數(shù)據(jù)研究院院長(zhǎng)葛承志告訴記者,愛(ài)奇藝目前正在籌拍三部網(wǎng)絡(luò)劇,而選擇這三個(gè)熱門的網(wǎng)絡(luò)小說(shuō)題材,統(tǒng)統(tǒng)是基于大數(shù)據(jù)分析。
在此基礎(chǔ)上,愛(ài)奇藝每天會(huì)收集網(wǎng)站上產(chǎn)生的用戶行為:包括用戶會(huì)在哪里暫停、回放、快進(jìn)等,如果大量觀眾都在某一個(gè)節(jié)點(diǎn)做了快進(jìn)或者回放的動(dòng)作,愛(ài)奇藝就能判斷用戶喜歡或討厭的橋段,并以此指導(dǎo)自制劇的生產(chǎn)。
此外,愛(ài)奇藝還會(huì)搜集用戶在網(wǎng)站上的收視行為,根據(jù)這些行為將用戶進(jìn)行分類和畫(huà)像,并據(jù)此進(jìn)行針對(duì)性的廣告投放。
即便如此,葛承志坦言,網(wǎng)絡(luò)劇的成功與題材本身、劇本以及精良的制作分不開(kāi),不能過(guò)度夸大數(shù)據(jù)所產(chǎn)生的影響力。況且在實(shí)際操作中,國(guó)內(nèi)視頻網(wǎng)站的主要盈利模式還是廣告,用戶的付費(fèi)習(xí)慣尚未養(yǎng)成,這就意味著很難完全讓用戶去決定影視劇的演員、導(dǎo)演、劇本。另一廂,大數(shù)據(jù)的挖掘、建模和分析門檻,依然很高。
大數(shù)據(jù)的兩個(gè)維度
《21世紀(jì)》:眼下,大數(shù)據(jù)是個(gè)非?;馃岬母拍?。愛(ài)奇藝在大數(shù)據(jù)方面目前有哪些研究與進(jìn)展?
葛承志:愛(ài)奇藝對(duì)于大數(shù)據(jù)的研究主要是兩方面。
一是大數(shù)據(jù)的內(nèi)容如何為用戶服務(wù)。對(duì)用戶來(lái)講,我們的終極目標(biāo)是讓用戶看到他想看的,而不必從一堆內(nèi)容挑選他想看的。我們通過(guò)對(duì)個(gè)人的收視習(xí)慣的分析,智能推薦他所感興趣的內(nèi)容。
此外,大數(shù)據(jù)也在為內(nèi)容生產(chǎn)提供一些幫助,傳統(tǒng)影視在制作的時(shí)候,更多關(guān)注的是大的題材本身和劇本本身的撰寫,包括導(dǎo)演、演員的使用。到了互聯(lián)網(wǎng)的時(shí)代,我們甚至可以用其中的一個(gè)情節(jié)或綜藝節(jié)目的一個(gè)橋段來(lái)進(jìn)行分析,用戶對(duì)該情節(jié)的觀看量是高還是低,從而得出用戶的喜好,來(lái)指導(dǎo)更細(xì)的一些操作。
除了用戶的緯度,大數(shù)據(jù)的另一個(gè)緯度是如何服務(wù)廣告主,即幫助廣告客戶找到適合的受眾人群,或找到他的消費(fèi)者及他的潛在消費(fèi)者,甚至幫助客戶找到他競(jìng)爭(zhēng)對(duì)手的消費(fèi)者,并對(duì)消費(fèi)者進(jìn)行營(yíng)銷。比如,通過(guò)和百度的合作,我們能夠獲知觀看視頻的用戶過(guò)去都在百度上搜索過(guò)哪些內(nèi)容,從而在次基礎(chǔ)上進(jìn)行廣告推送。
《21世紀(jì)》:眾所周知,Netfilx推出的《紙牌屋》是大數(shù)據(jù)運(yùn)用在視頻網(wǎng)站上的一個(gè)成功典型。那么在自制劇大熱的當(dāng)下,愛(ài)奇藝是否也通過(guò)大數(shù)據(jù)分析來(lái)指導(dǎo)自制劇的題材?
葛承志:對(duì)于《紙牌屋》這部劇,Netflix之所以把它包裝成一個(gè)大數(shù)據(jù)成功的典范,核心目的是Netflix需要把自己和傳統(tǒng)的影視劇制作公司,如HBO等區(qū)別開(kāi)來(lái)。
他需要宣傳出自己的特色,這個(gè)特色就是互聯(lián)網(wǎng)大數(shù)據(jù)的特色。
其實(shí)仔細(xì)分析一下,這部劇最引人入勝的地方應(yīng)該還是這個(gè)題材本身和劇本。某種程度上,《紙牌屋》的成功是題材和編劇的成功,與大數(shù)據(jù)、導(dǎo)演、演員等關(guān)系不是特別密切,因此,我們應(yīng)該客觀看待《紙牌屋》的成功和大數(shù)據(jù)在影視創(chuàng)作中所起的作用。
當(dāng)然,大數(shù)據(jù)確實(shí)能幫助我們來(lái)分析什么樣的題材是用戶關(guān)注的,感興趣的。愛(ài)奇藝本身也用大數(shù)據(jù)來(lái)挖掘題材。我們現(xiàn)在已經(jīng)開(kāi)機(jī)拍攝的三部網(wǎng)絡(luò)劇,實(shí)際上就是基于互聯(lián)網(wǎng)的數(shù)據(jù)分析。這三部作品來(lái)自國(guó)內(nèi)知名的網(wǎng)絡(luò)小說(shuō),不管線上的閱讀還是線下的銷量,這三部小說(shuō)都是關(guān)注度非常高的。在這個(gè)基礎(chǔ)上,我們果斷地購(gòu)買了版權(quán),將其轉(zhuǎn)化為電視劇搬上熒幕。此外,哪些演員具有比較好的口碑,演員和電視劇題材間關(guān)聯(lián)度,都需要我們利用大數(shù)據(jù)進(jìn)行分析。
《21世紀(jì)》:在影視劇或綜藝節(jié)目的采購(gòu)方面,愛(ài)奇藝是如何進(jìn)行數(shù)據(jù)分析?
葛承志:在影視劇采購(gòu)方面,我們背后有一套大數(shù)據(jù)的分析流程。通過(guò)對(duì)以往類似的題材、類似的編劇、類似的導(dǎo)演、類似的演員所演出的劇,在愛(ài)奇藝上的播放量,我們來(lái)推測(cè)即將采購(gòu)的電視劇在未來(lái)可能產(chǎn)生播放成績(jī),從而評(píng)估這個(gè)劇是否值得購(gòu)買。
很多影視劇在發(fā)售的時(shí)候,其實(shí)還沒(méi)有拍完,甚至一些比較熱門的劇還沒(méi)有開(kāi)拍,只有一個(gè)劇本的時(shí)候就開(kāi)始賣。作為視頻網(wǎng)站,我們肯定要有一個(gè)相對(duì)準(zhǔn)確的分析和預(yù)測(cè),從這個(gè)角度講,我們的歷史數(shù)據(jù)能幫很大的忙。
用戶畫(huà)像的價(jià)值
《21世紀(jì)》:在廣告推送方面,你們是怎么樣通過(guò)數(shù)據(jù)分析來(lái)進(jìn)行人群的定位和畫(huà)像的?
葛承志:在廣告推送上,我們近兩年開(kāi)發(fā)了不少產(chǎn)品。舉一個(gè)簡(jiǎn)單例子,如果你最近一個(gè)月在百度上搜過(guò)寶馬汽車,當(dāng)你來(lái)到愛(ài)奇藝看任何一個(gè)內(nèi)容的時(shí)候,我都知道你曾經(jīng)搜索過(guò)寶馬汽車,我就可以給你投放寶馬的廣告,當(dāng)然也可以投放奔馳的廣告。這就是一搜百映這個(gè)產(chǎn)品的核心價(jià)值。
我們今年還開(kāi)發(fā)出了一款叫做追星族的產(chǎn)品,眾所周知,很多明星都有自己的粉絲群,比如說(shuō)鄧超的粉絲會(huì)看鄧超相關(guān)的廣告,也會(huì)看鄧超的電視劇和電影,甚至可能還會(huì)看和鄧超相關(guān)的綜藝節(jié)目。當(dāng)我們捕捉到用戶有這樣多重收看的行為,我們就會(huì)把他定義為鄧超的粉絲。緊接著,我們就會(huì)向他投放由鄧超代言的廣告。
總體來(lái)說(shuō),用戶的信息分為兩大類,一是用戶的自然數(shù)據(jù),比如性別、年齡、地區(qū)等;另一類是他在互聯(lián)網(wǎng)上的行為數(shù)據(jù),包括他的搜索行為、收視行為等。我們認(rèn)為用戶的行為數(shù)據(jù)比他的自然數(shù)據(jù)更加重要。
《21世紀(jì)》:那么,愛(ài)奇藝目前把用戶分為幾大類,或是為用戶貼了多少種標(biāo)簽?zāi)?
葛承志:標(biāo)簽肯定會(huì)有幾百個(gè),因?yàn)檫@其中有不同的層面。比如說(shuō),我們根據(jù)百度的搜索數(shù)據(jù),可以給他打上他喜歡不同種類的消費(fèi)品的標(biāo)簽。比如這個(gè)人喜歡汽車,那個(gè)人喜歡保健養(yǎng)生,另外一個(gè)人喜歡美麗護(hù)膚等,這是按照他的興趣和關(guān)注的領(lǐng)域來(lái)貼的一種標(biāo)簽,這樣的標(biāo)簽可能有幾十個(gè),甚至上百個(gè)。
另一種標(biāo)簽是關(guān)于用戶喜歡看何種類型的影視劇。有的用戶喜歡槍戰(zhàn)類的題材,有的用戶喜歡美劇,還有用戶喜歡愛(ài)情片等等。這個(gè)系列的標(biāo)簽可能又有幾十個(gè)。
除此之外,還有和用戶追星相關(guān)的標(biāo)簽,比如這個(gè)人喜歡鄧超,那個(gè)人喜歡孫紅雷。這些標(biāo)簽被分為不同的維度,每個(gè)維度下都有幾十個(gè)甚至上百個(gè)標(biāo)簽。一些用戶同時(shí)可以貼五六種標(biāo)簽,也就是說(shuō),他其實(shí)適合五六種不同類型的廣告。
《21世紀(jì)》:在用戶分類的基礎(chǔ)上,廣告主一般會(huì)如何選擇受眾進(jìn)行投放呢?
葛承志:通常來(lái)說(shuō),如果是美容日化、食品飲料等大眾消費(fèi)品行業(yè),廣告主不會(huì)只挑一類用戶,而是會(huì)挑好幾類標(biāo)簽的用戶。但如果你是一個(gè)高端品牌,或是針對(duì)特定人群的產(chǎn)品品牌,比如你是賣服務(wù)器的,那么你的受眾對(duì)象肯定不是普通老百姓。能夠有服務(wù)器采購(gòu)需求的,可能也就那么幾萬(wàn)人,幾十萬(wàn)人。這時(shí),廣告主需要把幾類標(biāo)簽疊加,找出重合部分的人,這些用戶會(huì)很有價(jià)值。因此,如何投放廣告和品牌所處的行業(yè)及他的受眾范圍有著密切關(guān)系。
優(yōu)酷投奔阿里的大數(shù)據(jù)視角
《21世紀(jì)》:愛(ài)奇藝目前的大數(shù)據(jù)分析方式,你覺(jué)得準(zhǔn)確率高嗎?
葛承志:這個(gè)不能一概而論。舉個(gè)例子,就節(jié)目采購(gòu)而言,通過(guò)歷史的流量數(shù)據(jù)來(lái)推斷國(guó)內(nèi)電視劇的熱度,目前的準(zhǔn)確率大概可以達(dá)到80%以上。這一塊數(shù)據(jù)分析的規(guī)律性還是比較強(qiáng)的,因此準(zhǔn)確度比較高。
對(duì)于一些海外劇,我們更多會(huì)看它在海外的播出情況,主要是收視率和它在海外社交媒體上傳播的狀況。通過(guò)海外播出情況能夠預(yù)測(cè)在國(guó)內(nèi)的播出情況,但因?yàn)楦鞯貐^(qū)文化不太一樣,也有30%的可能會(huì)有意外。像我們今年年初播出的《來(lái)自星星的你》這部韓劇,它在韓國(guó)播出的熱度遠(yuǎn)遠(yuǎn)沒(méi)有在國(guó)內(nèi)高。
綜藝節(jié)目的情況和電視劇還不太一樣。由于這些年綜藝節(jié)目不斷推陳出新,熱點(diǎn)切換得非???。前兩年火的是歌唱選秀類的節(jié)目,去年開(kāi)始又是親子類的節(jié)目,今年又成了明星真人秀類的節(jié)目。這種新的題材更加考驗(yàn)我們對(duì)于數(shù)據(jù)系統(tǒng)的分析,因?yàn)檫@些題材沒(méi)出現(xiàn)過(guò),沒(méi)有歷史數(shù)據(jù)積累,分析這方面就有一定難度。我們也會(huì)參考類似的節(jié)目在海外的播出情況,來(lái)進(jìn)行預(yù)測(cè)。這方面我們還在不斷積累經(jīng)驗(yàn)。
《21世紀(jì)》:你認(rèn)為,在大數(shù)據(jù)的挖掘和運(yùn)用方面,視頻網(wǎng)站面臨的主要挑戰(zhàn)是什么?
葛承志:目前比較大的挑戰(zhàn)是,視頻網(wǎng)站所能覆蓋的用戶行為,相對(duì)還是在一個(gè)有限的范圍內(nèi)?;蛘哒f(shuō),視頻網(wǎng)站主要覆蓋的是用戶的休閑時(shí)光。那么用戶在非休閑娛樂(lè)的時(shí)候,他在工作中、購(gòu)物中的時(shí)候,他的興趣愛(ài)好、消費(fèi)習(xí)慣,作為一個(gè)視頻網(wǎng)站是無(wú)法獲取的。
這也是為什么愛(ài)奇藝是百度的子公司,而阿里入股了優(yōu)酷。
你會(huì)發(fā)現(xiàn)這些視頻網(wǎng)站,多多少少和BAT有關(guān)。因?yàn)閺囊曨l網(wǎng)站本身的角度,我們也需要更多層面的用戶數(shù)據(jù)。換言之,大數(shù)據(jù)的核心目的是描繪用戶,我們?cè)诿枥L一個(gè)人的時(shí)候你不能只對(duì)他的一個(gè)方面了解透徹,你必須在各個(gè)方面都對(duì)他有所了解。這是視頻網(wǎng)站在大數(shù)據(jù)方面的一個(gè)挑戰(zhàn),目前大家都在著力去解決這個(gè)問(wèn)題。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10