為什么百度大數(shù)據(jù)難預(yù)測《黃金時代》票房失靈?
截止到10月16日,《黃金時代》的累計票房為4698萬(已上映16天),如此成績對于片方、媒體和公眾而言都是出乎意料,畢竟?jié)M滿的七天國慶黃金檔是一個日產(chǎn)斗金的高產(chǎn)值檔期,無論是湯唯還是馮紹峰都已是炙手可熱的有極高票房號召力的大明星(《北京遇上西雅圖》《后會無期》票房均超過5億),此役失利堪稱冷門。
但最令人啞然的恐怕還是影片上映前百度為其背書的票房
預(yù)測,當(dāng)時很多媒體還認(rèn)為百度的預(yù)測太過保守。在百度百發(fā)的新聞發(fā)布會上,當(dāng)宣布預(yù)測票房為2.0~2.3億后,全場只有安靜,畢竟對于這個為期七天的黃金檔期對于擁有湯唯和馮紹峰的電影而言,只預(yù)計這個數(shù)字略顯保守了——但如此謹(jǐn)慎的預(yù)測,在今天看來竟顯得過于“樂觀”.
其實百度很早就開始研究并在內(nèi)部測試票房預(yù)測了,在今年7月18日愛奇藝影業(yè)宣布成立的新聞發(fā)布會上,愛奇藝首席內(nèi)容官馬東就曾透露,目前在愛奇藝內(nèi)部,基于百度大數(shù)據(jù)的票房預(yù)測已經(jīng)能夠做到80%以上的準(zhǔn)確率,未來將會在適當(dāng)?shù)臅r候?qū)ν獍l(fā)布票房預(yù)測。顯然,針對《黃金時代》的百度百發(fā)(娛樂眾籌產(chǎn)品)發(fā)布就成為了百度票房預(yù)測發(fā)布的適當(dāng)時候,但只可惜出師未捷。
為什么中國最有能力做大數(shù)據(jù)預(yù)測的百度,竟會“意外”馬失前蹄?虎嗅君為此采訪了愛夢娛樂大數(shù)據(jù)創(chuàng)始人雷鳴、樂視影業(yè)數(shù)據(jù)及策略中心總監(jiān)凌毅、凡影調(diào)研客戶總監(jiān)王舒及搜狗搜索事業(yè)部。
(虎嗅注:搜狗搜索事業(yè)部——“深思”是搜狗搜索正在嘗試做的一個社會化預(yù)測系統(tǒng),據(jù)搜狗方面介紹,命名為“深思”,是希望在不同領(lǐng)域進(jìn)行趨勢預(yù)測,通過這個綜合系統(tǒng)來發(fā)現(xiàn)隱藏在大數(shù)據(jù)背后的奧秘,而電影票房這一方向的預(yù)測是“深思”最先進(jìn)行探索的領(lǐng)域。)
歷史沉淀數(shù)據(jù)嚴(yán)重不足
雷鳴和王舒都認(rèn)為,在國內(nèi)做電影票房預(yù)測存在一個根本性的“疏漏”,就是中國電影市場的歷史數(shù)據(jù)沉淀嚴(yán)重不足。我國有詳細(xì)、清楚和準(zhǔn)確的票房記錄是從2012年開始。
當(dāng)年2月,全國電影票務(wù)綜合信息系統(tǒng)(簡稱新平臺)上線。該平臺共規(guī)劃了信息速遞、行業(yè)組織管理、影院管理、影片管理、票房數(shù)據(jù)接收、放映數(shù)據(jù)接收、監(jiān)控管理、專資收繳管理、專資使用管理、查詢統(tǒng)計、分析預(yù)測、GIS綜合展示、安全認(rèn)證、系統(tǒng)管理、SSL應(yīng)用共15個模塊,77項功能。從技術(shù)上才實現(xiàn)了能夠準(zhǔn)確統(tǒng)計全國的票房、場次、排片等影院端生成的數(shù)據(jù)。
在此之前,除了年底由國家電影專資辦統(tǒng)計出具的權(quán)威票房數(shù)據(jù)外,其他每周、每月票房的數(shù)據(jù)多是由專業(yè)人士根據(jù)抽樣樣本的統(tǒng)計進(jìn)行的估算。
雷鳴和王舒都提到了,好萊塢從1930年代前后即開始進(jìn)行票房數(shù)據(jù)的調(diào)查、統(tǒng)計和披露?;⑿峋榈娇赡苁呛萌R塢最早的票房數(shù)據(jù)調(diào)研公司之一的QUIGLEY出版公司(QUIGLEY PUBLISHING COMPANY, INC.),該公司創(chuàng)立于1915年。根據(jù)其官網(wǎng)介紹,該公司每年向公眾出版《全球電影票房年鑒》( Internationl Motion Picture Almanac),年鑒內(nèi)包含電影公司的信息、當(dāng)年出品電影片目、票房統(tǒng)計數(shù)字、獲獎情況等電影行業(yè)的制片、發(fā)行及放映方面的統(tǒng)計資料。
由于包括QUIGLEY公司在內(nèi)的第三方調(diào)研公司經(jīng)年累月的數(shù)據(jù)統(tǒng)計,好萊塢能夠在近百年的時間里積累了大量的歷史統(tǒng)計數(shù)據(jù),這些數(shù)據(jù)的沉淀并經(jīng)過當(dāng)代計算機(jī)數(shù)字技術(shù)的結(jié)構(gòu)化才形成了如今好萊塢電影大數(shù)據(jù)預(yù)測的基礎(chǔ)。
搜狗方面坦言,他們并未對《黃金時代》進(jìn)行票房預(yù)測,問及百度的失利原因,他們認(rèn)為,“就票房預(yù)測本身而言,這是一件很復(fù)雜困難的事情,所以預(yù)測不準(zhǔn)確這件事情是很正常的?!彼压贩矫嬉仓攸c(diǎn)提到了關(guān)于歷史數(shù)據(jù)不足量是目前做大數(shù)據(jù)預(yù)測的重要困難,“票房預(yù)測模型較為依賴歷史數(shù)據(jù),但通過歷史數(shù)據(jù)積累學(xué)習(xí)比較難,(我國)有數(shù)據(jù)可查的片子數(shù)量也只有數(shù)百部,可用來學(xué)習(xí)規(guī)律的歷史數(shù)據(jù)積累其實十分有限?!?br />
雷鳴介紹,愛夢娛樂大數(shù)據(jù)為了彌補(bǔ)公開的票房數(shù)據(jù)資料不足,自己做了大量的“臟活、累活”,對2010年以來的國產(chǎn)影片單片的投資額、票房、演員陣容等進(jìn)行了盡可能的資料發(fā)現(xiàn)和統(tǒng)計,并進(jìn)行了標(biāo)簽化的整理,從而形成自己的具備一定沉淀量的結(jié)構(gòu)化數(shù)據(jù)。
王舒還特別提到了,從2012年有詳盡票房統(tǒng)計以來的統(tǒng)計數(shù)據(jù)并不足夠有參考價值以作為票房預(yù)測的基礎(chǔ),因為中國電影產(chǎn)業(yè)自2012年以來連續(xù)地進(jìn)入了一段爆發(fā)式的增長期,從百億迅速跨越到了兩百億元,甚至今年有望沖擊300億元。
“穩(wěn)定性是做趨勢性預(yù)測的基礎(chǔ)?!蓖跏嬲J(rèn)為,“高速增長是破壞性的,如果根據(jù)這樣的數(shù)據(jù)進(jìn)行預(yù)測,則必須做出實時的調(diào)整才能相對準(zhǔn)確。”就王舒看來,只有等到中國電影的票房產(chǎn)值進(jìn)入到一個穩(wěn)定的平臺期,電影的消費(fèi)習(xí)慣趨于穩(wěn)定,趨勢性的預(yù)測才可能基于
統(tǒng)計分析“準(zhǔn)確”做出。
難以排除的數(shù)據(jù)“噪音”——“臟數(shù)據(jù)”
根據(jù)媒體對當(dāng)時百度百發(fā)推出時的報道顯示,“據(jù)百度大數(shù)據(jù)部產(chǎn)品規(guī)劃負(fù)責(zé)人祖崢介紹,百度票房預(yù)測基于百度每日60億次的搜索查詢數(shù)據(jù),1億規(guī)模的微博數(shù)據(jù)以及10年電影行業(yè)數(shù)據(jù),通過百度大數(shù)據(jù)引擎將數(shù)據(jù)進(jìn)行整合、建模和清洗,輸出針對特定電影的搜索指數(shù)、社交指數(shù)、演員指數(shù)、導(dǎo)演指數(shù)等,最終可以導(dǎo)出電影總票房預(yù)測和7日票房預(yù)測等數(shù)據(jù)?!?br />
雷鳴認(rèn)為,百度的搜索排名以及搜索結(jié)果導(dǎo)出的各類指數(shù)都會有大量的“結(jié)果”來自于片方及其宣傳公司的購買,即非自然形成的人為推高——這在電影行業(yè)的宣傳里司空見慣,當(dāng)然也是百度的競價排名等與搜索結(jié)果有關(guān)的收費(fèi)服務(wù)所提供的“宣傳空間”.
如果是這些“結(jié)果”,則本身由此就會存在大量的誤導(dǎo),這在雷鳴的描述里被稱作統(tǒng)計上的“噪音”,亦被稱作“臟數(shù)據(jù)”.雷鳴認(rèn)為,不排除《黃金時代》存在這些“噪音”,而百度方面很有可能因為沒有能夠剝離這些“臟數(shù)據(jù)”,從而“被自己欺騙了”.
百度方面是否有能力清理這些“臟數(shù)據(jù)”以便讓數(shù)據(jù)更真實,讓基于這些數(shù)據(jù)的票房預(yù)測成為靠譜的趨勢判斷呢?
搜狗方面認(rèn)為技術(shù)上應(yīng)該是可以的,就搜狗的“深思”而言,“我們會用多個來源的數(shù)據(jù)互相校驗,比如搜索數(shù)據(jù)、各個社交媒體的數(shù)據(jù),也會有一些過濾策略,應(yīng)該能夠減少這些行為的影響?!彼压贩矫嬉蚕嘈牛巴瑸樗阉饕?,百度在整合數(shù)據(jù)的過程中也會有相應(yīng)的過濾策略?!?br />
但如果這些“臟數(shù)據(jù)”成為構(gòu)成指數(shù)的大部分甚至是絕大部分?jǐn)?shù)據(jù)呢?特別是當(dāng)一部偏小眾、偏安靜的文藝青年所期待的電影,他們本身對于這些數(shù)據(jù)的貢獻(xiàn)有限甚至微弱的情況下,一旦洗干凈了數(shù)據(jù)是否會存在可供分析或生成指數(shù)的數(shù)據(jù)也就所剩無幾了呢?而這些失去統(tǒng)計價值的數(shù)據(jù)是否仍能作為票房預(yù)測的依據(jù)呢?
這種矛盾或許也是百度的票房預(yù)測模型和數(shù)學(xué)家們所困擾的吧。
預(yù)測模型還處在初級階段:變量遺漏和樣本
偏差
關(guān)于百度預(yù)測模型,媒體公開的資料顯示,“這一產(chǎn)品結(jié)合百度搜索數(shù)據(jù)、新浪微博數(shù)據(jù),以及中國電影過去5年的歷史票房數(shù)據(jù),可以從演員熱度、導(dǎo)演熱度、電影關(guān)注度、上映時間等多個維度對一部電影進(jìn)行票房預(yù)估。”
凌毅認(rèn)為,僅從披露的信息看,模型內(nèi)包含的數(shù)據(jù)維度并不足夠多,“或許該模型還處在初級階段?!绷枰闾岬搅藦拿襟w公布的資料看,特別是忽略了檔期內(nèi)其他競爭影片這一重要的參考維度。而據(jù)其分析,該片之所以會票房失利,與影片對國慶檔期的錯判,特別是該檔期內(nèi)觀眾的消費(fèi)心理錯判有很大的關(guān)系。凌毅介紹,樂視影業(yè)內(nèi)部對于電影項目的數(shù)據(jù)決策模型中,基于同檔期競爭影片的數(shù)據(jù)分析是十分重要的數(shù)據(jù)維度。
搜狗方面亦對此深為認(rèn)同,“影響票房的未知因素多:導(dǎo)演、演員、劇本、宣傳、首映時間、影片檔期、同期競爭的影片、CPI、經(jīng)濟(jì)周期、天氣情況、影院的排片率、上座率、票價、是否3D等等。此外,《黃金時代》與多部電影同步上映,互相影響。而很多數(shù)據(jù)都是基于單部電影,對多部電影相互影響的作用并不好分析預(yù)判。百度票房預(yù)測基于百度搜索數(shù)據(jù)、新浪微博數(shù)據(jù),以及中國電影過去10年的歷史票房數(shù)據(jù),數(shù)據(jù)的來源和覆蓋人群還是非常廣的,只是如上所述,預(yù)測過程中充滿了不確定性,特別是一些不可預(yù)期的變量會對預(yù)測結(jié)果產(chǎn)生比較大的影響,這點(diǎn)在部分電影中表現(xiàn)會比較明顯,也是不可避免的?!?br />
在王舒看來,變量遺漏和樣本
偏差是做統(tǒng)計性趨勢分析的最大敵人。前者即是凌毅提到的問題,維度的不夠豐富,不僅可能是因為疏漏而導(dǎo)致沒有納入到統(tǒng)計口徑內(nèi),還可能是因為互聯(lián)網(wǎng)內(nèi)的數(shù)據(jù)目前仍然存在“門戶”壁壘——無法打通一些關(guān)鍵的大數(shù)據(jù),譬如說微博數(shù)據(jù)與微信數(shù)據(jù)打通,譬如百度的搜索引擎內(nèi)沉淀的數(shù)據(jù)與騰訊在QQ、微信上沉淀的用戶數(shù)據(jù)打通,譬如淘寶、京東、貓眼等電商或O2O平臺內(nèi)的數(shù)據(jù)之間打通,這些具有強(qiáng)關(guān)聯(lián)性的數(shù)據(jù)目前還難以實現(xiàn)數(shù)據(jù)的分享,而這些數(shù)據(jù)不能打通,則任何一方對于“人”的消費(fèi)行為描述、消費(fèi)心理觀察都必然會有相當(dāng)程度的偏頗,變量遺漏也就在所難免了。
樣本
偏差指的是,“在沒有嚴(yán)格遵循隨機(jī)的原則時,所覆蓋的樣本越大反而會導(dǎo)致誤差越大。”另外由于搜索只是一種表示興趣的行為,如果僅以一小部分人的興趣來推測全體的購票決策,準(zhǔn)確度有限是難免的。
影院經(jīng)理仍然是迄今為止最好的票房預(yù)測專家
雷鳴在介紹愛夢娛樂大數(shù)據(jù)的票房預(yù)測模型時,特別強(qiáng)調(diào)了行業(yè)情報對于票房預(yù)測的不可替代性。雷鳴認(rèn)為只有基于對于行業(yè)的深刻理解,再加之以大數(shù)據(jù)才可能做出誤差較小的票房預(yù)測。雷鳴方面在此次國慶檔期的票房預(yù)測中,對《心花路放》《痞子英雄2》及《親愛的》的預(yù)測基本準(zhǔn)確,
偏差較小,但也在《黃金時代》上出現(xiàn)了“較大失誤”.
雷鳴告訴虎嗅君,“沒想到影院經(jīng)理這么快就徹底放棄了《黃金時代》”,經(jīng)過復(fù)盤分析后,發(fā)現(xiàn)整個9月,全國票房大盤整體疲軟,到了中下旬更是堪稱蕭條,每日大盤經(jīng)常出現(xiàn)少于5000萬甚至是兩三千萬的低迷狀況——影院經(jīng)理們“饑餓”了一整個月,在暑期檔繁榮的背影下,九月幾乎令人哀傷。正因為如此,影院經(jīng)理對于《心花路放》的“暴飲暴食”也就順理成章,此消彼長的情況下對于《黃金時代》的“容忍”期也就只有上映首日和次日,隨后的排片量當(dāng)然也就銳減——想想影院經(jīng)理們的獎金、工資都指望著這七天呢。
這當(dāng)然是行業(yè)情報的一部分,還包括對于同檔期競爭影片的形勢掌握,一個或許比《黃金時代》更典型的例子是《絕命逃亡》。
虎嗅暑期時與該片片方有過溝通,我們對該片選在國慶黃金檔持保留意見,但片方方面顯示出了特別的樂觀,唯一認(rèn)為能夠形成競爭的對手就是《心花路放》——直到檔期臨近的最后一天,《絕命逃亡》似乎才看清了競爭形勢,上演了一出絕命逃亡——撤檔。
搜狗方面坦言:“由于未知因素比較多,且不可控,在計算過程中,很多因素?zé)o法量化或者引入進(jìn)來。因此只能把握幾個最主要的因素,盡可能控制影響,預(yù)測本身即存在局限性?!倍@些未知因素,也正是大量基于人腦才能收集和判斷的情報,無法數(shù)據(jù)化的進(jìn)入數(shù)字化的計算范圍。
王舒告訴虎嗅君,在她了解的范圍內(nèi),他認(rèn)為,迄今為止,影院經(jīng)理仍然是能夠做出最準(zhǔn)確票房預(yù)測的專家。他們對于檔期內(nèi)的競爭情報和影片內(nèi)容的了解最全面,他們對于服務(wù)的觀眾的消費(fèi)行為、消費(fèi)心理掌握最透徹,因此也最能夠做出較小誤差的票房預(yù)測——但只是針對所經(jīng)營影院的各片成績。如果有能力對影院經(jīng)理們做逐一的統(tǒng)計,或是合理取樣,可能比互聯(lián)網(wǎng)平臺的數(shù)據(jù)更接近觀眾。
票房預(yù)測沒有意義,電影領(lǐng)域談大數(shù)據(jù)尚言之過早
“大數(shù)據(jù)不實用。”王舒認(rèn)為,“做這種預(yù)測,對于電影票房并沒有直接的幫助。這是一個無法證偽,也無法證實的預(yù)測?!庇城暗钠狈款A(yù)測如果預(yù)測高了,片方也不會就不作為,干等勝利成果,那么預(yù)測后所進(jìn)行的努力就成了對于票房最終結(jié)果的助力,從而也就無法證實彼時的預(yù)測與此時的成績之間是否可以稱作是準(zhǔn)確。反之亦然,預(yù)測低了,片方當(dāng)然會盡最大努力調(diào)整營銷策略,那無論最終準(zhǔn)確與否都無法判斷彼時預(yù)測的結(jié)果究竟對與否。因此,除了為影片增加噱頭外,票房預(yù)測可以說沒有價值。
凌毅告訴虎嗅君,樂視影業(yè)內(nèi)部的數(shù)據(jù)及策略中心,會在電影的投資階段,便參與到對項目的市場評估,幫助影片在制作上做調(diào)整。而在電影進(jìn)入到發(fā)行階段之后,更會基于對本體、檔期、競品等的數(shù)據(jù)分析,來制定相應(yīng)的市場策略,包括通過對實施效果的實時監(jiān)測,來修正和調(diào)整營銷策略。凌毅強(qiáng)調(diào),數(shù)據(jù)分析更像是一個工具,它能修正經(jīng)驗及主觀意識的偏見,幫助片方在營銷上少做錯誤的決策,但絕不是包治百病的萬靈丹。
“目前,電影領(lǐng)域談大數(shù)據(jù),還有一點(diǎn)為時過早?!绷枰阏J(rèn)為,電影行業(yè)仍然還是傳統(tǒng)產(chǎn)業(yè),從制造到消費(fèi)都是線下完成,即便現(xiàn)在有電商介入購票環(huán)節(jié),但是絕大部分的線下行為都無法數(shù)據(jù)化導(dǎo)入到線上,從而形成具有因果關(guān)聯(lián)性的大數(shù)據(jù)沉淀?!鞍ㄔ跇芬曈皹I(yè)內(nèi)部,目前數(shù)據(jù)對我們最具意義的部分,其實在于它是一套培養(yǎng)良好思維習(xí)慣的工具,大數(shù)據(jù)的前景在將來?!?br />
王舒與凌毅觀點(diǎn)相似,他認(rèn)為
大數(shù)據(jù)盡管不同于過去強(qiáng)調(diào)因果關(guān)系的
統(tǒng)計分析,但強(qiáng)調(diào)關(guān)聯(lián)性的大數(shù)據(jù)并非無需因果,仍然需要有因果關(guān)系的數(shù)據(jù)導(dǎo)入——否則,全世界發(fā)生的事情都只要用“蝴蝶效應(yīng)”來解釋就足矣。
僅就電影行業(yè)的大數(shù)據(jù)而言,一方面需要較長時間的歷史
沉淀數(shù)據(jù)——王舒認(rèn)為是十年后,另一方面需要有大量的第三方公司參與到行業(yè)中來,幫助打通各個陣營、領(lǐng)域、行業(yè)中“孤立”的數(shù)據(jù),關(guān)聯(lián)才是大數(shù)據(jù)中“大”的真正價值。因此,沉淀票房的歷史數(shù)據(jù)以及與電影行業(yè)有關(guān)的其他數(shù)據(jù)才是當(dāng)務(wù)之急,經(jīng)年累月后,這些大數(shù)據(jù)能夠產(chǎn)生巨大的分析價值——不止于票房預(yù)測。
CDA數(shù)據(jù)分析師考試相關(guān)入口一覽(建議收藏):
? 想報名CDA認(rèn)證考試,點(diǎn)擊>>>
“CDA報名”
了解CDA考試詳情;
? 想學(xué)習(xí)CDA考試教材,點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情;
? 想加入CDA考試題庫,點(diǎn)擊>>> “CDA題庫” 了解CDA考試詳情;
? 想了解CDA考試含金量,點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情;