
在世界杯預(yù)測(cè)時(shí)準(zhǔn)確率超高的百度大數(shù)據(jù)預(yù)測(cè)在穩(wěn)步推進(jìn)時(shí)遇到了一個(gè)小障礙,尚處于內(nèi)測(cè)的票房預(yù)測(cè)對(duì)《黃金時(shí)代》的預(yù)測(cè)與實(shí)際結(jié)果出現(xiàn)了偏差,被媒體長(zhǎng)篇報(bào)道引發(fā)業(yè)內(nèi)高度關(guān)注,筆者一直在觀察大數(shù)據(jù)預(yù)測(cè)業(yè)務(wù),對(duì)于百度預(yù)測(cè)《黃金時(shí)代》失利一事有自己的一些觀點(diǎn),不吐不快。
一、看待大數(shù)據(jù)預(yù)測(cè)失準(zhǔn)要冷靜客觀
近年來(lái),大數(shù)據(jù)一詞頻繁出現(xiàn)在各類(lèi)媒體上,與大 數(shù)據(jù)相關(guān)的各種產(chǎn)業(yè)、產(chǎn)品也在蓬勃發(fā)展。今年2月,中關(guān)村管委會(huì)在《加快培育大數(shù)據(jù)產(chǎn)業(yè)集群推動(dòng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí)的意見(jiàn)》發(fā)布會(huì)上表示,到2016年,中關(guān)村 大數(shù)據(jù)帶動(dòng)的產(chǎn)業(yè)規(guī)模將超過(guò)1萬(wàn)億元,這還僅僅是中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)的數(shù)字而已,放眼全球,大數(shù)據(jù)未來(lái)的錢(qián)景非??捎^。盡管大數(shù)據(jù)概念被熱炒,但與大數(shù) 據(jù)相關(guān)的各種產(chǎn)品其實(shí)尚處在初期探索階段,比如利用大數(shù)據(jù)做預(yù)測(cè),盡管百度預(yù)測(cè)此前在世界杯預(yù)測(cè)、黃金周旅游預(yù)測(cè)等產(chǎn)品上表現(xiàn)出比較高的準(zhǔn)確率,但對(duì)預(yù) 測(cè)本身來(lái)說(shuō),出現(xiàn)失準(zhǔn)的現(xiàn)象其實(shí)很正常。
具體到《黃金時(shí)代》票房預(yù)測(cè)這件事上,我們先來(lái)看看 百度的官方解釋。百度對(duì)媒體的回應(yīng)并沒(méi)有將問(wèn)題歸結(jié)到工程師犯錯(cuò),而是直接指出核心原因:因?yàn)槲覈?guó)電影市場(chǎng)上文藝片的歷史票房數(shù)據(jù)很少,所以在針對(duì) 《黃金時(shí)代》進(jìn)行預(yù)測(cè)時(shí)采用了通用的模型而沒(méi)有針對(duì)文藝片單獨(dú)建模,導(dǎo)致最終結(jié)果出現(xiàn)偏差。
擁有蕭紅、民國(guó)、文藝這些標(biāo)簽,《黃金時(shí)代》算得上 相對(duì)小眾的電影,面向的觀眾并非主流人群。關(guān)于這類(lèi)電影的任何數(shù)據(jù)都是少之又少,沒(méi)有對(duì)應(yīng)類(lèi)型片的預(yù)測(cè)模型可供參考。百度在預(yù)測(cè)《黃金時(shí)代》時(shí)采取了通用 電影的模型,導(dǎo)致出現(xiàn)了較大偏差,未來(lái)如果要預(yù)測(cè)準(zhǔn)確,最好的解決方式肯定是針對(duì)不同類(lèi)型的電影單獨(dú)建模,而據(jù)我了解,尚處在內(nèi)測(cè)階段的票房預(yù)測(cè)已經(jīng)在進(jìn) 行這方面的改進(jìn)。
瀏覽百度預(yù)測(cè)平臺(tái)(trends.baidu.com),百度票房預(yù)測(cè)的圖標(biāo)是灰色的,并沒(méi)有正式上線,相反,經(jīng)濟(jì)指數(shù)、疾病、景點(diǎn)和賽事預(yù)測(cè)倒已全面上線投入使用。百度票房預(yù)測(cè)模型還需進(jìn)一步完善,更多參數(shù)需要加入模型,比如影片屬性、片長(zhǎng)、排片量、場(chǎng)均票價(jià)等全方位維度都納入考慮。
不過(guò),從另一個(gè)角度來(lái)看,我認(rèn)為,就算是百度票房預(yù)測(cè)正式上線之后出現(xiàn)預(yù)測(cè)失誤,也非常正常,沒(méi)有誰(shuí)真正擁有水晶球,大數(shù)據(jù)預(yù)測(cè)無(wú)法確定某件事情必然會(huì)發(fā)生,它更多是給出一個(gè)概率,人類(lèi)只有不斷地去接近這一個(gè)概率。預(yù)測(cè)的前提就是要承認(rèn)不確定性的存在。在不同領(lǐng)域不確定性大有不同。票房、股市恰恰就是更容易受人為影響的存在大力不確定性的領(lǐng)域,預(yù)測(cè)的難度會(huì)大過(guò)天氣、旅游、交通、物價(jià)等。
因?yàn)橐徊俊饵S金時(shí)代》預(yù)測(cè)失利便質(zhì)疑大數(shù)據(jù)預(yù)測(cè)本身,或者票房預(yù)測(cè)本身,是不合理的。百度此前在世界杯期間、在黃金周期間相對(duì)漂亮的預(yù)測(cè)結(jié)果,已經(jīng)證明了大數(shù)據(jù)預(yù)測(cè)的價(jià)值,只不過(guò)面對(duì)票預(yù)測(cè)房這一全新的領(lǐng)域,需要更耐心地優(yōu)化而已。那么,票房預(yù)測(cè)在中國(guó)真的沒(méi)效嗎?
二、預(yù)測(cè)的精髓在于沉淀和糾偏
《為什么大數(shù)據(jù)在預(yù)測(cè)《黃金時(shí)代》票房時(shí)不靈了?》一文的核心觀點(diǎn)列舉如下:1、中國(guó)票房數(shù)據(jù)沉淀太少;2、一些人為制造的數(shù)據(jù)對(duì)票房預(yù)測(cè)造成干擾;3、預(yù)測(cè)模型處于初級(jí)階段,變量遺漏和樣本偏差;4、影院經(jīng)理預(yù)測(cè)靠譜,票房預(yù)測(cè)沒(méi)有意義,電影預(yù)測(cè)談大數(shù)據(jù)為之過(guò)早。
對(duì)于這些觀點(diǎn),只有第3點(diǎn)我表示認(rèn)同,這是客觀事 實(shí),百度也承認(rèn)處于內(nèi)測(cè)階段的票房預(yù)測(cè)模型存在不足尚需完善。但如果深思則會(huì)發(fā)現(xiàn),世界上并無(wú)完美的預(yù)測(cè)模型,每個(gè)領(lǐng)域都是,下一秒要發(fā)生的事情會(huì)受到諸 多變量影響,有些變量是可提前納入考慮的,有些變量就算考慮到卻又是很難監(jiān)控,變量遺漏和樣本偏差是永遠(yuǎn)存在的預(yù)測(cè)問(wèn)題,預(yù)測(cè)者只有不斷地更新變量、糾偏 樣本、升級(jí)模型才可以不斷地保持預(yù)測(cè)足夠接近真實(shí)。
在《大數(shù)據(jù)預(yù)測(cè)將會(huì)改變哪些行業(yè)?》 一文中,筆者總結(jié)大數(shù)據(jù)預(yù)測(cè)的邏輯基礎(chǔ)是,每一種非常規(guī)的變化事前一定有征兆,每一件事情都有 跡可循,如果找到了征兆與變化之間的規(guī)律,就可以進(jìn)行預(yù)測(cè)。 對(duì)于預(yù)測(cè)來(lái)說(shuō)至關(guān)重要的兩點(diǎn)是:從過(guò)往數(shù)據(jù)和經(jīng)驗(yàn)中得到的規(guī)律,這映射到預(yù)測(cè)模型;可以實(shí)時(shí)監(jiān)控的變化,映射到變量或者說(shuō)實(shí)時(shí)數(shù)據(jù)。大數(shù)據(jù)預(yù)測(cè)與傳統(tǒng) 預(yù)測(cè)的不同就在于:更具時(shí)效性、新型數(shù)據(jù)源、動(dòng)態(tài)性預(yù)測(cè)以及規(guī)律性依賴(lài)。
對(duì)票房預(yù)測(cè)持消極態(tài)度的首先將問(wèn)題歸結(jié)為數(shù)據(jù):電影數(shù)據(jù)沉淀太少、各家網(wǎng)絡(luò)數(shù)據(jù)不通以及臟數(shù)據(jù)問(wèn)題。
1、沉淀太少是杞人憂天。
中國(guó)票房數(shù)據(jù)沉淀太少可能是客觀事實(shí)。但預(yù)測(cè)需要海量歷史數(shù)據(jù)的原因在于從中發(fā)現(xiàn)規(guī)律。但倘若只有100年的票房數(shù)據(jù),卻并沒(méi)有與影響這些票房數(shù)據(jù)的變量數(shù)據(jù),對(duì)于挖掘規(guī)律其實(shí)并無(wú)幫助。
一個(gè)例子是百度在做世界杯預(yù)測(cè)時(shí)便與第三方數(shù)據(jù)公司合作得到大量歷史數(shù)據(jù)進(jìn)行挖掘,將球隊(duì)、隊(duì)員、場(chǎng)地等靜態(tài)因素考慮在內(nèi)同時(shí)引入輿情、歐賠指數(shù)等動(dòng)態(tài)變量,最終實(shí)現(xiàn)接近準(zhǔn)確的預(yù)測(cè)。
對(duì)于票房預(yù)測(cè)而言,就算得到中國(guó)80、90年代的票 房數(shù)據(jù),而不是預(yù)測(cè)相關(guān)數(shù)據(jù),對(duì)于票房規(guī)律的獲取并無(wú)什么幫助,那時(shí)候并無(wú)互聯(lián)網(wǎng),電影市場(chǎng)早已面目全非。票房預(yù)測(cè)究竟需要什么數(shù)據(jù)?沒(méi)有人可以告訴 我們答案。等到10年之后數(shù)據(jù)積累完全再來(lái)談大數(shù)據(jù)預(yù)測(cè),并不現(xiàn)實(shí)。因?yàn)榻裉觳蛔?,人們就不知道該收集、記錄什么?shù)據(jù)。況且誰(shuí)又能指出10年與2年在時(shí)間 上的差距會(huì)對(duì)數(shù)據(jù)積累造成什么本質(zhì)不同呢?
大數(shù)據(jù)預(yù)測(cè)的數(shù)據(jù)源優(yōu)勢(shì)正是在于它可以更全面及時(shí)地記錄數(shù)據(jù),并且收集到過(guò)往完全無(wú)法收集的數(shù)據(jù)比如用戶的需求、輿情、情緒變化,或者說(shuō)出行規(guī)律、電影票價(jià)、影院排期數(shù)據(jù)。因此與其去擔(dān)憂傳統(tǒng)數(shù)據(jù)沉淀不足還不如思考票房預(yù)測(cè)究竟需要哪些數(shù)據(jù),究竟如何才能提升規(guī)律?
2、數(shù)據(jù)不通和臟數(shù)據(jù)是永恒問(wèn)題。
網(wǎng)絡(luò)數(shù)據(jù)不通是整個(gè)互聯(lián)網(wǎng)都要面臨的數(shù)據(jù)鴻溝問(wèn)題, 沒(méi)有哪一家擁有全網(wǎng)的數(shù)據(jù),聚合全網(wǎng)數(shù)據(jù)進(jìn)行預(yù)測(cè)幾乎是不可能完成的任務(wù),況且這根本沒(méi)任何必要。如果說(shuō)社交網(wǎng)絡(luò)數(shù)據(jù)對(duì)預(yù)測(cè)很重要,那么中國(guó)只有騰訊才可 能做好預(yù)測(cè)實(shí)際并沒(méi)有做。阿里淘寶指數(shù)已成為電商銷(xiāo)量風(fēng)向標(biāo)、百度搜索指數(shù)對(duì)于各行各業(yè)同樣具有重要的參考意義,因?yàn)樗碚髋d趣。每家掌握數(shù)據(jù)的性質(zhì) 不同,但確實(shí)可通過(guò)合作去得到更多維度的數(shù)據(jù),最終提升預(yù)測(cè)可靠性,但要各家直接打通數(shù)據(jù)壁壘是不現(xiàn)實(shí)的。
同理,臟數(shù)據(jù)以及噪音是整個(gè)互聯(lián)網(wǎng)永遠(yuǎn)存在 的現(xiàn)象,就算是傳統(tǒng)的采樣調(diào)研難免也會(huì)遇到噪聲樣本進(jìn)而被干擾。應(yīng)對(duì)這個(gè)問(wèn)題只有盡量過(guò)濾噪音數(shù)據(jù),同時(shí)考慮到噪音對(duì)模型進(jìn)行不斷地糾正,并且增大預(yù)測(cè)結(jié) 果的誤差范圍。還有一個(gè)假設(shè)是,如果有臟數(shù)據(jù)對(duì)結(jié)果起到積極作用(比如讓票房成績(jī)更好),同樣會(huì)有臟數(shù)據(jù)對(duì)結(jié)果起到消極影響。
百度搜索結(jié)果不排除有人為操作的數(shù)據(jù),水軍評(píng)論、豆瓣評(píng)分大家心知肚明,但文中所提及的百度商業(yè)化結(jié)果卻根本算不上臟數(shù)據(jù),因?yàn)榘俣纫懦虡I(yè)廣告的影響輕而易舉,況且這些數(shù)據(jù)對(duì)預(yù)測(cè)是十分有價(jià)值的,Google票房預(yù)測(cè)模型一部分便是基于廣告點(diǎn)擊數(shù)據(jù)。
3、影院經(jīng)理不是預(yù)測(cè)而是影響票房。
影院經(jīng)理確實(shí)可預(yù)測(cè)對(duì)應(yīng)影院某部電影的票房結(jié)果。如果他們掌握拍期權(quán)甚至還可以直接影響、決定對(duì)應(yīng)電影的局部票房。所有影院經(jīng)理最終會(huì)對(duì)整體票房造成莫大的影響。這并不是一個(gè)因果關(guān)系,而是環(huán)環(huán)相扣:影院經(jīng)理在預(yù)測(cè)票房的同時(shí)也影響著票房。
我們可以將影院經(jīng)理對(duì)應(yīng)到股市中的股民,股民對(duì)自己 所關(guān)注的股票價(jià)格有所預(yù)期,基于這個(gè)預(yù)期進(jìn)行減倉(cāng)或增持等操作。所有股民的博弈最終決定了股價(jià)的波動(dòng)。但這并不意味著股民是最好的股票預(yù)測(cè)專(zhuān)家。在旅游、 交通、房?jī)r(jià)等領(lǐng)域均有類(lèi)似的狀況,參與者基于個(gè)體的預(yù)測(cè),或者第三方預(yù)測(cè)結(jié)果去做出行動(dòng),進(jìn)而影響結(jié)果。
這里想說(shuō)明的是,將參與者與預(yù)測(cè)者放在一起本身就不 合適,參與者是十分重要的動(dòng)態(tài)變量。《黃金時(shí)代》出現(xiàn)如此慘淡的票房很大程度便是票房經(jīng)理不斷降低預(yù)期進(jìn)而減少排片所致。不過(guò),百度未來(lái)與影院或者票房經(jīng) 理合作倒確實(shí)可以提升預(yù)測(cè)準(zhǔn)確率,一方面在線下升級(jí)模型,另一方面將票房經(jīng)理的排期計(jì)劃納入監(jiān)控范圍,把百度數(shù)據(jù)+工程師的大數(shù)據(jù)預(yù)測(cè)升級(jí)為眾包式的票房 預(yù)測(cè),倒有可能。
最后我想說(shuō)的是,因?yàn)橐徊侩娪暗念A(yù)測(cè)失利否定大數(shù)據(jù) 票房預(yù)測(cè)確實(shí)有待商榷,天氣預(yù)報(bào)不斷地沉淀不斷地升級(jí)才能做到今天的準(zhǔn)確率以及精細(xì)化,但仍有不準(zhǔn)的時(shí)候,在影響我生活時(shí)我也曾憤怒地認(rèn)為天氣預(yù)報(bào)不考 慮,但大家都知道事實(shí)并非如此。票房預(yù)測(cè)剛剛開(kāi)始,或許應(yīng)該得到更多包容。從長(zhǎng)遠(yuǎn)來(lái)看,通過(guò)不斷的優(yōu)化,如果票房預(yù)測(cè)產(chǎn)品最終能夠達(dá)到一定的準(zhǔn)確度,那么 對(duì)于整個(gè)電影產(chǎn)業(yè)將會(huì)提供非常重要的參考價(jià)值,比如對(duì)投資方、拍攝方、推廣方提供更準(zhǔn)確的數(shù)據(jù)參考,從而引導(dǎo)他們?cè)谛麄魍茝V、劇情設(shè)置甚至是甄選演員等方 面做出更加準(zhǔn)確、有利的判斷。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開(kāi)啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書(shū)) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04