
忘了黃金時代,理性看待大數(shù)據(jù)預測_數(shù)據(jù)分析師
一、看待大數(shù)據(jù)預測失準要冷靜客觀
近年來,“大數(shù)據(jù)”一詞頻繁出現(xiàn)在各類媒體上,與大數(shù)據(jù)相關(guān)的各種產(chǎn)業(yè)、產(chǎn)品也在蓬勃發(fā)展。今年2月,中關(guān)村管委會在《加快培育大數(shù)據(jù)產(chǎn)業(yè)集群推動產(chǎn)業(yè)轉(zhuǎn)型升級的意見》發(fā)布會上表示,到2016年,中關(guān)村大數(shù)據(jù)帶動的產(chǎn)業(yè)規(guī)模將超過1萬億元,這還僅僅是中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)的數(shù)字而已,放眼全球,大數(shù)據(jù)未來的“錢景”非??捎^。盡管大數(shù)據(jù)概念被熱炒,但與大數(shù)據(jù)相關(guān)的各種產(chǎn)品其實尚處在初期探索階段,比如利用大數(shù)據(jù)做預測,盡管百度預測此前在世界杯預測、黃金周旅游預測等產(chǎn)品上表現(xiàn)出比較高的準確率,但對“預測”本身來說,出現(xiàn)失準的現(xiàn)象其實很正常。
具體到《黃金時代》票房預測這件事上,我們先來看看百度的官方解釋。百度對媒體的回應并沒有將問題歸結(jié)到“工程師犯錯”,而是直接指出核心原因:因為我國電影市場上文藝片的歷史票房數(shù)據(jù)很少,所以在針對《黃金時代》進行預測時采用了通用的模型而沒有針對文藝片單獨建模,導致最終結(jié)果出現(xiàn)偏差。
擁有蕭紅、民國、文藝這些標簽,《黃金時代》算得上相對小眾的電影,面向的觀眾并非主流人群。關(guān)于這類電影的任何數(shù)據(jù)都是少之又少,沒有對應類型片的預測模型可供參考。百度在預測《黃金時代》時采取了通用電影的模型,導致出現(xiàn)了較大偏差,未來如果要預測準確,最好的解決方式肯定是針對不同類型的電影單獨建模,而據(jù)我了解,尚處在內(nèi)測階段的票房預測已經(jīng)在進行這方面的改進。
瀏覽百度預測平臺(trends.baidu.com),百度票房預測的圖標是灰色的,并沒有正式上線,相反,經(jīng)濟指數(shù)、疾病、景點和賽事預測倒已全面上線投入使用。百度票房預測模型還需進一步完善,更多參數(shù)需要加入模型,比如影片屬性、片長、排片量、場均票價等全方位維度都納入考慮。
不過,從另一個角度來看,我認為,就算是百度票房預測正式上線之后出現(xiàn)“預測失誤”,也非常正常,沒有誰真正擁有水晶球,大數(shù)據(jù)預測無法確定某件事情必然會發(fā)生,它更多是給出一個概率,人類只有不斷地去接近這一個概率。預測的前提就是要承認不確定性的存在。在不同領(lǐng)域不確定性大有不同。票房、股市恰恰就是更容易受人為影響的存在大力不確定性的領(lǐng)域,預測的難度會大過天氣、旅游、交通、物價等。
因為一部《黃金時代》預測失利便質(zhì)疑大數(shù)據(jù)預測本身,或者票房預測本身,是不合理的。百度此前在世界杯期間、在黃金周期間相對漂亮的預測結(jié)果,已經(jīng)證明了大數(shù)據(jù)預測的價值,只不過面對票預測房這一全新的領(lǐng)域,需要更耐心地優(yōu)化而已。那么,票房預測在中國真的沒效嗎?
二、預測的精髓在于沉淀和糾偏
《為什么大數(shù)據(jù)在預測《黃金時代》票房時不靈了?》一文的核心觀點列舉如下:1、中國票房數(shù)據(jù)沉淀太少;2、一些人為制造的數(shù)據(jù)對票房預測造成干擾;3、預測模型處于初級階段,變量遺漏和樣本偏差;4、影院經(jīng)理預測靠譜,票房預測沒有意義,電影預測談大數(shù)據(jù)為之過早。
對于這些觀點,只有第3點我表示認同,這是客觀事實,百度也承認處于內(nèi)測階段的票房預測模型存在不足尚需完善。但如果深思則會發(fā)現(xiàn),世界上并無完美的預測模型,每個領(lǐng)域都是,下一秒要發(fā)生的事情會受到諸多變量影響,有些變量是可提前納入考慮的,有些變量就算考慮到卻又是很難監(jiān)控,變量遺漏和樣本偏差是永遠存在的預測問題,預測者只有不斷地更新變量、糾偏樣本、升級模型才可以不斷地保持預測足夠接近真實。
在《大數(shù)據(jù)預測將會改變哪些行業(yè)?》一文中,筆者總結(jié)大數(shù)據(jù)預測的邏輯基礎(chǔ)是,每一種非常規(guī)的變化事前一定有征兆,每一件事情都有跡可循,如果找到了征兆與變化之間的規(guī)律,就可以進行預測。對于預測來說至關(guān)重要的兩點是:從過往數(shù)據(jù)和經(jīng)驗中得到的規(guī)律,這映射到預測模型;可以實時監(jiān)控的“變化”,映射到變量或者說實時數(shù)據(jù)。大數(shù)據(jù)預測與傳統(tǒng)預測的不同就在于:更具時效性、新型數(shù)據(jù)源、動態(tài)性預測以及規(guī)律性依賴。
對票房預測持消極態(tài)度的首先將問題歸結(jié)為數(shù)據(jù):電影數(shù)據(jù)沉淀太少、各家網(wǎng)絡數(shù)據(jù)不通以及臟數(shù)據(jù)問題。
1、沉淀太少是杞人憂天。
中國票房數(shù)據(jù)沉淀太少可能是客觀事實。但預測需要海量歷史數(shù)據(jù)的原因在于從中發(fā)現(xiàn)規(guī)律。但倘若只有100年的票房數(shù)據(jù),卻并沒有與影響這些票房數(shù)據(jù)的“變量”數(shù)據(jù),對于挖掘規(guī)律其實并無幫助。
一個例子是百度在做世界杯預測時便與第三方數(shù)據(jù)公司合作得到大量歷史數(shù)據(jù)進行挖掘,將球隊、隊員、場地等靜態(tài)因素考慮在內(nèi)同時引入輿情、歐賠指數(shù)等動態(tài)變量,最終實現(xiàn)接近準確的預測。
對于票房預測而言,就算得到中國80、90年代的票房數(shù)據(jù),而不是“預測相關(guān)數(shù)據(jù)”,對于票房規(guī)律的獲取并無什么幫助,那時候并無互聯(lián)網(wǎng),電影市場早已面目全非。票房預測究竟需要什么數(shù)據(jù)?沒有人可以告訴我們答案。等到10年之后數(shù)據(jù)積累完全再來談大數(shù)據(jù)預測,并不現(xiàn)實。因為今天不做,人們就不知道該收集、記錄什么數(shù)據(jù)。況且誰又能指出10年與2年在時間上的差距會對數(shù)據(jù)積累造成什么本質(zhì)不同呢?
大數(shù)據(jù)預測的數(shù)據(jù)源優(yōu)勢正是在于它可以更全面及時地記錄數(shù)據(jù),并且收集到過往完全無法收集的數(shù)據(jù)比如用戶的需求、輿情、情緒變化,或者說出行規(guī)律、電影票價、影院排期數(shù)據(jù)。因此與其去擔憂“傳統(tǒng)數(shù)據(jù)沉淀不足”還不如思考票房預測究竟需要哪些數(shù)據(jù),究竟如何才能提升規(guī)律?
2、數(shù)據(jù)不通和臟數(shù)據(jù)是永恒問題。
網(wǎng)絡數(shù)據(jù)不通是整個互聯(lián)網(wǎng)都要面臨的數(shù)據(jù)鴻溝問題,沒有哪一家擁有全網(wǎng)的數(shù)據(jù),聚合全網(wǎng)數(shù)據(jù)進行預測幾乎是不可能完成的任務,況且這根本沒任何必要。如果說社交網(wǎng)絡數(shù)據(jù)對預測很重要,那么中國只有騰訊才可能做好預測——實際并沒有做。阿里淘寶指數(shù)已成為電商銷量風向標、百度搜索指數(shù)對于各行各業(yè)同樣具有重要的參考意義,因為它表征興趣。每家掌握數(shù)據(jù)的性質(zhì)不同,但確實可通過合作去得到更多維度的數(shù)據(jù),最終提升預測可靠性,但要各家直接打通數(shù)據(jù)壁壘是不現(xiàn)實的。
同理,“臟數(shù)據(jù)”以及”噪音“是整個互聯(lián)網(wǎng)永遠存在的現(xiàn)象,就算是傳統(tǒng)的采樣調(diào)研難免也會遇到噪聲樣本進而被干擾。應對這個問題只有盡量過濾噪音數(shù)據(jù),同時考慮到噪音對模型進行不斷地糾正,并且增大預測結(jié)果的誤差范圍。還有一個假設(shè)是,如果有臟數(shù)據(jù)對結(jié)果起到積極作用(比如讓票房成績更好),同樣會有臟數(shù)據(jù)對結(jié)果起到消極影響。
百度搜索結(jié)果不排除有人為操作的數(shù)據(jù),水軍評論、豆瓣評分大家心知肚明,但文中所提及的百度商業(yè)化結(jié)果卻根本算不上臟數(shù)據(jù),因為百度要排除商業(yè)廣告的影響輕而易舉,況且這些數(shù)據(jù)對預測是十分有價值的,Google票房預測模型一部分便是基于廣告點擊數(shù)據(jù)。
3、影院經(jīng)理不是預測而是影響票房。
影院經(jīng)理確實可預測對應影院某部電影的票房結(jié)果。如果他們掌握拍期權(quán)甚至還可以直接影響、決定對應電影的局部票房。所有影院經(jīng)理最終會對整體票房造成莫大的影響。這并不是一個因果關(guān)系,而是環(huán)環(huán)相扣:影院經(jīng)理在預測票房的同時也影響著票房。
我們可以將影院經(jīng)理對應到股市中的股民,股民對自己所關(guān)注的股票價格有所預期,基于這個預期進行減倉或增持等操作。所有股民的博弈最終決定了股價的波動。但這并不意味著股民是最好的股票預測專家。在旅游、交通、房價等領(lǐng)域均有類似的狀況,參與者基于個體的預測,或者第三方預測結(jié)果去做出行動,進而影響結(jié)果。
這里想說明的是,將參與者與預測者放在一起本身就不合適,參與者是十分重要的動態(tài)變量?!饵S金時代》出現(xiàn)如此慘淡的票房很大程度便是票房經(jīng)理不斷降低預期進而減少排片所致。不過,百度未來與影院或者票房經(jīng)理合作倒確實可以提升預測準確率,一方面在線下升級模型,另一方面將票房經(jīng)理的排期計劃納入監(jiān)控范圍,把百度數(shù)據(jù)+工程師的大數(shù)據(jù)預測升級為眾包式的票房預測,倒有可能。
最后我想說的是,因為一部電影的預測失利否定大數(shù)據(jù)票房預測確實有待商榷,天氣預報不斷地沉淀不斷地升級才能做到今天的準確率以及精細化,但仍有不準的時候,在影響我生活時我也曾憤怒地認為天氣預報不考慮,但大家都知道事實并非如此。票房預測剛剛開始,或許應該得到更多包容。從長遠來看,通過不斷的優(yōu)化,如果票房預測產(chǎn)品最終能夠達到一定的準確度,那么對于整個電影產(chǎn)業(yè)將會提供非常重要的參考價值,比如對投資方、拍攝方、推廣方提供更準確的數(shù)據(jù)參考,從而引導他們在宣傳推廣、劇情設(shè)置甚至是甄選演員等方面做出更加準確、有利的判斷。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
PyTorch 核心機制:損失函數(shù)與反向傳播如何驅(qū)動模型進化 在深度學習的世界里,模型從 “一無所知” 到 “精準預測” 的蛻變,離 ...
2025-07-252025 年 CDA 數(shù)據(jù)分析師考綱煥新,引領(lǐng)行業(yè)人才新標準 在數(shù)字化浪潮奔涌向前的當下,數(shù)據(jù)已成為驅(qū)動各行業(yè)發(fā)展的核心要素。作為 ...
2025-07-25從數(shù)據(jù)到?jīng)Q策:CDA 數(shù)據(jù)分析師如何重塑職場競爭力與行業(yè)價值 在數(shù)字經(jīng)濟席卷全球的今天,數(shù)據(jù)已從 “輔助工具” 升級為 “核心資 ...
2025-07-25用 Power BI 制作地圖熱力圖:基于經(jīng)緯度數(shù)據(jù)的實踐指南 在數(shù)據(jù)可視化領(lǐng)域,地圖熱力圖憑借直觀呈現(xiàn)地理數(shù)據(jù)分布密度的優(yōu)勢,成 ...
2025-07-24解析 insert into select 是否會鎖表:原理、場景與應對策略 在數(shù)據(jù)庫操作中,insert into select 是一種常用的批量數(shù)據(jù)插入語句 ...
2025-07-24CDA 數(shù)據(jù)分析師的工作范圍解析 在數(shù)字化時代的浪潮下,數(shù)據(jù)已成為企業(yè)發(fā)展的核心資產(chǎn)之一。CDA(Certified Data Analyst)數(shù)據(jù)分 ...
2025-07-24從 CDA LEVEL II 考試題型看 Python 數(shù)據(jù)分析要點 在數(shù)據(jù)科學領(lǐng)域蓬勃發(fā)展的當下,CDA(Certified Data Analyst)認證成為眾多從 ...
2025-07-23用 Python 開啟數(shù)據(jù)分析之旅:從基礎(chǔ)到實踐的完整指南 在數(shù)據(jù)驅(qū)動決策的時代,數(shù)據(jù)分析已成為各行業(yè)不可或缺的核心能力。而 Pyt ...
2025-07-23鳶尾花判別分析:機器學習中的經(jīng)典實踐案例 在機器學習的世界里,有一個經(jīng)典的數(shù)據(jù)集如同引路明燈,為無數(shù)初學者打開了模式識別 ...
2025-07-23解析 response.text 與 response.content 的核心區(qū)別 在網(wǎng)絡數(shù)據(jù)請求與處理的場景中,開發(fā)者經(jīng)常需要從服務器返回的響應中提取數(shù) ...
2025-07-22解析神經(jīng)網(wǎng)絡中 Softmax 函數(shù)的核心作用 在神經(jīng)網(wǎng)絡的發(fā)展歷程中,激活函數(shù)扮演著至關(guān)重要的角色,它們?yōu)榫W(wǎng)絡賦予了非線性能力, ...
2025-07-22CDA數(shù)據(jù)分析師證書考取全攻略 一、了解 CDA 數(shù)據(jù)分析師認證 CDA 數(shù)據(jù)分析師認證是一套科學化、專業(yè)化、國際化的人才考核標準, ...
2025-07-22左偏態(tài)分布轉(zhuǎn)正態(tài)分布:方法、原理與實踐 左偏態(tài)分布轉(zhuǎn)正態(tài)分布:方法、原理與實踐 在統(tǒng)計分析、數(shù)據(jù)建模和科學研究中,正態(tài)分 ...
2025-07-22你是不是也經(jīng)常刷到別人漲粉百萬、帶貨千萬,心里癢癢的,想著“我也試試”,結(jié)果三個月過去,粉絲不到1000,播放量慘不忍睹? ...
2025-07-21我是陳輝,一個創(chuàng)業(yè)十多年的企業(yè)主,前半段人生和“文字”緊緊綁在一起。從廣告公司文案到品牌策劃,再到自己開策劃機構(gòu),我靠 ...
2025-07-21CDA 數(shù)據(jù)分析師的職業(yè)生涯規(guī)劃:從入門到卓越的成長之路 在數(shù)字經(jīng)濟蓬勃發(fā)展的當下,數(shù)據(jù)已成為企業(yè)核心競爭力的重要來源,而 CD ...
2025-07-21MySQL執(zhí)行計劃中rows的計算邏輯:從原理到實踐 MySQL 執(zhí)行計劃中 rows 的計算邏輯:從原理到實踐 在 MySQL 數(shù)據(jù)庫的查詢優(yōu)化中 ...
2025-07-21在AI滲透率超85%的2025年,企業(yè)生存之戰(zhàn)就是數(shù)據(jù)之戰(zhàn),CDA認證已成為決定企業(yè)存續(xù)的生死線!據(jù)麥肯錫全球研究院數(shù)據(jù)顯示,AI驅(qū) ...
2025-07-2035歲焦慮像一把高懸的利刃,裁員潮、晉升無望、技能過時……當職場中年危機與數(shù)字化浪潮正面交鋒,你是否發(fā)現(xiàn): 簡歷投了10 ...
2025-07-20CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-18