
大數(shù)據(jù)于國內(nèi)影視行業(yè)的意義
大數(shù)據(jù)為何近幾年大熱?
人類進入大數(shù)據(jù)時代,類似于生物學迎來了顯微鏡,天文學發(fā)現(xiàn)了望遠鏡,因為網(wǎng)絡傳輸和計算機存儲運算能力的提高,交給了我們一把信息放大鏡,從此我們對現(xiàn)象的觀察進入一個新的領(lǐng)域。
其實自古就有多維度數(shù)據(jù)的挖掘行為,歷法的制定過程或許可以作為一個很好的例證,江湖上現(xiàn)在偶爾也會有關(guān)于林元帥諸葛軍師的傳說,自從計算機技術(shù)誕生之后,對數(shù)據(jù)的利用和處理一直在同步發(fā)展中,無論是分布處理還是并行處理,并不是一天就蹦跶到今日的技術(shù)高度,我們很多科學發(fā)現(xiàn)都是在近三十年之間才完成,正是得益于此。
但為何在這幾年“大數(shù)據(jù)”忽然大熱?原因其實很簡單,全球智能手機的普及。
隨著移動終端信息處理能力的提升,與用戶的交互界面不僅更加具備黏性,并且實現(xiàn)了全方位全時段互動,此時每個人的移動終端實際上就變成了一個數(shù)據(jù)記錄儀。它比PC所能獲取到的信息更加個人化,不僅暴露這個人的生活細節(jié),位置動向,同時也記錄著他的消費習慣,人類第一次擁有了這么多數(shù)據(jù)的生產(chǎn)者。每一個元數(shù)據(jù)都可以直接掛鉤一份具體的支出額度,每一個數(shù)字都可以被貨幣量化,大數(shù)據(jù)的商業(yè)價值與各個企業(yè)的營收幾乎都可以直接掛鉤。所以,圍繞“大數(shù)據(jù)”來說故事迅速成為當下的主流。
但是揭開媒體的那些噱頭背后,你會發(fā)現(xiàn),國內(nèi)對復雜系統(tǒng)的研究,仍然是處于概念大于應用的階段,大部分行業(yè)對線性、封閉系統(tǒng)內(nèi)的數(shù)據(jù)關(guān)系都沒辦法掌握,更不用說將大數(shù)據(jù)轉(zhuǎn)化成有價值的信息。而在影視行業(yè),工業(yè)化體系處于剛剛起步的階段,很多從業(yè)人士連財務報表這種基礎(chǔ)數(shù)據(jù)都看不明白,去理解大數(shù)據(jù)的價值更是有些不可想象了。
大數(shù)據(jù)于國內(nèi)影視行業(yè)的意義
大數(shù)據(jù)技術(shù)作為一種工具,其應用方向,無非三個方面,一是對過于和曾經(jīng)的理解,二是對以后和將來的認知,三是對當下進行判斷并進行實時處理,影視行業(yè)大數(shù)據(jù)技術(shù)的應用如果想要有長足的發(fā)展,那么在這三個方面都會面臨著一些需要解決的問題。
對過去和曾經(jīng)的理解
既然是對已發(fā)生的進行判斷,就會涉及到數(shù)據(jù)采集,這個部分往往會引發(fā)爭論,中心議題是:到底多大才叫大,GB還是TB,PB還是EB?
如果我想要知道《致我們終將逝去的青春》這部差一點就可以歸類到文藝片的電影,為什么在2013年上半年票房僅次于《西游·降魔篇》,我是應該僅以社交媒體的傳播效率來進行數(shù)據(jù)的挖掘,還是要追溯到原著小說里的青春以及被電影宣傳所喚起的記憶?
將數(shù)據(jù)挖掘的范圍放在社交媒體的范疇,那么通過對一部電影推廣過程的梳理,我們很容易通過數(shù)據(jù)制定出一張細化到分鐘的參考,以及觀眾會被什么樣的宣傳內(nèi)容所吸引,但是它仍然只是在描述表象。
如果觀察只停留在眼前,將無法找到最終的因果。我們必須對推動現(xiàn)象發(fā)生的機制進行論證,那么我們該用什么樣的體量來儲存和分析觀眾們的記憶,從而找到個人經(jīng)歷和集體共鳴之間的關(guān)系?
在這個方面,如果只用社交媒體的數(shù)據(jù)進行相關(guān)性的分析,其實和我們?nèi)粘K龅母行酝茖]有太大區(qū)別,甚至還不如感性推導靈活,很容易因為數(shù)據(jù)的不夠全面犯下“黑天鵝”式的錯誤(在發(fā)現(xiàn)澳大利亞之前,西方認為只有白天鵝)。必須要追溯到成因階段更龐大的外部數(shù)據(jù),比如主要觀眾群十年間的消費偏好及社會經(jīng)歷,以及對他們觀影之前的心理活動進行統(tǒng)計分析。會不會太復雜?但是從數(shù)據(jù)挖掘的角度來說,只有在這個方向上進行努力才可能會提供實質(zhì)性的價值。
或者說,我們也可以簡單粗獷一些,如麥特的負責人陳礪志所言,《致青春》的成功最主要的因素是因為趙薇的敬業(yè)與投入,以及她個人在行業(yè)的積累。
大家可以想一想,以上三個角度,哪個會更容易接近整個事件的核心。
對以后和將來的認知
大數(shù)據(jù)技術(shù)雖然可以讓人類對現(xiàn)象的理解進行更深入的探究,但是當對國產(chǎn)的影視項目前景進行預測,首先需要面對的問題是,我們?nèi)匀惶幱谝粋€觀眾群體持續(xù)波動的時期。
在北美市場,貢獻50%票房的觀眾約占人口的10%,也就是3000萬左右,這部分群體基本上結(jié)構(gòu)相當穩(wěn)定。上世紀70年代末,當北美電影的平均制作預算開始攀升到1000萬美元以上,宣發(fā)費用達到500萬以上時,對觀眾的監(jiān)測從階段性的調(diào)研逐漸轉(zhuǎn)變成常態(tài)性的監(jiān)控。在計算機還只是個神話的時期,“好萊塢”是用人工+信件的形式,建立了最早的大范圍觀眾研究模型,這些歷史數(shù)據(jù)通過幾十年的積累,已經(jīng)讓一部電影與觀眾之間的聯(lián)系變得非常透明。但即使是如此嚴謹?shù)氖袌霰O(jiān)控,近幾年也因為受到移動互聯(lián)的影響,觀眾去影院觀影的行為隨機性逐漸提高,導致傳統(tǒng)的觀眾研究模型頻頻出現(xiàn)一些問題。
反觀國內(nèi)電影市場,差不多有三分之二的銀幕是在近三年之內(nèi)才出現(xiàn)的,2010年時,我們所擁有的現(xiàn)代化銀幕不過才6223塊,而如今,這個數(shù)字差不多是17000??上攵?,影院目前所迎來的觀眾,基本上是近三年才開始逐漸培養(yǎng)去影院觀影的興趣,這種行為暫時還不能稱之為習慣。
所以說,中國電影市場目前的波動很難通過現(xiàn)有的技術(shù)手段完成監(jiān)測,會因為存在有其他我們不可知的變量,而導致結(jié)果南轅北轍,這在統(tǒng)計學的回歸分析上被稱之為“變量遺漏偏差”,大數(shù)據(jù)技術(shù)目前所能覆蓋到的范圍并不能幫我們解決這個問題。我們還需要時間來不斷修正對市場數(shù)據(jù)的理解,觀眾也需要時間來不斷培養(yǎng)在影院觀影的習慣。
2013年上半年,幾乎所有從業(yè)者都對有動作元素的電影過于樂觀,而下半年,所有從業(yè)者包括我個人又會對以愛情元素為主的電影過分看好。從一些公司的大數(shù)據(jù)監(jiān)測上來看,這種觀眾消費行為的變化已經(jīng)反饋在可以被抓取的數(shù)據(jù)中,但是我們并不知道它所形成影響究竟該如何定量。也就是說我們可以看到趨勢,但是很難確定結(jié)果。
那么,在如今的中國電影市場中,我們不如將大數(shù)據(jù)技術(shù)的應用方向,從對未來的預知上轉(zhuǎn)移到可以讓我們規(guī)避哪些操作上的錯誤,或許更具有現(xiàn)實意義。
對當下進行判斷并進行實時處理
現(xiàn)在對大數(shù)據(jù)的理解,往往會糾纏于第一個字“大”,而忽視了它的另外一個重要特征“細”,其實后者才是最重要的,因為它會創(chuàng)造大數(shù)據(jù)真正的實用價值。
基于社交媒體的數(shù)據(jù)挖掘,其實已經(jīng)可以做到讓我們將觀眾的分類從簡單的年齡、性別、職業(yè)等維度,落實到區(qū)域、活動空間以及性格特征等等更為豐富的細節(jié),在這樣的基礎(chǔ)上,我們要做的就是怎樣給觀眾提供個性化的影響,而不再是以電影為本位的共性宣傳。
舉例來說,當一名男性觀眾在某個媒介上看到的電影海報,可能是大長腿和小翹臀,但一個女性觀眾同時接觸這個媒介時,所看到的可能是一個賣萌的大叔。當陣地宣傳中的預告片貼片到一部好萊塢大片之前時,它可能主要是用來渲染情感或者突出搞笑,但同樣的一分多鐘,在視頻網(wǎng)站所上線的預告片,則被分成數(shù)個版本,用來對應每一個點擊背后用戶的個人資料。這樣,觀眾便會加入到生產(chǎn)的過程中,通過對觀眾偏好的快速處理,最終創(chuàng)造更適合于傳播的信息。
目前,數(shù)據(jù)調(diào)研公司參與電影推廣的過程,所做的仍然只是一個統(tǒng)計的工作,決策是在片方或者是公關(guān)公司,其實可以將決策機制與數(shù)據(jù)同樣進行細化,成為實時的互動,減少時間的損耗,提高電影推廣的效率。我們以前在電影的推廣中,常常會為如何照顧到大部分觀眾的興趣而頭疼,那么換一種思路,用現(xiàn)有的觀眾數(shù)據(jù)進行群體的細分,給不同的觀眾群提供不一樣的信息,海納百川比光芒四射或許更符合當下社會化營銷的要義。
不過,這一切其實都只是理想化的愿景,現(xiàn)實的情況是,中國的電影產(chǎn)業(yè)目前仍然是處于一個極其原始的狀態(tài)。
僅從電影投資成本的角度來說,目前所公映的電影,平均投資約在3000萬人民幣以內(nèi),不足500萬美元,這樣的投資規(guī)模在不考慮通脹以及觀眾收入的情況下,只相當于北美70年代初期的水平。面對這樣的市場環(huán)境,很多議題其實都顯得比較空洞,因為拍腦袋做決策雖然有著莫大的風險,但畢竟成本很低。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11