99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁案例分享電影票房預(yù)測(cè)分析案例
電影票房預(yù)測(cè)分析案例
2021-03-08
收藏
一、案例綜述
案例編號(hào):
102001

案例名稱:
多媒體行業(yè)——電影票房預(yù)測(cè)分析

作者姓名(或單位、或來源):
朱江

案例所屬行業(yè):
R86 廣播、電視、電影和影視錄音制作業(yè)

案例所用軟件:
R

案例包含知識(shí)點(diǎn):
讀取數(shù)據(jù),描述性數(shù)據(jù)分析,探索性數(shù)據(jù)分析,數(shù)據(jù)清洗,多元回歸分析

案例描述:
廣播、電視、電影和影視錄音制作業(yè)包含廣播、電視、電影和影視節(jié)目制作、電影和影視節(jié)目發(fā)行以及電影放映等細(xì)分行業(yè)。
目前國內(nèi)電影票房的日趨火熱,2010年到現(xiàn)在電影票房近乎呈指數(shù)增長,理念觀影人數(shù)以及電影銀幕數(shù)數(shù)量同樣呈近乎指數(shù)的增長趨勢(shì),而由于中國人口基數(shù)大,每10萬人擁有的屏幕數(shù)(2塊左右)仍遠(yuǎn)低于美國的14.9塊。在這樣的大趨勢(shì)下,電影票房預(yù)測(cè)分析順應(yīng)而生。
電影票房預(yù)測(cè)分析有助于考察電影本身特質(zhì)對(duì)票房的主要影響因素,在一定程度上預(yù)測(cè)電影票房,為投資方在初期提供決策,為拍攝方在電影相關(guān)細(xì)節(jié)方面給出合理化建議。做電影票房預(yù)測(cè)分析回答的核心問題只有一個(gè):如何拍出票房可能更高的電影。

數(shù)據(jù)文件說明:數(shù)據(jù)文件名為:film.csv。該數(shù)據(jù)記錄了2011年到2013年票房1千萬以上的所有電影的相關(guān)數(shù)據(jù),每個(gè)觀測(cè)為一部電影,共273部電影。因變量就是電影票房,自變量包含兩大部分:影片自身屬性和導(dǎo)演演員相關(guān)屬性,其中影片自身屬性包括影片類型、影片IP屬性、上映時(shí)間以及宣傳方,導(dǎo)演演員屬性包括導(dǎo)演名字、年代、第幾部作品、獲獎(jiǎng)情況、導(dǎo)演是否轉(zhuǎn)型、兩個(gè)主演名字及對(duì)應(yīng)的主演百度指數(shù)。

本案例共包含四個(gè)知識(shí)點(diǎn)。
1.數(shù)據(jù)讀入,讀入常見的csv格式數(shù)據(jù)
2.數(shù)據(jù)清洗,主要處理缺失值,使分類變量更具直觀的描述性
3.對(duì)數(shù)據(jù)進(jìn)行基本的描述性和探索性分析,主要用到箱線圖,觀察電影票房在各分類變量條件下的關(guān)系,得到初步的關(guān)聯(lián)概念,初步確定未來的研究方向
4.使用多元線性回歸進(jìn)行推斷和預(yù)測(cè)分析,得到系數(shù)并且進(jìn)行初步的觀察和解釋,并且運(yùn)用模型對(duì)新變量進(jìn)行預(yù)測(cè)

案例執(zhí)行形式:
單人上機(jī)

二、案例知識(shí)點(diǎn):
知識(shí)點(diǎn)1:
知識(shí)點(diǎn)名稱:R讀入csv格式數(shù)據(jù)

知識(shí)點(diǎn)所屬工作角色:
數(shù)據(jù)導(dǎo)入

知識(shí)點(diǎn)背景:
使用R導(dǎo)入最長用的csv格式的文件

知識(shí)點(diǎn)描述
通過函數(shù)讀入csv格式的數(shù)據(jù),在讀入的時(shí)候設(shè)置常見參數(shù),以提高讀入速率和準(zhǔn)確率,以數(shù)據(jù)框的形式保存在內(nèi)存中

知識(shí)點(diǎn)關(guān)鍵詞:
R 讀取數(shù)據(jù)

知識(shí)點(diǎn)所用軟件:
Rstudio

操作目的:
R讀取csv文件

知識(shí)點(diǎn)素材(包括數(shù)據(jù)):
film.csv

操作步驟:

1.啟動(dòng)Rstudio
2.使用setwd()函數(shù)設(shè)置工作目錄,將數(shù)據(jù)文件拷貝至工作目錄下
3.清空當(dāng)前全局環(huán)境中存儲(chǔ)的所有變量,釋放內(nèi)存空間
4.使用read.csv讀取數(shù)據(jù),設(shè)置相應(yīng)的參數(shù),這里我們?cè)O(shè)置表頭為真,不將字符串自動(dòng)轉(zhuǎn)化為因子向量,并且將5.讀取的數(shù)據(jù)賦值給自定義的對(duì)象a。
6.查看讀入的數(shù)據(jù)對(duì)象a。


 
操作結(jié)果:
存儲(chǔ)在內(nèi)存中的數(shù)據(jù)框如上圖
將R代碼文件保存為readdata.R以備后續(xù)使用。

知識(shí)點(diǎn)小結(jié):
讀取csv文件的時(shí)候注意常用的參數(shù)設(shè)置,本案例涉及到的參數(shù)設(shè)置較為簡單,通過?read.csv查看更多的參數(shù)設(shè)置以便高效準(zhǔn)確的讀取數(shù)據(jù)

知識(shí)點(diǎn)2:
知識(shí)點(diǎn)名稱:數(shù)據(jù)清洗

知識(shí)點(diǎn)所屬工作角色:

知識(shí)點(diǎn)背景:
對(duì)缺失值進(jìn)行處理
根據(jù)之后描述性分析、探索性分析及建模需求,對(duì)數(shù)據(jù)進(jìn)行合理的轉(zhuǎn)化和處理,使得數(shù)據(jù)更具解釋性

知識(shí)點(diǎn)描述
去除帶缺失值的行
采用函數(shù)對(duì)變量進(jìn)行計(jì)算生成新的變量。

知識(shí)點(diǎn)關(guān)鍵詞:

知識(shí)點(diǎn)所用軟件:
Rstudio
操作目的:
處理缺失值
因子變量標(biāo)簽轉(zhuǎn)換,生成新的因子變量

知識(shí)點(diǎn)素材(包括數(shù)據(jù)):
film.csv

操作步驟:
1.啟動(dòng)Rstudio

2.讀取數(shù)據(jù)film.csv

3.查看所有變量的五數(shù)概括:
4.去除缺失值


5.將票房按照個(gè)人定義的區(qū)間劃分,生成新的分類變量,便于之后觀察


6.自定義一個(gè)新的函數(shù),將月份變量重新按照檔期分類,將分類變量生成自定義標(biāo)簽的因子變量,新的函數(shù)同樣可以幫助日后處理新的格式完全相同的數(shù)據(jù)時(shí)使用

 


7.對(duì)數(shù)據(jù)集使用自定義函數(shù)并且查看前三行確認(rèn)修改結(jié)果


8.保存數(shù)據(jù)到film1.csv,boxbar.csv

操作結(jié)果:
將存儲(chǔ)在內(nèi)存中的數(shù)據(jù)框?qū)ο骯整理成為想要的格式化數(shù)據(jù)
生成關(guān)于票房的新的分類變量

知識(shí)點(diǎn)小結(jié):
主要涉及到將連續(xù)變量生成分類變量的cut函數(shù),去除缺失值的na.omit函數(shù),以及生成因子的factor函數(shù)

知識(shí)點(diǎn)3:
知識(shí)點(diǎn)名稱:描述性和探索性分析

知識(shí)點(diǎn)所屬工作角色:數(shù)據(jù)描述

知識(shí)點(diǎn)背景:
基本的數(shù)據(jù)描述分析包括描述性數(shù)據(jù)分析和探索性數(shù)據(jù)分析,描述性分析的目標(biāo)主要在于描述數(shù)據(jù)集,而探索性分析的目標(biāo)主要是在描述的基礎(chǔ)上發(fā)現(xiàn)新的關(guān)聯(lián)或者是未知的關(guān)系

知識(shí)點(diǎn)描述
描述性分析,探索性分析

知識(shí)點(diǎn)關(guān)鍵詞:
描述性分析 探索性分析 箱線圖 

知識(shí)點(diǎn)所用軟件:
Rstudio

操作目的:
通過描述性、探索性統(tǒng)計(jì)得到票房的分布情況,以及各影響因素對(duì)票房的影響

知識(shí)點(diǎn)素材(包括數(shù)據(jù)):
film1.csv、boxbar.csv

操作步驟:
讀取數(shù)據(jù),對(duì)生成的票房分類變量做條形圖
barplot(boxbar$Freq,names.arg=boxbar$Var1,col="dodgerblue",xlab="票房(萬元)",ylab="頻數(shù)")

 


找到最高票房

 

找到最低票房

從圖中可見10-13年億元票房俱樂部是一個(gè)坎兒,10億票房俱樂部還有《西游降魔篇》

觀察不同電影類型的對(duì)數(shù)票房
boxplot(log(boxoffice)~genre,xlab="電影類型",data=a,col="indianred1",ylab="對(duì)數(shù)票房",varwidth=T)
 
觀察不同月份的對(duì)數(shù)票房分布
boxplot(log(boxoffice)~month,xlab="月份",data=a,col="dodgerblue",ylab="對(duì)數(shù)票房",varwidth=T)
觀察不同檔期的對(duì)數(shù)票房分布
boxplot(log(boxoffice)~dangqi,xlab="檔期",data=a,col="yellow",ylab="對(duì)數(shù)票房",varwidth=T)
從知識(shí)點(diǎn)2中的清洗代碼可知:賀歲檔對(duì)應(yīng)12-2月,普通檔對(duì)應(yīng)3-4月,黃金1檔對(duì)應(yīng)5-6月,暑期檔對(duì)應(yīng)7-9月,黃金2檔對(duì)應(yīng)10-11月
?
觀察不同宣發(fā)公司對(duì)對(duì)數(shù)票房的影響
boxplot(log(boxoffice)~distribute,xlab="宣發(fā)公司",data=a,col="dodgerblue",ylab="對(duì)數(shù)票房",varwidth=T)
觀察不同IP因素對(duì)對(duì)數(shù)票房的影響

觀察導(dǎo)演是否獲獎(jiǎng)和導(dǎo)演是否轉(zhuǎn)型對(duì)票房的影響
par(mfrow=c(1,2)) 
boxplot(log(boxoffice)~導(dǎo)演得獎(jiǎng)情況,data=a,col=c("indianred1"),
        ylab="對(duì)數(shù)票房",xlab="",main="導(dǎo)演獲獎(jiǎng) vs 票房",varwidth=T)
boxplot(log(boxoffice)~導(dǎo)演是否轉(zhuǎn)型,data=a,col=c("purple"),
        ylab="",xlab="",main="導(dǎo)演轉(zhuǎn)型 vs 票房",varwidth=T)                
par(mfrow=c(1,1))
 
觀察不同導(dǎo)演年代對(duì)對(duì)數(shù)票房的影響
這里將30和40年代的導(dǎo)演統(tǒng)一歸到50年代以下,處理代碼見知識(shí)點(diǎn)2
操作結(jié)果:
得到若干影響因素和對(duì)數(shù)票房的分類箱線圖,方便直觀的觀察各因素對(duì)票房的影響

知識(shí)點(diǎn)小結(jié):
描述性分析和探索性分析都是直觀的通過圖形來描述和探索變量之間的關(guān)系,本知識(shí)點(diǎn)大多數(shù)圖形用箱線圖表現(xiàn)出各影響因素對(duì)電影票房的影響,箱線圖的寬度是此分類下的電影數(shù)量,所以這里用一維箱線圖表現(xiàn)出了三維的數(shù)據(jù),更加的直觀簡便。

知識(shí)點(diǎn)4:
知識(shí)點(diǎn)名稱:用多元線性回歸進(jìn)行推斷和預(yù)測(cè)分析
知識(shí)點(diǎn)所屬工作角色:
回歸分析

知識(shí)點(diǎn)背景:
使用多元線性回歸進(jìn)行推斷和預(yù)測(cè)分析
得到系數(shù)并且進(jìn)行初步的觀察和解釋
運(yùn)用模型對(duì)新變量進(jìn)行預(yù)測(cè)

知識(shí)點(diǎn)描述
多元線性回歸

知識(shí)點(diǎn)關(guān)鍵詞:

知識(shí)點(diǎn)所用軟件:
Rstudio

操作目的:
使用多元線性回歸進(jìn)行推斷和預(yù)測(cè)分析
得到系數(shù)并且進(jìn)行初步的觀察和解釋
運(yùn)用模型對(duì)新變量進(jìn)行預(yù)測(cè)

知識(shí)點(diǎn)素材(包括數(shù)據(jù)):
film1.csv  predict.csv


操作步驟:
讀取數(shù)據(jù),進(jìn)行回歸分析
結(jié)果分析:
R-squared: 0.5336,Adjusted R-squared: 0.4736。可見預(yù)測(cè)性一般。僅具備一定的參考價(jià)值。
模型總結(jié)(顯著性水平選擇0.05):
1.對(duì)比愛情片,魔幻片的票房平均高84%,懸疑片高104%
2.電影時(shí)長每增加1分鐘,票房增長3.1%
3.對(duì)比賀歲檔(12月-2月),普通檔(3月-4月)票房平均降低35.5%,黃金2檔低39.7%
4.對(duì)比聯(lián)合企業(yè),選擇小私營公司做宣發(fā)票房平均降低42.5%
5.虛構(gòu)故事比原創(chuàng)票房低43%,翻拍電影票房增高37.5%,電影拍續(xù)集票房提高37.9%。
6.得過獎(jiǎng)的導(dǎo)演比沒有得過獎(jiǎng)的票房提高32.2%,由演員轉(zhuǎn)型的導(dǎo)演票房提高48.8%
7.運(yùn)用模型對(duì)新變量進(jìn)行預(yù)測(cè)


總結(jié)
預(yù)測(cè)準(zhǔn)確率偏低,原因可能是多方面的:
數(shù)據(jù)選取邏輯不清晰,導(dǎo)致數(shù)據(jù)真實(shí)性不強(qiáng)
回歸模型解釋力度不夠

從模型中得到的部分啟示:
影響票房的主要因素有:影片類型、宣發(fā)團(tuán)隊(duì)、IP因素、檔期、導(dǎo)演
投資選材建議:選擇魔幻、懸疑類題材,故事盡量原創(chuàng),有一定的群眾基礎(chǔ)(最好是翻拍片),搶占賀歲檔,宣發(fā)團(tuán)隊(duì)要豪華(聯(lián)合企業(yè)),找一個(gè)從演員轉(zhuǎn)行的得過獎(jiǎng)的導(dǎo)演

建議:
從電影本身的屬性建模由于電影市場(chǎng)發(fā)展的不成熟還是有很多困難,加上很難用變量限定電影質(zhì)量。
適當(dāng)結(jié)合谷歌的搜索模型可能會(huì)得到更好的結(jié)果。

操作結(jié)果:
見操作步驟中的總結(jié)部分

知識(shí)點(diǎn)小結(jié):

多元回歸分析只是眾多有監(jiān)督預(yù)測(cè)方式的一種,由于存在線性假設(shè),而線性假設(shè)在現(xiàn)實(shí)中并不常見,所以需要對(duì)模型進(jìn)行進(jìn)一步的調(diào)優(yōu)以達(dá)到更高的模型擬合度


學(xué)數(shù)據(jù)分析技能一定要了解的大廠入門券,CDA數(shù)據(jù)分析師認(rèn)證證書!




CDA(數(shù)據(jù)分析師認(rèn)證),與CFA相似,由國際范圍內(nèi)數(shù)據(jù)科學(xué)領(lǐng)域行業(yè)專家、學(xué)者及知名企業(yè)共同制定并修訂更新,迅速發(fā)展成行業(yè)內(nèi)長期而穩(wěn)定的全球大數(shù)據(jù)及數(shù)據(jù)分析人才標(biāo)準(zhǔn),具有專業(yè)化、科學(xué)化、國際化、系統(tǒng)化等特性。


同時(shí),CDA全??荚嚥季趾驼J(rèn)證體系已得到教育部直屬中國成人教育協(xié)會(huì)認(rèn)可,并由為IBM、華為等提供全球認(rèn)證服務(wù)的Pearson VUE面向全球提供靈活的考試服務(wù)。


報(bào)名方式

登錄CDA認(rèn)證考試官網(wǎng)注冊(cè)報(bào)名>>點(diǎn)擊報(bào)名


報(bào)名費(fèi)用

Level Ⅰ:1200 RMB

Level Ⅱ:1700 RMB

Level Ⅲ:2000 RMB


考試地點(diǎn)

Level Ⅰ:中國區(qū)30+省市,70+城市,250+考場(chǎng),考生可就近考場(chǎng)預(yù)約考試 >看看我所在的地哪里報(bào)名<

Level Ⅱ+Ⅲ:中國區(qū)30所城市,北京/上海/天津/重慶/成都/深圳/廣州/濟(jì)南/南京/杭州/蘇州/福州/太原/武漢/長沙/西安/貴陽/鄭州/南寧/昆明/烏魯木齊/沈陽/哈爾濱/合肥/石家莊/呼和浩特/南昌/長春/大連/蘭州>看看我所在的地哪里報(bào)名<


報(bào)考條件


業(yè)務(wù)數(shù)據(jù)分析師 CDA Level I >了解更多<

? 報(bào)考條件:無要求。

? 考試時(shí)間:隨報(bào)隨考。


建模分析師 CDA Level II >了解更多<

? 報(bào)考條件(滿足任一即可):

1、獲得CDA Level Ⅰ認(rèn)證證書;

2、本科及以上學(xué)歷,需從事數(shù)據(jù)分析相關(guān)工作1年以上;

3、本科以下學(xué)歷,需從事數(shù)據(jù)分析相關(guān)工作2年以上。

? 考試時(shí)間:

一年四屆 3月、6月、9月、12月的最后一個(gè)周六。


大數(shù)據(jù)分析師 CDA Level II >了解更多<

? 報(bào)考條件(滿足任一即可):

1、獲得CDA Level Ⅰ認(rèn)證證書;

2、本科及以上學(xué)歷,需從事數(shù)據(jù)分析相關(guān)工作1年以上;

3、本科以下學(xué)歷,需從事數(shù)據(jù)分析相關(guān)工作2年以上。

? 考試時(shí)間:

一年四屆 3月、6月、9月、12月的最后一個(gè)周六。


數(shù)據(jù)科學(xué)家  CDA Level III >了解更多<

? 報(bào)考條件(滿足任一即可):

1、獲得CDA Level Ⅱ認(rèn)證證書;

2、本科及以上學(xué)歷,需從事數(shù)據(jù)分析相關(guān)工作3年以上;

3、本科以下學(xué)歷,需從事數(shù)據(jù)分析相關(guān)工作4年以上。

? 考試時(shí)間:

一年四屆 3月、6月、9月、12月的最后一個(gè)周六。

(備注:數(shù)據(jù)分析相關(guān)工作不限行業(yè),可涉及統(tǒng)計(jì),數(shù)據(jù)分析,數(shù)據(jù)挖掘,數(shù)據(jù)庫,數(shù)據(jù)管理,大數(shù)據(jù)架構(gòu)等內(nèi)容。)


——熱門課程推薦:

想學(xué)習(xí)PYTHON數(shù)據(jù)分析與金融數(shù)字化轉(zhuǎn)型精英訓(xùn)練營,您可以點(diǎn)擊>>>“人才轉(zhuǎn)型”了解課程詳情;

想從事業(yè)務(wù)型數(shù)據(jù)分析師,您可以點(diǎn)擊>>>“數(shù)據(jù)分析師”了解課程詳情;

想從事大數(shù)據(jù)分析師,您可以點(diǎn)擊>>>“大數(shù)據(jù)就業(yè)”了解課程詳情;

想成為人工智能工程師,您可以點(diǎn)擊>>>“人工智能就業(yè)”了解課程詳情;

想了解Python數(shù)據(jù)分析,您可以點(diǎn)擊>>>“Python數(shù)據(jù)分析師”了解課程詳情;

想咨詢互聯(lián)網(wǎng)運(yùn)營,你可以點(diǎn)擊>>>“互聯(lián)網(wǎng)運(yùn)營就業(yè)班”了解課程詳情; 

想了解更多優(yōu)質(zhì)課程,請(qǐng)點(diǎn)擊>>>

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請(qǐng)參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }