99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁案例分享電影票房預測分析案例
電影票房預測分析案例
2021-03-08
收藏
一、案例綜述
案例編號:
102001

案例名稱:
多媒體行業(yè)——電影票房預測分析

作者姓名(或單位、或來源):
朱江

案例所屬行業(yè):
R86 廣播、電視、電影和影視錄音制作業(yè)

案例所用軟件:
R

案例包含知識點:
讀取數(shù)據(jù),描述性數(shù)據(jù)分析,探索性數(shù)據(jù)分析,數(shù)據(jù)清洗,多元回歸分析

案例描述:
廣播、電視、電影和影視錄音制作業(yè)包含廣播、電視、電影和影視節(jié)目制作、電影和影視節(jié)目發(fā)行以及電影放映等細分行業(yè)。
目前國內(nèi)電影票房的日趨火熱,2010年到現(xiàn)在電影票房近乎呈指數(shù)增長,理念觀影人數(shù)以及電影銀幕數(shù)數(shù)量同樣呈近乎指數(shù)的增長趨勢,而由于中國人口基數(shù)大,每10萬人擁有的屏幕數(shù)(2塊左右)仍遠低于美國的14.9塊。在這樣的大趨勢下,電影票房預測分析順應而生。
電影票房預測分析有助于考察電影本身特質(zhì)對票房的主要影響因素,在一定程度上預測電影票房,為投資方在初期提供決策,為拍攝方在電影相關細節(jié)方面給出合理化建議。做電影票房預測分析回答的核心問題只有一個:如何拍出票房可能更高的電影。

數(shù)據(jù)文件說明:數(shù)據(jù)文件名為:film.csv。該數(shù)據(jù)記錄了2011年到2013年票房1千萬以上的所有電影的相關數(shù)據(jù),每個觀測為一部電影,共273部電影。因變量就是電影票房,自變量包含兩大部分:影片自身屬性和導演演員相關屬性,其中影片自身屬性包括影片類型、影片IP屬性、上映時間以及宣傳方,導演演員屬性包括導演名字、年代、第幾部作品、獲獎情況、導演是否轉(zhuǎn)型、兩個主演名字及對應的主演百度指數(shù)。

本案例共包含四個知識點。
1.數(shù)據(jù)讀入,讀入常見的csv格式數(shù)據(jù)
2.數(shù)據(jù)清洗,主要處理缺失值,使分類變量更具直觀的描述性
3.對數(shù)據(jù)進行基本的描述性和探索性分析,主要用到箱線圖,觀察電影票房在各分類變量條件下的關系,得到初步的關聯(lián)概念,初步確定未來的研究方向
4.使用多元線性回歸進行推斷和預測分析,得到系數(shù)并且進行初步的觀察和解釋,并且運用模型對新變量進行預測

案例執(zhí)行形式:
單人上機

二、案例知識點:
知識點1:
知識點名稱:R讀入csv格式數(shù)據(jù)

知識點所屬工作角色:
數(shù)據(jù)導入

知識點背景:
使用R導入最長用的csv格式的文件

知識點描述
通過函數(shù)讀入csv格式的數(shù)據(jù),在讀入的時候設置常見參數(shù),以提高讀入速率和準確率,以數(shù)據(jù)框的形式保存在內(nèi)存中

知識點關鍵詞:
R 讀取數(shù)據(jù)

知識點所用軟件:
Rstudio

操作目的:
R讀取csv文件

知識點素材(包括數(shù)據(jù)):
film.csv

操作步驟:

1.啟動Rstudio
2.使用setwd()函數(shù)設置工作目錄,將數(shù)據(jù)文件拷貝至工作目錄下
3.清空當前全局環(huán)境中存儲的所有變量,釋放內(nèi)存空間
4.使用read.csv讀取數(shù)據(jù),設置相應的參數(shù),這里我們設置表頭為真,不將字符串自動轉(zhuǎn)化為因子向量,并且將5.讀取的數(shù)據(jù)賦值給自定義的對象a。
6.查看讀入的數(shù)據(jù)對象a。


 
操作結(jié)果:
存儲在內(nèi)存中的數(shù)據(jù)框如上圖
將R代碼文件保存為readdata.R以備后續(xù)使用。

知識點小結(jié):
讀取csv文件的時候注意常用的參數(shù)設置,本案例涉及到的參數(shù)設置較為簡單,通過?read.csv查看更多的參數(shù)設置以便高效準確的讀取數(shù)據(jù)

知識點2:
知識點名稱:數(shù)據(jù)清洗

知識點所屬工作角色:

知識點背景:
對缺失值進行處理
根據(jù)之后描述性分析、探索性分析及建模需求,對數(shù)據(jù)進行合理的轉(zhuǎn)化和處理,使得數(shù)據(jù)更具解釋性

知識點描述
去除帶缺失值的行
采用函數(shù)對變量進行計算生成新的變量。

知識點關鍵詞:

知識點所用軟件:
Rstudio
操作目的:
處理缺失值
因子變量標簽轉(zhuǎn)換,生成新的因子變量

知識點素材(包括數(shù)據(jù)):
film.csv

操作步驟:
1.啟動Rstudio

2.讀取數(shù)據(jù)film.csv

3.查看所有變量的五數(shù)概括:
4.去除缺失值


5.將票房按照個人定義的區(qū)間劃分,生成新的分類變量,便于之后觀察


6.自定義一個新的函數(shù),將月份變量重新按照檔期分類,將分類變量生成自定義標簽的因子變量,新的函數(shù)同樣可以幫助日后處理新的格式完全相同的數(shù)據(jù)時使用

 


7.對數(shù)據(jù)集使用自定義函數(shù)并且查看前三行確認修改結(jié)果


8.保存數(shù)據(jù)到film1.csv,boxbar.csv

操作結(jié)果:
將存儲在內(nèi)存中的數(shù)據(jù)框?qū)ο骯整理成為想要的格式化數(shù)據(jù)
生成關于票房的新的分類變量

知識點小結(jié):
主要涉及到將連續(xù)變量生成分類變量的cut函數(shù),去除缺失值的na.omit函數(shù),以及生成因子的factor函數(shù)

知識點3:
知識點名稱:描述性和探索性分析

知識點所屬工作角色:數(shù)據(jù)描述

知識點背景:
基本的數(shù)據(jù)描述分析包括描述性數(shù)據(jù)分析和探索性數(shù)據(jù)分析,描述性分析的目標主要在于描述數(shù)據(jù)集,而探索性分析的目標主要是在描述的基礎上發(fā)現(xiàn)新的關聯(lián)或者是未知的關系

知識點描述
描述性分析,探索性分析

知識點關鍵詞:
描述性分析 探索性分析 箱線圖 

知識點所用軟件:
Rstudio

操作目的:
通過描述性、探索性統(tǒng)計得到票房的分布情況,以及各影響因素對票房的影響

知識點素材(包括數(shù)據(jù)):
film1.csv、boxbar.csv

操作步驟:
讀取數(shù)據(jù),對生成的票房分類變量做條形圖
barplot(boxbar$Freq,names.arg=boxbar$Var1,col="dodgerblue",xlab="票房(萬元)",ylab="頻數(shù)")

 


找到最高票房

 

找到最低票房

從圖中可見10-13年億元票房俱樂部是一個坎兒,10億票房俱樂部還有《西游降魔篇》

觀察不同電影類型的對數(shù)票房
boxplot(log(boxoffice)~genre,xlab="電影類型",data=a,col="indianred1",ylab="對數(shù)票房",varwidth=T)
 
觀察不同月份的對數(shù)票房分布
boxplot(log(boxoffice)~month,xlab="月份",data=a,col="dodgerblue",ylab="對數(shù)票房",varwidth=T)
觀察不同檔期的對數(shù)票房分布
boxplot(log(boxoffice)~dangqi,xlab="檔期",data=a,col="yellow",ylab="對數(shù)票房",varwidth=T)
從知識點2中的清洗代碼可知:賀歲檔對應12-2月,普通檔對應3-4月,黃金1檔對應5-6月,暑期檔對應7-9月,黃金2檔對應10-11月
?
觀察不同宣發(fā)公司對對數(shù)票房的影響
boxplot(log(boxoffice)~distribute,xlab="宣發(fā)公司",data=a,col="dodgerblue",ylab="對數(shù)票房",varwidth=T)
觀察不同IP因素對對數(shù)票房的影響

觀察導演是否獲獎和導演是否轉(zhuǎn)型對票房的影響
par(mfrow=c(1,2)) 
boxplot(log(boxoffice)~導演得獎情況,data=a,col=c("indianred1"),
        ylab="對數(shù)票房",xlab="",main="導演獲獎 vs 票房",varwidth=T)
boxplot(log(boxoffice)~導演是否轉(zhuǎn)型,data=a,col=c("purple"),
        ylab="",xlab="",main="導演轉(zhuǎn)型 vs 票房",varwidth=T)                
par(mfrow=c(1,1))
 
觀察不同導演年代對對數(shù)票房的影響
這里將30和40年代的導演統(tǒng)一歸到50年代以下,處理代碼見知識點2
操作結(jié)果:
得到若干影響因素和對數(shù)票房的分類箱線圖,方便直觀的觀察各因素對票房的影響

知識點小結(jié):
描述性分析和探索性分析都是直觀的通過圖形來描述和探索變量之間的關系,本知識點大多數(shù)圖形用箱線圖表現(xiàn)出各影響因素對電影票房的影響,箱線圖的寬度是此分類下的電影數(shù)量,所以這里用一維箱線圖表現(xiàn)出了三維的數(shù)據(jù),更加的直觀簡便。

知識點4:
知識點名稱:用多元線性回歸進行推斷和預測分析
知識點所屬工作角色:
回歸分析

知識點背景:
使用多元線性回歸進行推斷和預測分析
得到系數(shù)并且進行初步的觀察和解釋
運用模型對新變量進行預測

知識點描述
多元線性回歸

知識點關鍵詞:

知識點所用軟件:
Rstudio

操作目的:
使用多元線性回歸進行推斷和預測分析
得到系數(shù)并且進行初步的觀察和解釋
運用模型對新變量進行預測

知識點素材(包括數(shù)據(jù)):
film1.csv  predict.csv


操作步驟:
讀取數(shù)據(jù),進行回歸分析
結(jié)果分析:
R-squared: 0.5336,Adjusted R-squared: 0.4736??梢婎A測性一般。僅具備一定的參考價值。
模型總結(jié)(顯著性水平選擇0.05):
1.對比愛情片,魔幻片的票房平均高84%,懸疑片高104%
2.電影時長每增加1分鐘,票房增長3.1%
3.對比賀歲檔(12月-2月),普通檔(3月-4月)票房平均降低35.5%,黃金2檔低39.7%
4.對比聯(lián)合企業(yè),選擇小私營公司做宣發(fā)票房平均降低42.5%
5.虛構故事比原創(chuàng)票房低43%,翻拍電影票房增高37.5%,電影拍續(xù)集票房提高37.9%。
6.得過獎的導演比沒有得過獎的票房提高32.2%,由演員轉(zhuǎn)型的導演票房提高48.8%
7.運用模型對新變量進行預測


總結(jié)
預測準確率偏低,原因可能是多方面的:
數(shù)據(jù)選取邏輯不清晰,導致數(shù)據(jù)真實性不強
回歸模型解釋力度不夠

從模型中得到的部分啟示:
影響票房的主要因素有:影片類型、宣發(fā)團隊、IP因素、檔期、導演
投資選材建議:選擇魔幻、懸疑類題材,故事盡量原創(chuàng),有一定的群眾基礎(最好是翻拍片),搶占賀歲檔,宣發(fā)團隊要豪華(聯(lián)合企業(yè)),找一個從演員轉(zhuǎn)行的得過獎的導演

建議:
從電影本身的屬性建模由于電影市場發(fā)展的不成熟還是有很多困難,加上很難用變量限定電影質(zhì)量。
適當結(jié)合谷歌的搜索模型可能會得到更好的結(jié)果。

操作結(jié)果:
見操作步驟中的總結(jié)部分

知識點小結(jié):

多元回歸分析只是眾多有監(jiān)督預測方式的一種,由于存在線性假設,而線性假設在現(xiàn)實中并不常見,所以需要對模型進行進一步的調(diào)優(yōu)以達到更高的模型擬合度


學數(shù)據(jù)分析技能一定要了解的大廠入門券,CDA數(shù)據(jù)分析師認證證書!




CDA(數(shù)據(jù)分析師認證),與CFA相似,由國際范圍內(nèi)數(shù)據(jù)科學領域行業(yè)專家、學者及知名企業(yè)共同制定并修訂更新,迅速發(fā)展成行業(yè)內(nèi)長期而穩(wěn)定的全球大數(shù)據(jù)及數(shù)據(jù)分析人才標準,具有專業(yè)化、科學化、國際化、系統(tǒng)化等特性。


同時,CDA全棧考試布局和認證體系已得到教育部直屬中國成人教育協(xié)會認可,并由為IBM、華為等提供全球認證服務的Pearson VUE面向全球提供靈活的考試服務。


報名方式

登錄CDA認證考試官網(wǎng)注冊報名>>點擊報名


報名費用

Level Ⅰ:1200 RMB

Level Ⅱ:1700 RMB

Level Ⅲ:2000 RMB


考試地點

Level Ⅰ:中國區(qū)30+省市,70+城市,250+考場,考生可就近考場預約考試 >看看我所在的地哪里報名<

Level Ⅱ+Ⅲ:中國區(qū)30所城市,北京/上海/天津/重慶/成都/深圳/廣州/濟南/南京/杭州/蘇州/福州/太原/武漢/長沙/西安/貴陽/鄭州/南寧/昆明/烏魯木齊/沈陽/哈爾濱/合肥/石家莊/呼和浩特/南昌/長春/大連/蘭州>看看我所在的地哪里報名<


報考條件


業(yè)務數(shù)據(jù)分析師 CDA Level I >了解更多<

? 報考條件:無要求。

? 考試時間:隨報隨考。


建模分析師 CDA Level II >了解更多<

? 報考條件(滿足任一即可):

1、獲得CDA Level Ⅰ認證證書;

2、本科及以上學歷,需從事數(shù)據(jù)分析相關工作1年以上;

3、本科以下學歷,需從事數(shù)據(jù)分析相關工作2年以上。

? 考試時間:

一年四屆 3月、6月、9月、12月的最后一個周六。


大數(shù)據(jù)分析師 CDA Level II >了解更多<

? 報考條件(滿足任一即可):

1、獲得CDA Level Ⅰ認證證書;

2、本科及以上學歷,需從事數(shù)據(jù)分析相關工作1年以上;

3、本科以下學歷,需從事數(shù)據(jù)分析相關工作2年以上。

? 考試時間:

一年四屆 3月、6月、9月、12月的最后一個周六。


數(shù)據(jù)科學家  CDA Level III >了解更多<

? 報考條件(滿足任一即可):

1、獲得CDA Level Ⅱ認證證書;

2、本科及以上學歷,需從事數(shù)據(jù)分析相關工作3年以上;

3、本科以下學歷,需從事數(shù)據(jù)分析相關工作4年以上。

? 考試時間:

一年四屆 3月、6月、9月、12月的最后一個周六。

(備注:數(shù)據(jù)分析相關工作不限行業(yè),可涉及統(tǒng)計,數(shù)據(jù)分析,數(shù)據(jù)挖掘,數(shù)據(jù)庫,數(shù)據(jù)管理,大數(shù)據(jù)架構等內(nèi)容。)


——熱門課程推薦:

想學習PYTHON數(shù)據(jù)分析與金融數(shù)字化轉(zhuǎn)型精英訓練營,您可以點擊>>>“人才轉(zhuǎn)型”了解課程詳情;

想從事業(yè)務型數(shù)據(jù)分析師,您可以點擊>>>“數(shù)據(jù)分析師”了解課程詳情;

想從事大數(shù)據(jù)分析師,您可以點擊>>>“大數(shù)據(jù)就業(yè)”了解課程詳情;

想成為人工智能工程師,您可以點擊>>>“人工智能就業(yè)”了解課程詳情;

想了解Python數(shù)據(jù)分析,您可以點擊>>>“Python數(shù)據(jù)分析師”了解課程詳情;

想咨詢互聯(lián)網(wǎng)運營,你可以點擊>>>“互聯(lián)網(wǎng)運營就業(yè)班”了解課程詳情; 

想了解更多優(yōu)質(zhì)課程,請點擊>>>

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }