
作者 | 秦澤宇、曹培信
來源 | 大數(shù)據(jù)文摘
不知道大家有沒有去看鹿晗和舒淇主演的科幻片《上海堡壘》,整體講述的是外星人入侵地球的故事,上海成為最后的根據(jù)地,而黃浦江里的上海大炮成為翻盤的唯一希望,當然了,還有鹿晗和舒淇的愛情故事。
不過上映以來,這部電影就被各種罵,導演、編劇都接連出來道歉。不過這一切的一切都已經無力回天,《上海堡壘》3.6億的投資成本,最終票房只攀登到1.2億多,可以說是虧得血本無歸??!
盡管豆瓣評分目前只剩下3.2分,但是評價中還是有人試圖客觀的分析電影失敗的原因,其中一個就是故事太過爛俗。
然而隨著自然語言處理(Natural Language Processing,簡稱NLP)的不斷發(fā)展,是否在電影拍攝前就根據(jù)電影的腳本摘要預測這部電影會不會受到大眾喜愛呢?
來自韓國的幾名研究人員就嘗試了這個方法。
四萬多部電影數(shù)據(jù),訓練可預測電影好壞的AI
研究人員試圖訓練出一個機器學習模型,可以通過電影摘要,分辨哪些哪些電影會成功或者失敗。如果人們可以進一步完善這個模型,有朝一日,制片人可以在電影制作前就能預測出這部電影在票房上是會大賣或者撲街。
為了訓練這個模型,研究員使用了來自世界各地,總共42306個電影情節(jié)作為數(shù)據(jù)集,大部分來自CMU電影摘要語料庫。
數(shù)據(jù)集
模型先將摘要劃分成句子,并用情感分析來分析每個句子。模型將認為是“積極”的句子,譬如“Thor喜歡他的錘子”,打分更接近1。模型將認為是“消極”的句子,譬如“Thor打架了”,打分更接近-1。
最后綜合兩個輸出進行分類,從而得出一個電影是否會成功。
模型分類架構
情節(jié)越起伏,觀眾越買賬
通常,成功的電影,比如1951年的《愛麗絲夢游仙境》,在Rotten Tomatoes電影評價網上獲得了80%的分數(shù),情緒波動頻繁;不成功的電影,比如2009年的《控制限制》情緒波動較小。研究員說,電影開頭或結尾是否皆大歡喜并不重要。重要的是情緒變化頻繁。
電影中的“波動性”衡量標準是將每個摘要的情緒打分壓縮成一個分數(shù),來反映情緒的變化。研究人員測試了三種不同獲得最終分數(shù)的方法。這三個方法都可以準確地預測一部電影是否會受歡迎。
上面兩張圖中,第一張里面的電影《愛麗絲夢游仙境(Alice in Wonderland)》的開頭和結尾都很積極,電影《靴子(Das Boot)》和《一個男人(A Man for All Seasons)》每一季的開頭和結尾都是消極的。電影《葛底斯堡(Gettysburg)》展示了命運的逆轉,開始時是消極的,結束時是積極的。人們普遍注意到,這些成功的電影有頻繁的情緒波動。
而第二張則是不成功的電影的情感分析,它表現(xiàn)出較少的情感波動。電影《控制的極限(The Limits of Control)》和《迷失的刀鋒戰(zhàn)士(Lost Bladesman)》都有消極的開頭和結尾。電影《大鍋(Tai-Pan)》以消極的開頭,以積極的結尾。電影《藍舌和尚(Bluetproof Monk)》的開頭和結尾都是正面的,但是在故事發(fā)展的過程中,大多數(shù)人的情緒得分都是負面的。因此,這表明情緒變化的頻率可能預示著電影的成功。然而,情緒的兩極對預測一部電影的成功影響甚微。
現(xiàn)在只能分好壞,希望將來能預測票房
研究人員在8月1日意大利佛羅倫薩舉辦的2019Storytelling Workshop上指出:盡管這些方法在猜測電影是否成功上表現(xiàn)并不出色,但是它們依舊比隨機預測更加準確。
研究人員說,在未來,他們的方法會進行改進,希望能夠預測一部電影的票房值,并幫助制片人決定這部電影是否值得投資。
在這個模型的應用方面,研究人員補充說,這個系統(tǒng)公平的評價機制對于不知名的作家來說是好事,不會因為名氣小而被埋沒。
同時也能潛在的幫助公眾,爛片被扼殺在搖籃里,觀眾們也就不必浪費時間看完像《大白鯊:復仇》這樣票房和口碑雙撲街的爛片了。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03