创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
发布日期:2024-09-25 13:23 点击次数:81
北京科技大学天津学院色色色影院,天津
收稿日历:2021年2月17日;寄托日历:2021年3月22日;发布日历:2021年3月29日
撮要
跟着经济的发展和东说念主民生流水平的升迁,电影行业赶紧发展。电影票房影响要素的计划及预计,对升迁国产电影质地相当必要。现在学者们多收受神经集中法式对电影票房进行计划,神经集中法式未给出变量要紧性排序,预计法例不够谨慎。本文依据2014~2018年225部国产影片的有关数据,收受立时丛林法式诞生电影票房预计模子。得到了影响我国国产电影票房的要素主要有首周末票房、首映日票房、百度指数、豆瓣评分和点映票房。同期本文收受线性追究模子和神经集中模子诞生电影票房的预计模子,应用三种法式对2019年12部国产电影票房进行预计。法例标明:立时丛林在电影票房预计方面愈加精准谨慎,对《奔突东说念主生》、《星河补习班》等八部影片的预计谬误在10%驾御。神经集中和线性追究模子预计谬误较大。
重要词
电影票房预计,影响要素,立时丛林,神经集中,线性追究
Research on Box Office of Domestic Films Based on Random Forest Method
Xuan Guo, Yong Bao, Shuiyuan Yu
Tianjin College, University of Science and Technology Beijing, Tianjin
Received: Feb. 17th, 2021; accepted: Mar. 22nd, 2021; published: Mar. 29th, 2021
ABSTRACT
With the development of economy and the improvement of people’s living standard, the film industry develops rapidly. It is necessary to study and forecast the influencing factors of film box office to improve the quality of domestic films. At present, most scholars use the neural network method to study the box office of films. The neural network method does not give the order of importance of variables, and the prediction results are not robust enough. Based on the relevant data of 225 domestic films from 2014 to 2018, this paper adopts the random forest method to establish the box office prediction model. The main factors that influence the box office of domestic films in China are the box office of the first weekend, the first day box office, baidu index, douban score and the advance screenings box office. At the same time, this paper adopts linear regression model and neural network model to establish the box office prediction model, and applies three methods to predict the box office of 12 domestic films in 2019. The results show that the random forest is more accurate and stable in the prediction of box office, and the prediction error of eight films such as “Pegasus” and “Looking Up” is around 10%. The prediction error of neural network and linear regression model is large.
Keywords:Box Office Forecast, Affecting Factors, Random Forests, Neural Network, Linear Regression
Copyright © 2021 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
1. 序言
频年来中国电影业发展赶紧,但国产电影票房收入在总票房中占比不大,国产电影想要在海外电影市集占有一隅之地仍需更大的辛勤,分析影响电影票房的要素,预计电影票房,升迁电影质地大势所趋。2014年杨威 [1] 使用新媒体微博数据动作计划对象,利用神经集中法式诞生票房预计模子,并与守旧向量机模子和线性追究模子进行预计精度对比,法例标明神经集中模子准确度高于其他模子。2017年张雪 [2] 使用多元线性追究、BP神经集中和卷积神经集中诞生票房预计模子,法例标明 [2]:多元追究模子预计后果精准度较低,BP神经集中和卷积神经集中预计后果王人比追究好。2018年郭萱 [3] 针对2014~2016年173部国产电影收受立时丛林法式进行电影票房影响要素分析,兼顾数值预计法式与分类预计法式提供合理的电影票房预计决策。2019年鲁月 [4] 基于立时丛林构建票房组合预计模子并与基于BP神经集中、k-均值 [4] 和局部BP神经集中的国产电影票房预计模子进行对比,法例标明基于立时丛林要素筛选的国产电影票房组合模子在一定进度上升迁了票房的预计精度。
女同t立时丛林法式建议于今,也曾被平日应用于机器学习、生物医学、生物信息学和数据挖掘等繁密鸿沟。该法式不仅可以进行分类和追究预计,同期可以给出变量要紧性排序 [5]。比较于参数模子中假定较多,参数揣摸数值不富厚的问题,立时丛林法式可以更好地惩办噪声问题以及数据中的非常值问题、能更好地对大限制数据进行处理 [6]、具有细腻的解说性及学习过程快速。本文收受立时丛林法式对国产电影票房影响要素进行分析,并对2019年12部影片的票房进行预计。领先凭证问题履行配景给出七个影响国产电影票房的要素,诀别为:档期、是否有续集、首映日票房、点映票房、首周末票房、百度指数和豆瓣评分。基于2014~2018年225部影片的有关数据,收受立时丛林法式诞生追究模子,得到影响国产电影票房的主要要素并给出2019年12部影片电影票房的预计值和预计谬误。同期收受电影票房鸿沟应用较多的神经集中法式和线性追究法式对2019年12部影片进行预计。将立时丛林预计法例与神经集中和线性追究模子预计法例进行对比分析。在变量选拔方面立时丛林具有一定的上风,在预计方面立时丛林法式比其他两种法式更为精准。
2. 立时丛林法式先容
立时丛林是机器学习算法之一,由多个决策树分类器组合而成。立时丛林 [7] 的基本念念想是每次立时选取一些特征,孤苦诞生树,重叠这个过程,保证每次诞生树时变量选取的可能性一致,如斯诞生很多互相孤苦的树,最终的分类法例由产生的这些树共同决定。将分类树替换成追究树,把类别替换为每个追究树预计值的加权平均,就可以将立时丛林树退换竖立时丛林追究算法。立时丛林经过图如图1所示。
图1. 立时丛林经过图
2.1. 立时丛林算法
立时丛林算法为 [8]:
(1) 关于 b = 1 , ⋯ , B
(a) 通过bootstrap抽样神志产生b个样簿子集。
(b) 对每个bootstrap样本诞生立时丛林树 T b ,每个叶子节点递归地重叠以下法式,直到叶子节点包含的数据量为 n min 为止。
① 从p个自变量中立时选拔mtry个自变量。在使用立时丛林作念追究时mtry默许值为p/3,使用立时丛林作念分类时默许值为 p ,其中p为自变量个数。
② 在mtry个自变量中选拔最佳分裂变量和分裂点。
③ 将节点拆分为两个叶子节点。
(2) 输出集成树 { T b } 1 B
(3) 预计
(a) 关于追究问题,待测样本x的预计为:
f r f B ^ ( x ) = 1 B ∑ b = 1 B T b ( x )
(b) 关于分类问题,设 C b ^ ( x ) 是第b棵树的类预计。
C r f B ^ ( x ) = majorityvote { C b ^ ( x ) } 1 B
majorityvote为多数票。
2.2. 变量要紧性排序
立时丛林可以给出变量要紧性的排序,其具体过程如下 [9]:
(1) 对每个bootstrap抽取的样本诞生一个追究树模子,同期使用该模子对相应的袋外数据OOB(out-of-bag)进行预计,得到B个袋外数据的残差均方,记为 M S E 1 , M S E 2 , ⋯ , M S E B 。
(2) 变量 X i 在B个OOB样本中立时置换,得到新的OOB样本,然后用已诞生的立时丛林模子预计新的OOB样本,得到立时置换后的OOB残差均方如下:
[ M S E 11 M S E 12 ⋯ M S E 1 B M S E 21 M S E 22 ⋯ M S E 2 B M S E 31 M S E 32 ⋯ M S E 3 B ⋮ ⋮ ⋱ ⋮ M S E p 1 M S E p 2 ⋯ M S E p B ]
(3) 用 M S E 1 , M S E 2 , ⋯ , M S E B 与如上矩阵对应的第i列向量相减,平均后再除以圭臬误则得到变量 X i 的要紧性排序,即
s c o r e i = ( ∑ j = 1 B ( M S E j − M S E i j ) / b ) / S E , ( 1 ≤ i ≤ p )
立时丛林法式通过在OOB样本中立时地置换变量,筹备预计精度下跌进度来预计变量的要紧性,其数值越大阐扬变量越要紧。
3. 中国电影票房影响要素及预计的实证分析
3.1. 中国电影票房影响要素目标的选取以及数据起首
本文凭证履行问题配景以及数据得到难易进度选拔影响中国电影票房的7个要素,诀别为:档期、是否有续集、首映日票房、点映票房、首周末票房、百度指数和豆瓣评分。
① 档期:中国电影现在主要有暑期档和贺岁档两大稀罕档期,本文将档期分为三类 [10]:贺岁档为每年12、1、2月份;暑期档为每年6、7、8月份;其余月份为其他档期记为第一类。
② 续集:漫威系列电影的班师启示咱们是否有续集可能会诱惑特定的不雅众带来一语气不断的票房。国内《东说念主在囧途》、《叶问》、《战狼》等影片的班师预示着续集有可能成为影响电影票房的要素。
③ 首映日票房:首映日票房举座上可以反应不雅众关于一部电影的良善度,可以反应电影上映前电影的宣传后果。《好意思东说念主鱼》上映今日票房达到2.72亿元,最终票房大卖。刊行商可以凭证首映日票房进一步明确影片定位,诊疗营销计谋。
④ 点映票房:点映是电影上映前,制作团队在个别城市、个别影院对影片提前放映。点映在好莱坞有半个多世纪的历史,中国电影点映始于张艺谋导演的作品《英豪》 [11]。点映一方面可以茂盛不雅众的意思意思心,为电影的讲求上映蓄积精深的口碑,另一方面可以通过不雅众的反馈诊疗上映工夫的场次,合乎变嫌营销决策。
⑤ 首周末票房:电影上映一周的首周末票房可以查考这部电影是否被不雅众招供,可认为接下来一段时期的排片宣传提供一定的参考。
⑥ 百度指数:百度指数是现时互联网时期要紧的统计分析平台之一,是繁密企业营销决策的要紧依据。百度指数里可以看到以电影名为重要词的搜索量限制大小,电影上映前百度指数是指以该电影为重要词的预报片以及宣传片的搜索量。本文统计了一部电影上映前四周的百度指数,由于搜索量波动较大,选拔电影上映前四周的平均百度指数动作计划变量。
⑦ 豆瓣评分:豆瓣电影是中国最大最泰斗的电影共享与磋商社区 [12],电影上映后,不雅众领路过我方的详细不雅感在豆瓣电影给出详细评分以及磋商。豆瓣评分代表着电影口碑。一部电影的评分会跟着上映工夫不雅众的评价不断更新,无法动态网罗,本文收受电影上映后的详细评分动作计划变量。
各影响要素目标具体如表1。
凭证《艺恩数据》及《中国电影票房数据库》,得到我国2014~2018年上映的225部影片的不雅测数据,部分数据如表2所示。
表1. 目标选取
表2. 2014~2018年225部影片部分数据
进行数据分析前,为了摈斥量纲以及数据数目级大小的影响,关于数值型变量的不雅测数据进行圭臬化处理,即因变量票房,自变量首映日票房、点映票房、首周末票房、百度指数和豆瓣评分圭臬化处理z分数暗意为公式(1):
z i = x i − x ¯ s (1)
x ¯ 暗意本组数据的平均数,s暗意本组数据的圭臬差。
3.2. 立时丛林模子的诞生
诞生票房追究预计模子,立时丛林模子中有两个参数mtry和ntree,其中mtry暗意每一步分裂选拔的自变量个数,ntree为立时丛林中树的个数,R软件randomforest()函数默许 mtry = p / 3 ,p为自变量个数,默许树的个数 ntree = 500 ,Gareth James等 [13] 指出立时丛林里参数取默许值也可以取得较谨慎的后果。
模子诞生过程:
(1) 关于 b = 1 , ⋯ , 500
(a) 通过bootstrap抽样神志产生500个样簿子集。
(b) 对每个bootstrap样本诞生立时丛林树 T b ,每个叶子节点递归地重叠以下法式,直到叶子节点包含的数据量为5为止。
① 从7个自变量 x 1 , x 2 , ⋯ , x 7 中立时选拔2个自变量。
② 在2个自变量中选拔最佳分裂变量和分裂点。
③ 将节点拆分为两个叶子节点。
(2) 输出集成树 { T b } 1 B
(3) 预计
关于追究问题,待测样本x的预计为:
f r f B ^ ( x ) = 1 500 ∑ b = 1 500 T b ( x )
3.3. 变量要紧性排序
使用上述诞生的立时丛林模子,可以收受R软件筹备得出影响电影票房的变量要紧性排序如表3所示。立时丛林法式通过在OOB(out-of-bag)样本中立时地置换变量,筹备变量要紧性。该数值越大,变量越要紧,对电影票房的影响越大。
表3. 变量要紧性排序
通过筹备得出的变量要紧性排序可知,首周末票房、首映日票房、百度指数、豆瓣评分和点映票房为影响电影票房的要首要素,档期和续集关于电影票房的影响可以忽略不计。R软件中plot()函数可以给出变量要紧性排序图,如图2所示。
3.4. 三种法式预计法例比较
除了立时丛林模子外,神经集中在分类数据预计方面有较好的后果,线性追究模子是传统的预计模子,这两种法式在电影票房的预计方面王人有说起,本文选取2019年12部影片使用三种模子进行电影票房的预计,预计谬误界说如公式(2):
预 测 误 差 = | 实 际 值 − 预 测 值 | 实 际 值 (2)
图2. 变量要紧性排序
收受三种法式对影片预计数值如表4,影片预计对比折线图如图3,影片预计谬误如表5。
表4. 2019年12部影片票房预计法例
表中可以看出,立时丛林追究模子线路出细腻的预计精度。影片的预计谬误多在20%驾御。神经集中和线性追究模子关于部分影片的预计谬误较小,但其预计谬误范围较大,对某些影片的预计谬误太大。12部影片中,立时丛林对电影《星河补习班》的预计谬误达到0.81%,对电影《熊出没原始时期》的预计谬误为2.54%。阐扬立时丛林选拔出的影响电影票房的要首要素,首周末票房度、首映日票房、百度指数、豆瓣评分和点映票房是决定这两部影片总票房收入的要首要素。
图3. 2019年12部影片票房预计法例折线图
表5. 2019年12部影片票房预计谬误
电影《星河补习班》2019年7月18日上映,总票房8.78亿元,首周末票房2.70亿元,首映日票房0.65亿元,上映前四周平均百度指数52717.5,豆瓣评分6.3分,点映票房0.99亿元。电影《熊出没原始时期》2019年2月5日上映,总票房7.18亿元,首周末票房1.90亿元,首映日票房0.74亿元,上映前四周平均百度指数1303.75,豆瓣评分6.7分,点映票房0.40亿元。
两部影片的数据对比标明,首周末票房和首映日票房王人取得极大捷利的基础上,在2019年同脉络总票房收入的影片中,这两部影片有一个共同的特色即点映票房较高。《星河补习班》在上映前多地超前点映,不雅众的反响和点映现场的后果反馈其不仅在故事发展上诱惑不雅众眼球,东说念主员演技及影片质地雷同好评如潮,使得该片的首映日票房和首周末票房取得可以的收货。然则因为点映后果细腻,升迁了不雅众对这部影片的期待,使得自后续豆瓣评分收货一般。《熊出没之原始时期》有别于《星河补习班》,其不仅是依靠点映票房取得总票房的好收货,这部影片有续集,集合多年蓄积了一定的口碑,传播较为平日,使得其在上映之后取得可以的票房。
故首周末票房、首映日票房、百度指数、豆瓣评分和点映票房对电影票房总收入影响较大,制片方、营销方和院线可以凭证影片的履行市集情况,采用合适的营销神志来升迁票房收入。
4. 论断
本文依据2014~2018年225部国产电影票房数据,诈欺立时丛林法式对影响国产电影票房的要素进行分析,最终得出影响电影票房的主要要素有首周末票房、首映日票房、百度指数、豆瓣评分和点映票房五个要素,档期以及是否有续集这两个要素对电影票房的影响可以忽略不计。
首周末票房可以查考一部电影的口碑,反应电影的火爆进度以及在后续电影放映中的竞争态势,刊行方可凭证首周末票房来诊疗营销计谋。首映日票房是电影本人类型、导演、演员类型以及上映前电影宣传情况的一个详细体现,升迁首映日票房需要升迁电影本人的制作,需要加强电影的宣传。百度指数可以洞悉电影上映前不雅众对影片的意思、监测舆情动向、定位受众的特征。升迁百度指数多在电影制作拍摄包括电影制作完成后要及时宣传,引起不雅众意思。豆瓣评分会动态影响电影票房,豆瓣评分较高的电影会诱惑一部分不雅众,豆瓣评分较低会让一部分蓝本要去看电影的不雅众选拔毁灭不雅看。电影点映属于电影宣传要道,点映过程中可以网罗不雅众对影片的初步评价,若是电影有所不及可以诊疗营销计谋弥补电影本人的不及。
在分析影响电影票房要素的基础上,本文收受立时丛林模子、神经集中模子和线性追究模子对2019年12部影片进行了预计。预计法例标明,立时丛林关于《星河补习班》、《熊出没原始时期》、《反贪风暴4》这三部影片的预计谬误在5%驾御取得较好的后果,部分影片预计谬误较大,但举座来讲立时丛林预计票房较为谨慎。神经集中和线性追究模子关于部分影片的预计后果细腻,针对大部分影片其预计谬误波动较大,就本文的计划而言,针对票房数据诞生的三种预计模子,立时丛林取得细腻的后果。
电影票房影响要素分析及预计中,演员声势、导演、刊行商和新浪微博的宣传力度等是否会影响电影票房的收入,何如将这些变量量化纳入模子本文莫得说起,有待连续探索计划。
著述援用
郭萱,鲍勇,于水源. 基于立时丛林法式的国产电影票房计划Research on Box Office of Domestic Films Based on Random Forest Method[J]. 数据挖掘, 2021, 11(02): 11-20. https://doi.org/10.12677/HJDM.2021.112002
参考文件色色色影院