欢迎来到 安卓源码空间!
安卓源码空间

                     python电影数据分析报告  _  电影数据分析及可视化



一、提出问题


作为一名业务分析师顾问,客户是一个电影制作新公司,他们将制作一部新电影。客户想确保电影能成功,从而使新公司立足市场。他们希望我能帮助他们了解电影市场趋势,使他们能做出正确的决策。他们提供了指导,希望我能研究以下三大领域:问题 1:电影类型是如何随着时间的推移发生变化的?


问题 2: Universal Pictures 和 Paramount Pictures 之间的对比情况如何?


问题 3: 改编电影和原创电影的对比情况如何?(通过keywords变量中的based on novel字段来判断)


更重要的是,客户请我根据提供的数据,额外回答第四个问题。


二、理解数据


1)获取数据


本次项目选用Movie Database,一个可以公开使用的电影数据。TMDB 5000 Movie Datasetwww.kaggle.com

2)导入数据

3)理解数据


moviedf数据集中,有20个字段,以下是每个字段的含义介绍:

● id:标识号


● imdb_id:IMDB 标识号


● popularity:在 Movie Database 上的相对页面查看次数


● budget:预算(美元)


● revenue:收入(美元)


● original_title:电影名称


● cast:演员列表,按 | 分隔,最多 5 名演员


● homepage:电影首页的 URL


● director:导演列表,按 | 分隔,最多 5 名导演


● tagline:电影的标语


● keywords:与电影相关的关键字,按 | 分隔,最多 5 个关键字


● overview:剧情摘要


● runtime:电影时长


● genres:风格列表,按 | 分隔,最多 5 种风格


● production_companies:制作公司列表,按 | 分隔,最多 5 家公司


● release_date:首次上映日期


● vote_count:评分次数


● vote_average:平均评分


● release_year:发行年份


● budget_adj:根据通货膨胀调整的预算(2010 年,美元)


● revenue_adj:根据通货膨胀调整的收入(2010 年,美元)


3)数据清洗


3.1选择子集

3.2缺失数据处理

3.3数据类型转换

3.4数据格式转换

4)数据分析及可视化


问题 一:电影类型是如何随着时间的推移发生变化的?


解决思路:


1、取出所有的电影类型

2、对电影涉及到的电影类型进行ONE-HOT编码,并生成按年份汇总的电影类型数据,同时汇总历年来各电影类型的总量并作图

3、对前5的电影类型数量进行时间走势分析

问题 二: Universal Pictures 和 Paramount Pictures 之间的对比情况如何?



解决思路


1、查看两家公司电影发行总数并做图分析

2、查看两家公司历年的电影发行数量,并比较分析


问题 三: 改编电影和原创电影的对比情况如何?


解决思路


1、查看改编和原创的电影数量



5)总结


5.1从历史数据来看,拍摄的电影风格类型最多的五种为:Drama、Comedy、Thriller、Action、Romance


5.2 Action、Comedy、Drama、Horror 和 Thriller 等五种类型的电影由少变多,1990年以后电影发行数量增长迅速。


5.3Universal Pictures 和 Paramount Pictures 两家公司在电影的发行数量分别为314,285,超出10%。


5.4从公司电影发行量时间走势上看,2005年以后Universal Pictures公司 一直比 Paramount Pictures公司发行的数量多,处于竞争优势。


5.5原创电影很少,仅占整个电影市场4%的份额。


6)不足之处


时间有限,分析的字段比较少,后续会把更多的字段加入,进行更全面的分析。




文章知识点与官方知识档案匹配,可进一步学习相关知识





copyright@ 2020-2028  安卓源码空间网版权所有   

备案号:豫ICP备2023034476号-1号