python电影数据分析报告 _ 电影数据分析及可视化
一、提出问题
作为一名业务分析师顾问,客户是一个电影制作新公司,他们将制作一部新电影。客户想确保电影能成功,从而使新公司立足市场。他们希望我能帮助他们了解电影市场趋势,使他们能做出正确的决策。他们提供了指导,希望我能研究以下三大领域:问题 1:电影类型是如何随着时间的推移发生变化的?
问题 2: Universal Pictures 和 Paramount Pictures 之间的对比情况如何?
问题 3: 改编电影和原创电影的对比情况如何?(通过keywords变量中的based on novel字段来判断)
更重要的是,客户请我根据提供的数据,额外回答第四个问题。
二、理解数据
1)获取数据
本次项目选用Movie Database,一个可以公开使用的电影数据。TMDB 5000 Movie Datasetwww.kaggle.com
2)导入数据
3)理解数据
moviedf数据集中,有20个字段,以下是每个字段的含义介绍:
● id:标识号
● imdb_id:IMDB 标识号
● popularity:在 Movie Database 上的相对页面查看次数
● budget:预算(美元)
● revenue:收入(美元)
● original_title:电影名称
● cast:演员列表,按 | 分隔,最多 5 名演员
● homepage:电影首页的 URL
● director:导演列表,按 | 分隔,最多 5 名导演
● tagline:电影的标语
● keywords:与电影相关的关键字,按 | 分隔,最多 5 个关键字
● overview:剧情摘要
● runtime:电影时长
● genres:风格列表,按 | 分隔,最多 5 种风格
● production_companies:制作公司列表,按 | 分隔,最多 5 家公司
● release_date:首次上映日期
● vote_count:评分次数
● vote_average:平均评分
● release_year:发行年份
● budget_adj:根据通货膨胀调整的预算(2010 年,美元)
● revenue_adj:根据通货膨胀调整的收入(2010 年,美元)
3)数据清洗
3.1选择子集
3.2缺失数据处理
3.3数据类型转换
3.4数据格式转换


4)数据分析及可视化
问题 一:电影类型是如何随着时间的推移发生变化的?
解决思路:
1、取出所有的电影类型
2、对电影涉及到的电影类型进行ONE-HOT编码,并生成按年份汇总的电影类型数据,同时汇总历年来各电影类型的总量并作图


3、对前5的电影类型数量进行时间走势分析

问题 二: Universal Pictures 和 Paramount Pictures 之间的对比情况如何?
解决思路
1、查看两家公司电影发行总数并做图分析
2、查看两家公司历年的电影发行数量,并比较分析


问题 三: 改编电影和原创电影的对比情况如何?
解决思路
1、查看改编和原创的电影数量
5)总结
5.1从历史数据来看,拍摄的电影风格类型最多的五种为:Drama、Comedy、Thriller、Action、Romance
5.2 Action、Comedy、Drama、Horror 和 Thriller 等五种类型的电影由少变多,1990年以后电影发行数量增长迅速。
5.3Universal Pictures 和 Paramount Pictures 两家公司在电影的发行数量分别为314,285,超出10%。
5.4从公司电影发行量时间走势上看,2005年以后Universal Pictures公司 一直比 Paramount Pictures公司发行的数量多,处于竞争优势。
5.5原创电影很少,仅占整个电影市场4%的份额。
6)不足之处
时间有限,分析的字段比较少,后续会把更多的字段加入,进行更全面的分析。
文章知识点与官方知识档案匹配,可进一步学习相关知识