设计 任务书 文档 开题 答辩 说明书 格式 模板 外文 翻译 范文 资料 作品 文献 课程 实习 指导 调研 下载 网络教育 计算机 网站 网页 小程序 商城 购物 订餐 电影 安卓 Android Html Html5 SSM SSH Python 爬虫 大数据 管理系统 图书 校园网 考试 选题 网络安全 推荐系统 机械 模具 夹具 自动化 数控 车床 汽车 故障 诊断 电机 建模 机械手 去壳机 千斤顶 变速器 减速器 图纸 电气 变电站 电子 Stm32 单片机 物联网 监控 密码锁 Plc 组态 控制 智能 Matlab 土木 建筑 结构 框架 教学楼 住宅楼 造价 施工 办公楼 给水 排水 桥梁 刚构桥 水利 重力坝 水库 采矿 环境 化工 固废 工厂 视觉传达 室内设计 产品设计 电子商务 物流 盈利 案例 分析 评估 报告 营销 报销 会计
 首 页 机械毕业设计 电子电气毕业设计 计算机毕业设计 土木工程毕业设计 视觉传达毕业设计 理工论文 文科论文 毕设资料 帮助中心 设计流程 
垫片
您现在所在的位置:首页 >>毕设资料 >> 文章内容
                 
垫片
   我们提供全套毕业设计和毕业论文服务,联系微信号:biyezuopin QQ:2922748026   
基于spark的电影数据分析 开题报告.
文章来源:www.biyezuopin.vip   发布者:毕业作品网站  

本科毕业论文(设计)开题报告

学生姓名

学号

专业班级

题    目

基于spark的电影数据分析

题目性质

综合研究

一、选题依据和目标(该研究的目的和意义、研究现状、主要参考文献)

目的:

分析电影数据能够更好的了解电影市场的走向,对当前电影市场的发展有清晰定位。分析电影数据能够更好的了解当前电影行业的文化趋向,更好的了解大众的审美倾向。进而发展电影市场,有利于中国电影行业的发展,提高中国的文化自信,发展我国国产电影。对电影数据进行数据分析,能够根据分析的电影市场发展趋向给电影的投资人提供投资建议,进而促进电影的发展。

意义:

电影是一项重要的社会文化事业,是一种融合了视觉和听觉的技术,发展电影事业对于提高我国软实力和文化自信具有着积极意义。繁荣的电影市场和电影文化往往会促进人们社会的进步和提高人民的物质文化生活。电影市场的水平提高往往侧面意味着人民的物质生活水平的提高。在2020年,新冠疫情爆发对我国电影事业的发展也造成了不小的冲击,这个时候对电影数据进行分析,了解现在中国电影发展现状,进而分析电影行业的发展趋势,就是一件很有意义的事情。只有更好的了解电影市场发展现状,才能更好的发展电影事业。

研究现状:

Spark是Apache公司开发的一个重要项目,它为大规模数据处理提供一个更快速、更通用的集群计算框架,被业界喻为“快如闪电的集群计算”。Spark的一个重要特点是计算任务在内存中进行,这就提高了面对海量数据时分析处理的髙效性和实时性。其提供针对Java,Scala,Python与R中的高级API,另外还适用于执行图的改进引擎,还具备许多高效的计算工具。利用Spark的众多功能,能够很高效的对电影数据进行全面分析。

电影的票房分析对电影从业者和相关电影投资人都有比较重要的参考价值,目前网上对于电影的市场分析有很多。比如,猫眼、中国电影数据网、百度糯米电影等都有实时以及历史票房信息,但这些网站上都是票房统计信息的简单展示。用户只能获得一些简单的信息,如历史票房最高、今日票房最高、近日电影排片信息、电影的上座率等等。这些网站上没有对电影数据进一步的分析,网上暂时还没有在线的电影数据分析服务。

网上有一些相关文献对中国电影数据进行了一些电影市场方面的研究,研究方向有中国电影市场的发展趋势、中国电影市场的精准营销、电影的个性化推荐等方面的研究。

主要参考文献:

【1】刘正山. 德国电影产业发展观察——基于2011—2016年的数据分析[J]. 电影艺术, 2017.

【2】范志忠, 唐朱勇. 2014年国产电影大数据分析[J]. 当代电影, 2015(2):142-145.

【3】晁文庆. 中国电影产业大数据应用分析——以《后会无期》为例[J]. 传媒, 2014(17):20-21.

【4】李迅. 基于Spark的sMRI影像分类诊断与电影推荐[D]. 2016.

【5】李文栋. 基于Spark的大数据挖掘技术的研究与实现[D].

【6】SandyRyza, 里扎, 龚少成. Spark高级数据分析[M]. 人民邮电出版社, 2015.

【7】HoldenKarau. Spark快速大数据分析:lightning-fast big data analytics[M]// Spark快速大数据分析:lightning-fast big data analytics. 人民邮电出版社, 2015.

【8】宋泊东, 张立臣, 江其洲. 基于Spark的分布式大数据分析算法研究[J]. 计算机应用与软件, 2019.

【9】张超. 基于Spark平台的支持标准SQL语法的数据分析工具[D]. 2017.

【10】宋薇. 基于Spark框架与K-means的篮球运动数据分析研究[C]// 第十一届全国体育科学大会论文摘要汇编. 2019.

【11】王溶, 鲍正德, 李晨曦. 基于Spark的大数据分析技术[J]. 计算机系统网络和电信, 2019, 001(002):P.254-258.

二、研究方案(包括研究内容、研究的基本思路和基本方法、研究进度安排)

研究内容:

基于Spark大数据计算框架及其生态系统,采集中国电影数据进行存储、数据处理、数据建模、分析决策、数据可视化等一系列数据分析过程,对于电影市场的发展趋势、不同电影类型的发展前景、电影投资的方向推荐等进行分析决策。

研究的基本思路:

研究的基本思路为先构建Hadoop集群,包括Hbase、Hive、spark等组件。电影数据的采集主要来自豆瓣(https://www.douban.com/)、中国电影数据信息网(https://zgdypw.cn/#/film.html)等。数据存储于Hive组件中,进行数据清理和预处理(去除唯一属性、处理缺失值、特征编码等),使数据集变得可信、准确且易于操作。对数据进行合适的数学建模,选择合适的数据分析方法,基于spark实现数据集的各种分析,包括对于电影市场的发展趋势、不同电影类型的发展前景、电影投资的方向推荐等进行分析决策。

研究基本方法:

可能使用的基本技能有:数据建模、分析决策、数据预处理、数据爬取、Spark大数据计算框架及其生态系统的架构与应用、数据可视化、Scala语言应用等。可能使用到的分析方法包括:描述统计、假设检验、多元回归分析、聚类分析、时间序列分析等。研究的基本方法包括:统计分析法、文献研究法、模拟法、数学方法等。

研究进度安排:

2021年1月1日前提交池州学院本科毕业论文(设计)选题审批表;

2021年1月10日前提交池州学院本科毕业论文(设计)开题报告;

2021年4月1日前完成论文初稿;

2021年5月10日前完成论文终稿;

2021年5月15日前提交论文终稿;

2021年5月30日前提交学院完成答辩。

三、写作提纲

1、引言

1.1、研究背景

1.2、研究目的与意义

1.3、研究现状与趋势

1.4、研究内容

1.5、可行性分析

2、Spark及其相关组件

2.1、Spark系统生态简介

2.2、结构化数据处理模块Spark SQL

2.3、机器学习库MLlib

2.4、分布式图处理框架Spark Graphx

2.5、流数据处理模块Spark Streaming

2.6、Spark开发环境及其分布式集群搭建

3、电影数据分析需求和数据分析方法

3.1、电影市场现状论述

3.2、电影数据分析需求

3.3、数据分析方法论述

4、电影数据分析及其可视化

4.1、数据采集及其预处理

4.2、电影数据建模

4.3、电影数据分析

4.4、分析结果可视化

5、分析结果综述

5.1、电影市场的发展趋势

5.2、电影数据分析结果决策

5.3、对于电影市场的发展建议

6、结束语

  全套毕业设计论文现成成品资料请咨询微信号:biyezuopin QQ:2922748026     返回首页 如转载请注明来源于www.biyezuopin.vip  

                 

打印本页 | 关闭窗口
本类最新文章
炒茶机设计 答辩记录及成绩表 炒茶机设计 教师评阅表 炒茶机机械结构设计 中期检查表
炒茶机机械结构设计 开题报告 炒茶机机械结构设计 任务书 基于PLC的锯片刀具工具磨床控制
| 关于我们 | 友情链接 | 毕业设计招聘 |

Email:biyeshejiba@163.com 微信号:biyezuopin QQ:2922748026  
本站毕业设计毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!