探究bilibili视频网站视频关注度与标题的关联
中 文 摘 要
互联网时代背景下,各种新媒体模式层出不穷。如何利用大数据技术发掘更受欢迎的视频素材,如何取一个高质量的标题来获得大家的关注,从而增加视频网站的人气,提升用户的观看体验,是本论文主要研究的问题。
本系统在深入分析视频网站的视频热度后,对视频标题与播放量数据进行了采集与处理。本系统包含了数据采集,数据预处理,数据分析,数据可视化整个大数据处理流程。数据采集过程共从视频网站采集了70万个视频18天的数据,数据预处理过程对视频标题进行分词,并从分词结果中提取出关键词,数据分析过程对提取出的关键词进行了识别、统计与热度计算,将关键词18天的热度增长模式聚类后,进行多项式回归并评价回归结果。系统具有伸缩性好,可移植性高,易于维护,对用户友好,数据采集与处理速度快等特点。
本系统采用文件存储方式,使用Python语言编程,基于大数据环境、k-means聚类算法及多项式回归,以vscode为开发工具开发的提升视频关注度系统。
关键词:视频标题;大数据技术;聚类分析;多项式回归
Explore the Correlation of the Video Popularity and Title of the Bilibili Video Website
ABSTRACT
In the context of the Internet era, various new media platforms are emerging one after another. How to use the big data technology to explore more popular video material,and give a high-quality title to get everyone's attention, thereby increasing the popularity of the video site traffic, enhance the user's viewing experience, is the main issue of this paper.
After deeply analyzing the video site's video popularity, the system collected and processed the video title and playing amount.The system includes the data acquisition, data preprocessing, data analysis, data visualization of the entire big data processing process. The data collection process collected a total of 700,000 videos for 18 days from the video website. The data preprocessing process segmented the video titles and extracted keywords from the word segmentation results. The data analysis process identified the extracted keywords. , statistics and heat calculations, clustering key words 18-day heat growth model, performing polynomial regression and evaluating regression results. The system has the characteristics of good scalability, high portability, easy maintenance, user-friendliness, and fast data collection and processing.
This system is a system to raise video's attention. It uses file storage and Python language programming, based on big data environment, k-means clustering algorithm and polynomial regression, and takes vscode as the development tool.
KEY WORDS: video title; big data technology; cluster analysis; polynomial regression
目 录
中 文 摘 要
ABSTRACT
目录 I
第一章 绪论
1.1 课题的来源及意义
1.2 研究现状
1.3 课题主要解决的问题
第二章 关键技术介绍
2.1 k-means聚类
2.2 回归分析
第三章 提升视频关注度系统的实现与测试
3.1 系统框架
3.2 系统设计的目标及基本思路
3.3 数据库设计
3.4 交互设计原则
3.5 功能性测试
第四章 数据采集与预处理
4.1 数据采集
4.2 分词
4.3 获取当日播放量
第五章 科技类视频热度数据分析
5.1 关键词识别与统计
5.2 计算关键词热度
5.3 基于关键词热度的增长模式聚类
5.4 回归分析
第六章 用户界面
6.1 启动按钮
6.2 日志输出
第七章 总结与展望
7.1 总结
7.2 问题分析
7.2.1 获取数据遇到的问题
7.2.2 数据分析遇到的问题
7.2.3 系统界面出现的问题
7.3 改进和努力的方向
7.3.1 解决方案的缺陷
7.3.2 分词算法不够优化
7.3.3 回归分析过拟合
结 论
























