目录
1 选题的背景和意义
1.1 选题的背景和意义
1.2 国内外研究现状及发展趋势
1.2.1 中文文本处理的研究现状
1.2.2 语义分析的研究现状
2 研究的基本内容
2.1 基本框架
2.2 研究的重点和难点
2.3 拟解决的关键问题
3 研究的方法及措施
4 预期成果
2、资料收集准备阶段
3、论文写作及答辩阶段
3月下旬-5月下旬 论文修改、定稿、小组答辩;
参考文献
1 选题的背景和意义
1.1 选题的背景和意义
在科技、娱乐迅速爆发的背景下,越来越多的电影作品出现在观影者的视觉中。电影行业的竞争也越发的激烈起来。有的电影大成本大制作,有的电影邀请了众多明星助阵,有的电影则是力求表达艺术,也有的追求新意和情感。在新电影正式上映后,越来越多的人喜欢上网发表自己的观影感受。
豆瓣是一个以书影音起家,提供了关于书籍、电影、音乐等作品的信息的网络社区。在豆瓣上,人们可以自由的发表对书籍电影的评论,也可以看其他用户的讨论,这些都是书迷、影迷的真实感受。影迷可以从中找到志同道合的朋友,也可以找到感兴趣的事物,可以将自己的情感诉诸于文字。
豆瓣上的影评时效强,代表了大众对于电影的整体感观和情感倾向。网络影评与传统影评有所不同,语言组织比较随意,情感表达方式各有不同,根据对豆瓣电影评论的数据进行挖掘分析,提取有价值的信息,有利于制片商调整宣传策略,更好的制作和发行电影,吸引影迷的眼光,建立良好口碑和提高票房。
1.2 国内外研究现状及发展趋势
1.2.1 中文文本处理的研究现状
在中文中,只有字、句子和段落可以通过明显的符号进行划分,对于词和词组的分词结果十分重要。当前的中文分词技术发展迅速,目前开源的文本标注工具有jieba、IEPY、DeepDive、BRAT、SUTDAnnotator、Snorkel、Slate、Prodigy等。
1.2.2 语义分析的研究现状
Blei等人在2003年提出了生成式主题模型——LDA,即认为每一篇文档的每一个词都是通过“一定的概率选择了某个主题,并从这个主题中以一定的概率选择了某个词语”。LDA模型也被称为3层贝叶斯概率模型,能够挖掘数据集中的潜在主题,进行分析数据库的集中关注点及其相关特征词。
孙凯、于俊清等人在2010年提出一种面向观众的个性化电影情感空间建模方法。采用模糊c-均值聚类算法划分诱力-激励情感空间,并利用高斯混合模型定义划分得到的模糊情感子空间的情感隶属度函数,以便表示和识别观众观影过程中的个性化情感体验。实验结果表明,该方法能够有效地表示和识别个性化电影情感内容。
徐薇基于集成概率推理模型(Ens-PRM)的情感倾向性识别算法,该算法集合了PCA、随机特征子空间划分以及概率推理模型几个元素,将多个弱分类器集成为一个分类性能较强的分类器。