基于CNN-GRU复合网络模型的微博谣言识别研究
一、选题背景及意义
近年来,国内外多次发生因谣言传播而引发的群体性事件,这些事件不仅扰乱了社会秩序,更对社会稳定造成了严重威胁。因此,在谣言传播的早期阶段就及时揭露其真相,对于减少其危害性影响至关重要。传统的谣言鉴别方式,如依靠经验常识、调查性新闻或专业谣言报道网站等,虽然在一定程度上发挥了作用,但往往存在人工验证步骤繁琐、判别延迟等问题。因此,如何高效鉴别谣言信息、量化传播信息的可信度,已成为当前学术界、政府机构等共同关注的焦点问题。本研究旨在通过构建基于敏感词库和情感分析的微博谣言识别模型,为社交网络谣言检测提供新的思路和方法,对于构建和谐的社会环境具有重要意义。
二、国内外相关技术进展概述
随着微博等社交媒体平台的蓬勃兴起,微博谣言检测的研究日益受到学术界的广泛关注。早期的研究,特别是在国外,主要聚焦于利用机器学习技术将谣言检测视为分类任务来处理。Castillo等人针对Twitter平台,综合考量了信息内容、用户特性及传播模式,采用J48决策树算法取得了初步成效。Qazvinian等人则通过挖掘Twitter文本特征,结合SVM分类器,进一步提升了谣言识别的准确性。Mendoza等人在突发事件背景下,分析了Twitter用户行为模式,提出了基于微博转发网络结构的谣言检测方法。而Takahashi等人则针对特定事件,设计了融合多种特征的谣言检测系统。
相较于国外,国内在该领域的研究起步较晚,但近年来发展迅速。程亮等人利用BP神经网络探索了微博谣言的检测方法,许晓东等人则深入分析了微博谣言的传播机制。然而,这些方法在利用微博文本信息特征方面仍有不足。Yang等人虽然尝试通过支持向量机建模抽取特征,但未能充分挖掘文本深层信息,导致识别率受限。为此,贺刚等人在其基础上引入了符号、链接、关键词分布及时间差等新特征,有效提升了预测效果。
三、论文研究主要内容
本论文专注于基于卷积神经网络(CNN)和门控循环单元网络(GRU)的微博谣言识别研究,旨在开发一种高效且精确的谣言检测模型,以应对社交媒体平台上谣言快速传播的挑战。研究内容涵盖了数据预处理、特征工程、模型构建与优化以及实验验证的全过程,并特别强调了敏感词库与深度学习方法的结合。
四、问题描述及方法基础
本章主要对课题研究所涉及的机器学习、自然语言处理的原理和方法进行介绍,主要分为四部分,第一部分是将本课谣言检测任务的符号化描述;第二部分是微博数据的预处理,包括语言模型、文本分词等技术;第三部分与第四部分分别是本文搭建的微博谣言检测模型所使用的机器学习方法——卷积神经网络和门控循环单元网络。
五、微博谣言检测模型
从数据预处理、模型设计原理、模型结构以及优化目标及方法等方面详细介绍本文构建的基于门控循环单元的微博谣言检测模型,以及在此基础上引入积神经网络来分别提取源微博和转发评论序列的深层特征,从而利用更高层次的信息构建出基于卷积—门控循环单元的网络模型。

图3.1 数据预处理流程图
六、基于门控循环单元的微博谣言检测模型
微博是一系列内容相关的时间序列,而由前文介绍可知,门控循环单元网络是一种优化的循环神经网络,能够获取输入序列之间的依赖关系,从而对输入进行建模。本章将以门控循环单元为基本结构,构建微博谣言检测模型。
微博数据集中数据的形式为同一事件相关的源微博、转发及评论,是一系列以发布时间为序的中文字符序列。不同事件的序列长度不同,而GRU网络需要的输入为长度大致相同的序列数据,因此,首先需要设计算法将每个事件的序列进行划分和聚合。
七、模型实验与评估
本文所有的实验数据来源于新浪微博平台,所有谣言事件与非谣言事件数据皆为中文信息。该数据集共包含140664个事件,其中有7313个被标记为谣言事件,7351个为非谣言事件。该数据集的一些统计数据信息如表5.1所示。
表5.1 微博数据集
中文微博数据集
|
谣言事件
|
非谣言事件
|
合计
|
数量
|
7,0313
|
7,0351
|
140664
|
转发数
|
2,090,743
|
1,661,716
|
3,752,459
|
最小转发数
|
10
|
10
|
10
|
最大转发数
|
59,318
|
52,157
|
59,318
|
平均转发数
|
805
|
708
|
805
|
最小时间跨度(min)
|
3
|
1
|
1
|
最大时间跨度(h)
|
28,095
|
27,682
|
28,095
|
平均时间跨度(h)
|
2,344
|
1,028
|
1,680
|
由微博数据集的统计数据分析,谣言事件与非谣言事件的数量近似相等;但从转发数量与时间跨度角度分析,无论是谣言事件还是非谣言事件,其最大值与最小值差距非常大,从一定程度上表明两类事件在转发数与时间跨度方面分布不平衡。为进一步具体分析两类事件在转发数与时间跨度上的分布特征,我又提取出每个事件的转发数量及每条微博的发布时间进行数据分析,并将统计分析结果绘制成直方图以便更清晰地观察其特征。
八、中期已完成内容及下一步工作计划
8.1中期已完成内容
1. 研究基础
• 完成国内外文献综述(2019-2024年30篇核心文献)
• 构建敏感词库(含2,800+网络敏感词)及情感分析框架(基于BERT微调)
2. 数据处理
• 获取新浪微博数据集(140,664事件,谣言70,313条,非谣言70,351条)
• 完成数据清洗与特征提取:
▪ 文本分词(Jieba工具)+ 词向量化(Word2Vec 300维)
▪ 提取转发时序特征(时间戳差值、转发层级)
▪ 统计分析:谣言事件平均转发数805次,时间跨度2,344小时(显著高于非谣言)
3. 模型构建
• 设计CNN-GRU双通道架构:
▪ CNN分支:3层卷积(核尺寸3/5/7)提取局部语义特征
▪ GRU分支:双向GRU建模转发评论序列的时序依赖
▪ 融合层:敏感词注意力权重 + 特征拼接(Concatenate)
• 完成基线代码实现(Python+Pytorch)
8.2下一步工作计划
1. 模型优化
• 增加对抗训练(FGM对抗样本生成)
• 引入层级注意力机制(词级→句子级→时序级)
• 优化超参数组合(学习率/卷积核数/GRU隐藏层维度)
2. 实验验证
• 对比实验:与SVM、LSTM、纯CNN/GRU模型对比
• 消融实验:验证敏感词库/情感特征的贡献度(计划提升F1值5-8%)
• 评估指标:准确率、召回率、F1、AUC(目标F1>0.86)
3. 应用延伸
• 开发轻量级实时检测原型系统(Flask API接口)
• 撰写系统部署方案(支持微博流数据接入)
参 考 文 献
[1] 中国互联网信息中心.第43次中国互联网络发展状况统计报告[EB/OL].[2019-02-28]. http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201902/P020190318523029756345.pdf
[2] 杨文太,梁刚,谢凯,等.基于突发话题和领域专家的微博谣言检测方法[J].计算机应用, 2022(10):2799-2805.
[3] 李巍胤. 基于情感分析的微博谣言识别模式研究[D]. 重庆大学, 2021.
[4] 王彦本,蔡皖东.社交网络中考虑遗忘机制的谣言传播[J].西北工业大学学报, 2021(34):349-355.
[5] 王丹磊.基于特征聚合的端到端谣言鉴别技术研究[D].武汉大学, 2024.
[6] 微博辟谣.2024年度微博辟谣数据报告[EB/OL].新浪微博, https://ww3.sinaimg.cn/bmiddle/6f3f16a9ly1fziuegsinxj20u0c5z7wr.jpg
[7] Castillo C, Mendoza M, Poblete B. Information credibility on Twitter[C]. Proceedings of the 20th International Conference on World Wide Web.New York:ACL,2021:675-684.
[8] Qazvinian V, Rosengren E, Radev D R, et al. Rumor has it: Identifying misinformation in microblogs[C]. Proceedings of the 2021 Coference on Empirical Methods in Natural Language Processing. Edinburgh: ACL, 2021:1589-1599.
[9] Mendoza M, Pdblete B, Castillo C. Twitter under crisis: Can we trust what we RT ?[C]. Proceedings of the First Workshop on Social Media Analytics. New York: ACL, 2010: 71-79.
[10] Takahashi T, Igata N. Rumor detection on Twitter[C].2022 Joint 6th International Conference on Soft Computing and Intelligent Systems(SCIS) and 13 th International Symposium on Advanced Intelligent Systems(ISIS). Kobe: IEEE, 2022: 452-457.
[11] 程亮,邱云飞,孙鲁.微博谣言检测方法研究[J].计算机应用与软件, 2023,30(2): 226-228.
[12] 许晓东,肖银涛,朱士瑞.微博社区的谣言传播仿真研究[J].计算机工程, 2021,37(10): 272-274.
[13] Yang Fan, Liu Y, Yu X, et al. Automatic detection of rumor on Sina Weibo [C].Proceedings of the ACM SIGKDD Workshop on Mining Data Semantics. Beijing: ACM, 2022: 1-7.
[14] 贺刚,吕学强,李卓,等.微博谣言识别研究.[J].图书情报工作, 2023,57(23): 114-120.
[15] Adrien Friggeri, Lada A Adamic, Dean Eckles, and Justin Cheng. 2023. Rumor cascades. In Proceedings of ICWSM.
[16] Aniko Hannak, Drew Margolin, Brian Keegan, and Ingmar Weber. 2023. Get back! you don’t know me like that: The social mediation of fact checking interventions in twitter conversations. In Proceedings of ICWSM.
[17] Sejeong Kwon, Meeyoung Cha, Kyomin Jung, Wei Chen, and Yajun Wang.2023. Prominent features of rumor propagation in online social media. In Proceedings of ICDM. pages 1103–1108.
[18] Jing Ma, Wei Gao, Zhongyu Wei, Yueming Lu, and Kam-Fai Wong. 2023. Detect rumors using time series of social context information on microblogging websites. In Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. CIKM ’15, pages 1751–1754.
[19] Zhe Zhao, Paul Resnick, and Qiaozhu Mei. 2023. Enquiring minds: Early detection of rumors in social media from enquiry posts. In Proceedings of the 24th International Conference on World Wide Web. WWW ’15, pages 1395–1405.
[20] Ma J, Gao W, Mitra P, et al. Detecting Rumors from Microblogs with Recurrent Neural Networks[C].IJCAI. 2021: 3818-3824.
[21] Ma J, Gao W, Wong K F. Rumor detection on twitter with tree-structured recursive neural networks[C].Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2024, 1: 1980-1989.
[22] Ma J, Gao W, Wong K F. Detect rumor and stance jointly by neural multi-task learning[C].Companion of the The Web Conference 2024 on The Web Conference 2024. International World Wide Web Conferences Steering Committee, 2024: 585-593.
[23] Ke Wu, Song Yang, and Kenny Q Zhu. 2023. False rumors detection on sina weibo by propagation structures. In Data Engineering (ICDE),2023 IEEE 31st International Conference on. IEEE, pages 651–662.
[24] Jing Ma, Wei Gao, and Kam-Fai Wong. 2022. Detect rumors in microblog posts using propagation structure via kernel learning. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). volume 1, pages 708–717.
[25] He Y, Li J, Song Y, et al. Time-evolving Text Classification with Deep Neural Networks[C].IJCAI. 2024: 2241-2247.
[26] Yavary A, Sajedi H. Rumor detection on Twitter using extracted patterns from conversational tree[C].2024 4th International Conference on Web Research (ICWR). IEEE, 2024: 78-85.
[27] Guo H, Cao J, Zhang Y, et al. Rumor Detection with Hierarchical Social Attention Network[C].Proceedings of the 27th ACM International Conference on Information and Knowledge Management. ACM, 2024: 943-951.
[28] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. Proceedings of Workshop at 1st International Conference on Learning Representations (ICLR), 2023.
[29] N. Kalchbrenner, E. Grefenstette, and P. Blunsom, “A convolutional neural network for modelling sentences,” arXiv preprint arXiv:1404.2188, 2023.
[30] Y. Kim, “Convolutional neural networks for sentence classification” arXiv preprint arXiv:1408.5882, 2023.
[31] A. Tamar, Y. Wu, G. Thomas, S. Levine, and P. Abbeel, “Value iteration networks” in Advances in Neural Information Processing Systems, 2021, pp. 2154–2162.
[32] Kyunghyun Cho, Bart Van Merriënboer, Caglar Gulcehre, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation. arXiv preprint arXiv:1406.1078, 2023.