设计 任务书 文档 开题 答辩 说明书 格式 模板 外文 翻译 范文 资料 作品 文献 课程 实习 指导 调研 下载 网络教育 计算机 网站 网页 小程序 商城 购物 订餐 电影 安卓 Android Html Html5 SSM SSH Python 爬虫 大数据 管理系统 图书 校园网 考试 选题 网络安全 推荐系统 机械 模具 夹具 自动化 数控 车床 汽车 故障 诊断 电机 建模 机械手 去壳机 千斤顶 变速器 减速器 图纸 电气 变电站 电子 Stm32 单片机 物联网 监控 密码锁 Plc 组态 控制 智能 Matlab 土木 建筑 结构 框架 教学楼 住宅楼 造价 施工 办公楼 给水 排水 桥梁 刚构桥 水利 重力坝 水库 采矿 环境 化工 固废 工厂 视觉传达 室内设计 产品设计 电子商务 物流 盈利 案例 分析 评估 报告 营销 报销 会计
 首 页 机械毕业设计 电子电气毕业设计 计算机毕业设计 土木工程毕业设计 视觉传达毕业设计 理工论文 文科论文 毕设资料 帮助中心 设计流程 
垫片
您现在所在的位置:首页 >>理工论文 >> 文章内容
                 
垫片
   我们提供全套毕业设计和毕业论文服务,联系微信号:biyezuopin QQ:2922748026   
通过朴素贝叶斯分类器和具有多个置信度阈值的关联分类(外文翻译)
文章来源:www.biyezuopin.vip   发布者:毕业作品网站  

 

毕业设计(论文)

译文及原稿

 

译文题目

通过朴素贝叶斯分类器和具有多个置信度阈值的关联分类

 

器对中文文本进行分类

原稿题目

Chinese text classification by the Naïve Bayes Classifier and

 

the associative classifier with multiple confidence threshold

 

Value

原稿出处:

Shing-Hwa Lu, Ding-An Chiang, Huan-Chao Keh, et al.Know

 

ledge-Based Systems[J]. 2010, 598-604

 


通过朴素贝叶斯分类器和具有多个置信度阈值的关联分类器对中文文本进行分类

摘要

每种类型的分类器都有其自身的优点和某些缺点。在本文中,我们利用关联分类器和朴素贝叶斯分类器的优势来弥补彼此的不足,从而提高了文本分类的准确性。我们将使用朴素贝叶斯分类器对训练案例进行分类,并根据所获得的朴素贝叶斯分类器对各个类的分类准确率,为不同类别的不同类别关联规则(CAR)设置不同的置信度阈值。由于所有选定类别的汽车的准确率均高于朴素贝叶斯分类器,因此我们可以通过这些选定的汽车进一步优化分类结果。此外,对于那些未分类的案例,我们将使用朴素贝叶斯分类器对其进行分类。

关键词:协会分类;文字分类;文字挖掘;文字分类

1.介绍

在中文文档文本的情况下,汉字之间没有明显的空格,而且通常包括英文单词,数字和符号,因此特征提取需要标点符号。中文标点符号是将特定文本分为不确定长度的单词。由于单个汉字与不同的汉字结合使用时会具有不同的含义,因此中文标点符号必须依靠庞大的单词库和上下文比较才能获得最合适的单词。在这项研究中,当中国的分词系统(http://ckipsvr.iis.sinica.edu.tw/[22],是由中央研究院图书馆团队开发的,用于标点符号的文档,我们发现某些功能可能会遗漏或分成具有不同含义的不同功能;例如””(大肠杆菌)切成“”(大肠)和“”(杆菌),尽管“”(大肠杆菌)应视为一个功能。尽管某些功能可能无法从一个功能中切出,但这些功能之间存在相关性。如果将此类型的合并功能视为特殊功能,则将有助于分类处理。无论最初具有哪些特征是单个特征还是具有相关性的不同特征,关联规则都可以用于查找可能具有相互关系的术语。因此,本文采用联想分类技术对中文文本进行分类。

近年来,已经提出了许多关联分类器[5][14][16][17]。它们在执行过程中彼此非常相似,而它们之间最大的区别在于对CAR的排名和修剪方式[9],这将直接影响关联分类器的分类准确性。惰性分类器的排名方式[5]将为更长的规则赋予更高的排名。实际上,与其他分类器相比,惰性分类器的平均准确性比其他分类器高1.63%。因此,本文将采用与Lazy分类器相同的排名方法。另一方面,由于我们考虑了每个规则在分类过程中的可信度,因此我们的修剪方法与惰性的修剪方法不同。我们将在第3节中介绍我们的方法。

关联分类器[5][8][9][14][15][20]根据术语之间的相关性建立的规则对文档进行分类,未分类的数据将被分类为默认类,以避免某些数据无法分类的情况。但是,很难设置合适的CAR的置信度阈值。较高的置信度阈值可能会删除一些有用的规则,从而导致许多数据无法被CAR分类。而较低的置信度阈值可能会导致分类不准确。这两种情况最终将影响分类的准确性。为了提高分类性能,我们需要解决这两个问题。无论如何,朴素贝叶斯分类器可以弥补关联分类器的这一缺点。我们将首先使用朴素贝叶斯分类器对训练案例进行分类,

朴素贝叶斯分类器[6][7][10][13][19]计算文档中所有术语的权重,然后对每个类别的权重求和以得出其整数。具有最高积分的术语将用于分类。朴素贝叶斯分类器的最大优势在于计算过程简单,几乎不受术语之间的相关性的影响,因此可以对所有文档进行主观分类。因此,我们在这项研究中使用朴素贝叶斯分类器。然而,由于对术语之间相关性的无知,朴素贝叶斯分类器无法通过这种相关性来提高分类精度。正确设置阈值后,关联分类器将获得比术语权重分类更高的文本分类精度,这恰好弥补了朴素贝叶斯分类器的不足。因此,我们建议结合关联分类器和朴素贝叶斯分类器的优点,分别在不同的阶段发挥作用,以弥补其他分类器的任何不足,从而提高文本分类的准确性。我们将在本节中介绍此分类过程3

本文将在第2节中介绍相关工作。第3节将介绍使用关联分类器和朴素贝叶斯分类器的分类过程。实验结果和结论将在第4节和第5节中列出。

2.相关工作

2.1. TFIDF

在这项研究中,我们使用中文分词系统进行中文标点。标点符号后,可以用单词袋[12]表示。可以将文档D转换为d = ((f1, w1), (f2, w2) … (fi, wi)),其中每个fi是文档单词,而wi表示其频率。权重可以通过不同的方法来计算。正如Combarro等人[4]指出的,TFIDF方法很简单,但是在许多情况下效果很好。在本文中,我们使用这种过滤度量方法,并在下面进行介绍。

TFID方法使用术语频率和文档频率来计算文档中单词的权重。术语频率TF(t, d)是文档d中单词t的频率(次数)。 文档频率DF(t)是包含单词t的文档数。单词t的反文档频率IDF(t)可以通过以下公式计算:

  全套毕业设计论文现成成品资料请咨询微信号:biyezuopin QQ:2922748026     返回首页 如转载请注明来源于www.biyezuopin.vip  

                 

打印本页 | 关闭窗口
本类最新文章
自动水果采摘机:机器人苹果收割机 评估AlSiTiN和AlSiCr 基于人工智能的智能语音识别系统设
大数据舆情分析系统的设计与实现 “上帝的归上帝,凯撒的归凯撒”: 平板单元(Mindlin板)的热
| 关于我们 | 友情链接 | 毕业设计招聘 |

Email:biyeshejiba@163.com 微信号:biyezuopin QQ:2922748026  
本站毕业设计毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!