设计 任务书 文档 开题 答辩 说明书 格式 模板 外文 翻译 范文 资料 作品 文献 课程 实习 指导 调研 下载 网络教育 计算机 网站 网页 小程序 商城 购物 订餐 电影 安卓 Android Html Html5 SSM SSH Python 爬虫 大数据 管理系统 图书 校园网 考试 选题 网络安全 推荐系统 机械 模具 夹具 自动化 数控 车床 汽车 故障 诊断 电机 建模 机械手 去壳机 千斤顶 变速器 减速器 图纸 电气 变电站 电子 Stm32 单片机 物联网 监控 密码锁 Plc 组态 控制 智能 Matlab 土木 建筑 结构 框架 教学楼 住宅楼 造价 施工 办公楼 给水 排水 桥梁 刚构桥 水利 重力坝 水库 采矿 环境 化工 固废 工厂 视觉传达 室内设计 产品设计 电子商务 物流 盈利 案例 分析 评估 报告 营销 报销 会计
 首 页 机械毕业设计 电子电气毕业设计 计算机毕业设计 土木工程毕业设计 视觉传达毕业设计 理工论文 文科论文 毕设资料 帮助中心 设计流程 
垫片
您现在所在的位置:首页 >>毕设资料 >> 文章内容
                 
垫片
   我们提供全套毕业设计和毕业论文服务,联系微信号:biyezuopin QQ:2922748026   
基于分词的朴素贝叶斯分类器的构造和应用 文献综述
文章来源:www.biyezuopin.vip   发布者:毕业作品网站  

毕业设计(论文)

文 献 综 述


目录

 基于分词朴素贝叶斯分类器的构造和应用的文献综述

1  前言

2  国内外相关研究概况

2.1  中科院计算所汉语词法分析系统 ICTCLAS

2.2  海量科技的分词产品

2.3  基于字符串匹配的分词算法

2.4  基于统计语言模型的自动分词算法

2.5  基于理解的分词算法

2.6  基于字的切分法

3  待解决问题和解决问题的重难点

4  结论

4.1  个别解决方案

4.2  整体解决方案

4.2.1  有穷多层次列举法

4.2.2  语料统计

4.2.3  局部统计

4.2.4  结合词性标注

参考文献

基于分词朴素贝叶斯分类器的构造和应用的文献综述

1  前言

随着信息化时代的不断进步和发展,人们获取信息的手段也在不断的发生着变化,从原始的手工查找到现在的计算机搜索引擎。计算机技术的发展极大的促进了信息检索技术的进步,搜索引擎作为信息检索的主要手段,其发展受到越来越多研究机构和个人的重视。搜索引擎作为检索工具,其发展给我们的生活带来了前所未有的方便和快捷。当人类利用谷歌、百度等搜索引擎进行信息的查询和检索时,它们是如何知道我们最想要的结果是什么,有多少结果是我们需要的。

汉语言的博大精深使它不能像英语那样容易让人理解。当利用计算机处理汉语言时,输入计算机的仅仅是一连串的字符序列,除了标点符号就没有其他的分割标志,而英语却有一个明显的分割标志—空格,这使汉语分词遇到了一些在英语中没有的问题,这些问题都集中体现在中文分词技术中,其中以歧义词的切分和未登录词的识别为代表。

本文在此基础上,提出基于贝叶斯网络构建分词模型,引入词类的概念,在模型的框架下一并完成交叉、组合歧义消解等任务,在保证精度和召回率的情况下,有效提高分词效率。

2  国内外相关研究概况

目前研究分词的团体和学者很多,但大多都集中于研究通用的分词算法,以提高分词准确率为目的。学术界关于分词的评测也是以通用的分词精确度为准绳。而鉴于分词在切分标准和切分算法本身上存在的这些困难,希望能够针对一项具体的上层应用来研究相关的分词技术,这样便于有一个比较确定的分词规范和目标,然后可以有针对性的在分词算法方面有所突破。

众所周知,英文是以词为单位的,词和词之间靠空格隔开,所以当我们看到一句英语句子时,最基本的是能把这句话中的每个词都能找出来,而中文是以字为单位,字与字之间没有切分标记,这就需要通过某种方法把这句话中的每个词找出来,这样才能最准确的理解说话者的含义。

目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM 研究院、微软中国研究院等都有自己的研究队伍,专业研究的公司有海量科技一家。其中,目前公认最为成功的中文分词技术是海量科技公司的中文分词组件产品,该公司的分词组件基本上能满足一些中文信息处理领域的应用。以下是一些比较成功的中文分词系统(组件):

2.1  中科院计算所汉语词法分析系统 ICTCLAS

该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97%以上,未登录词识别召回率均高于 90%,其中中国人名的识别召回率接近 98%,处理速度为 31.5Kbyte/s。

2.2  海量科技的分词产品

海量科技公司致力于分词功能组件,据海量科技有限公司官方网站上公布的数据,在 CPU—AMD 2500+、内存—512M DDR 环境下中文智能分词功能基础组件的切分准确率为 99.5%,切分速度为 33.5 万字/s。主要应用领域为:

信息检索:如全文检索、主题检索。

汉字处理:如智能拼音输入、手写识别输入、中文 OCR 识别、自动校对、简繁转换。

语音处理:如语音合成、语音识别。

内容识别与分析:如信息摘录、自动文摘、自动标引、文本自动分类、自动过滤、数据挖掘。

自然语言理解:如机器翻译、自然语言接口。

中文分词技术目前在国内已得到相当的发展,研究团队也在不断的增加,各种分词算法的思想多种多样,但从总体可以将这些分词算法归为两大类:机械性分词和理解性分词。

  全套毕业设计论文现成成品资料请咨询微信号:biyezuopin QQ:2922748026     返回首页 如转载请注明来源于www.biyezuopin.vip  

                 

打印本页 | 关闭窗口
本类最新文章
捻线机基于PCI的控制系统设计 捻线机基于PCI的控制系统设计 基于PLC的步进电机控制系统设计
某MW级风力发电场电气初步设计 基于PLC控制的小车运料控制系统 圆柱形卷绕倍捻机传动机构机械设计
| 关于我们 | 友情链接 | 毕业设计招聘 |

Email:biyeshejiba@163.com 微信号:biyezuopin QQ:2922748026  
本站毕业设计毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!