文 献 综 述
1、字符识别概述
手写体数字识别(Handwritten Numeral Recognition)是光学字符识别技术(Optical Character Recognition,简称OCR)的一个分支,它研究的对象是:如何利用电子计算机自动辨认人手写在纸张上的阿拉伯数字[1]。
手写体数字的识别是人们研究较为深入的一个领域。文字识别作为计算机技术的一个领域在许多的环境当中都有着非常广泛的应用。文字识别是新一代智能计算机接口的重要组成部分。它涉及到数字图像处理,模式识别,人工智能,模糊数学,组合数学,信息论呢,自然语言理解等学科。近二十年来,国内外对各种字符进行了广泛深入的研究,研究出了许多非常有效的识别算法,用于各种字符识别的应用软件也越来越丰富,文字识别可以分为两个大类,即印刷体和手写体文字识别,手写体文字识别又可以分为手写体文字和手写体数字的识别[2]。而手写体数字识别是当今人们研究的一个热点。
2、手写数字识别的意义和应用前景
对手写体数字的识别研究不仅有着重大的现实意义而且还有十分广阔的应用前景。当今经济的发展,金融市场化进程的日益加快,票据业务发展很快,票据数量也与日俱增。其中个人凭证,支票,发票,进账单等等票据均需要处理大量的信息。而目前,票据录入仍然依赖人工处理方式,因而使得票据管理工作也相对落后。如果通过手写体字符识别技术来实现信息的自动录入,无疑会大大有利于解决传统人工处理方式中存在的工作量大、成本高、效率低、时效性差等问题。此外,手写数字识别应用领域还有:(1)手写数字识别被应用在大规模数据统计中。例如:人口普查、成绩单录入、行业年检、财务报表录入等应用中。(2)手写数字识别被应用在财务、税务、金融领域应用。随着我国经济的快速发展,每天会有大量的财务、税务、支票等需要处理。(3)手写数字识别被应用到邮件分拣系统中[3]。
由上可见,对手写体数字识别有着很高的实用价值,除此之外,手写体数字识别还具有全世界通用的符号、识别种类较小、有助于作深入分析及验证一些新的理论等特点[4],因此人们在手写体数字识别领域投入了极大的关注。
3、字符识别的研究与发展
字符识别的最早能追溯到20世纪初,在字符识别大发展时期(1990年后),许多研究者就提出了一些新的有效识别工具,其中人工神经网络(Artificial Neural Network ,ANN)[5],支持向量机(Support Vector Machine)[6,7],隐马尔科夫模型(Hidden Markov Model,HMM)[8]等,而这些识别工具至今仍然是研究的热点。
1)在人工神经网络识别方法中,模式类的描述方法一般还是特征向量,只是在分类时,利用了神经网络的自动学习和记忆功能,通过对样本的训练建立起记忆,然后将未知样本作为输入让神经网络“回忆”出该样本所属的类别[5]。
2)支持向量机是Vapnik 等人根据统计学理论提出的一种新型机器学习方法。由于其出色的学习性能,该技术已成为机器学习界的研究热点,并在很多领域都得到了成功的应用,如人脸识别、手写体数字识别、文本自动分类等。
3)隐马尔科夫模型是一类基于马尔科夫随机过程的统计模型[9]。隐马尔科夫模型对于随机信号具有很强的学习和建模能力,因此在语音识别中取得了很大的成功。从上世纪90年代开始,一些研究者已经将隐马尔科夫模型引入到了图像处理、识别和分析中来。
4、手写数字识别的难点
虽然,人们对字符识别的研究有百余年,并在字符识别取得了可喜的成绩(其中文字识别也越来越多的应用到实际应用中),然而字符识别的一个分支--数字识别的研究却离实际应用还有一定差距。这是因为,在一般情况下,当涉及到数字识别时,人们往往要求识别系统有很高的识别精度(又称可靠性)[10],特别是有关金融的数字识别时,如支票中填写的金额部分,更是如此。因此针对这类问题,就要求手写数字识别系统具有高可靠性和高识别率。总结数字识别的难点主要在于以下几方面:
(1)阿拉伯数字的字型信息量很小,不同数字写法字形相差又不大,使得准确区分某些数字相当困难[11]。
(2)数字虽然只用10种,而且笔画简单,但书写上带有明显的地域特性,同一数字写法千差万别,不同地域的人写法也不相同,所以很难做到兼顾各种写法的极高识别率的通用性数字识别系统[12]。
(3)在实际应用中,对数字的单字识别正确率的要求要比文字要苛刻得多。这是因为,文字组合一般都存在上下文关系,但数字组合存在极少的或没有上下文关系,所以每个孤立数字的识别都至关重要[13]。而且数字识别经常涉及到财务、金融领域,其严格性更是不言而喻的。因此,对手写数字识别系统的要求不仅仅是单纯的高正确率,更重要的是极低的误识率。
(4)由于脱机手写数字的输入只是简单的一幅图像,它不像联机输入那样可以从物理输入设备上获得字符笔画的顺序信息[14],因此脱机手写数字识别是一个更具有挑战性的问题。
5、国内外研究现状
手写体数字识别在学科上属于模式识别和人工智能的范畴。在过去的数十年中,研
究者提出了许多地识别方法,目前手写体数字识别方法可以分为两类:基于结构特征的方法和基于统计特征的方法[15]。
通过几十年来各国研究学者得对数字识别的研究,国内外在手写识别上也取得了一定的成就。在我国邮电部第三研究所,以信函分拣为目的,识别书写在信封上的邮政编码。其他用传统方法进行识别研究的有中国科学院自动化研究所,该所对手写体数字识别的研究历史几乎有20年了,在他们新近的报告中,利用有限状态自动机为主的识别途径识别1100个手写体数字,识别率达95.2%,拒识4%,误识0.2%,上海交通大学基于压缩子结构特征的手写体数字识别算法选取了12600个样本组成训练集,6000个样本组成测试集,用BP网络进行分类,识别正确率为97.58%,误识率为1.04%,拒识率为1.38%。 德国E9的Friedhelm Schwenker采用SV-RBF40对手写体数字进行识别,测试样本10000个,识别正确率为98.56%。清华大学采用SVM对金融票据中的手写体数字进行识别,测试样本20000个,识别率约为92%[8]。
然而以上提到的系统,要么对书写的正规程度有要求,要么其测试样本和训练样本处于同一批人之手。总之,一般的系统对书写人员限制较多,或者对书写的正规程度有要求,或者对书写为止有要求,或者对所用笔、纸有要求,例如对税务报表的识别就要求用规定的字型书写数字,并且对书写的为止有要求,而真正的无限制手写体数字的识别的研究还有待进一步提高。
6、本课题主要研究的内容
本人将对手写体数字的识别问题进行研究,希望采用二级BP神经网络分类器进行数字识别,并期望得到较好的效果。
参考文献:
[1] 范艳峰,肖乐,甄彤.自由手写体数字识别技术研究.计算机工程报,2005,31(10):168~167
[2] 张炘中.汉字识别技术.北京:清华大学出版社,1992:1~8
[3] 陈彬彬.高精度手写体数字识别.硕士学位论文.北京:北京邮电大学,2006
[4] 罗佳.无约束手写数字串切分与识别研究.硕士学位论文.四川:四川师范大学,2007
[5] Martin T.Hagan,Howard B.Demuth,Markk H.Beale.神经网络设计(中文版).北京:机械工业出版社,2002
[6] V. Vapnik.The Nature of Statistical Learning Theory.New York:Springer-Verlag, 1995
[7] C.Cortes,V.Vapnik.Support Vector Networks.Maching Learning,1995,20:273~297
[8] 陈梅丞.基于多神经网络集成的手写数字识别.硕士学位论文.四川:西南财经大学,2008
[9] Geprge F.Luger.人工智能复杂问题求解的结构和策略(中文版).第5版.北京:机械工业出版社,2006
[10] 董慧.手写体数字识别中的特征提取和特征选择研究.硕士学位论文.北京:北京邮电大学,2007
[11] 马向长.字符识别系统中图像预处理方法的研究.硕士学位论文.北京:北京科技大学,2002
[12] 郑朝晖,裘律皇,陈俊峰.遗传算法及其在字符识别中的应用.硕士论文.北京:中国科学院,2004
[13] 张镭.自适应模糊系统在手写体数字识别中的应用研究.硕士论文.广州:暨南大学,1999
[14] 梁志贞.手写字符切分与识别中若干问题的研究.博士学位论文.上海:上海交通大学,2004
[15] 吕蓉.基于手写体数字识别的信息录入与处理系统.硕士学位论文.山东:山东大学,2006
|