首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 578 毫秒
1.
隐马尔科夫模型(HMM)对序列数据有很强的建模能力,在语音和手写识别中都得到了广泛的应用。利用HMM研究蒙古文手写识别,首先需要解决的问题是手写文字的序列化。从蒙古文的构词和书写特点看,蒙古文由多个字素从上到下串联构成。选择字素集合和词的字素分割是手写识别的基础,也是影响识别效果的关键因素。该文根据蒙古文音节和编码知识确定了蒙古文字母集合,共包括1 171个字母。通过相关性处理、HMM排序筛选等手段得到长字素集合,共包括378个字素。对长字素经过人工分解,获得了50个短字素。最后利用两层映射给出了词转字素序列的算法。为了验证长短字素在手写识别中的效果,我们在HTK(hidden Markov model toolkit)环境下利用小规模字库实现了手写识别系统,实验结果表明短字素比长字素有更好的性能。文中给出的字素集合和词转字素序列的算法为后续基于HMM的蒙古文手写识别研究奠定了基础。  相似文献   

2.
为了使得藏文字符特征向量维数少、存储空间小、运算速度快及区分相似字能力高,基于图像投影法提出一种基于极坐标投影变换的脱机手写藏文字符特征提取方法。将脱机手写藏文字符图像进行预处理后得到大小、位置统一的二值图像,并定位二值图像的极点;求出二值图像中所有值为1的点对应的极坐标后将其进行投影变换得到投影向量,即作为脱机手写藏文字符的特征向量。使用KNN分类器对30 000个脱机手写藏文字进行实验,其中80%的样本作为训练数据,20%的样本作为测试数据,识别率达到了96.32%。结果表明该方法的有效性、计算简单及达到了较好的识别效果。  相似文献   

3.
王寅同  郑豪  常合友  李朔 《控制与决策》2023,38(7):1825-1834
中文手写文本识别是模式识别领域中的研究热点问题之一,其存在字符类别数量多、书写风格差异大和训练数据集标记难等问题.针对上述问题,提出无切分无循环的残差注意网络结构用于端到端手写文本识别.首先,以ResNet-26为主体结构,使用深度可分离卷积提取有意义特征,残差注意门控模块提升文本图像中的关键区域的重要性;其次,采用批量双线性插值模型对输入表征进行拉伸-挤压,实现二维文本表征到一维文本行表征的文本行上采样;最后,以连接时序分类作为识别模型的损失函数,实现高层次抽取表征与字符序列标记的对应关系.在CASIA-HWDB2.x和ICDAR2013两个数据集上进行实验研究,结果表明,所提方法在没有任何字符或文本行的位置信息时能够有效地实现端到端手写文本识别,且优于现有的方法.  相似文献   

4.
人类在进行字符识别活动时,会根据对象复杂度的不同,采用不同的识别方法.对于结构简单的字符,利用宏观整体信息识别;对于易混淆的形近字,利用微观具体信息区分.为了模拟人类智能进行字符识别活动的过程,设计了一种基于层次分类的脱机手写字符识别算法.该算法将分类器划分为宏观层和微观层,宏观层模拟简单字符识别过程,利用基于梯度的统计特征描述整体信息,完成识别;微观层模拟形近字识别过程,利用基于主曲线的结构特征描述具体信息,完成区分.算法还引入了可信度概念,用以量度推理过程及识别结果的不确定性程度.给出了形近字的定义及区分规则.实验表明,提出的算法有效地提高了脱机手写字符的识别率,对形近字的区分效果尤佳.  相似文献   

5.
张显杰  张之明 《计算机应用》2022,42(8):2394-2400
手写体文本识别技术可以将手写文档转录成可编辑的数字文档。但由于手写的书写风格迥异、文档结构千变万化和字符分割识别精度不高等问题,基于神经网络的手写体英文文本识别仍面临着许多挑战。针对上述问题,提出基于卷积神经网络(CNN)和Transformer的手写体英文文本识别模型。首先利用CNN从输入图像中提取特征,而后将特征输入到Transformer编码器中得到特征序列每一帧的预测,最后经过链接时序分类(CTC)解码器获得最终的预测结果。在公开的IAM(Institut für Angewandte Mathematik)手写体英文单词数据集上进行了大量的实验结果表明,该模型获得了3.60%的字符错误率(CER)和12.70%的单词错误率(WER),验证了所提模型的可行性。  相似文献   

6.
西里尔蒙古文与传统蒙古文分别是蒙古国与中国使用的蒙古文,西里尔蒙古文到传统蒙古文的转换工作不仅给两国同胞的交流带来更多的便利,而且对蒙古族的科学、文化和教育发展具有重要意义。本文结合规则与统计模型的优点,研究了西里尔蒙古文到传统蒙古文的转换方法。本文首先采用基于规则的方法对西里尔蒙古文集内词进行转换,其次对集外词的转换采用了基于联合序列模型的方法,并采用N-gram语言模型解决了一个西里尔蒙古文单词对应多个传统蒙古文单词的问题。实验结果表明,该系统单词转换错误率低至4.12%,基本达到了实用要求。  相似文献   

7.
魏宏喜  高光来 《计算机应用》2011,31(11):3038-3041
设计了一个基于word spotting技术的蒙古文《甘珠尔经》图像检索的系统框架。在充分分析了蒙古文《甘珠尔经》中手写单词图像特点的基础上,提出了采用轮廓特征、投影特征和笔划穿越数目来表示单词图像。在由5500个单词图像构成的数据集上进行对比实验,确定了最佳的特征组合,平均准确率(MAP)能达到78.79%,R-Precision能达到73.01%。实验结果表明,所选择的特征是合理的、有效的。  相似文献   

8.
建立公开、权威的蒙古文手写数据库是研究和开发蒙古文手写识别系统的基础。该文在蒙古文编码、构词和语法的研究基础上,公开了一个蒙古文大词汇量脱机手写数据库MHW,其中训练集由5 000个单词构成,每个词采集了20个样本,共包含10万样本,测试集Ⅰ包含5 000样本,测试集Ⅱ包含14 085样本。该文利用蒙古文文字长度可变特征研究了自动错误检测算法,提高了字库的可靠性。在三种常用手写识别模型上评估了字库的性能,其中基于循环神经网络的模型表现出最佳性能,在字典受限条件下测试集Ⅰ的词错误率达到2.20%,测试集Ⅱ达到了5.55%。  相似文献   

9.
杨飞  王欢  金忠 《机器人》2018,40(6):803-816
为了在道路检测中结合图像的多尺度特征以及点云的空间结构特征,使检测算法能有效地排除道路场景中的阴影、光线等干扰,本文提出一种基于融合分层条件随机场的图像和点云融合的道路分割模型.首先,利用Meanshift算法产生多个尺度的超像素分割,建立基于图像的多尺度分层条件随机场.将点云数据投影到图像平面,再建立基于点云的多尺度分层条件随机场.在条件随机场的像素层和点云层之间建立连接,构造多尺度的融合模型.然后,针对多尺度融合模型中图像层的每一层和点云层的每一层,分别提取对应尺度的图像特征或点云特征.每一层用梯度提升树算法根据提取的特征训练1个分类器,利用每一层的分类器得到对应层的数据项代价.最后,使用α扩张算法对融合模型进行联合优化求解.在KITTI Road数据集上的实验结果表明,该方法具有良好的道路检测性能.  相似文献   

10.
为提高脱机满文手写字体的识别率,提出了基于BP网络的多特征集成分类器识别方法.对扫描成图像的手写满文进行预处理,切分出满文字元;分别提取满文字元的投影特征、链码特征以及端点和交叉点特征,并对这三类特征及其相互组合进行分类识别;通过隐马尔科夫算法对识别结果进行后处理,进一步提高识别的精度.实验结果表明,集成分类器的识别率要比单个特征的识别率要高,同时集成分类器中的特征类别越多,识别效果越好.  相似文献   

11.
针对手写阿拉伯单词书写连笔,且相似词较多的特点,该文提出一种新的脱机手写文字识别算法。该算法以固定组件为成分拆分阿拉伯单词,构建自组件特征至单词类别的加权贝叶斯推理模型。算法结合单词组件分割、多级混合式组件识别、组件加权系数估计等,计算单词类别的后验概率并得到单词识别结果。在IFN/ENIT库上的实验,获得了90.03%的单词识别率,证实组件分解对笔画连写具有鲁棒性,组件识别能提高相似词的辨别能力,而且该算法所需训练类别少,易向大词汇量识别扩展。  相似文献   

12.
13.
研究LeNet-5在扫描文档中手写体日期字符识别的应用,由于文档扫描的过程中会引入各种噪声,特别是光照和颜色干扰,直接使用LeNet-5算法不能取得较好效果。先在整份文档中对特定待识别字符的进行定位和划分,并对划分出的字符图像进行去噪、灰度化和二值化处理等预处理,接着将字符图像分割成一个个单个字符,然后在LeNet-5网络基础上结合模型匹配法实现对手写体日期字符的识别。分析在不同参数组合下的识别效果,调整算法模型参数有效地提升了模型对于实际对象的性能,实现出一种能够对手写体日期字符集实现较好识别效果的算法。实验结果表明了算法的有效性,并应用于具体工程实践。  相似文献   

14.
15.
For part I see ibid. vol.8, no. 1 (2000). This paper presents an application of the generalized hidden Markov models to handwritten word recognition. The system represents a word image as an ordered list of observation vectors by encoding features computed from each column in the given word image. Word models are formed by concatenating the state chains of the constituent character hidden Markov models. The novel work presented includes the preprocessing, feature extraction, and the application of the generalized hidden Markov models to handwritten word recognition. Methods for training the classical and generalized (fuzzy) models are described. Experiments were performed on a standard data set of handwritten word images obtained from the US Post Office mail stream, which contains real-word samples of different styles and qualities  相似文献   

16.
17.
本文面向手写字符序列输入信号连续识别研究,分析了汉字及联机手写文本的特点,提出并构建了手写汉字部件集。基于该部件集,完成了GB2312-80的6,763个汉字的部件拆分编码和部件集的测试。统计编码数据发现,汉字依手写部件数的分布规律呈对数正态分布。本文从统计学和字符识别技术的角度对手写部件的构字能力作了分析和讨论,部件集的设计方案在部件选择和汉字拆分上均满足设计要求。实验表明,基于手写部件构造的部件识别器对手写汉字和连续汉字的部件识别率分别达到70.21%和58.49%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号