首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
手写票据识别是模式识别中的研究难点之一,手写体风格多样、票据背景复杂等原因导致手写票据识别的准确率不高。大写金额作为票据中最重要的部分,对其进行准确识别是手写票据自动识别的关键。对基于分割的手写体大写金额识别及处理问题进行研究,提出一种基于卷积神经网络(CNN)与有限状态自动机的手写体大写金额识别方法。在利用过分割和组合过分割项得到单字符后使用CNN对其进行识别。通过对字符进行分类、定义各类字符之间的逻辑关系构造用于语法检查的有限状态自动机,通过语法自动机在识别结果中选择符合语法规则的字符串,并在路径搜索中利用语法自动机优化搜索性能。在此基础上,运用语法自动机对模糊字符进行预测,以纠正CNN的识别错误。实验结果表明,该方法在对大写金额单字符和文本行进行识别时准确率分别高达98.2%与96.6%。  相似文献   

2.
后处理是检测和纠正文字识别后文本中错误的重要步骤,老挝语文字识别结果中存在大量相似字符替换错误及字符断裂、粘连导致的字符插入、删除错误,针对该问题进行分析,该文提出了一种融合字符形状特征的多任务老挝语文字识别后纠错方法.该方法引入基于长短期记忆网络的seq2seq模型架构,将老挝字形特征融入模型以辅助模型对相似字符替换错误的纠正,针对文本中插入、删除错误在编码端联合多尺度卷积网络以不同的卷积核大小提取文本的局部特征;再使用语言模型对解码端预测的文本序列与原始文本进行重排名,得到最佳候选;同时,采用多任务学习的方式,以错误检测辅任务优化模型纠错效果,此外,该文以数据增强的方式扩充数据集.实验结果表明,该方法使老挝文字识别的字符错率低至7.94%.  相似文献   

3.
基于多通道融合的连续手写识别纠错方法   总被引:1,自引:0,他引:1  
敖翔  王绪刚  戴国忠  王宏安 《软件学报》2007,18(9):2162-2173
在基于识别的界面中,用户的满意度不但由识别准确度决定,而且还受识别错误的纠正过程的影响.提出一种基于多通道融合的连续手写笔迹识别错误的纠正方法.该方法允许用户通过口述书写内容纠正手写识别中的字符提取和识别的错误.该纠错方法的核心是一种多通道融合算法.该算法通过利用语音输入约束最优手写识别结果的搜索,可纠正手写字符的切分错和识别错.实验评估结果表明,该融合算法能够有效纠正错误,计算效率高.与另外两种手写识别错误纠正方法相比,该方法具有更高的纠错效率.  相似文献   

4.
字符串识别通过最优路径搜索得到字符切分和字符识别结果.本文将字符同步和时间同步两种搜索模式应用于手写字符串识别系统,比较两种模式下使用不同准则函数和搜索算法的系统性能.同时,提出一种改进的路径评价准则,在此准则下可用动态规划算法进行最优路径的搜索.在联机手写日文字符串识别中的实验结果表明.对于无词典驱动的字符串识别系统,时间同步搜索的效率高于字符同步搜索.利用本文所提出的路径评价准则,可得到与归一化准则相当的切分和识别准确率,但搜索时间大为减少.  相似文献   

5.
粘连断裂字符行的切分识别,是很多OCR 实际应用中存在的主要困难之一. 本文针对粘连断裂的印刷体数字行,提出了一种基于Viterbi 算法的切分识别方案,该方案采用两次切分识别的层次型结构. 在第二次切分识别过程中,首先,在候选切分点区域,结合灰度图像与二值轮廓信息,采用基于Viterbi 算法搜索的非直线路径进行切分,得到有效的切分路径;然后,结合分类器输出的可信度,采用Viterbi 算法来合并前面得到的候选切分图像块,进行动态切分与识别. 实际的金融票据识别系统实验表明,本文提出的印刷体数字行切分识别方法能够较好的克服字符行的粘连与断裂情况,提高了识别系统的识别率和鲁棒性.  相似文献   

6.
面向互联网新闻的在线事件检测   总被引:1,自引:0,他引:1  
付艳  周明全  王学松  栾华 《软件学报》2010,21(Z1):363-372
为了提高互联网上新闻事件在线检测的效率,利用加窗策略、命名实体识别及后缀树聚类等技术提出了一种新的检测算法.该算法基于实体识别技术解析出新闻数据特有的信息元素(例如日期、地点、人物等),并在限定的时间窗口内,通过新闻特征的语义匹配实现了新事件的快速识别,从而大幅降低了基于文本相似度计算的检测算法带来的巨大时间消耗.实验结果证明,该算法能够实现在保障检测准确率的同时显著提高检测的效率.  相似文献   

7.
一种中文地址类相似重复信息的检测方法   总被引:1,自引:0,他引:1  
数据仓库中相似重复记录的识别与消除是数据清洗的热点问题,其中地址类信息对相同实体识别起着非常重要的作用.针对中文地址类信息的处理,建立了包含分词规则的元数据库,提出一种相似重复检测模型.在此基础上,描述了基于特征字符的分词算法和利用可变权值策略计算记录相似度的算法.实验结果表明该方法能有效解决中文地址类重复信息的检测,提高了算法的执行效率及检测精度.  相似文献   

8.
事件句抽取是事件抽取中的核心环节,而在金融领域中,公司名识别则是事件句抽取中的重点和难点。从金融领域的事件句抽取出发,首先充分利用互联网搜索和上市公司名信息进行公司名识别:如果一个N元组是公司名,则进行互联网搜索,其结果中包含“公司”、“集团”等字词多,同时和已经的公司名有较高的匹配度。其次,综合考虑句子位置信息、包含公司名信息、包含领域动词信息、与标题相似度四个方面特征,构造权值表达式。最终从句子集中选出金融事件句。实验表明,公司名识别方法的正确率可达82.28%,召回率达68.93%;事件句抽取的正确率可达66.83%。  相似文献   

9.
为了提高票据识别的准确率,对票据定位进行了研究。提出了一种基于结构的定位方法。它利用票据主边框上交叉点的个数和相对位置作为票据的特征信息,并将这些信息通过相应的分类相似函数集与已定义的模版进行匹配,从而实现对票据的分类,最终提取出当前票据的识别区域。实验结果表明:该算法取得了很好的定位效果。  相似文献   

10.
针对古籍古文献中部分汉字易发生粘连现象,提出一种古籍手写汉字多步分割方法.该方法继承了以往粗分割和细分割相结合的思想,首先采用投影进行粗分割,将手写汉字分为粘连字符和非粘连字符两类;然后针对粘连字符串抛弃常用的串行模式,直接采用粗分割的统计信息,设置初始分割路径,并基于最短分割路径的思想,在初始分割路径的局部邻域内基于最小权值搜索并修改分割路径,从而获得最佳的加权分割路径.实验证明该方法解决了字符分割不足和多处粘连字符的分割问题,有效的提高了分割的准确率,且算法的时间复杂度较低,算法效率较高.  相似文献   

11.
针对车牌中汉字识别率低和识别速度慢问题,提出一种基于深度学习的车牌识别网络LeNet-5-L,该网络把车牌识别分为两个阶段,运用OpenCV库函数对车牌图像预处理,结合垂直投影分割方法将车牌分割为7个独立字符图像,降低了图像特征提取难度,从而提高车牌中各个的字符识别率和整个车牌识别速度;运用卷积神经网络解决车牌字符识别问题,基于LeNet-L设计一种车牌字符识别网络LeNet-5-L,有效提高车牌中首字符汉字识别率;实验结果表明,该网络对车牌中各个字符的识别准确率均高于99.97%,单个车牌识别时间仅需0.83 ms,该方法有效的提高车牌识别的正确率和识别速度.  相似文献   

12.
一种新颖的汉字字形相似度计算方法   总被引:1,自引:0,他引:1  
为了利用字形描述技术识别相似汉字, 提出了三元组递归表示的汉字字形相似度计算方法。该算法把汉字表示为汉字结构、字首部件和字尾部件三元组, 以部件为运算对象, 字型结构为运算符, 将汉字描述为前缀表达式。通过建立汉字字形相似度计算递归模型, 使计算过程被逐层分解为原子部件间的相似性比较, 从而更好地降低了计算的复杂性。然后将其用于计算汉字的最佳相似字。实验结果表明, 该方法与人的认知结果吻合度很好, 算法是有效可行的。  相似文献   

13.
借鉴仿生模式识别的认知观点,从汉字的构造机理和人类认识汉字的习惯角度出发,提出一种基于小波变换的图像汉字识别方法。制定了图像汉字笔划特征提取的具体规则,采用小波变换的方法对图像汉字边缘和笔划轮廓进行检测,通过有效提取图像汉字笔段信息,进行笔段合成,生成汉字或汉字的基本笔划。仿真实验结果表明,这种方法提高了图像汉字笔划特征提取的准确率和稳定性,对于印刷体和书写较规范的手写体图像汉字具有极高的识别率。  相似文献   

14.
Zhang  Hanning  Dong  Bo  Zheng  Qinghua  Feng  Boqin  Xu  Bo  Wu  Haiyu 《Multimedia Tools and Applications》2022,81(20):28327-28346

With the development of the economy, the number of financial tickets is increasing. The traditional invoice reimbursement and entry work bring more and more burden to financial accountants. However, standard OCR technology weakly supports financial tickets with various layouts and mixed Chinese and English characters. In view of this problem, this paper designs a method of financial ticket all-content text information detection and recognition based on deep learning. This method can effectively suppress the common noise of ticket image and extract financial information from ticket image in batch. At the same time, aiming at the problem of multi-character mixed character recognition, we propose a financial ticket character recognition framework (FTCRF), which can improve the accuracy of multi-character mixed character recognition and make the detection and recognition of financial ticket surface information more efficient. The experimental results show that the average recognition accuracy of the character sequence is 91.75%. The average recognition accuracy of the whole ticket is 87%, which significantly improves the efficiency of the financial accounting system.

  相似文献   

15.
中文分词技术是机器翻译、分类、搜索引擎以及信息检索的基础,但是,互联网上不断出现的新词严重影响了分词的性能,为了提高新词的识别率,建立待分词内容的后缀数组,然后计算其公共前缀共同出现的次数,采用阈值对其进行过滤筛选出候选词语,实验结果表明,该方法在新词识别方面有一定的优势。  相似文献   

16.
Scene text recognition (STR) is the recognition of text anywhere in the environment, such as signs and storefronts. Relative to document recognition, it is challenging because of font variability, minimal language context, and uncontrolled conditions. Much information available to solve this problem is frequently ignored or used sequentially. Similarity between character images is often overlooked as useful information. Because of language priors, a recognizer may assign different labels to identical characters. Directly comparing characters to each other, rather than only a model, helps ensure that similar instances receive the same label. Lexicons improve recognition accuracy but are used post hoc. We introduce a probabilistic model for STR that integrates similarity, language properties, and lexical decision. Inference is accelerated with sparse belief propagation, a bottom-up method for shortening messages by reducing the dependency between weakly supported hypotheses. By fusing information sources in one model, we eliminate unrecoverable errors that result from sequential processing, improving accuracy. In experimental results recognizing text from images of signs in outdoor scenes, incorporating similarity reduces character recognition error by 19 percent, the lexicon reduces word recognition error by 35 percent, and sparse belief propagation reduces the lexicon words considered by 99.9 percent with a 12X speedup and no loss in accuracy.  相似文献   

17.
随着计算能力的飞速增长、训练数据的不断积累以及非线性激活函数的不断完善,卷积神经网络(CNN)在手写体汉字识别中表现出较好的识别性能。针对CNN识别手写体汉字识别速度慢的问题,将二维主成分分析(2DPCA)与CNN相结合识别手写体汉字。首先,利用2DPCA提取手写体汉字的投影特征向量;然后,将得到的投影特征向量组成特征矩阵;其次,用组成的特征矩阵作为CNN的输入;最后,用Softmax函数进行分类。与基于AlexNet的CNN模型相比,所提方法的运行时间降低了78%,与基于ACNN与DCNN的模型相比,所提方法的运行时间分别降低了80%与73%。实验结果表明,该方法在不降低识别精度的同时,可以减少识别手写体汉字的运行时间。  相似文献   

18.
为了减小最短路径距离矩阵与欧氏距离矩阵之间的差异,提高MDS-MAP(C)算法的节点定位精度,提出一种改进的多维标度节点定位算法.该算法对MDS-MAP(C)算法进行了以下改进:采用启发式的搜索策略对最短路径距离矩阵进行修正,以减少最短路径距离矩阵与实际的欧氏距离矩阵之间的误差;利用smacof算法迭代误差函数代替SVD分解来求解节点的定位问题,以优化和改善节点定位的求解过程.实验结果表明,与MDS-MAP(C)算法相比,改进算法能够减少最短路径距离的误差,有效提高节点的定位精度,并且对不规则网络具有更好的适应性.  相似文献   

19.
经典字符串匹配算法的本质都是从左向右或者从右向左顺序进行字符匹配的,在主串中存在大量子串与模式串前缀或者后缀相同时效率较低,并且模式串最大右移长度为模式串长度。改进算法采用二分匹配字符串的方法,有效地避免了由主串中大量子串与模式串前缀相同或者后缀相同引起的无意义比较次数。模式串的移动距离根据改进的坏字符规则进行计算,增大了模式串的移动距离。实验结果表明,改进的字符串匹配算法可以有效地减少字符串的匹配次数和移动次数,达到了提高算法效率的目的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号