首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
自然场景文本识别是计算机视觉领域的研究热点之一,在无人驾驶、图像检索、机器人导航等领域具有广泛的应用前景.由于自然场景中的文本图像存在背景复杂、透视失真、过度弯曲等现象,给文本识别带来了巨大的挑战.针对上述问题,本文提出了一种基于多路并行的位置关联网络(Multi-Path Parallel Location Association Network, MPLAN)的自然场景文本识别方法.首先,针对不规则文本图像,MPLAN使用文本矫正网络自适应学习图像变换,从而获得线性排列的文本图像.其次,为了捕获字符间的位置信息,MPLAN提出了位置关联模块,利用序列特征的有序性,通过捕获字符位置信息,以提高序列特征与目标字符的对齐准确度.此外,为了增强字符间的语义相关性,MPLAN提出了基于多路传输思想的并行注意力模块,获取全局语义信息,实现序列特征的上下文通信,从而锁定有效字符的位置.在包括规则文本、不规则文本在内的六个数据集上的实验结果表明,MPLAN能够有效利用位置信息与全局语义信息解码字符序列,特别是在识别不规则文本上取得了领先的性能.  相似文献   

2.
手写汉字识别是模式识别与机器学习的重要研究方向和应用领域;近年来,随着深度学习理论方法的完善、新技术的层出不穷,深度神经网络在图像识别分类、图像生成等典型应用中取得了突破性的进展,其中,深度残差网络作为最新的研究成果,已成功应用于手写数字识别、图片识别分类等多个领域;将研究深度残差网络在脱机孤立手写汉字识别中的应用方法,通过改进残差学习模块的单元结构,优化深度残差网络性能,同时通过对训练集的预处理,从数据层面实现训练生成模型性能的提升,最后设计实验,验证深度残差网络、End-to-End模式在脱机手写汉字识别中的可行性,分析、总结存在的问题及今后的研究方向。  相似文献   

3.
针对常规图像处理和现有语义分割方法从航拍图像中识别输电线速度慢、准确率低等问题,构建了新型高效的输电线识别编解码网络。为减少模型参数,提高计算效率,采用轻量级MobileNetV3作为编码器主干特征提取网络,并在浅层引出快捷链路与深层进行堆叠;通过金字塔池化模块(PSP)和深度可分离卷积构建解码器提高输电线多尺度特征复用能力并实现网络轻量化;采用跳跃连接结构级联编码器和解码器从而融合浅层和深层多尺度特征信息;利用迁移学习加快网络训练收敛速度并识别出输电线。实验结果表明,新型编解码网络能准确快速地识别出复杂背景下的输电线,MPA、MIOU和FPS分别达到了94.37%、86.95%和31帧每秒,识别精度和速度均优于UNet网络和PSPNet网络。  相似文献   

4.
绝大多数健听人不懂手语导致听障人在找工作、就医、法律咨询等各生活、工作领域中遇到了极大的沟通障碍,而手语翻译员需要提前预约,成本也非常高,所以很多科研工作者都开始利用机器学习来开发手语自动翻译器,但其中的大部分研究都因为受到了数据集规模和质量的影响而效果不佳。为解决上述矛盾和问题,创建了目前全球最大的中国连续手语数据集,并使用了考虑身体关节的位置、面部表情及手指关节的端到端的深度学习模型进行有效训练。结论突显了现代深度学习技术在识别复杂手语方面的巨大优势,针对较小子集的BLEU-4已达到30.8。  相似文献   

5.
管小卫  丁琳 《软件工程》2021,(10):18-22
针对离线手写汉字的特征提取困难、不能准确识别等问题,提出了一种胶囊网络与深度置信网络的融合模型.首先从CASIA-HWDB1数据集中随机选择了一些文本分别训练胶囊网络和深度置信网络,然后采用胶囊网络和深度置信网络的融合策略进行了手写汉字识别实验.实验结果表明,在不确定方向上使用汉字融合模型的错误率降低了5.2%,与单独...  相似文献   

6.
用于脱机手写数字识别的隐马尔可夫模型   总被引:9,自引:0,他引:9  
将隐马尔可夫模型(HMM)用于脱机手写数字识别中,系统如何建模是一个值得研究的问题.在考虑手写数字自身特点及特征抽取的基础上,对HMM模型的训练方法及模型参数的选取进行了研究,以提高系统识别率.在银行票据OCR的应用中,与基于神经网络的方法结合使用,使得整张票据的拒识率降低了3%,明显提高了银行票据OCR系统的性能.  相似文献   

7.
传统和基于CNN的脱机手写汉字识别模型多数是为了追求更高准确率,未重视模型体积大小,模型中存在大量冗余参数,模型训练周期长并且很难在资源有限的平台上运行.针对这些问题,本文提出改进的SqueezeNet模型,保留了用小卷积核替代大卷积核的策略,采用层间的特征融合算法和L2范数约束的Softmax分类函数;然后再对参数裁...  相似文献   

8.
9.
Transformer作为一种新的深度学习算法框架,得到了越来越多研究人员的关注,成为目前的研究热点.Transformer模型中的自注意力机制受人类只关注于重要事物的启发,只对输入序列中重要的信息进行学习.对于语音识别任务来说,重点是把输入语音序列的信息转录为对应的语言文本.过去的做法是将声学模型、发音词典和语言模型...  相似文献   

10.
基于人工免疫模型的在线手写签名识别方法   总被引:1,自引:0,他引:1  
采集能表征签名者潜在手写习惯的签名特征,利用人工免疫模型的自学习和自适应实现在较少训练样本的条件下获得具有更高区分度的手写签名模板.实验结果表明,文中方法识别具有良好的训练效果,能获得较好的验证率和鉴别率.  相似文献   

11.
提出了一种新的多层联系子层递归神经网络(MCLRNN)模型并融合藏文字丁的空间结构特征来进行联机手写藏文识别。改进后的网络结构具有多层联系子层来保留若干时刻的网络内部状态,从而可以更好地表征藏文字的各笔划特征以及笔划间的空间结构关系,同时,采用更适用于模式分类的交叉熵准则和改进的梯度下降算法来训练网络,加快了网络的收敛速度并增强其分类能力。仿真实验取得了令人满意的结果。  相似文献   

12.
针对提高不同笔体下的手写识别准确率进行了研究,将深度卷积神经网络与自动编码器相结合,设计卷积自编码器网络层数,形成深度卷积自编码神经网络。首先采用双线性插值方法分别对MNIST数据集与一万幅自制中国大学生手写数字图片进行图像预处理,然后先使用单一MNIST数据集对深度卷积自编码神经网络进行训练与测试;最后使用MNIST与自制数据集中5 000幅混合,再次训练该网络,对另外5 000幅进行测试。实验数据表明,所提深度卷积自编码神经网络在MNIST测试集正确率达到99.37%,有效提高了准确率;且5 000幅自制数据集模型测试正确率达99.33%,表明该算法实用性较强,在不同笔体数字上得到了较高的识别准确率,模型准确有效。  相似文献   

13.
The objective of this study is to produce a system that would allow music symbols to be written by hand using a pen-based computer that would simulate the feeling of writing on sheets of paper and that would also accurately recognize the music symbols. To accomplish these objectives, the following methods are proposed: (1) Two features, time-series data and an image of a handwritten stroke, are used to recognize strokes; and (2) The strokes are combined, as efficiently as possible, and outputted automatically as a music symbol. As a result, recognition rates of 97.60 and 98.80% were obtained in tests with strokes and music symbols, respectively.  相似文献   

14.
针对现有手写体数字识别神经网络模型的不足,提出基于模版对比的改进方法。建立8×12像素的手写体数字0~9的标准模版,则模版中每个数字与其他数字之间存在一定的像素差异,以此作为标准模版差异值。由于书写存在不确定性,采用在一定范围内随机增大或减小标准模版差异值的方法来构建神经网络模型的训练样本、检验样本与测试样本。在遵循建模基本原则和步骤的情况下,建立了泛化能力较好的手写体数字识别的神经网络模型。实验表明:该方法建模便捷、实用性好,测试样本的正确识别率达99.6%以上。  相似文献   

15.
针对手写汉字字符图像识别率受随机噪声影响的问题,提出了一种基于深度学习与抑制噪声相结合的新算法。该算法主要应用于拥有随机噪声的手写汉字字符图片,是其在Python环境下,利用Caffe平台建立抑制噪声与卷积神经网络相结合的模型,通过模型移除噪声并正确识别手写汉字。另外,新算法去除噪声的同时对字符形态没有改变,保留了汉字的原始信息。结果在其两种不同的噪声(高斯噪声和椒盐噪声)下,逐渐提升其噪声强度,进行多次实验,同时与其他方法对比,最终得到其平均识别率为97.05%。实验结果表明,该模型和算法具有效率快、识别能力强的优点。  相似文献   

16.
The detection of mathematical expressions is a prerequisite step for the digitisation of scientific documents. Many different multistage approaches have been proposed for the detection of expressions in document images, that is, page segmentation and expression detection. However, the detection accuracy of such methods still needs improvement owing to errors in the page segmentation of complex documents. This paper presents an end-to-end framework for mathematical expression detection in scientific document images without requiring optical character recognition (OCR) or document analysis techniques applied in conventional methods. The novelty of this paper is twofold. First, because document images are usually in binary form, the direct use of these images, which lack texture information as input for detection networks, may lead to an incorrect detection. Therefore, we propose the application of a distance transform to obtain a discriminating and meaningful representation of mathematical expressions in document images. Second, the transformed images are fed into the faster region with a convolutional neural network (Faster R-CNN) optimized to improve the accuracy of the detection. The proposed framework was tested on two benchmark data sets (Marmot and GTDB). Compared with the original Faster R-CNN, the proposed network improves the accuracies of detection of isolated and inline expressions by 5.09% and 3.40%, respectfully, on the Marmot data set, whereas those on the GTDB data set are improved by 4.04% and 4.55%. A performance comparison with conventional methods shows the effectiveness of the proposed method.  相似文献   

17.
This paper presents a new linguistic decoding method for online hadwritten Chinese character recognition.The method employs a hybrid language model which combines N-gram and linguistic rules by rule quantification technique,The linguistic decoding algorithm consists of three stages:word lattice construction,the optimal sentence hypothesis search and self-adaptive learning mechanism.The technique has been applied to palmtop computer‘s online handwritten chinese character recognition.Samples containing millions of characters were used to test the acter recognition,Samples containing millions of characters were used to test the linguistic decoder.In the open experiment,accuracy rate up to 92% is acieved.and the error rate is reduced by 68%.  相似文献   

18.
吴媛  杨扬  颉斌  王宏 《计算机应用》2006,26(3):622-0623
笔画特征是一种有效的脱机手写体汉字的识别特征,但是笔画细化往往会造成字体的变形,提出一种无需细化预处理的笔画特征提取方法,通过数学形态学中的腐蚀、膨胀等运算,采用不同的、具有自适应性的结构元素对汉字图像进行笔画分解,并利用弹性网格提取其方向特征,最后使用广义K L变换对特征向量的维数进行压缩,去除冗余信息。实验结果验证了本方法的有效性。  相似文献   

19.
针对附着镜头或玻璃表面的雨滴会造成图像退化的问题,提出了一种多阶段渐进式图像去雨滴方法。整个去雨滴过程被分解为多个更易于实现的阶段。首先在每个阶段设计多尺度融合的编码—解码网络以学习雨滴特征,通过构建带有门控循环单元的多尺度扩张卷积来细化内部传递的空间特征。然后引入无降维的通道注意力机制对特定空间特征下的通道信息进行提取。最后为加强每个阶段各部分之间的信息交换,采用跨阶段特征融合机制,在每个阶段的编码—解码网络之间加入横向连接,以实现特征信息的横向传递。在每个阶段之间加入监督注意模块,以增强不同阶段之间的信息传递,最终渐进地实现雨滴的去除。实验表明该方法能够有效地去除雨滴。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号