首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
邵健  赵师聪 《软件学报》2010,21(Z1):205-213
从图像伴随文本中选择合适动词去描述图像中人物动作对于理解图像语义具有重要意义.现有方法通常学习得到表示图像人物和运动与其标注名词-动词之间概率的生成模型,然后使用这一得到的生成模型对训练集以外图像中人物运动进行识别.但是,这一方法忽略了图像中高维异构特征之间固有存在的组效应.实际上,不同类型异构特征在图像语义理解过程中具有不同区别性,例如手臂特征对人挥手这一动作最具有区别性.为了识别图像中人物运动进而对其进行标注,提出了通过Group LASSO 从高维异构姿势特征中选择最具区别性特征,最终学习得到生成模型的方法.实验结果表明,该方法对姿态变化较大动作进行识别时取得了更好结果.  相似文献   

2.
3.
现代计算机的显示信号传输过程存在的电磁泄漏,从电磁泄漏还原得到的图像会受到噪声的严重污染,使得其中的文本内容难以识别。本文提出了一种新的模型,利用基于特征强化的神经网络(Feature Enhancement based Neural Network,FENN)对电磁泄漏还原图像中的中文文本进行识别。模型将去噪自编码器(Denoising Autoencoder,DAE)与卷积神经网络(ConvolutionalNeural Network,CNN)相结合,对电磁泄漏图像的文本特征进行强化并抑制噪声干扰,在不损失原始图像信息的情况下将鲁棒特征送入后续的循环神经网络(Recurrent Neural Network,RNN),最后将连续时间序列分类(Connectionist Temporal ClassificationLoss,CTC Loss)损失与均方误差损失(Mean Squared Error Loss)结合形成联合损失对模型进行联合训练,实现无需去噪等常规预处理的中文文本识别。模型在电磁泄漏还原实景数据和公开数据集RCTW17、CASIA-10k上进行了测试,相比于常见的主流识别模型,FENN在电磁泄漏还原图像中的中文识别率最高提升5.4%,体现出明显优势。  相似文献   

4.
自然场景文本识别是计算机视觉领域的研究热点之一,在无人驾驶、图像检索、机器人导航等领域具有广泛的应用前景.由于自然场景中的文本图像存在背景复杂、透视失真、过度弯曲等现象,给文本识别带来了巨大的挑战.针对上述问题,本文提出了一种基于多路并行的位置关联网络(Multi-Path Parallel Location Association Network, MPLAN)的自然场景文本识别方法.首先,针对不规则文本图像,MPLAN使用文本矫正网络自适应学习图像变换,从而获得线性排列的文本图像.其次,为了捕获字符间的位置信息,MPLAN提出了位置关联模块,利用序列特征的有序性,通过捕获字符位置信息,以提高序列特征与目标字符的对齐准确度.此外,为了增强字符间的语义相关性,MPLAN提出了基于多路传输思想的并行注意力模块,获取全局语义信息,实现序列特征的上下文通信,从而锁定有效字符的位置.在包括规则文本、不规则文本在内的六个数据集上的实验结果表明,MPLAN能够有效利用位置信息与全局语义信息解码字符序列,特别是在识别不规则文本上取得了领先的性能.  相似文献   

5.
一类图像的特征及其分布在很大程度上表达了该类的主要信息.根据这一思想,结合图像中的像素信息及形状信息提出一种类图像识别方法.对于一类给定的样本图像,首先提取每一幅图像的显著特征,根据特征分布提取特征区域;然后对所有的特征区域进行聚类得到特征词典,基于特征词及形状信息建模,同时采用最大似然估计的方法进行学习得到模型参数;最后结合特征词模型及形状模型对测试图像进行识别.实验结果表明,该方法能够有效地对2类图像进行分类和识别,同时对多数类图像也能进行较为准确的分类和识别.  相似文献   

6.
目的 图像修复是根据图像中已知内容来自动恢复丢失内容的过程。目前基于深度学习的图像修复模型在自然图像和人脸图像修复上取得了一定效果,但是鲜有对文本图像修复的研究,其中保证结构连贯和纹理一致的方法也没有关注文字本身的修复。针对这一问题,提出了一种结构先验指导的文本图像修复模型。方法 首先以Transformer为基础,构建一个结构先验重建网络,捕捉全局依赖关系重建文本骨架和边缘结构先验图像,然后提出一种新的静态到动态残差模块(static-to-dynamic residual block,StDRB),将静态特征转换到动态文本图像序列特征,并将其融合到编码器—解码器结构的修复网络中,在结构先验指导和梯度先验损失等联合损失的监督下,使修复后的文本笔划连贯,内容真实自然,达到有利于下游文本检测和识别任务的目的。结果 实验在藏文和英文两种语言的合成数据集上,与4种图像修复模型进行了比较。结果表明,本文模型在主观视觉感受上达到了较好的效果,在藏文和英文数据集上的峰值信噪比和结构相似度分别达到了42.31 dB,98.10%和39.23 dB,98.55%,使用Tesseract OCR (optical character recognition)识别修复后藏文图像中的文字的准确率达到了62.83%,使用Tesseract OCR、CRNN (convolutional recurrent neural network)以及ASTER (attentional scene text recognizer)识别修复后英文图像中的文字的准确率分别达到了85.13%,86.04%和76.71%,均优于对比模型。结论 本文提出的文本图像修复模型借鉴了图像修复方法的思想,利用文本图像中文字本身的特性,取得了更加准确的文本图像修复结果。  相似文献   

7.
为了更精确地描述文本图像的纹理特征进行文种识别,提出了一种利用可控金字塔对图像进行分解并提取子带系数的特征量进行文种识别的方法.通过在两个不同质量图像库上进行的对比实验,证实了基于子带能量均值和标准差的方法具有更高的识别准确率,而基于广义高斯模型的方法对文本行倾斜更具有鲁棒性.  相似文献   

8.
针对目前用于文本图像文种识别的纹理特征描述子对文字行倾斜缺乏不变性,采用可控金字塔变换提取文本图像的纹理特征,通过对特征空间元素重新排列,提出一种对文字行倾斜具有鲁棒性的文本图像文种识别方法。不同倾斜角度文本图像的文种识别结果表明,该算法具有较高的识别准确率并对文字行倾斜具有较强的鲁棒性。  相似文献   

9.
近年来,以生成对抗网络(generative adversarial network, GAN)为基础的文本生成图像方法成为跨媒体融合研究的一大热门领域.文本生成图像方法旨在通过提取更具表征力的文本及图像特征,提升文本描述与生成图像之间的语义一致性.现有方法大多针对在图像全局特征与初始文本语义特征之间进行建模,忽略了初始文本特征的局限性,且没有充分利用具有语义一致性的生成图像对文本特征的指导作用,因而降低了文本生成图像中文本信息的表征性.其次,由于没有考虑到生成目标区域间的动态交互,生成网络只能粗略地划分目标区域,且忽略了图像局部区域与文本语义标签的潜在对应关系.为解决上述问题,提出了一种基于图像-文本语义一致性的文本生成图像方法 ITSC-GAN.该模型首先设计了一个文本信息增强模块(text information enhancement module, TEM),利用生成图像对文本信息进行增强,从而提高文本特征的表征能力.另外,该模型提出了一个图像区域注意力模块(image regional attention module, IRAM),通过挖掘图像子区域之间的关系,增强图像特...  相似文献   

10.
文本检测是文本识别的前提和基础。复杂自然场景下,受透视、遮挡、变形等因素影响,图像质量难以保证,同时图像中的文字形式丰富多样,多呈不规则形状,加上复杂背景的干扰,致使文本检测难度大、精确度低。针对文本形状不规则的场景,提出了一种文本边轨模型(TextRail),该模型基于文本上、下边界基准点表示文本区域的思想,实现对任意形状文本的高效检测。TextRail使用全卷积网络(full convolutional network,FCN)及特征金字塔网络(feature pyramid network,FPN)提取文本图像特征;将特征送入检测头网络,实现文本区域上下边界基准点的预测,将预测结果通过位置感知非极大抑制(locality-aware non-maximum suppression,LNMS)合并,得到最终的上下边界基准点;采用薄板样条插值(thin plate spline,TPS)的方法实现对不规则文本的自动矫正。通过大量的实验验证,TextRail在F1分值上优于其他文本检测模型。同时TextRail模型可以准确表示出文字的朝向、弯曲和变形情况,有效提升了不规则文本检测的准确...  相似文献   

11.
张欢欢  洪敏  袁玉波 《计算机应用》2018,38(11):3193-3198
针对输入人脸特征的不准确性导致识别系统识别率不高的问题,提出了一种有效的基于极端学习机(ELM)的人脸特征深度稀疏自编码(DSAE)方法。首先,利用截断式核范数构造损失函数,通过最小化损失函数提取人脸图像的稀疏特征;其次,利用极端学习机自编码器(ELM-AE)模型进行人脸特征的自编码,实现数据维度的降低以及噪声过滤;最后,通过经验风险极小化得到最优的深度结构。在ORL、IMM、Yale和UMIST人脸数据集上的实验结果表明,DSAE方法对高维人脸图像的识别率明显优于极端学习机、随机森林(RF)等算法,且具有良好的泛化性能。  相似文献   

12.
针对单一模态情感识别精度低的问题,提出了基于Bi-LSTM-CNN的语音文本双模态情感识别模型算法。该算法采用带有词嵌入的双向长短时记忆网络(bi-directional long short-term memory network,Bi-LSTM)和卷积神经网络(convolutional neural network,CNN)构成Bi-LSTM-CNN模型,实现文本特征的提取,将其与声学特征融合结果作为联合CNN模型的输入,进行语音情感计算。基于IEMOCAP多模态情感检测数据集的测试结果表明,情感识别准确率达到了69.51%,比单一模态模型提高了至少6个百分点。  相似文献   

13.
电力企业为实现数字资产管理, 提高行业运行效率, 促进电力信息化的融合, 需要实施有效的数据组织管理方法. 针对电力行业中的数据, 提出了基于字级别特征的高效文本类型识别模型. 在该模型中, 将字符通过BERT预训练模型生成电力客服文本动态的高效字向量, 字向量序列输入利用融合注意力机制的双向长短期记忆网络(BiLSTM), 通过注意力机制有效捕捉文本中帮助实现类型识别的潜在特征, 最终利用Softmax层实现对电力文本的类型识别任务. 本文提出的模型在电力客服文本数据集上达到了98.81%的准确率, 优于CNN, BiLSTM等传统神经网络识别方法, 增强了BERT模型的应用, 并有效解决了电力文本类型识别任务中语义的长距离依赖问题.  相似文献   

14.
张显杰  张之明 《计算机应用》2022,42(8):2394-2400
手写体文本识别技术可以将手写文档转录成可编辑的数字文档。但由于手写的书写风格迥异、文档结构千变万化和字符分割识别精度不高等问题,基于神经网络的手写体英文文本识别仍面临着许多挑战。针对上述问题,提出基于卷积神经网络(CNN)和Transformer的手写体英文文本识别模型。首先利用CNN从输入图像中提取特征,而后将特征输入到Transformer编码器中得到特征序列每一帧的预测,最后经过链接时序分类(CTC)解码器获得最终的预测结果。在公开的IAM(Institut für Angewandte Mathematik)手写体英文单词数据集上进行了大量的实验结果表明,该模型获得了3.60%的字符错误率(CER)和12.70%的单词错误率(WER),验证了所提模型的可行性。  相似文献   

15.
方面级多模态情感分类任务的一个关键是从文本和视觉两种不同模态中准确地提取和融合互补信息, 以检测文本中提及的方面词的情感倾向. 现有的方法大多数只利用单一的上下文信息结合图片信息来分析, 存在对方面和上下文信息、视觉信息的相关性的识别不敏感, 对视觉中的方面相关信息的局部提取不够精准等问题, 此外, 在进行特征融合时, 部分模态信息不全会导致融合效果一般. 针对上述问题, 本文提出一种注意力融合网络AF-Net模型去进行方面级多模态情感分类, 利用空间变换网络STN学习图像中目标的位置信息来帮助提取重要的局部特征; 利用基于Transformer的交互网络对方面和文本以及图像之间的关系进行建模, 实现多模态交互; 同时补充了不同模态特征间的相似信息以及使用多头注意力机制融合多特征信息, 表征出多模态信息, 最后通过Softmax层取得情感分类的结果. 在两个基准数据集上进行实验和对比, 结果表明AF-Net能获得较好的性能, 提升方面级多模态情感分类的效果.  相似文献   

16.
结合改进主动学习的SVD-CNN弹幕文本分类算法   总被引:1,自引:0,他引:1  
为解决传统卷积神经网络(CNN)模型使用池化层进行文本特征降维会损失较多文本语义信息的问题,提出一种基于奇异值分解(SVD)算法的卷积神经网络模型(SVD-CNN)。首先,采用改进的基于密度中心点采样的主动学习算法(DBC-AL)选择对分类模型贡献率较高的样本进行标注,以低标注代价获得高质量模型训练集;然后,结合SVD算法建立SVD-CNN弹幕文本分类模型,使用奇异值分解的方法代替传统CNN模型池化层进行特征提取和降维,并在此基础上完成弹幕文本分类任务;最后,使用改进的梯度下降算法(PSGD)对模型参数进行优化。为了验证改进算法的有效性,使用多种弹幕数据样本集,对提出的模型与常用的文本分类模型进行对比实验。实验结果表明,改进的算法能够更好地保留文本语义特征,保证训练过程的稳定性并提高了模型的收敛速度,在不同的弹幕文本上较传统算法具有更好的分类性能。  相似文献   

17.
一种stroke滤波器文字分割算法   总被引:1,自引:0,他引:1  
为解决复杂背景中准确地进行文字分割的问题,提出了一种应用stroke滤波器进行文本分割的新方法。首先进行stroke滤波器的合理设计,并应用所设计的stroke滤波器来判别文本的彩色极性,得到初次分割的二值图。然后进行基于区域生长的文字分割。最后,应用OCR(optical character recognition)模块提高文本分割的整体性能。将提出的算法与其他算法进行了比较,结果表明,所提算法更为有效。  相似文献   

18.
尹春勇  何苗 《计算机应用》2005,40(9):2525-2530
针对卷积神经网络(CNN)中的池化操作会丢失部分特征信息和胶囊网络(CapsNet)分类精度不高的问题,提出了一种改进的CapsNet模型。首先,使用两层卷积层对特征信息进行局部特征提取;然后,使用CapsNet对文本的整体特征进行提取;最后,使用softmax分类器进行分类。在文本分类中,所提模型比CNN和CapsNet在分类精度上分别提高了3.42个百分点和2.14个百分点。实验结果表明,改进CapsNet模型更适用于文本分类。  相似文献   

19.
命名实体识别指识别文本中具有特定意义的实体,是自然语言处理诸多下游任务的重要基石。在命名实体识别任务中,协同图网络(CGN)模型通过引入多个图注意力网络获得较强的知识整合能力及较高的处理速度,但CGN模型在嵌入层中没有充分利用词边界信息,且采用的传统静态图注意力网络影响了图注意力的表达能力。在对CGN模型的图注意力网络进行改进的基础上,提出一种中文命名实体识别新模型,在嵌入层融入词语的分词信息,以生成包含词边界信息的字向量,从而充分利用词边界信息。通过在编码层使用BiLSTM模型获取文本的上下文信息,采用改进后的图注意力网络提取文本特征,并通过优化传统图注意力网络中相关系数的计算方式,增强模型的特征提取能力。最后,利用条件随机场对文本进行解码,从而实现对实体的标注。实验结果表明,该模型相比CGN模型在MSRA、OntoNotes4.0、Weibo数据集上的F1值分别提升了0.67%、3.16%、0.16%,验证了其在中文命名实体识别任务上的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号