首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 62 毫秒
1.
针对现有的注意力机制存在缺乏对视觉对象间关系的理解能力及准确度较差的问题,在注意力机制的基础上增加关系推理模块与自适应门控机制. 该方法利用注意力机制关注多个与问题相关的视觉区域,利用关系推理模块中的二元关系推理与多元关系推理加强视觉区域间的联系. 将分别得到的视觉注意力特征与视觉关系特征输入到自适应门控中,动态控制2种特征对预测答案的贡献. 在VQA1.0及VQA2.0数据集上的实验结果表明:该模型与DCN、MFB、MFH及MCB等先进模型相比,在总体精度上均有约2%的提升;利用基于关系推理与门控机制的模型能够更好地理解图像内容,有效地提升视觉问答的准确率.  相似文献   

2.
针对现有的图像理解描述方法存在描述句子不丰富、不准确、模型结构复杂、难以训练等问题,该文提出了一种端到端的基于多模态注意力机制(M-AT)的图像理解描述新方法。该方法首先通过关键词图像特征提取模型(K-IFE)提取更优的空间特征和关键词特征,并利用关键词注意力机制模型(K-AT)关注重要描述词语、空间注意机制模型(S-AT)关注图像更重要的区域并简化模型结构,且K-AT和S-AT两种注意力机制可以相互矫正,最终生成更加准确、丰富的图像描述语句。在MSCOCO数据集的实验结果表明该方法是有效的,部分评价指标有2%左右的提升。  相似文献   

3.
为了捕捉问答场景下更深层次的关系语义与增强网络的可解释性,文中提出一种显式融合场景语义与空间关系的视觉问答模型,利用视觉对象间关系及其属性来生成关系图表示。根据图像中检测到的视觉对象关系和空间位置信息来构建图网络;分别通过自适应问题的图注意力机制编码预定义的场景语义关系和空间对象关系,以学习先验知识下的多模特征表示;将两种关系模型进行线性融合来推理问题答案。研究结果表明:在数据集VQA 2.0上进行实验,与视觉问答算法模型BUTD,DA-NTN,ODA-GCN,Scence GCN,VCTREE-HL和MuRel对比,分别提升测试子集test-dev的准确率4.12%,1.88%,2.77%,2.63%,1.25%和1.41%。该模型能在问题引导下对视觉语义关系进行推理,有效提升视觉问答的准确率。  相似文献   

4.
为了实现在光线不佳、夜间施工、远距离密集小目标等复杂施工场景下的图像描述,提出基于注意力机制和编码-解码架构的施工场景图像描述方法. 采用卷积神经网络构建编码器,提取施工图像中丰富的视觉特征;利用长短时记忆网络搭建解码器,捕捉句子内部单词之间的语义特征,学习图像特征与单词语义特征之间的映射关系;引入注意力机制,关注显著性强的特征,抑制非显著性特征,减少噪声信息的干扰. 为了验证所提方法的有效性,构建一个包含10种常见施工场景的图像描述数据集. 实验结果表明,所提方法取得了较高的精度,在光线不佳、夜间施工、远距离密集小目标等复杂施工场景下具有良好的图像描述性能,且具有较强的泛化性和适应性.  相似文献   

5.
为了探究图像底层视觉特征与高层语义概念存在的差异,提出可以确定图像关注重点、挖掘更高层语义信息以及完善描述句子的细节信息的图像语义描述算法. 在图像视觉特征提取时提取输入图像的全局-局部特征作为视觉信息输入,确定不同时刻对图像的关注点,对图像细节的描述更加完善;在解码时加入注意力机制对图像特征加权输入,可以自适应选择当前时刻输出的文本单词对视觉信息与语义信息的依赖权重,有效地提高对图像语义描述的性能. 实验结果表明,该方法相对于其他语义描述算法效果更有竞争力,可以更准确、更细致地识别图片中的物体,对输入图像进行更全面地描述;对于微小的物体的识别准确率更高.  相似文献   

6.
基于内容的图像检索技术克服了文本检索方式主观片面的缺陷,客观地描述了图像的本质特征,然而却丢掉了文本方式下对图像的语义描述,导致检索准确率降低.借鉴数据挖掘技术中的图像分类方法,提出了结合视觉特征与图像语义描述以提高检索系统性能的思想,主要进行了图像显著特征选择、图像分类算法特征约简以及检索系统优化设计3方面工作,以提高检索系统的人机界面和交互性能.  相似文献   

7.
为了在多模态图像检索任务中建立文本特征与图像特征的相关性,提出基于语义增强特征融合的多模态图像检索模型(SEFM).该模型通过文本语义增强模块、图像语义增强模块2部分在特征融合时对组合特征进行语义增强.在文本语义增强模块建立多模态双重注意力机制,利用双重注意力建立文本与图像之间的关联以增强文本语义;在图像语义增强模块引入保留强度和更新强度,控制组合特征中查询图像特征的保留和更新程度.基于以上2个模块可以优化组合特征使其更接近目标图像特征.在MIT-States和Fashion IQ这2个数据集上对该模型进行评估,实验结果表明在多模态图像检索任务上该模型与现有方法相比在召回率和准确率上都有所提升.  相似文献   

8.
针对现有答案选择方法语义特征提取不充分和准确性差的问题,引入自注意力和门控机制,提出了一种答案选择模型.该模型首先在问题和答案文本内部利用层叠自注意力进行向量表示,并在自注意力模块中让单词和位置分开进行多头注意力;然后将答案句通过卷积神经网络(Convolutional neural network,CNN)得到的向量...  相似文献   

9.
基于软注意力机制的图像描述算法,提出类激活映射-注意力机制的图像描述方法。利用类激活映射算法得到卷积特征包含定位以及更丰富的语义信息,使得卷积特征与图像描述具有更好的对应关系,解决卷积特征与图像描述的对齐问题,生成的自然语言描述能够尽可能完整的描述图像内容。选择双层长短时记忆网络改进注意力机制结构,使得新的注意力机制适合当前全局和局部信息的特征表示,能够选取合适的特征表示生成图像描述。试验结果表明,改进模型在诸多评价指标上优于软注意力机制等模型,其中在MSCOCO数据集上Bleu-4的评价指标相较于软注意力模型提高了16.8%。类激活映射机制可以解决图像空间信息与描述语义对齐的问题,使得生成的自然语言减少丢失关键信息,提高图像描述的准确性。  相似文献   

10.
针对现有基于注意机制的图像描述方法全局信息缺失问题,提出了一种改进的全局注意机制图像描述方法。该方法在注意机制的基础上,通过设计全局特征网络来模拟人类感知机制的全过程,对图像全局特征进行增强。将所提方法在相同数据集和网络超参数的情况下与目前最优网络进行实验对比,分析了全局信息对生成文本的影响。实验结果显示,文中提出的方法在更具挑战性的中文文本描述任务上客观评价指标优于目前最优的模型。同时,在主观评价中能够生成更准确的文本内容,也更具丰富性与多样性,接近自然语言描述。  相似文献   

11.
由于情感语料问题、情感与声学特征之间关联问题、语音情感识别建模问题等因素,语音情感识别一直充满挑战性.针对传统基于上下文的语音情感识别系统仅局限于特征层造成标签层上下文细节丢失以及两层级差异性被忽略的缺陷,本文提出嵌入注意力机制并结合层级上下文学习的双向长短时记忆(BLSTM)网络模型.模型分3个阶段完成语音情感识别任务,第1阶段提取情感语音特征全集后采用SVM-RFE特征排序算法降维得到最优特征子集,并对其进行注意力加权;第2阶段将加权后的特征子集输入BLSTM网络学习特征层上下文获得最初情感预测结果;第3阶段利用情感标签值对另一独立BLSTM网络训练学习标签层上下文信息并据此在第2阶段输出结果基础上完成最终预测.模型嵌入注意力机制使其自动学习调整对输入特征子集的关注度,引入标签层上下文使其联合特征层上下文实现层级上下文信息融合提高鲁棒性,提升了模型对情感语音的建模能力,在SEMAINE和RECOLA数据集上实验结果表明:与基线模型相比RMSE和CCC均得到较好改善.  相似文献   

12.
为消除图形化虚拟仪器软件开发过程中非编码式的设计和控制环节,研究了一种虚拟仪器程序自动生成的机制。该机制以行业类软件中功能的模块化为基础,建立了功能集中的模块集和模块之间的关系。以模块之间的数据流动来消除控制环节并以模块之间的关系匹配决策来消除设计环节,从而实现了行业类软件在基于需求基础上的自动化生成过程。最后通过软件开发平台验证了程序自动生成机制的可行性。  相似文献   

13.
基于模糊逻辑的模糊神经网络推理机结构及其实现   总被引:2,自引:0,他引:2  
讨论了基于模糊逻辑与神经网络的模糊神经网络推理机的结构;给出了将模糊产生式规则转换为相应模糊神经网络的方法;深入探讨了采用欧氏距离作为误差函数的改进BP算法;给出了在数据融合中使用该模糊神经网络推理机进行目标平台识别的例子.  相似文献   

14.
为了有效地提取图像中物体的轮廓,结合视觉注意机制,提出一种改进的距离正则化水平集活动轮廓模型的分析方法。首先提取图像的初级特征,构成图像显著图;然后采用最大类间方差法获得显著区域的初始轮廓,以此作为活动轮廓模型中曲线演化的初始位置;最后利用距离正则化水平集演化,获得目标物体的边界,完成图像分割。这种结合视觉注意机制与改进的距离正则化水平集演化方法能够显著降低水平函数演化次数,提高图像分割效率。仿真结果表明,它能有效检测单个及多目标物体的边界,且定位准确。  相似文献   

15.
雨纹分布和形状具有多样性,现有去雨算法在去雨的同时会产生图像背景模糊、泛化性能差等问题.因此,本文提出一种基于注意力机制的多尺度特征融合图像去雨方法.特征提取阶段由多个包含两个多尺度注意力残差块的残差组构成,多尺度注意力残差块利用多尺度特征提取模块提取及聚合不同尺度的特征信息,并通过坐标注意力进一步提高网络的特征提取能力.在组内进行局部特征融合,组间利用全局特征融合注意力模块更好地融合不同层次的特征,通过像素注意力使网络重点关注于雨纹区域.在仿真和真实雨像数据集上与其他现有图像去雨算法相比,本文方法的定量指标有着明显提高,去雨后的图像视觉效果较好且具有良好的泛化性.  相似文献   

16.
基于局部特征和视皮层识别机制的图像分类   总被引:1,自引:1,他引:0  
提出了一种新的图像分类方法,采用层次结构模拟视皮层各区细胞功能,利用Gabor滤波器提取初级图像特征,经过稀疏化处理后进行中间层模板匹配提取尺度和位置的不变性特征,最后提交给分类网络。仿真实验表明,本文采用的层次化特征提取方法在分类任务中优于经典的局部特征方法(SIFT),与其他图像分类方法相比,本文的方法在少量训练样本下,在多个数据集中可获得优良的测试效果,具有较高的实用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号