首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对视觉问答任务中问题特征与图像特征缺乏交互推理关系的问题,提出了图像与问题双引导注意力机制视觉问答算法.模型结构主要由问题特征注意力模块、图像特征注意力模块、问题与图像双引导注意力模块、特征融合模块4部分构成.该算法先针对问题特征和图像特征分别使用自我注意力机制实现特征的自我加强,然后引入图像与问题双引导注意力机制,...  相似文献   

2.
与问题相关的视觉对象提取准确度不够,以及视觉对象之间的关系推理能力不足,是现有视觉问答模型视觉推理能力不足的主要原因。针对这两个方面的问题,本文提出一种基于门控机制的联合关系推理视觉问答模型(VARG)。该模型利用视觉注意力机制关注多个与问题相关的区域,通过筛选机制提取与问题最相关的前N个区域,并在此基础上建立视觉关系特征进行视觉关系推理,引入门控选择机制,动态的控制视觉特征和视觉关系特征对于答案的贡献,以此提升模型视觉推理能力。经在VQA V2数据集上进行实验,证明了模型的有效性。  相似文献   

3.
随着深度学习的兴起和不断发展,视觉问答领域的研究取得了显著进展,当前较多视觉问答模型通过引入注意力机制和相关迭代操作来提取图像区域与高频疑问词对的相关性,但在获取图像与问题的空间语义关联方面的有效性较低,从而影响答案的准确性.为此,提出一种基于MobileNetV3网络及注意力特征融合的视觉问答模型,首先,为优化图像特...  相似文献   

4.
为了提高由图像生成文字描述的准确率,文中提出了一种基于传统的编码解码框架,分别在编码端和解码端融入视觉注意力机制的方法,即在编码端加入空间注意力机制和图像通道级注意力机制相结合的方法。在解码端运用自适应视觉注意力机制的方法,即在传统的解码端上加入一个额外的“视觉哨兵”模块。文中提出的方法在生成文字描述的过程中自动决定是依赖图像特征还是依赖语义特征,并传递给相应的注意力机制。实验证明,相比较单一的视觉注意力机制,文中方法取得了较高的图像描述语句的正确率,具有更好的图像描述性能。  相似文献   

5.
葛朋  杨波  韩庆林  刘鹏  陈树刚  胡窦明  张巧燕 《红外技术》2018,40(12):1161-1169
为了解决高动态红外图像在常规显示设备上显示时容易出现图像整体对比度低、弱小目标细节模糊等问题,提出了一种基于引导滤波图像分层的红外图像细节增强算法,并从算法理论分析和仿真结果两方面验证了引导滤波具有更好的边缘保持能力,能有效避免增强后出现\  相似文献   

6.
图像描述任务是使计算机自动生成给定图像的自然语言描述文本,它涉及计算机视觉与自然语言处理两个领域,可应用于检索系统、盲人导航和医学报告生成等领域.针对现有的图像描述模型对视觉语义关系挖掘不充分,及多层注意力机制建模特征存在注意偏差的问题,提出一种融入视觉常识和注意力的图像描述模型.在编解码器结构框架下,编码部分引入了视...  相似文献   

7.
文渊博  高涛  陈婷  张千禧 《电子学报》2023,(10):2812-2820
现有基于自注意力网络Transformer的单图像去雨算法尽管在合成雨图上在取得良好效果,但却造成巨大的计算负担,且无法有效处理真实雨图.对此,本文提出一种频率引导的双稀疏自注意力单图像去雨算法(Frequency-guided Dual Sparse self-Attention TransFormer,FDSATFormer).首先,该算法利用空间稀疏因子和通道降维因子在提取准确全局信息的同时减少计算量,进而提出双稀疏自注意力特征学习网络(Dual Sparse self-attention Feature Leraning, DSFL)以解决Transformer在高分辨率雨图上难以表征自注意力的问题.其次,该算法通过探究图像去雨前后的频谱变化,提出频率引导的特征增强模块(Frequency-guided Feature Enhancer,FFE),其利用频域的全局信息指导特征编码阶段对空域特征的学习.此外,现有去雨网络的编解码结构采用相近的设计,这导致网络的整体计算负担倍增.对此,本文提出层级特征解码重建网络(Hierarchical Feature Decoding and ...  相似文献   

8.
传统方法在视觉策略网络中只关注实体,不能够推理出实体和属性之间的联系,在语言策略网络存在暴露偏差和误差累计问题.为此,提出了一个基于强化学习的多层级视觉融合网络模型.在视觉策略网络中通过多层级神经网络模块将视觉特征转化为视觉知识的特征集.融合网络生成使描述语句更加流畅的虚词,用于视觉策略网络和语言策略网络的互动.在语言...  相似文献   

9.
针对目前遥感图像融合算法的不足,提出了一种基于引导滤波的遥感图像融合算法。该算法通过引导滤波器求取加权系数,对小波变换后的小波系数和近似系数进行加权融合,针对融合后得到的小波系数和近似系数应用小波反变换,最终得到融合图像。实验结果表明,文中提出的融合算法所得图像内容丰富、细节清晰、具有良好的实验效果。  相似文献   

10.
张骏  朱标  沈玉真  张鹏 《红外与激光工程》2022,51(11):20220060-1-20220060-11
目前红外图像广泛应用于各个领域,但受限于探测单元的非均匀性,使得红外图像具有低信噪比、视觉效果模糊的缺点,严重影响其在高端领域中的应用。常用的去噪算法无法兼顾降噪平滑和边缘细节的保持,针对这一问题,文中提出了一种基于引导滤波的多分支注意力残差去噪网络。根据引导滤波原理设计一种引导卷积模块,同时为了兼顾提取浅层和深层特征设计了多分支注意力残差模组。通过实验证明加入新模块后的网络不仅可以有效地实现红外图像降噪,而且能最大程度地保持图像中的边缘细节信息,提升视觉效果,同时在PSRN和SSIM指标上也有良好的表现。  相似文献   

11.
目前传统多尺度分析红外图像融合算法存在以下不足:融合图像的对比度改善效果有限,无法获取图像的某些细节信息;融合规则仅考虑单一特征,故未能突出目标特征.针对以上问题,本文提出一种基于视觉显著性与对比度增强的红外图像融合算法.首先对待融合的图像进行基于自适应引导滤波的多尺度Retinex图像增强,然后利用NSCT对图像进行多尺度分解,最后利用图像视觉显著性融合低频系数,采用基于窗口的系数融合带通系数.实验证明,该算法获得的红外融合图像效果明显优于传统方法.  相似文献   

12.
针对当前全景图像显著性检测方法存在检测精度偏低、模型收敛速度慢和计算量大等问题,该文提出一种基于鲁棒视觉变换和多注意力的U型网络(URMNet)模型。该模型使用球形卷积提取全景图像的多尺度特征,减轻了全景图像经等矩形投影后的失真。使用鲁棒视觉变换模块提取4种尺度特征图所包含的显著信息,采用卷积嵌入的方式降低特征图的分辨率,增强模型的鲁棒性。使用多注意力模块,根据空间注意力与通道注意力间的关系,有选择地融合多维度注意力。最后逐步融合多层特征,形成全景图像显著图。纬度加权损失函数使该文模型具有更快的收敛速度。在两个公开数据集上的实验表明,该文所提模型因使用了鲁棒视觉变换模块和多注意力模块,其性能优于其他6种先进方法,能进一步提高全景图像显著性检测精度。  相似文献   

13.
14.
近年来,随着空间感知技术的不断发展,对多源遥感图像的融合处理需求也逐渐增多,如何有效地提取多源图像中的互补信息以完成特定任务成为当前的研究热点。针对多源遥感图像融合语义分割任务中,多源图像的信息冗余和全局特征提取难题,本文提出一种将多光谱图像(Multispectral image, MS)、全色图像(Panchromatic image, PAN)和合成孔径雷达 (Synthetic Aperture Radar, SAR)图像融合的基于Transformer的多源遥感图像语义分割模型Transformer U-Net (TU-Net)。该模型使用通道交换网络(Channel-Exchanging-Network, CEN)对融合支路中的多源遥感特征图进行通道交换,以获得更好的信息互补性,减少数据冗余。同时在特征图拼接后通过带注意力机制的Transformer模块对融合特征图进行全局上下文建模,提取多源遥感图像的全局特征,并以端到端的方式分割多源图像。在MSAW数据集上的训练和验证结果表明,相比目前的多源融合语义分割算法,在F1值和Dice系数上分别提高了3.31%~11.47%和4.87%~8.55%,对建筑物的分割效果提升明显。   相似文献   

15.
崔畅  赵强 《激光杂志》2014,(12):45-49
为了改善环境变化较大时机器人在对图像特征提取效果欠佳的问题,对局部二值模式(LBP)进行了改进,根据图像中心像素点邻域之间的相互关系划分网格进行编码,提出了SIFT-MLBP相结合的图像特征提取算法。使用SIFT算法得到图像特征的关键点后,以区域中每个像素点为中心构建网格化结构,计算之间的相邻象素的局部差异,并对对比度不同的像素编码分配权重。结合Gabor变换对基于模式的特征向量进行提取,建立SIFT-GMLBP特征向量,采用原补码互相映射的方式降低特征向量维数。实验证明,SIFT-GMLBP算法具有良好的特征匹配效果,匹配正确率达到95%以上,运行时间降低0.05S。该方法对外部环境的变化具有较强的鲁棒性,能够提高移动机器人在复杂环境中对图像识别的速度和精度。  相似文献   

16.
图像描述的任务是根据输入图像自动生成描述该图像的语句,属于计算机视觉与自然语言处理的交叉领域.针对传统注意力机制提取特征能力不足、模型复杂且训练困难等问题,本文提出了一种改进注意力机制的图像描述模型.在传统注意力机制的基础上引入高效通道注意模块,在提升特征提取效果的同时降低模型复杂度,在保证性能的同时提高模型效率,更好...  相似文献   

17.
人脸作为人体信息最为密集的部位,人脸图像在各个研究领域都有不可替代的作用。因此,研究如何将遮挡或模糊的人脸图像恢复成真实图像是非常有意义的。针对人脸图像修复技术的研究,提出基于扩散模型的人脸图像修复技术。在现有的人脸图像修复技术基础上,解决在修复大区域破损或遮挡的情况下,修复图像出现纹理模糊及结构扭曲等问题。所提出的方法基于边缘引导的扩散模型图像修复网络,主要包括两个阶段:首先训练基于U-Net结构的边缘修复模型生成较为真实的缺失区域的边缘信息,然后根据已修复好的边缘信息,训练内容生成模型填充缺失部分的内容信息。实验证明对于人脸图像修复具有较好的效果。  相似文献   

18.
目前在图像检索领域,由于视觉字典其性能突出,已成为图像检索领域构建视觉词典的主流方法。但传统的视觉字典方法存在运行时间效率低、内存消耗大等缺点。因此本文采用ROOTSift算法提取图像的特征点并利用高效的K-means聚类算法建立支持动态扩充的随机视觉字典。该方法基于视觉字典构建视觉词汇直方图和倒排序索引文件,并对视觉词重新分配权重以提高检索命中率。最后利用欧氏距离法查询完成相似性匹配。试验结果表明该方法能提高图像检索的准确率,对大规模的图像检索能够达到很好的检索质量。  相似文献   

19.
针对大规模知识库问答的特点,构建了1个包含3个主要步骤的问答系统:问句中的命名实体识别、问句与属性的映射和答案选择.使用基于别名词典的排序方法进行命名实体识别,使用结合注意力机制的双向LSTM进行属性映射,最后综合前2步的结果从知识库中选择答案.该系统在NLPCC-ICCPOL 2016 KBQA任务提供的测试数据集上的平均F1值为0.8097,接近已发表的最好水平.  相似文献   

20.
针对目前去雾算法易受大气环境随机性和复杂性影响而造成自适应性不强的问题,该文提出一种具有反馈机制的自适应闭环去雾算法。该算法首先通过基于人眼视觉的特征认知评价进行参数初始化;然后利用去雾强度评价结果对反馈校正局部对比度参数进行调节,从而对去除加性光照后的图像进行自适应局部对比度提升;最后借鉴去雾后图像的自然度设定迭代终止条件,决定是否输出去雾结果。实验表明该算法能够自适应提升不同退化类型、不同退化程度下的雾天图像对比度,且去雾结果的信息熵和清晰度质量评价指标优于已有算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号