首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
图像描述模型需要提取出图像中的特征,然后通过自然语言处理(NLP)技术将特征用语句表达出来。现有的基于卷积神经网络(CNN)和循环神经网络(RNN)搭建的图像描述模型在提取图像关键信息时精度不高且训练速度缓慢。针对这个问题,提出了一种基于卷积注意力机制和长短期记忆(LSTM)网络的图像描述生成模型。采用Inception-ResNet-V2作为特征提取网络,在注意力机制中引入全卷积操作替代传统的全连接操作,减少了模型参数的数量。将图像特征与文本特征有效融合后送入LSTM单元中完成训练,最终产生描述图像内容的语义信息。模型采用MSCOCO数据集进行训练,使用多种评价指标(BLEU-1、BLEU-4、METEOR、CIDEr等)对模型进行验证。实验结果表明,提出的模型能够对图像内容进行准确描述,在多种评价指标上均优于基于传统注意力机制的方法。  相似文献   

2.
3.
图像描述生成模型是使用自然语言描述图片的内容及其属性之间关系的算法模型.对现有模型描述质量不高、图片重要部分特征提取不足和模型过于复杂的问题进行了研究,提出了一种基于卷积块注意力机制模块(CBAM)的图像描述生成模型.该模型采用编码器-解码器结构,在特征提取网络Inception-v4中加入CBAM,并作为编码器提取图...  相似文献   

4.
近年来, 注意力机制已经广泛应用于计算机视觉领域, 图像描述常用的编码器-解码器框架也不例外. 然而,当前的解码框架并未较清楚地分析图像特征与长短期记忆神经网络(LSTM)隐藏状态之间的相关性, 这也是引起累积误差的原因之一. 基于该问题, 本文提出一个类时序注意力网络(Similar Temporal Attenti...  相似文献   

5.
李康康  张静 《计算机应用》2021,41(9):2504-2509
图像描述任务是图像理解的一个重要分支,它不仅要求能够正确识别图像的内容,还要求能够生成在语法和语义上正确的句子.传统的基于编码器-解码器的模型不能充分利用图像特征并且解码方式单一.针对这些问题,提出一种基于注意力机制的多层次编码和解码的图像描述模型.首先使用Faster R-CNN(Faster Region-base...  相似文献   

6.
针对图像描述生成中对图像细节表述质量不高、图像特征利用不充分、循环神经网络层次单一等问题,提出基于多注意力、多尺度特征融合的图像描述生成算法。该算法使用经过预训练的目标检测网络来提取图像在卷积神经网络不同层上的特征,将图像特征分层输入多注意力结构中,依次将多注意力结构与多层循环神经网络相连,构造出多层次的图像描述生成网络模型。在多层循环神经网络中加入残差连接来提高网络性能,并且可以有效避免因为网络加深导致的网络退化问题。在MSCOCO测试集中,所提算法的BLEU-1和CIDEr得分分别可以达到0.804及1.167,明显优于基于单一注意力结构的自上而下图像描述生成算法;通过人工观察对比可知,所提算法生成的图像描述可以表现出更好的图像细节。  相似文献   

7.
遥感图像描述生成是同时涉及计算机视觉和自然语言处理领域的热门研究话题,其主要工作是对于给定的图像自动地生成一个对该图像的描述语句.文中提出了一种基于多尺度与注意力特征增强的遥感图像描述生成方法,该方法通过软注意力机制实现生成单词与图像特征之间的对齐关系.此外,针对遥感图像分辨率较高、目标尺度变化较大的特点,还提出了一种...  相似文献   

8.
图像描述,即利用电脑自动描述图像的语义内容一直是计算机视觉领域的一项重要研究任务.尽管使用卷积神经网络(convolutional neural networks, CNN)和长短期记忆网络(long short-term memory, LSTM)的组合框架在生成图像描述方面解决了梯度消失和梯度爆炸问题,但是基于LSTM的模型依赖序列化的生成描述,无法在训练时并行处理,且容易在生成描述时遗忘先前的信息.为解决这些问题,提出将条件生成对抗网络(conditionalgenerativeadversarial network, CGAN)引入到描述生成模型训练中,即采用CNN来生成图像描述.通过对抗训练来生成句子描述,并结合注意力机制提升描述的质量.在MSCOCO数据集上进行测试,实验结果表明,与基于CNN的其他方法相比,文中方法在语义丰富程度指标CIDEr上取得了2%的提升,在准确性指标BLEU上有1%左右的性能提升;同时,其在部分指标,尤其是语义指标上超过了基于LSTM模型的图像描述方法的性能;证明该方法生成的图像描述更接近图像的真实描述,并且语义内容更加丰富.  相似文献   

9.
空间注意力机制和高层语义注意力机制都能够提升图像描述的效果,但是通过直接划分卷积神经网络提取图像空间注意力的方式不能准确地提取图像中目标对应的特征。为了提高基于注意力的图像描述效果,提出了一种基于注意力融合的图像描述模型,使用Faster R-CNN(faster region with convolutional neural network)作为编码器在提取图像特征的同时可以检测出目标的准确位置和名称属性特征,再将这些特征分别作为高层语义注意力和空间注意力来指导单词序列的生成。在COCO数据集上的实验结果表明,基于注意力融合的图像描述模型的性能优于基于空间注意力的图像描述模型和多数主流的图像描述模型。在使用交叉熵训练方法的基础上,使用强化学习方法直接优化图像描述评价指标对模型进行训练,提升了基于注意力融合的图像描述模型的准确率。  相似文献   

10.
图像描述生成结合了计算机视觉和自然语言处理2个研究领域,不仅要求完备的图像语义理解,还要求复杂的自然语言表达,是进一步研究符合人类感知的视觉智能的关键任务.对图像描述生成的研究进展做了回顾.首先,归纳分析了当前基于深度学习的图像描述生成方法涉及的5个关键技术,包括整体架构、学习策略、特征映射、语言模型和注意机制.然后,...  相似文献   

11.
赵小虎  李晓 《计算机应用》2021,41(6):1640-1646
针对图像语义描述方法中存在的图像特征信息提取不完全以及循环神经网络(RNN)产生的梯度消失问题,提出了一种基于多特征提取的图像语义描述算法.所构建模型由三个部分组成:卷积神经网络(CNN)用于图像特征提取,属性提取模型(ATT)用于图像属性提取,而双向长短时记忆(Bi-LSTM)网络用于单词预测.该模型通过提取图像属性...  相似文献   

12.
结合注意力机制的编解码框架模型已经被广泛地应用在图像描述任务中。大多数方法都强制对生成的每个单词进行主动的视觉注意,然而,解码器很可能不需要关注图像中的任何视觉信息就生成非视觉单词,比如“the”和“of”。本文提出一种自适应注意力模型,编码端采用Faster R-CNN网络提取图像中的显著特征,解码端LSTM网络中引入一个视觉监督信号。在每个时间步长,它可以自动地决定何时依赖于视觉信号,何时仅依赖于语言模型。最后在Flickr30K和MS-COCO数据集进行验证,实验结果表明该模型有效地提升了描述语句的质量。  相似文献   

13.
针对传统视频摘要方法往往没有考虑时序信息以及提取的视频特征过于复杂、易出现过拟合现象的问题,提出一种基于改进的双向长短期记忆(BiLSTM)网络的视频摘要生成模型.首先,通过卷积神经网络(CNN)提取视频帧的深度特征,而且为了使生成的视频摘要更具多样性,采用BiLSTM网络将深度特征识别任务转换为视频帧的时序特征标注任...  相似文献   

14.
不法分子利用洋葱路由器(Tor)匿名通信系统从事暗网犯罪活动,为社会治安带来了严峻挑战。Tor网站流量分析技术通过捕获分析Tor匿名网络流量,及时发现隐匿在互联网上的违法行为进行网络监管。基于此,提出一种基于自注意力机制和时空特征的Tor网站流量分析模型——SA-HST。首先,引入注意力机制为网络流量特征分配不同的权重以突出重要特征;然后,利用并联结构多通道的卷积神经网络(CNN)和长短期记忆(LSTM)网络提取输入数据的时空特征;最后,利用Softmax函数对数据进行分类。SA-HST在封闭世界场景下能取得97.14%的准确率,与基于累积量模型CUMUL和深度学习模型CNN相比,分别提高了8.74个百分点和7.84个百分点;在开放世界场景下,SA-HST的混淆矩阵各项评价指标均稳定在96%以上。实验结果表明,自注意力机制能在轻量级模型结构下实现特征的高效提取,SA-HST通过捕获匿名流量的重要特征和多视野时空特征用于分类,在模型分类准确率、训练效率、鲁棒性等多方面性能均有一定优势。  相似文献   

15.
目前,单幅图像超分辨率重建取得了很好的效果,然而大多数模型都是通过增加网络层数来达到好的效果,并没有去发掘各通道之间的相关性.针对上述问题,提出了一种基于通道注意力机制(CA)和深度可分离卷积(DSC)的图像超分辨率重建方法.整个模型采用多路径模式的全局和局部残差学习,首先利用浅层特征提取块来提取输入图像的特征;然后,...  相似文献   

16.
赵宏  孔东一 《计算机应用》2021,41(9):2496-2503
针对现有基于注意力机制的图像内容中文描述模型无法在关注信息不减弱和无缺失的条件下对重点内容进行注意力加强关注的问题,提出一种图像特征注意力与自适应注意力融合的图像内容中文描述模型.模型使用编解码结构,首先在编码器网络中提取图像特征,并通过图像特征注意力提取图像全部特征区域的注意力信息;然后使用解码器网络将带有注意力权重...  相似文献   

17.
针对单一长短时记忆(LSTM)网络在航迹预测上无法有效提取关键信息以及难以精准拟合数据分布等问题,提出基于注意力机制和生成对抗网络(GAN)的飞行器短期轨迹预测模型。首先,引入注意力机制对航迹赋予不同的权重,以提升航迹中重要特征的影响力;其次,基于LSTM提取航迹序列特征,并经汇聚层汇集时间步长内所有的飞行器特征;最后,利用GAN在对抗博弈下不断优化的特性来优化模型,从而提高模型的准确性。相较于社会生成对抗网络(SGAN),所提模型在处于爬升阶段的数据集上的平均位移误差(ADE)、最终位移误差(FDE)及最大位移误差(MDE)分别降低了20.0%、20.4%和18.3%。实验结果表明,所提模型能更精确地预测未来航迹。  相似文献   

18.
徐成霞  阎庆  李腾  苗开超 《计算机应用》2022,42(8):2578-2585
现有的单幅图像去雨算法难以充分发掘不同维度注意力机制的相互作用,因此提出一种基于联合注意力机制的单幅图像去雨算法。该算法包含通道注意力机制和空间注意力机制:通道注意力机制检测各通道雨线特征的分布,并差异化各个特征通道的重要程度;空间注意力机制则针对通道内雨线分布的空间关系,以局部到全局的方式积累上下文信息,从而高效准确地去雨。此外,引入深度残差收缩网络,以利用残差模块中嵌入的软阈值非线性变换子网络来通过软阈值函数将冗余信息置零,从而提升CNN在噪声中保留图像细节的能力。在公开降雨数据集与自构建的降雨数据集上进行实验,相较于单一空间注意力算法,联合注意力去雨算法的峰值信噪比(PSNR)提升4.5%,结构相似性(SSIM)提升0.3%。实验结果表明,所提算法可以有效地进行单幅图像去雨和图像细节的信息保留,在目视效果和定量指标上均优于对比算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号