首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
结合注意力机制的编解码框架模型已经被广泛地应用在图像描述任务中。大多数方法都强制对生成的每个单词进行主动的视觉注意,然而,解码器很可能不需要关注图像中的任何视觉信息就生成非视觉单词,比如“the”和“of”。本文提出一种自适应注意力模型,编码端采用Faster R-CNN网络提取图像中的显著特征,解码端LSTM网络中引入一个视觉监督信号。在每个时间步长,它可以自动地决定何时依赖于视觉信号,何时仅依赖于语言模型。最后在Flickr30K和MS-COCO数据集进行验证,实验结果表明该模型有效地提升了描述语句的质量。  相似文献   

2.
图像描述生成结合了计算机视觉和自然语言处理2个研究领域,不仅要求完备的图像语义理解,还要求复杂的自然语言表达,是进一步研究符合人类感知的视觉智能的关键任务.对图像描述生成的研究进展做了回顾.首先,归纳分析了当前基于深度学习的图像描述生成方法涉及的5个关键技术,包括整体架构、学习策略、特征映射、语言模型和注意机制.然后,...  相似文献   

3.
文章基于深度学习方法,通过结合粒子群优化(Particle Swarm Optimization,PSO)和长短期记忆(Long Short Term Memory,LSTM)网络,提出了一种针对大数据的商品销售预测模型。文章首先分析了LSTM的结构,其次分析了PSO方法对LSTM的优化方式,提出了PSO-LSTM商品销量预测模型,最后使用Kaggle上的数据集进行训练和测试。将所提出的模型与标准LSTM模型进行比较,结果表明,所提方法的预测精度和稳定性均优于标准LSTM方法。  相似文献   

4.
深度学习的迅速发展使得图像描述效果得到显著提升,针对基于深度神经网络的图像描述方法及其研究现状进行详细综述.图像描述算法结合计算机视觉和自然语言处理的知识,根据图像中检测到的内容自动生成自然语言描述,是场景理解的重要部分.图像描述任务中,一般采用由编码器和解码器组成的基本架构.改进编码器或解码器,应用生成对抗网络、强化...  相似文献   

5.
精准的日交通流预测是智能交通领域的重要研究内容之一。目前已有的日交通流预测模型大多在短期预测模型的基础上通过多步预测或者多目标预测的方式改进而来。这两种改进方案中,前者对误差的传播更为敏感,而后者则忽视了预测结果的时序关系,导致预测模型精度偏低。提出了一种用于日交通流预测的编码器-解码器深度学习模型,首先将长短时记忆网络(long short-term memory,LSTM)作为编码器-解码器模型的基本单元以提高模型捕捉长期依赖关系的能力,其次引入注意力机制调节编码向量的权重以进一步提高模型的预测精度。新的模型是一种典型的序列到序列预测模型,与传统的序列到点的模型相比更加契合日交通流预测的需求。为验证模型的有效性,取美国5号州际公路西雅图段的实际交通流数据进行实验,实验结果表明,提出的预测模型在平均车流密度大于40辆/km的时间段中,其预测结果的平均绝对百分比误差(mean absolute percentage error,MAPE)与LSTM、门控循环单元(gated recurrent unit,GRU)、反向传播(back propagation,BP)神经网络、卷积神经网络...  相似文献   

6.
近年来, 注意力机制已经广泛应用于计算机视觉领域, 图像描述常用的编码器-解码器框架也不例外. 然而,当前的解码框架并未较清楚地分析图像特征与长短期记忆神经网络(LSTM)隐藏状态之间的相关性, 这也是引起累积误差的原因之一. 基于该问题, 本文提出一个类时序注意力网络(Similar Temporal Attenti...  相似文献   

7.
图像描述是将图像所包含的全局信息用语句来表示.它要求图像描述生成模型既能提取出图像信息,又能将提取出来的图像信息用语句表达出来.传统的模型是基于卷积神经网络(CNN)和循环神经网络(RNN)搭建的,在一定程度上可以实现图像转语句的功能,但该模型在提取图像关键信息时精度不高且训练速度缓慢.针对这一问题,提出了一种基于CN...  相似文献   

8.
针对传统公共环境图像描述模型中编码器—解码器结构在编码过程中特征提取能力不足以及解码过程中上下文信息丢失严重的问题,提出了一种基于Se-ResNet50与M-LSTM的公共环境图像描述模型。将SeNet模块添加到ResNet-50的残差路径中得到改进残差网络提取图像特征,SeNet对特征的各个部分赋予权重生成不同的注意力特征图,再融合文本特征向量输入具有额外门控运算的改进长短期记忆网络(M-LSTM)训练。模型训练结束后,输入公共环境图像就能得到描述图像内容的自然语句。该模型在多种数据集上进行了评估,实验结果表明,提出的模型在MSCOCO数据集上相较传统模型,在BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR、CIDEr等评价指标上分别提高了3.2%、2.1%、1.7%、1.7%、1.3%、8.2%,证明了提出的方法在评价指标、语义多样性上具有一定的优越性。  相似文献   

9.
在各类的图像描述方法中,多模态方法主要将视觉和文本两种模态的信息作为输入,以获得有效的多级信息。然而,其中的多数方法未考虑两种模态数据之间的关系,仅孤立地使用这两种模态的数据。为了在不同模态之间建立复杂的交互,充分利用模态之间的关系提升图像描述效果,首先,引入双向注意流模块(Bi-Directional Attention Flow, BiDAF),将自注意力机制升级为双向方式;然后,通过一个只需一个遗忘门就可以实现与长短期记忆网络(Long Short-Term Memory, LSTM)相同的功能的门控线性记忆模块(Gated Linear Memory, GLM)有效降低解码器的复杂度,并捕获多模态的交互信息;最后,将BiDAF和GLM分别应用为图像描述模型的编码器和解码器,形成多模态交互网络(Multimodal Interactive Network, MINet)。在公共数据集MS COCO上的实验结果表明,MINet与现有的多模态方法相比不仅具有更简洁的解码器、更好的图像描述效果、更高的评价分数,且无需进行预训练,图像描述更高效。  相似文献   

10.
11.
图像描述(Image captioning)是一个融合了计算机视觉和自然语言处理这两个领域的研究方向,本文为图像描述设计了一种新颖的显著性特征提取机制(Salient feature extraction mechanism,SFEM),能够在语言模型预测每一个单词之前快速地向语言模型提供最有价值的视觉特征来指导单词预测,有效解决了现有方法对视觉特征选择不准确以及时间性能不理想的问题.SFEM包含全局显著性特征提取器和即时显著性特征提取器这两个部分:全局显著性特征提取器能够从多个局部视觉向量中提取出显著性视觉特征,并整合这些特征到全局显著性视觉向量中;即时显著性特征提取器能够根据语言模型的需要,从全局显著性视觉向量中提取出预测每一个单词所需的显著性视觉特征.本文在MS COCO(Microsoft common objects in context)数据集上对SFEM进行了评估,实验结果表明SFEM能够显著提升基准模型(baseline)生成图像描述的准确性,并且SFEM在生成图像描述的准确性方面明显优于广泛使用的空间注意力模型,在时间性能上也大幅领先空间注意力模型.  相似文献   

12.
近年来在图像描述领域对于应用场景图生成描述的研究越来越广泛. 然而, 当前基于场景图的图像描述模型并未考虑到长短期记忆神经网络(LSTM)对于先前输入的细节信息的保留, 这可能会导致细节信息的丢失. 针对这个问题, 本文提出基于原始信息注入的图像描述网络, 该网络对基线模型中语言LSTM的输入变量做了改进, 目的是尽可能多地保留原始输入信息, 减少输入信息在计算过程中的损失. 另外, 本文还认为当前的场景图更新机制中存在结点更新程度过大的问题, 因此本文设计了一个访问控制模块更新已访问过的结点权重, 避免引起结点信息丢失的问题. 同时, 本文设计一个图更新系数(GUF)来指导图更新, 以确定更新程度的大小. 本文在官方数据集MSCOCO上进行了实验, 各种评估机制的实验结果表明, 基于访问控制模块与原始信息注入的图像描述模型与基线模型对比, 取得了更有竞争力的结果, 表现出明显的优越性.  相似文献   

13.
针对图像描述方法中对图像文本信息的遗忘及利用不充分问题,提出了基于场景图感知的跨模态交互网络(SGC-Net)。首先,使用场景图作为图像的视觉特征并使用图卷积网络(GCN)进行特征融合,从而使图像的视觉特征和文本特征位于同一特征空间;其次,保存模型生成的文本序列,并添加对应的位置信息作为图像的文本特征,以解决单层长短期记忆(LSTM)网络导致的文本特征丢失的问题;最后,使用自注意力机制提取出重要的图像信息和文本信息后并对它们进行融合,以解决对图像信息过分依赖以及对文本信息利用不足的问题。在Flickr30K和MSCOCO (MicroSoft Common Objects in COntext)数据集上进行实验的结果表明,与Sub-GC相比,SGC-Net在BLEU1(BiLingualEvaluationUnderstudywith1-gram)、BLEU4 (BiLingualEvaluationUnderstudywith4-grams)、METEOR(Metric for Evaluation of Translation with Explicit ORdering)、ROU...  相似文献   

14.
图像描述生成模型是使用自然语言描述图片的内容及其属性之间关系的算法模型.对现有模型描述质量不高、图片重要部分特征提取不足和模型过于复杂的问题进行了研究,提出了一种基于卷积块注意力机制模块(CBAM)的图像描述生成模型.该模型采用编码器-解码器结构,在特征提取网络Inception-v4中加入CBAM,并作为编码器提取图...  相似文献   

15.
16.
遥感图像描述生成是同时涉及计算机视觉和自然语言处理领域的热门研究话题,其主要工作是对于给定的图像自动地生成一个对该图像的描述语句.文中提出了一种基于多尺度与注意力特征增强的遥感图像描述生成方法,该方法通过软注意力机制实现生成单词与图像特征之间的对齐关系.此外,针对遥感图像分辨率较高、目标尺度变化较大的特点,还提出了一种...  相似文献   

17.
针对图像描述生成模型缺乏空间关系信息且图像特征利用不充分的问题,结合对象关系网状转换器,提出一种改进的图像描述模型.利用Faster R-CNN提取图像的外观和边界框特征,并将提取的特征输入到改进的转换器中经过编解码生成图像描述.通过将对象外观和边界框特征合并为关系特征的方式对编码器自我注意力层的注意力权值进行改进,以...  相似文献   

18.
X线胸片报告的自动生成是计算机辅助诊断研究的热点,X线胸片中65%以上的疾病与肺部相关.针对肺部描述中文报告生成,提出基于语义标签的层级长短期记忆网络模型.首先,分析异常胸片报告,提取高频关键词作为图像语义标签.再加入异常二分类模块,用于修正语义标签分类结果.最后,融合语义标签与图像特征,加强二者的关联映射.实验表明,文中模型在通用和领域指标的评价上均较优,能有效提高胸片报告生成的性能.  相似文献   

19.
为了更好地对股票价格进行预测,进而为股民提供合理化的建议,提出了一种在结合长短期记忆网络(LSTM)和卷积神经网络(CNN)的基础上引入注意力机制的股票预测混合模型(LSTM-CNN-CBAM),该模型采用的是端到端的网络结构,使用LSTM来提取数据中的时序特征,利用CNN挖掘数据中的深层特征,通过在网络结构中加入注意...  相似文献   

20.
覃仲宇 《信息与电脑》2023,(22):190-192
针对当前无线通信网络节点攻击入侵告警存在准确性差、告警响应速度慢的问题,引入改进长短期记忆网络(Long Short Term Memory,LSTM),开展无线通信网络节点攻击入侵告警算法研究。首先,收集无线通信网络数据,提取受损节点特征;其次,利用改进LSTM构建节点攻击入侵检测模型;最后,结合模型输出,对攻击入侵行为告警,并完成告警信息融合。实验结果表明,新的告警算法可以实现对所有无线通信网络节点攻击入侵行为的准确告警,且响应速度显著加快。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号