首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
为提高UAV红外图像语义分割的性能,提出基于深度学习和高斯伯努利受限玻尔兹曼机(GB-RBM)的实时语义分割模型。确认地面车辆实时特征提取中的关键问题。基于GB-RBM,提出用于编码阶段的形状先验模型。通过将SegNet中的编码器-解码器结构与GB-RBM模块相融合,在解码器块中生成红外数据的实时映射,实现准确快速的语义分割。实验结果表明,所提方法能够很好地处理红外视频中的实时几何信息,在3个实验数据集上的平均精度约为0.98,平均处理时长约为17.86 s,性能优于其它优秀方法。  相似文献   

2.
赵小虎  李晓 《计算机应用》2021,41(6):1640-1646
针对图像语义描述方法中存在的图像特征信息提取不完全以及循环神经网络(RNN)产生的梯度消失问题,提出了一种基于多特征提取的图像语义描述算法。所构建模型由三个部分组成:卷积神经网络(CNN)用于图像特征提取,属性提取模型(ATT)用于图像属性提取,而双向长短时记忆(Bi-LSTM)网络用于单词预测。该模型通过提取图像属性信息来增强图像表示,从而精确描述图中事物,并且使用Bi-LSTM捕捉双向语义依赖,从而进行长期的视觉语言交互学习。首先,使用CNN和ATT分别提取图像全局特征与图像属性特征;其次,将两种特征信息输入到Bi-LSTM中生成能够反映图像内容的句子;最后,在Microsoft COCO Caption、Flickr8k和Flickr30k数据集上验证了所提出算法的有效性。实验结果表明,与m-RNN方法相比,所提出的算法在描述性能方面提高了6.8~11.6个百分点。所提算法能够有效地提高模型对图像的语义描述性能。  相似文献   

3.
图像的文本化描述解决图像理解的高级语义问题。由于存在语义鸿沟,导致自动生成的文本与图像内容有较大差异,浅层神经网络构建的语言模型很难生成通顺的语句。为此,提出图像语义相似性神经网络,在递归神经网络的输出层之后添加全连接网络,引入图像间的视觉相似性和文本相似性信息,从而在预测图像的文本描述时保持相似图像的有效语义信息。增加栈式隐层和普通隐层的深度来提高语言模型的学习能力,最终得到接近自然语言的文本。实验结果表明,该方法在BLEU、ROUGE、METEOR和CIDEr等评价指标上均取得较好的效果,能够生成符合图像内容的高质量文本描述。  相似文献   

4.
针对现有图像描述方法将视觉和语义信息单独处理、缺乏结构化信息和忽略全局信息的问题,提出一种同步融合视觉与语义信息的图像描述模型(SG-sMLSTM)。通过融合图像全局特征和候选区域的多模态特征增强和细化图像视觉信息,基于场景图实现结构化语义信息编码;解码部分设计sMLSTM结构,利用注意机制同步动态融合视觉和语义信息,使模型在每个时间步接收更全面的信息,自适应选择关注更关键的区域。基于MSCOCO数据集的实验结果表明,该模型能够产生更准确的描述语句,在评价指标得分上与基线方法相比有约3%的提升。  相似文献   

5.
现有的图像描述模型使用全局特征时受限于感受野大小相同,而基于对象区域的图像特征缺少背景信息。为此,提出了一种新的语义提取模块提取图像中的语义特征,使用多特征融合模块将全局特征与语义特征进行融合,使得模型同时关注图像的关键对象内容信息和背景信息。并提出基于深度注意力的解码模块,对齐视觉和文本特征以生成更高质量的图像描述语句。所提模型在Microsoft COCO数据集上进行了实验评估,分析结果表明该方法能够明显提升描述的性能,相较于其他先进模型具有竞争力。  相似文献   

6.
图像描述生成模型是使用自然语言描述图片的内容及其属性之间关系的算法模型.对现有模型描述质量不高、图片重要部分特征提取不足和模型过于复杂的问题进行了研究,提出了一种基于卷积块注意力机制模块(CBAM)的图像描述生成模型.该模型采用编码器-解码器结构,在特征提取网络Inception-v4中加入CBAM,并作为编码器提取图片的重要特征信息,将其送入解码器长短期记忆网络(LSTM)中,生成对应图片的描述语句.采用MSCOCO2014数据集中训练集和验证集进行训练和测试,使用多个评价准则评估模型的准确性.实验结果表明,改进后模型的评价准则得分优于其他模型,其中Model2实验能够更好地提取到图像特征,生成更加准确的描述.  相似文献   

7.
针对传统语义分割模型缺乏空间结构信息,无法准确地描述对象轮廓的问题,提出了一种基于图像分层树的图像语义分割方法。分层树模型采用结构森林方法生成轮廓模型,为防止过度分割,运用超度量轮廓图算法得到多尺度轮廓图,然后利用支持向量机训练多尺度轮廓图生成图像分层树,通过随机森林精炼分层树,最终输出图像语义分割结果。在测试实验中,像素精确度达到82.1%,相比区域选择方法(Selecting Regions)提升了2.7%。并在较难区分的树和山脉的预测精确度上,相比层次标记方法(Stacked Labeling)分别提升了16%,25%,具有更高的稳定性。实验结果表明,在复杂的室外环境下,对图像语义分割的精确度、稳定性和速率均有明显改善。  相似文献   

8.
周小诗  张梓葳  文娟 《计算机科学》2021,(S2):557-564+584
生成式自然语言信息隐藏在自然语言生成过程中嵌入秘密信息。目前主流的生成式自然语言隐藏方法采用一个简单的循环神经网络(Recurrent Neural Networks, RNN)或长短时记忆网络(Long Short-Term Memory, LSTM)进行载密文本的生成。这种方法生成的载密文本长度有限,且句子和句子之间没有语义关联。为了解决这个问题,提出了能够生成长句且句与句之间能保持语义关系的机器翻译隐写算法Seq2Seq-Stega。采用序列到序列(Sequence to Sequence, Seq2Seq)模型作为文本隐写的编码器和解码器,源语句的信息可以保证目标载密句的语义关联性。此外,根据每一时刻模型计算的单词概率分布,设计了候选池的选词策略,并引入了平衡源语句与目标句的贡献度的注意力超参数。通过实验比较了不同选词阈值和注意力参数下模型的隐藏容量和生成文本的质量。与其他3种生成式模型的对比实验表明,该算法能够保持长距离语义关联,并具有较好的抗隐写分析能力。  相似文献   

9.
目的 针对基于区域的语义分割方法在进行语义分割时容易缺失细节信息,造成图像语义分割结果粗糙、准确度低的问题,提出结合上下文特征与卷积神经网络(CNN)多层特征融合的语义分割方法。方法 首先,采用选择搜索方法从图像中生成不同尺度的候选区域,得到区域特征掩膜;其次,采用卷积神经网络提取每个区域的特征,并行融合高层特征与低层特征。由于不同层提取的特征图大小不同,采用RefineNet模型将不同分辨率的特征图进行融合;最后将区域特征掩膜和融合后的特征图输入到自由形式感兴趣区域池化层,经过softmax分类层得到图像的像素级分类标签。结果 采用上下文特征与CNN多层特征融合作为算法的基本框架,得到了较好的性能,实验内容主要包括CNN多层特征融合、结合背景信息和融合特征以及dropout值对实验结果的影响分析,在Siftflow数据集上进行测试,像素准确率达到82.3%,平均准确率达到63.1%。与当前基于区域的端到端语义分割模型相比,像素准确率提高了10.6%,平均准确率提高了0.6%。结论 本文算法结合了区域的前景信息和上下文信息,充分利用了区域的语境信息,采用弃权原则降低网络的参数量,避免过拟合,同时利用RefineNet网络模型对CNN多层特征进行融合,有效地将图像的多层细节信息用于分割,增强了模型对于区域中小目标物体的判别能力,对于有遮挡和复杂背景的图像表现出较好的分割效果。  相似文献   

10.
近年来随着深度学习技术的不断发展,涌现出各种基于深度学习的语义分割算法,然而绝大部分分割算法都无法实现推理速度和语义分割精度的兼得.针对此问题,提出一种多通道深度加权聚合网络(MCDWA_Net)的实时语义分割框架.\:该方法首先引入多通道思想,构建一种3通道语义表征模型,3通道结构分别用于提取图像的3类互补语义信息:低级语义通道输出图像中物体的边缘、颜色、结构等局部特征;辅助语义通道提取介于低级语义和高级语义的过渡信息,并实现对高级语义通道的多层反馈;高级语义通道获取图像中上下文逻辑关系及类别语义信息.\:之后,设计一种3类语义特征加权聚合模块,用于输出更完整的全局语义描述.\:最后,引入一种增强训练机制,实现训练阶段的特征增强,进而改善训练速度.\:实验结果表明,所提出方法在复杂场景中进行语义分割不仅有较快的推理速度,且有很高的分割精度,能够实现语义分割速度与精度的均衡.  相似文献   

11.
结合注意力机制的编码器—解码器框架被广泛应用于图像描述生成任务中。以往方法中,注意力机制根据当前时刻的语义信息挑选出重要的局部图像特征,进而依靠解码器的“翻译”能力将图像特征解码成文字。然而,在此过程中,单向的注意力机制并未检验语义信息与图像内容的一致性。因此,所生成的描述在准确性方面有所欠缺。为解决上述问题,该文提出一种基于双向注意力机制的图像描述生成方法,在单向注意力机制的基础上,加入图像特征到语义信息方向上的注意力计算,实现图像和语义信息两者在两个方向上的交互,并设计了一种门控网络对上述两个方向上的信息进行融合。最终,提高解码器所蕴含的语义信息与图像内容的一致性,使得所生成描述更加准确。此外,与前人研究不同的是,该文在注意力模块中利用了历史时刻的语义信息辅助当前时刻的单词生成,并对历史语义信息的作用进行了验证。该文基于MSCOCO和Flickr30k两种图像描述生成数据集,并使用两种图像特征进行了实验。实验结果显示,在MSCOCO数据集上,BLEU_4分值平均提升1.3,CIDEr值平均提升6.3。在Flickr30k数据集上,BLEU_4分值平均提升0.9,CIDEr值平均提升2.4。  相似文献   

12.
图像语义分割任务是计算机视觉领域重要研究课题之一。当前基于全卷积神经网络的语义分割算法存在像素之间缺乏关联性、卷积核感受野小于理论值、人工标记数据集标签成本大等问题。为了解决上述问题,提出了一种融合注意力机制的对抗式半监督语义分割模型。将生成对抗网络应用到图像语义分割中,增强像素点之间的关联性;提出模型在生成网络中加入自注意力模块和多核池化模块以对长距离语义信息进行融合,扩大了卷积核感受野;在PASCAL VOC2012增强数据集和Cityscapes数据集上进行了大量实验,实验结果证明了该方法在图像语义分割任务中的有效性和可靠性。  相似文献   

13.
图像描述,即利用电脑自动描述图像的语义内容一直是计算机视觉领域的一项重要研究任务.尽管使用卷积神经网络(convolutional neural networks, CNN)和长短期记忆网络(long short-term memory, LSTM)的组合框架在生成图像描述方面解决了梯度消失和梯度爆炸问题,但是基于LSTM的模型依赖序列化的生成描述,无法在训练时并行处理,且容易在生成描述时遗忘先前的信息.为解决这些问题,提出将条件生成对抗网络(conditionalgenerativeadversarial network, CGAN)引入到描述生成模型训练中,即采用CNN来生成图像描述.通过对抗训练来生成句子描述,并结合注意力机制提升描述的质量.在MSCOCO数据集上进行测试,实验结果表明,与基于CNN的其他方法相比,文中方法在语义丰富程度指标CIDEr上取得了2%的提升,在准确性指标BLEU上有1%左右的性能提升;同时,其在部分指标,尤其是语义指标上超过了基于LSTM模型的图像描述方法的性能;证明该方法生成的图像描述更接近图像的真实描述,并且语义内容更加丰富.  相似文献   

14.
煤矿井下人员行为检测是感知矿山建设关注的重点,而现有的基于电磁波、基于可穿戴设备、基于计算机视觉等人员行为检测方法无法综合时间、地点、行为、环境等多方面因素评判矿山人员行为是否安全。提出了一种矿山人员行为视觉语义方法,通过特征提取、语义检测、特征重构、解码等生成描述视频中人员行为的语句。分别采用InceptionV4网络、I3D网络提取视频图像静态、动态特征,在InceptionV4网络中引入基于空间位置注意力模型和通道注意力模型的并行双重注意力机制,提高了网络的特征提取能力。针对视频内容与视觉语义易出现不一致的问题,引入语义检测网络对视频特征添加高级语义标签生成嵌入特征,将其与视频特征、语义特征共同输入解码器,并在解码过程中引入特征重构模块,通过获取解码器隐藏层状态重建视频特征,增强了视频特征与描述语句之间的关联关系,提高了视觉语义生成的准确性。采用MSVD,MSR-VTT公共数据集及自制矿山视频数据集进行实验,结果表明该方法具有较好的语义一致性,能准确获取视频中关键语义,更好地反映视频真实含义。  相似文献   

15.
针对目前基于全局特征的图像描述模型存在细节语义信息不足的问题,提出结合全局和局部特征的图像中文描述模型.该模型采用编码器-解码器框架,在编码阶段,分别使用残差网络(residual networks,ResNet)和Faster R-CNN提取图像的全局特征和局部特征,提高模型对不同尺度图像特征的利用.采用嵌入了残差连接结构和视觉注意力结构的双向门控循环单元(bi-directional gated recurrent unit,BiGRU)作为解码器(BiGRU with residual connection and attention,BiGRU-RA).模型可以自适应分配图像特征和文本权重,改善图像特征区域和上下文信息的映射关系.此外,加入基于强化学习的策略梯度对模型的损失函数进行改进,直接对评价指标CIDEr进行优化.在AI Challenger全球挑战赛图像中文描述数据集上进行训练和实验,实验结果表明,该模型获得更高的评分,生成的描述语句更准确、更详细.  相似文献   

16.
针对目前多数图像语义分割方法需要人工设计图像特征的问题,借助卷积神经网络(Convolutional Neural Network,CNN)自动学习得到图像特征的优势,并综合考虑CNN的网络输入和物体上下文关系对图像语义分割结果的影响,以超像素为基本处理单元,结合多尺度技术和CNN网络设计了一种面向图像语义分割的多尺度CNN模型,并详细分析了该模型的结构以及模型推断。实验验证了所提出方法的有效性。  相似文献   

17.
图像语义的图形化标注和检索研究   总被引:1,自引:0,他引:1  
基于图像语义进行检索的目的是希望能够更好地从用户的角度出发,查找出与用户理解相一致的图像。针对目前图像语义检索过程中存在的问题,提出一个基于对象的图像语义内容标注模型和检索框架。首先利用分割算法获取图像中的语义对象区域,然后以MPEG-7标准中的语义描述方案为基础,利用图形化结构实现图像语义内容的标注。在检索过程中,用户把查询内容转化为图形化描述结构,通过提取该描述图的不同长度的路径信息形成查询文档,与图像库中的图像语义标注文档进行匹配实现图像检索。实验结果表明,提出的方法能够有效地实现基于语义的图像标注和检索,与全文检索相比,有较高的查全率和查准率。  相似文献   

18.
在图像补全技术中,当图像丢失较多信息时,仅凭自身已有的信息很难补全图像.因此,文中使用条件生成对抗网络(CGAN)和多粒度认知相结合的方式研究图像的降噪和补全.首先借助云模型中高斯云变换算法提取无标签图像的多层语义信息,并根据不同层次的语义信息对图像进行不同粒度的分割,同时对已分割图像进行自动语义标注.然后将各粒层图像和其对应的语义信息分别作为CGAN的训练数据,得到图像生成对抗网络模型.最后依据此模型补全图像的缺失信息.实验表明,对于Caltech-UCSD Birds和Oxford-102flowers数据集的图像降噪和图像补全,文中算法取得较好效果.  相似文献   

19.
莫宏伟  田朋 《控制与决策》2021,36(12):2881-2890
视觉场景理解包括检测和识别物体、推理被检测物体之间的视觉关系以及使用语句描述图像区域.为了实现对场景图像更全面、更准确的理解,将物体检测、视觉关系检测和图像描述视为场景理解中3种不同语义层次的视觉任务,提出一种基于多层语义特征的图像理解模型,并将这3种不同语义层进行相互连接以共同解决场景理解任务.该模型通过一个信息传递图将物体、关系短语和图像描述的语义特征同时进行迭代和更新,更新后的语义特征被用于分类物体和视觉关系、生成场景图和描述,并引入融合注意力机制以提升描述的准确性.在视觉基因组和COCO数据集上的实验结果表明,所提出的方法在场景图生成和图像描述任务上拥有比现有方法更好的性能.  相似文献   

20.
遥感图像分割是目前学术界和工业界的一个研究热点,在城市规划、变化检测以及GIS信息构建等方面有着十分广泛的应用.然而,诸多复杂因素(如多变的尺度、多样化的拓扑形状以及复杂的背景和阴影等)使得遥感图像语义分割成为一项具有挑战性的任务.为此,提出一种基于多尺度信息融合的遥感图像语义分割深层卷积神经网络模型,该模型分为编码器和解码器2部分.在编码阶段,设计了基于DenseNet网络的跨卷积层级的多尺度特征融合策略,采用子区域全局平均池化及多尺度卷积处理复杂的背景区域;在解码阶段,为了准确地恢复图像的细节信息,设计了能够融合不同层级卷积特征的短解码器;最后,在整体模型构建方面设计了一种具有多输出的分层监督机制网络模型,从不同层级获取监督信息,可在充分利用监督信息的同时更好地引导网络的训练.在ISPRS公开数据集以及北京市遥感数据集上,通过实验验证了文中模型的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号