首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
为方便非专业用户修图,提出一种基于Transformer的图像编辑模型TMGAN,使用户可通过自然语言描述自动修改图像属性。TMGAN整体框架采用生成对抗网络,生成器采用Transformer编码器结构提取全局上下文信息,解决生成图像不够真实的问题;判别器包含基于Transformer的多尺度判别器和词级判别器两部分,给生成器细粒度的反馈,生成符合文本描述的目标图像且保留原始图像中与文本描述无关的内容。实验表明,此模型在CUB Bird数据集上,IS(inception score)、FID(Fréchet inception distance)以及MP(manipulation precision)度量指标分别达到了9.07、8.64和0.081。提出的TMGAN模型对比现有模型效果更好,生成图像既满足了给定文本的属性要求又具有高语义性。  相似文献   

2.
针对基于时空Transformer模型的交通流量预测模型性能不高的问题,提出了一种基于编解码器的改进的时空Transformer模型(improved spatio-temporal Transformer model,ISTTM)。编码器对历史流量特征进行编码,解码器预测未来序列。编码器将空间稀疏自注意力和时间层次扩散卷积相结合,捕捉交通流量的动态空间相关性和局部空间特征,再利用时间自注意力建模非线性时间相关性;解码器与编码器类似地挖掘出输入序列的时空特征。基于编解码器提取的时空特征,采用双重交叉注意力模拟历史交通观测对未来预测的影响,建模每个历史时间步和每个未来时间步的直接关系以及对整个未来时间段的影响,并输出未来交通流量的最终表示。为了证实ISTTM的有效性,在METR-LA和NE-BJ两个真实世界的大规模数据集上进行实验,ISTTM结果优于6个先进的基线。  相似文献   

3.
通过对道路场景进行语义分割可以辅助车辆感知周边环境,达到避让行人、车辆以及各类小目标物体障碍的目的,提高行驶的安全性。针对道路场景语义分割中小目标物体识别精度不高、网络参数量过大等问题,提出一种基于多尺度注意力机制的语义分割模型。利用小波变换的多尺度多频率信息分析特性,设计一种多尺度小波注意力模块,并将其嵌入到编码器结构中,通过融合不同尺度及频率的特征信息,保留更多的边缘轮廓细节。使用编码器与解码器之间的层级连接,以及改进的金字塔池化模块进行多方面特征提取,在保留上下文特征信息的同时获得更多的图像细节。通过设计多级损失函数训练网络模型,从而加快网络收敛。在剑桥驾驶标注视频数据集上的实验结果表明,该模型的平均交并比为60.21%,与DeepLabV3+和DenseASPP模型相比参数量减少近30%,在不额外增加参数量的前提下提升了模型的分割精度,且在不同场景下均具有较好的鲁棒性。  相似文献   

4.
现实世界的物体图像往往存在较大的类内变化,使用单一原型描述整个类别会导致语义模糊问题,为此提出一种基于超像素的多原型生成模块,利用多个原型分别表示物体的不同语义区域,通过图神经网络在生成的多个原型间利用上下文信息执行原型校正以保证子原型的正交性.为了获取到更准确的原型表示,设计了一种基于Transformer的语义对齐模块,以挖掘查询图像特征和支持图像的背景特征中蕴含的语义信息,此外还提出了一种多尺度特征融合结构,引导模型关注同时出现在支持图像和查询图像中的特征,提高对物体尺度变化的鲁棒性.所提出的模型在PASCAL-5i数据集上进行了实验,与基线模型相比平均交并比提高了6%.  相似文献   

5.
莫宏伟  田朋 《控制与决策》2021,36(12):2881-2890
视觉场景理解包括检测和识别物体、推理被检测物体之间的视觉关系以及使用语句描述图像区域.为了实现对场景图像更全面、更准确的理解,将物体检测、视觉关系检测和图像描述视为场景理解中3种不同语义层次的视觉任务,提出一种基于多层语义特征的图像理解模型,并将这3种不同语义层进行相互连接以共同解决场景理解任务.该模型通过一个信息传递图将物体、关系短语和图像描述的语义特征同时进行迭代和更新,更新后的语义特征被用于分类物体和视觉关系、生成场景图和描述,并引入融合注意力机制以提升描述的准确性.在视觉基因组和COCO数据集上的实验结果表明,所提出的方法在场景图生成和图像描述任务上拥有比现有方法更好的性能.  相似文献   

6.
步态识别是最有前途的基于视频生物识别技术之一。目前,大多数步态识别方法更着重于提升神经网络提取空间特征的能力,而忽视在时间维度上特征的聚合。针对步态识别中缺乏时间维度特征提取能力的问题,提出了一种基于Transformer时间特征聚合的步态识别模型。首先,步态剪影序列通过卷积神经网络提取特征,与位置编码结合;然后,在时间维度上使用Transformer编码器聚合时间特征;最后,连接线性分类层实现步态识别。在最流行的步态识别数据集CASIA-B上进行实验,所提模型比GaitSet模型识别准确度在NM#5-6上提升了3.4个百分点,BG#1-2上提升了1.5个百分点,CL#1-2上提升了11.6个百分点。实验结果表明,Transformer提升了网络对时间维度特征的聚合能力,并且降低了模型对外套和携带物的敏感性。  相似文献   

7.
自动的室内家具摆放在家居设计、动态场景生成等应用中具有显著的意义.传统算法往往通过显式的空间、语义和功能性上物体之间的关系来理解场景的内部结构,并进一步辅助室内场景的生成.随着大规模室内场景数据集的出现,提出将零散的输入家具编码进图结构,并利用图神经网络中迭代的消息传递隐式地学习场景的分布先验.为了满足家具摆放的多样性...  相似文献   

8.
现有时空感知的表示学习框架无法对强时空语义的实际场景存在的“When”、“Where”和“What”3个问题给出一个统一的解决方案。同时,现有的时间和空间建模上的研究方案也存在着一定的缺陷,无法在复杂的实际场景中取得最优的性能。为了解决这些问题,本文提出了一个统一的用户表示框架—GTRL (geography and time aware representation learning),可以同时在时间和空间的维度上对用户的历史行为轨迹进行联合建模。在时间建模上,GTRL采用函数式的时间编码以及连续时间和上下文感知的图注意力网络,在动态的用户行为图上灵活地捕获高阶的结构化时序信息。在空间建模上,GTRL采用了层级化的地理编码和深度历史轨迹建模模块高效地刻画了用户的地理位置偏好。GTRL设计了统一的联合优化方案,同时在交互预测、交互时间预测以及交互位置3个任务上进行模型学习。最后,本文在公开数据集和工业数据集上设计了大量的实验,分别验证了GTRL相较学术界基线模型的优势,以及在实际业务场景中的有效性。  相似文献   

9.
针对视频描述生成的文本质量不高与不够新颖的问题,本文提出一种基于特征强化与文本知识补充的编解码模型.在编码阶段,该模型通过局部与全局特征强化增强模型对视频中静态物体的细粒度特征提取,提高了对物体相似语义的分辨,并融合视觉语义与视频特征于长短期记忆网络(long short-term memory, LSTM);在解码阶段,为挖掘视频中不易被机器发现的隐含信息,截取视频部分帧并检测其中视觉目标,利用得到的视觉目标从外部知识语库提取知识用来补充描述文本的生成,以此产生出更新颖更自然的文本描述.在MSVD与MSR-VTT数据集上的实验结果表明,本文方法展现出良好的性能,并且生成的内容信息在一定程度上能够表现出新颖的隐含信息.  相似文献   

10.
近年来,基于自注意力机制的编码器-解码器框架已经成为主流的图像描述模型。然而,编码器中的自注意力只建模低尺度特征的视觉关系,忽略了高尺度视觉特征中的一些有效信息,从而影响了生成描述的质量。针对该问题,文中提出了一种基于跨尺度特征融合自注意力的图像描述方法。该方法在进行自注意力运算时,将低尺度和高尺度的视觉特征进行跨尺度融合,从视觉角度上提高自注意力关注的范围,增加有效视觉信息,减少噪声,从而学习到更准确的视觉语义关系。在MS COCO数据集上的实验结果表明,所提方法能够更精确地捕获跨尺度视觉特征间的关系,生成更准确的描述。特别地,该方法是一种通用的方法,通过与其他基于自注意力的图像描述方法相结合,能进一步提高模型性能。  相似文献   

11.
命名实体识别是自然语言处理领域中信息抽取、信息检索、知识图谱等任务的基础。在命名实体识别任务中,Transformer编码器更加关注全局语义,对位置和方向信息不敏感,而双向长短期记忆(BiLSTM)网络可以提取文本中的方向信息,但缺少全局语义信息。为同时获得全局语义信息和方向信息,提出使用注意力机制动态融合Transformer编码器和BiLSTM的模型。使用相对位置编码和修改注意力计算公式对Transformer编码器进行改进,利用改进的Transformer编码器提取全局语义信息,并采用BiLSTM捕获方向信息。结合注意力机制动态调整权重,深度融合全局语义信息和方向信息以获得更丰富的上下文特征。使用条件随机场进行解码,实现实体标注序列预测。此外,针对Word2Vec等传统词向量方法无法表示词的多义性问题,使用RoBERTa-wwm预训练模型作为模型的嵌入层提供字符级嵌入,获得更多的上下文语义信息和词汇信息,增强实体识别效果。实验结果表明,该方法在中文命名实体识别数据集Resume和Weibo上F1值分别达到96.68%和71.29%,相比ID-CNN、BiLSTM、CAN-NER等...  相似文献   

12.
针对现有胸部X线影像和诊断报告跨模态方法重点聚焦全局信息对齐,忽视影像和诊断报告间的细粒度语义关联,导致检索精度低、匹配度差的问题,提出全局和局部联合对齐的胸部X线影像和诊断报告双塔跨模态检索方法(CDTCR)。具体来说,针对细粒度语义表征,提出由残差网络组成的影像编码器学习影像的细粒度特征和由Transformer构成的BERT模型学习诊断报告的细粒度语义特征;针对细粒度语义关联问题,设计影像对句子和区域对词组两个不同粒度的模态间信息对齐策略,解决了不同模态间细粒度语义关联不足的问题。大型医学数据集MIMIC-CXR上的实验结果表明,CDTCR比现有的跨模态检索方法,检索精度更高、可解释性更强。  相似文献   

13.
循环神经网络和Transformer在多轮对话系统的建模上依赖大量的样本数据且回复准确率过低。为此,提出一种针对任务型对话系统的建模方法。引入预训练模型对句子语意和对话过程进行深度编码,对Transformer模型进行精简,仅保留编码器部分的单向Transformer,将应答部分抽象成不同的指令,采用孪生网络对指令进行相似度排序,选择相似度最高的指令生成应答。在MultiWOZ数据集上的实验结果表明,与LSTM和基于Transformer模型相比,该方法预测速度更快,在小数据集上具有更好的性能,在大数据集上也能取得与当前先进模型相当的效果。  相似文献   

14.
针对基于图卷积的自编码器模型对原始图属性和拓扑信息的保留能力有限、无法学习结构和属性之间深度关联信息等问题,提出基于多通道图卷积自编码器的图表示学习模型。设计拓扑和属性信息保留能力实验,验证了基于图卷积的自编码器模型具备保留节点属性和拓扑结构信息的能力。构建特定信息卷积编码器和一致信息卷积编码器,提取图的属性空间特征、拓扑空间特征以及两者关联特征,生成属性嵌入、拓扑嵌入和一致性嵌入,同时建立与编码器对称的卷积解码器,还原编码器过程。使用重构损失、局部约束和一致性约束,优化各编码器生成的低维嵌入表示。最终将蕴含不同图信息的多种嵌入进行融合,生成各节点的嵌入表示。实验结果表明,该模型在BlogCatalog和Flickr数据集上节点分类的Micro-F1和Macro-F1明显高于基线模型,在Citeseer数据集上节点聚类的精度和归一化互信息相比于表现最优的基线模型提升了11.84%和34.03%。上述实验结果证明了该模型采用的多通道方式能够在低维嵌入中保留更丰富的图信息,提升图机器学习任务的性能表现。  相似文献   

15.
交通场景语义分割在自动驾驶中必不可少.为了解决目前的交通场景语义分割方法中由于池化、卷积等操作而造成的目标边界分割模糊、多类别目标及相似物体分割精度低等问题,提出一种带注意力机制的卷积神经网络分割方法.特征提取时,引入多样化的扩张卷积,以挖掘多尺度的语义信息.在信息解码后,添加通道及空间双注意力模块,可以在通道和空间两个维度层面进行注意力特征提取,让网络在学习过程中更侧重于重要信息.在Cityscapes数据集上的实验结果表明,该语义分割网络的平均交并比(MIoU)可达71.6%,超过了基网络为ResNet50的DeepLabv3+语义分割网络.所提方法能更加精细地分割出近似物体及多类别目标,对复杂交通场景图像的理解力更强.  相似文献   

16.
基于向量空间模型的视频语义相关内容挖掘   总被引:1,自引:0,他引:1       下载免费PDF全文
对海量视频数据库中所蕴涵的语义相关内容进行挖掘分析,是视频摘要生成方法面临的难题。该文提出了一种基于向量空间模型的视频语义相关内容挖掘方法:对新闻视频进行预处理,将视频转化为向量形式的数据集,采用主题关键帧提取算法对视频聚类内容进行挖掘,保留蕴涵场景独特信息的关键帧,去除视频中冗余的内容,这些主题关键帧按原有的时间顺序排列生成视频的摘要。实验结果表明,使用该视频语义相关内容挖掘的算法生成的新闻视频具有良好的压缩率和内容涵盖率。  相似文献   

17.
近年来生成对抗网络(generative adversarial network, GAN)已经展示了它在图像修复任务中修复大面积缺失区域并生成合理语义结果的潜力,但现有方法经常忽略缺失区域的语义一致性和特征连续性,并对不同尺度特征的感知能力不足,因此提出一种基于多尺度稳定场GAN的图像修复模型.该模型的生成单元汲取了U-Net的特点,将稳定场算子嵌入到跳跃连接中以填充编码器特征图中的缺失区域,保持了缺失区域的语义一致性和特征连续性;然后通过多尺度融合计算逐步加强经稳定场算子填充缺失区域的特征图的传递,使得跳跃连接传递的信息不再来自单一的特征图,让模型能够感知高层特征的语义信息.在人脸和自然场景等数据集上的实验结果表明,该模型优于其他的经典图像修复方法.  相似文献   

18.
在抽象语义表示(AMR)文本生成过程中,AMR图到文本形式的转换在很大程度上受语料规模的影响。提出一种简单有效的动态数据扩充方法,在已标注数据集规模有限的情况下提高AMR文本生成性能。将AMR文本生成模型解码端视作一个语言模型,使用单词级别的扩充方法,通过动态地对目标端单词进行随机替换,得到带噪声的数据,从而增强模型的泛化能力。在加载数据时,随机选择目标句子中的部分单词做噪声化处理,利用约束编码器预测被覆盖的单词并还原出原始语句,使模型具有更深层的语言表征能力。基于AMR2.0和AMR3.0英文标准数据集进行实验,结果表明,该方法可有效提升AMR文本生成系统性能,与未引入噪声的基准Transformer模型相比,能够获得更优的BLEU、Meteor和chrF++指标,其中BLEU值在人工标注语料场景下分别提升0.68和0.64,且在大规模自动标注语料场景下也能提升0.60和0.68。  相似文献   

19.
传统的交通流量预测模型对历史数据进行时空建模,忽略了交通数据的时间周期性内部潜在关系和交通路网间节点的距离特征和相似性空间特征。据此,提出面向交通流量预测的多通道时空编码器模型MC-STGNN,用来提高交通流量预测的准确率。首先将交通数据处理成三通道的周期性时间序列,并对整体的序列数据进行时间位置编码和自适应的空间位置编码,提取路网节点间的动态相关性;其次引入具有卷积结构的多头自我注意力机制,更大程度地捕获周期数据不同程度的时间相关性;最后提出一种图生成器生成新的时空图,提取路网节点间的相似性和距离特征,并利用门控图卷积网络整合原始图和新时空图的空间信息。在高速公路数据集PEMS03和PEMS08上进行一小时的交通流量综合预测实验,结果表明,MC-STGNN模型与其他的基线模型相比,具有更佳的性能指标,说明MC-STGNN模型具有更优的建模能力。  相似文献   

20.
基于Transformer的视觉目标跟踪算法能够很好地捕获目标的全局信息,但是,在对目标特征的表述上还有进一步提升的空间.为了更好地提升对目标特征的表达能力,提出一种基于混合注意力的Transformer视觉目标跟踪算法.首先,引入混合注意力模块捕捉目标在空间和通道维度中的特征,实现对目标特征上下文依赖关系的建模;然后,通过多个不同空洞率的平行空洞卷积对特征图进行采样,以获得图像的多尺度特征,增强局部特征表达能力;最后,在Transformer编码器中加入所构建的卷积位置编码层,为跟踪器提供精确且长度自适应的位置编码,提升跟踪定位的精度.在OTB100、VOT2018和LaSOT等数据集上进行大量实验,实验结果表明,通过基于混合注意力的Transformer网络学习特征间的关系,能够更好地表示目标特征.与其他主流目标跟踪算法相比,所提出算法具有更好的跟踪性能,且能够达到26帧/s的实时跟踪速度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号