首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 83 毫秒
1.
现有视觉问答模型缺乏视觉对象间关系的理解能力,导致复杂问题的答案预测准确率较差;针对该问题,提出了一种基于空间关系聚合与全局特征注入的视觉问答模型。该模型首先利用空间关系聚合视觉区域特征,将其转换为视觉全局特征,并将这些特征注入网络;然后引入双边门控机制进行特征融合,使模型能够根据不同的问题输入,自适应地调整视觉全局特征和视觉区域特征对答案预测的贡献度;最后将融合特征输入分类网络,得到预测结果。在VQA 2.0和GQA公开数据集上进行实验,结果表明:该模型在VQA2.0的测试-开发集、测试-标准集和GQA的数据集上的总准确率分别达到71.12%、71.54%和57.71%,优于MCAN和SCAVQAN等主流模型。该模型由于引入了具有空间关系的视觉全局特征,能够更好地提升视觉对象间关系的理解能力,有效提高了视觉问答模型的准确率。  相似文献   

2.
针对现有的注意力机制存在缺乏对视觉对象间关系的理解能力及准确度较差的问题,在注意力机制的基础上增加关系推理模块与自适应门控机制. 该方法利用注意力机制关注多个与问题相关的视觉区域,利用关系推理模块中的二元关系推理与多元关系推理加强视觉区域间的联系. 将分别得到的视觉注意力特征与视觉关系特征输入到自适应门控中,动态控制2种特征对预测答案的贡献. 在VQA1.0及VQA2.0数据集上的实验结果表明:该模型与DCN、MFB、MFH及MCB等先进模型相比,在总体精度上均有约2%的提升;利用基于关系推理与门控机制的模型能够更好地理解图像内容,有效地提升视觉问答的准确率.  相似文献   

3.
为解决对话关系抽取任务中实体间关联语义信息稀疏、获取核心语义和触发线索困难等问题,提出一种新型的对话关系抽取模型。在对话文本中融入抽象语义表示来增强对话的核心语义,以解决在对话关系提取过程中出现的语义缺失和逻辑纠缠问题;引入全局对话交互机制,通过对关键线索的捕捉来改善对话中有效信息稀疏的问题;通过增加明确的结构信息来进一步丰富实体间的关系特征,使模型能够更好地理解对话文本。实验结果表明:相较于基线模型BERTs,文中提出的模型在数据集DialogRE上的F1和F1C分别提升了5.5%和6.2%;相比于序列模型CNN、LSTM和BiLSTM,在对话关系抽取中准确率提高9%以上,效果显著。文中模型在复杂对话场景中的泛化能力更好,鲁棒性更强。  相似文献   

4.
提出了基于语义连通图的场景图生成算法. 将关系检测过程分为关系建议和关系推理两步; 以目标检测算法得到的候选对象为节点集合,构建一个全连接图; 使用物体的类别信息和相对空间关系计算物体之间存在关系的概率; 通过设置阈值来删除图中的无效连接,得到稀疏的语义连通图; 使用图神经网络聚合物体节点的特征进行聚合,融合上下文信息. 根据语义连通图的连接关系,结合更新后的主语和宾语特征以及两个物体联合区域的特征,构建关系特征,预测图中的每条边对应的关系类别.  相似文献   

5.
为了探索图像场景理解所需要的视觉区域间关系的建模与推理,提出视觉关系推理模块. 该模块基于图像中不同的语义和空间上下文信息,对相关视觉对象间的关系模式进行动态编码,并推断出与当前生成的关系词最相关的语义特征输出. 通过引入上下文门控机制,以根据不同类型的单词动态地权衡视觉注意力模块和视觉关系推理模块的贡献. 实验结果表明,对比以往基于注意力机制的图像描述方法,基于视觉关系推理与上下文门控机制的图像描述方法更好;所提模块可以动态建模和推理不同类型生成单词的最相关特征,对输入图像中物体关系的描述更加准确.  相似文献   

6.
鉴于施工现场中工人与施工机械及施工用具之间不合规的交互关系是引发安全事故的重要原因,提出了一种基于施工场景的视觉关系检测方法。首先,采用卷积神经网络搭建实体检测和关系检测分支,以提取出施工场景中的实体特征和关系特征;其次,构建视觉模块、语义模块和空间模块对提取出的特征进行学习,使网络充分感知和理解视觉信息、语义信息与空间信息;最后,设计了一种图形对比损失函数,以提高模型的视觉关系检测性能。在自制的施工场景关系检测数据集上的实验结果表明,本文方法实现了75.89%、77.64%、78.93%的R@20、R@50、R@100召回率,具有良好的视觉关系检测性能,能精准地检测出施工场景中的目标及其交互关系。  相似文献   

7.
为了研究有效的特征提取和精确的空间结构化学习对提升场景解析效果的作用,本文提高出基于全卷积神经网络空间结构化编码深度网络,网络内嵌的结构化学习层有机地结合了图模型网络和空间结构化编码算法,算法能够比较准确地描述物体所处空间的物体分布以及物体间的空间位置关系。通过空间结构化编码深度网络,网络不仅能够提取包含多层形状信息的多维视觉特征,而且可以生成包含结构化信息的空间关系特征,从而得到更为准确表达图像语义信息的混合特征。实验结果表明:在SIFT FLOW和PASCAL VOC 2012标准数据集上,空间结构化编码深度网络较现有方法能够显著地提升场景解析的准确率。  相似文献   

8.
针对文本匹配过程中存在语义损失和句子对间信息交互不充分的问题,提出基于密集连接网络和多维特征融合的文本匹配方法. 模型的编码端使用BiLSTM网络对句子进行编码,获取句子的上下文语义特征;密集连接网络将最底层的词嵌入特征和最高层的密集模块特征连接,丰富句子的语义特征;基于注意力机制单词级的信息交互,将句子对间的相似性特征、差异性特征和关键性特征进行多维特征融合,使模型捕获更多句子对间的语义关系. 在4个基准数据集上对模型进行评估,与其他强基准模型相比,所提模型的文本匹配准确率显著提升,准确率分别提高0.3%、0.3%、0.6%和1.81%. 在释义识别Quora数据集上的有效性验证实验结果表明,所提方法对句子语义相似度具有精准的匹配效果.  相似文献   

9.
视觉注意力建模作为预测人类在观察场景时注意力分布的关键技术,在计算机视觉的众多领域均有广泛应用.传统的视觉注意力模型着重研究人眼注视点,计算出的显著图更多的是反映眼动信息,并未将大脑的感知出的语义信息反映出来.针对这一问题,本文提出了一种整合了语义对象特征的视觉注意力模型.首先,本文建立了眼动跟踪数据库VOC2012-E,研究并记录普通人在观察自然场景时的眼动数据.然后,受语义分割启发,利用全卷积神经网络(Fully Convolutional Networks, FCN)提取语义对象特征,同时用激活函数PReLu和优化函数Adam改进FCN网络使其更有效地提取的语义对象特征,来模仿大脑对语义对象特征的感知.接着,提取在人类潜意识层吸引人注意力的如方向,颜色,强度特征等28个低级特征.最后利用支持向量机(Support Vector Machine, SVM)将之前提取的语义对象特征及低级特征映射到人类视觉空间,同时引入真实眼动数据进行有监督的训练,得到可以预测人眼视觉显著图的视觉注意力模型.实验结果表明,在VOC2012-E及MIT300数据库上与其他8种经典模型及4种先进模型相比,本文提出的视觉注意力模型性能更好,更有生物学优势.  相似文献   

10.
基于知识库的简单问答是自然语言处理中的一个研究热点,也是实际生活中应用最广泛的一种情况。然而在研究中文方面基于知识库问答的过程中,存在诸如不同处理过程间的错误传播、难以从关系名称表达不明确的问句中抽取关系等问题。在自主构建的食品领域知识库以及食品领域问答语料库的基础上,从中文词义和中文字义两个语义角度出发,利用两个维度进行实体链接,并采用长短时记忆网络进行语义向量建模来抽取关系,提出一种基于双维度的中文语义分析的食品领域知识库问答模型。实验结果表明:所提出的模型在中文食品领域知识库问答上准确率比常用的端到端模型和语义解析模型均高出5.83%~13.07%,验证了所提出模型的有效性。  相似文献   

11.
针对零样本图像分类中属性向量的类别区分性差及对可见类别产生分类偏好的问题,提出一种深度监督对齐的零样本图像分类(DSAN)方法. DSAN构造类语义的全局监督标记,与专家标注的属性向量联合使用以增强类语义间的区分性.为了对齐视觉空间和语义空间的流形结构,采用视觉特征和语义特征分类网络分别学习2种空间特征的类别分布,并且无差异地对齐两者的分布.利用生成对抗网络的原理消除特征间的本质差异,以按位加的方式合并视觉特征和类语义特征,并利用关系网络学习两者间的非线性相似度.实验结果表明,DSAN在CUB、AWA1和AWA2数据集上对可见类别和未见类别的调和平均分类准确率比基线模型分别提高了4.3%、19.5%和21.9%;在SUN和APY数据集上,DSAN方法的调和平均分类准确率分别比CRnet方法高1.4%和2.2%,这些结果证明所提方法的有效性.  相似文献   

12.
由于多跳知识图谱问答任务的复杂性,现有工作大多通过堆叠多层图神经网络以捕捉更大范围的高阶邻居信息。这种做法将多阶信息融合在一起,以损失节点判别性为代价来获取更全局的信息,存在过平滑问题,并且由于离节点越近的邻居置信度越高,将多阶邻居信息融合在一起的做法忽略了邻居的置信度。多跳知识图谱问答存在的另一个问题是许多数据集通常没有给定中间路径的监督信息,这种弱监督问题会使模型在进行路径推理时缺乏有效的指导信息,导致模型推理能力降低。为了解决以上问题,论文提出了一种多视图语义推理网络,该网络利用全局和局部两种视图的信息共同进行推理,全局视图信息是指节点的多阶邻居信息,能够为推理提供更丰富的证据,局部视图信息则只关注节点的一阶邻居信息,更具有判别性,能够缓解全局视图信息存在的过平滑问题。同时,该网络将问题分解为多个子问题作为中间路径推理的指导信息,并从问题语义构成的均匀性和一致性出发设计了一种新颖的损失函数以提升问题分解的质量,以提高模型中间路径推理的能力。论文方法在三个真实数据集上进行了大量实验,实验结果表明多视图的语义信息能够为推理提供更加全面的证据,将问题分解为子问题的做法能够提高中间路径推理的准确性,证明了论文方法的有效性。  相似文献   

13.
为了让机器人获得更加通用的能力,抓取是机器人必要掌握的技能.针对目前大多数机器人抓取决策方法存在物品特征理解浅显,缺乏抓取先验知识,导致任务兼容性较差的问题,同时受大脑中分区分块功能结构的启发,提出了将物品感知、先验知识和抓取任务融合的认知决策模型.该模型包含卷积感知网络、记忆图网络和贝叶斯决策网络三部分,分别实现了物品能供性(affordance)提取、抓取先验知识推理和联想,以及信息融合编码决策,三部分之间的信息流以语义向量的形式传递.利用UMD part affordance数据集、该文构建的抓取常识图和决策数据集对3个网络分别进行训练,认知决策模型的测试准确率达到99.8%,并且抓取位置可视化结果展示了决策的正确性.该模型还能判断物品是否属于当前任务场景,以决策是否抓取以及选择什么部位抓取物品,有助于提高机器人实际场景的应用能力.  相似文献   

14.
目标情感分析旨在分析评论文本中不同目标所对应的情感倾向。当前,基于图神经网络的方法使用依存句法树来融入依存句法关系,一方面,此类方法大多忽略了依存关系缺乏区分度的事实;另一方面,未考虑依存句法树提供的依存关系存在目标与情感词关系缺失的问题。为此,提出双重图注意力网络模型。该模型首先使用双向长短期记忆网络得到具有语义信息的词节点表示,然后根据依存句法树在词节点表示上构建句法图注意力网络,实现依存句法关系重要程度的区分,更有效地建立目标与情感词之间的关系,进而得到更准确的目标情感特征表示;同时根据句子的无向完全图构建全局图注意力网络来挖掘目标与情感词缺失的关系,进一步提升模型的性能。实验结果表明,与现有模型对比,双重图注意力网络模型在不同数据集上的准确率与宏平均F1值均取得了更好结果。  相似文献   

15.
针对移动空间对象间方向与距离关系的结合推理问题,首先用射线的端点近似表示空间对象,用射线的方向表示空间对象的移动方向;然后利用射线与圆之间位置关系的组合来描述2个空间对象之间的相对移动方向;在此基础上分别研究该位置关系的组合对定性距离变化的约束作用及该位置关系的组合与OPRA2方向关系的对应关系,进而建立起OPRA2方向关系与定性距离变化之间的内在联系。提出一种OPRA2方向关系与定性距离变化的结合推理方法。  相似文献   

16.
长视频问答包含丰富的多模态语义信息和推理信息.当前,基于循环神经网络的视频问答模型难以充分保存重要记忆信息、忽略无关冗余信息和实现记忆信息高效融合.针对该问题,依据记忆网络思想,提出一种深度记忆融合模型.本模型利用记忆网络的记忆组件有效保存视频剪辑及其字幕的融合特征,提出一种多模态相似性匹配方法过滤冗余记忆信息.经过卷...  相似文献   

17.
基于空间金字塔的BoW模型图像分类方法   总被引:1,自引:0,他引:1  
针对不同场景图像下词袋(bag of words,BoW)模型的图像分类准确率较低的问题,提出了一种基于空间金字塔BoW模型的图像分类方法。该方法通过尺度不变特征变换(scale-invariant feature transform,SIFT)算法提取原始图像像素特征点作为视觉特征,对相似视觉特征进行聚类形成视觉词袋,并采用空间金字塔方法对视觉词袋进行划分,构建空间金字塔的BoW模型,通过支持向量机分类器对分层后的视觉词袋进行图像分类。分别使用BoW模型和空间金字塔的BoW模型分类方法对网络图像数据库进行分类实验对比,结果表明,空间金字塔BoW模型能有效提高BoW模型的图像分类准确率。  相似文献   

18.
为解决少样本场景下毫米波雷达人体动作识别过程中卷积神经网络(CNN)易出现过拟合、训练效果不理想等问题,提出一种融入时序注意力机制的CNN和视觉转换器模型结合的方法.该方法首先对收到的雷达回波信息做预处理,再通过短时傅里叶变换(STFT)进行时频分析得到时频图,最终将带有特征信息的图像送入融合的网络模型中进行分类识别.实验结果表明,与其他4种模型的方法相比,本文提出的方法识别准确率最高,识别效果可达到91.57%.该方法能有效地增强网络对于时间维度建模,增加了网络收敛速度,达到了提升识别准确率的效果.  相似文献   

19.
充分表达和利用目标空间上下文及语义信息是提高高空间分辨率影像分类精度的关键技术,而条件随机场(CRFs)在目标空间上下文建模以及分类预测方面有其独特优势。但是,基于单一尺度分析的CRFs模型存在不能反映目标多层次空间结构及语义关系的问题,因此针对城区高分辨率影像土地利用/覆盖分类问题,在面向对象分类框架下,提出了一种多级空间上下文LR-CRFs模型。该模型定义如下:首先,将影像进行对象层?目标层及场景层的分层表达及分层特征提取,并进行“对象目标场景”的逐层关联;其次,采用逻辑回归(LR)分类器定义CRFs模型的关联势函数,利用分层特征加权的Potts函数定义交互势函数;采用最大积消息传递算法对该模型进行近似推理。利用IKONOS多光谱影像及大比例尺真彩色航空影像进行试验的结果表明:多级空间上下文LR-CRFs模型分类精度高于单一尺度的基于像素层或对象层分割的LR-CRFs模型,其精度平均分别提高了4.63%和2.22%;该方法在一定意义上也缓解了面向对象分类方法中分类结果对分割尺度的依赖程度。  相似文献   

20.
充分表达和利用目标空间上下文及语义信息是提高高空间分辨率影像分类精度的关键技术,而条件随机场(CRFs)在目标空间上下文建模以及分类预测方面有其独特优势。但是,基于单一尺度分析的CRFs模型存在不能反映目标多层次空间结构及语义关系的问题,因此针对城区高分辨率影像土地利用/覆盖分类问题,在面向对象分类框架下,提出了一种多级空间上下文LR-CRFs模型。该模型定义如下:首先,将影像进行对象层?目标层及场景层的分层表达及分层特征提取,并进行“对象目标场景”的逐层关联;其次,采用逻辑回归(LR)分类器定义CRFs模型的关联势函数,利用分层特征加权的Potts函数定义交互势函数;采用最大积消息传递算法对该模型进行近似推理。利用IKONOS多光谱影像及大比例尺真彩色航空影像进行试验的结果表明:多级空间上下文LR-CRFs模型分类精度高于单一尺度的基于像素层或对象层分割的LR-CRFs模型,其精度平均分别提高了4.63%和2.22%;该方法在一定意义上也缓解了面向对象分类方法中分类结果对分割尺度的依赖程度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号