期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	3篇
免费	0篇

专业分类

综合类	2篇
自动化技术	1篇

出版年

2023年	1篇
2022年	1篇
2021年	1篇

排序方式： 共有3条查询结果，搜索用时 0 毫秒

基于池化的双维度视觉注意力模型

张万玉肖锋张文娟邹品荣王晨阳《西安工业大学学报》2021,(6):673-683

为使视觉注意力机制模型表达信息同时兼具多样性、全局性,以实现对特征的准确表达,提出一种基于池化的双维度视觉注意力模型.该模型对卷积层输出的特征图,同时使用全局最大池化和全局平均池化获取多样性的空间维度信息,然后输入共享局部通道网络以重新学习通道间的权重分配;将平均池化分别作用在宽和高两个空间维度来获取全局的视野信息,从... 相似文献

面向视觉问答的多模块协同注意模型

邹品荣肖锋张文娟张万玉王晨阳《计算机工程》2022,48(2):250-260

视觉问答（VQA）是计算机视觉和自然语言处理领域中典型的多模态问题，然而传统VQA模型忽略了双模态中语义信息的动态关系和不同区域间丰富的空间结构。提出一种新的多模块协同注意力模型，对视觉场景中对象间关系的动态交互和文本上下文表示进行充分理解，根据图注意力机制建模不同类型对象间关系，学习问题的自适应关系表示，将问题特征和带关系属性的视觉关系通过协同注意编码，加强问题词与对应图像区域间的依赖性，通过注意力增强模块提升模型的拟合能力。在开放数据集VQA 2.0和VQA-CP v2上的实验结果表明，该模型在“总体”、“是/否”、“计数”和“其他”类别问题上的精确度明显优于DA-NTN、ReGAT和ODA-GCN等对比方法，可有效提升视觉问答的准确率。相似文献

融合场景语义与空间关系的视觉问答

邹品荣肖锋张文娟黄姝娟张万玉《西安工业大学学报》2023,(1):56-65

为了捕捉问答场景下更深层次的关系语义与增强网络的可解释性,文中提出一种显式融合场景语义与空间关系的视觉问答模型,利用视觉对象间关系及其属性来生成关系图表示。根据图像中检测到的视觉对象关系和空间位置信息来构建图网络;分别通过自适应问题的图注意力机制编码预定义的场景语义关系和空间对象关系,以学习先验知识下的多模特征表示;将两种关系模型进行线性融合来推理问题答案。研究结果表明：在数据集VQA 2.0上进行实验,与视觉问答算法模型BUTD,DA-NTN,ODA-GCN,Scence GCN,VCTREE-HL和MuRel对比,分别提升测试子集test-dev的准确率4.12%,1.88%,2.77%,2.63%,1.25%和1.41%。该模型能在问题引导下对视觉语义关系进行推理,有效提升视觉问答的准确率。相似文献