排序方式: 共有291条查询结果,搜索用时 0 毫秒
1.
文本阅读能力差和视觉推理能力不足是现有视觉问答(visual question answering, VQA)模型效果不好的主要原因,针对以上问题,设计了一个基于图神经网络的多模态推理(multi-modal reasoning graph neural network, MRGNN)模型。利用图像中多种形式的信息帮助理解场景文本内容,将场景文本图片分别预处理成视觉对象图和文本图的形式,并且在问题自注意力模块下过滤多余的信息;使用加入注意力的聚合器完善子图之间相互的节点特征,从而融合不同模态之间的信息,更新后的节点利用不同模态的上下文信息为答疑模块提供了更好的功能。在ST-VQA和TextVQA数据集上验证了有效性,实验结果表明,相比较此任务的一些其他模型,MRGNN模型在此任务上有明显的提升。 相似文献
2.
高分三号卫星是我国首颗分辨率达到1 m的C波段 多极化合成孔径雷达(synthetic aperture radar,SAR) 卫星,其中扫描 式合成孔径雷达(scan synthetic aperture radar,ScanSAR)模式是高分三号卫星重要的工 作模式之一,由于该模式的工作机制导致生成的图像可能发生扇贝效应,一般呈现为明暗相 间的条纹。本文针对高分三号卫星ScanSAR模式下存在的扇贝效应,提出自注意力机制与循 环一致对抗网络(cycle-consistent adversarial networks,CycleGAN)结合的模型对Scan S AR图像进行处理,从而抑制扇贝效应产生的条纹现象。本文所示方法与传统扇贝效应抑制方 法和深度学习相关算法进行比较,并通过亮度均值、平均梯度等指标进行分析。实验结果表 明,本文方法可以对高分三号ScanSAR图像存在的扇贝效应进行较好的处理,有效抑制图像 的条纹现象,使得图像质量得到提升,具有较大的实用意义。 相似文献
3.
股市是金融市场的重要组成部分,对股票价格预测有着重要的意义.同时,深度学习具有强大的数据处理能力,可以解决金融时间序列的复杂性所带来的问题.对此,本文提出一种结合自注意力机制的混合神经网络模型(ATLG).该模型由长短期记忆网络(LSTM)、门控递归单元(GRU)、自注意力机制构建而成,用于对股票价格的预测.实验结果表明:(1)与LSTM、GRU、RNN-LSTM、RNN-GRU等模型相比, ATLG模型的准确率更高;(2)引入自注意力机制使模型更能聚焦于重要时间点的股票特征信息;(3)通过对比,双层神经网络起到的效果更为明显.(4)通过MACD (moving average convergence and divergence)指标进行回测检验,获得了53%的收益,高于同期沪深300的收益.结果证明了该模型在股票价格预测中的有效性和实用性. 相似文献
4.
弱监督时序动作定位旨在定位视频中行为实例的起止边界及识别相应的行为。现有方法尽管取得很大进展,但依然存在动作定位不完整及短动作的漏检问题。为此,提出了特征挖掘与区域增强(FMRE)的定位方法。首先,通过基础分支计算视频片段之间的相似分数,并以此分数聚合上下文信息,得到更具有区别性的段分类分数,实现动作的完整定位;然后,添加增强分支,对基础分支定位中持续时间较短的动作提案沿时间维度进行动态上采样,进而采用多头自注意机制对动作提案间的时间结构显式建模,促进具有时间依赖关系的动作定位且防止短动作的漏检;最后,在两个分支之间构建伪标签互监督,逐步改进在训练过程中生成动作提案的质量。该算法在THUMOS14和ActivityNet1.3数据集上分别取得了70.3%和40.7%的检测性能,证明了所提算法的有效性。 相似文献
5.
子空间聚类(Subspace clustering)是一种当前较为流行的基于谱聚类的高维数据聚类框架.近年来,由于深度神经网络能够有效地挖掘出数据深层特征,其研究倍受各国学者的关注.深度子空间聚类旨在通过深度网络学习原始数据的低维特征表示,计算出数据集的相似度矩阵,然后利用谱聚类获得数据的最终聚类结果.然而,现实数据存在维度过高、数据结构复杂等问题,如何获得更鲁棒的数据表示,改善聚类性能,仍是一个挑战.因此,本文提出基于自注意力对抗的深度子空间聚类算法(SAADSC).利用自注意力对抗网络在自动编码器的特征学习中施加一个先验分布约束,引导所学习的特征表示更具有鲁棒性,从而提高聚类精度.通过在多个数据集上的实验,结果表明本文算法在精确率(ACC)、标准互信息(NMI)等指标上都优于目前最好的方法. 相似文献
6.
传统的自注意力机制可以在保留原始特征的基础上突出文本的关键特征,得到更准确的文本特征向量表示,但忽视了输入序列中各位置的文本向量对输出结果的贡献度不同,导致在权重分配上存在偏离实际的情况,而双向门控循环单元(BiGRU)网络在对全局信息的捕捉上具有优势,但未考虑到文本间存在的局部依赖关系。针对上述问题,提出一种基于改进自注意力机制的BiGRU和多通道卷积神经网络(CNN)文本分类模型SAttBiGRU-MCNN。通过BiGRU对文本序列的全局信息进行捕捉,得到文本的上下文语义信息,利用优化的多通道CNN提取局部特征,弥补BiGRU忽视局部特征的不足,在此基础上对传统的自注意力机制进行改进,引入位置权重参数,根据文本向量训练的位置,对计算得到的自注意力权重概率值进行重新分配,并采用softmax得到样本标签的分类结果。在两个标准数据集上的实验结果表明,该模型准确率分别达到98.95%和88.1%,相比FastText、CNN、RCNN等分类模型,最高提升了8.99、7.31个百分点,同时精确率、召回率和F1值都有较好表现,取得了更好的文本分类效果。 相似文献
7.
8.
胶囊网络(CapsNet)强调对图像特征的空间关系进行编码,但是其特征提取模块难以应对复杂分类场景.为了提升CapsNet的性能,提出了一种具有自注意力(self-attention)特征提取模块的胶囊网络(self-attention capsule network,SA-CapsNet).首先通过降低胶囊维度,并增加一个中间层来改进CapsNet;然后将SA模块映射到胶囊网络的特征提取层,增加特征提取能力.在MNIST、Fashion MNIST和CIFAR10数据集上进行实验,分类准确率分别为99.67%、92.21%和82.51%.实验结果验证了改进网络的有效性,整体性能有较大提升. 相似文献
9.
在实际应用场景下,通过图像识别的方式来识别小麦的病虫害具有极大的挑战性。与以往纯粹基于卷积神经网络(Convolutional Neural Network, CNN)的方法相比,将小麦图像转换成一系列视觉语言,并从全局视角进行小麦识别的方法是更可行和实用的。运用Convolutional Visual Transformers(CVT)来解决小麦识别分为2个环节。首先,利用2分支CNN生成的2种特征图来实现注意选择性融合(Attentional Selective Fusion, ASF)。ASF通过融合多个特征和全局-局部注意力来获取有区别的信息,并投射成一系列的视觉语言。其次,受Transformers在自然语言处理方面的成功启发,用全局自注意力来建模这些视觉语言之间的关系。将CVT与经典分类网络LeNet-5、ResNet-18、VGG-16、EfficientNet对比,识别率有所提升,同时该方法具有良好的泛化能力。 相似文献
10.
引入图像语义分割技术,对矿井次光照环境中的目标物进行分割,将图像分成原始清晰图像和次光照图像两类,采用基于深度学习的图像增强方法对次光照条件下拍摄的图像增强细节后替换,再利用单应变换算法对数据集进行扩充,进而构建矿井巷道图像语义分割标准数据集。提出一种基于自注意力机制的轻量级编码—解码结构网络:以DeepLab V3+编码—解码网络为基础网络,在编码结构中,提取矿井图像深、浅层语义特征信息,将深层语义特征信息经由轻量级自注意力机制模块进行特征激活,而浅层语义特征信息直接送入解码器中,在解码结构中拼接深、浅层语义特征信息,恢复原始图像尺寸,输出分割结果。与传统算法就图像预测进行对比实验,结果表明:在网络复杂度方面,对于3通道512×512像素大小的图像,算法的网络理论计算量FLOPs仅48.80 G,参数量仅11.90 M;在网络分割精度方面,平均交并比76.50%,平均像素精度87.75%,领先其他主流网络;在速度方面,推理一张图像的速度能达到0.032 s,可满足轻量级网络的要求。
相似文献