共查询到20条相似文献,搜索用时 109 毫秒
1.
目的 传统视觉场景识别(visual place recognition,VPR)算法的性能依赖光学图像的成像质量,因此高速和高动态范围场景导致的图像质量下降会进一步影响视觉场景识别算法的性能。针对此问题,提出一种融合事件相机的视觉场景识别算法,利用事件相机的低延时和高动态范围的特性,提升视觉场景识别算法在高速和高动态范围等极端场景下的识别性能。方法 本文提出的方法首先使用图像特征提取模块提取质量良好的参考图像的特征,然后使用多模态特征融合模块提取查询图像及其曝光区间事件信息的多模态融合特征,最后通过特征匹配查找与查询图像最相似的参考图像。结果 在MVSEC(multi-vehicle stereo event camera dataset)和RobotCar两个数据集上的实验表明,本文方法对比现有视觉场景识别算法在高速和高动态范围场景下具有明显优势。在高速高动态范围场景下,本文方法在MVSEC数据集上相较对比算法最优值在召回率与精度上分别提升5.39%和8.55%,在Robot‐Car数据集上相较对比算法最优值在召回率与精度上分别提升3.36%与4.41%。结论 本文提出了融合事件相机的视觉场景识别算法,利用了事件相机在高速和高动态范围场景的成像优势,有效提升了视觉场景识别算法在高速和高动态范围场景下的场景识别性能。 相似文献
2.
在大规模城市环境下,因为光照变化、摄像机拍摄角度变化、存在大量移动物体、地表外观变化,使得视觉位置识别变得尤为困难.针对该问题提出一种基于SENet改进的ResNet的视觉位置识别方法PlaceNet.在自建百万级街景数据集上进行训练,在自建数据集和SL数据集上进行测试.结果表明PlaceNet精确度和查询效率比Net... 相似文献
3.
基于深度学习的端到端语音识别模型中,由于模型的输入采用固定长度的语音帧,造成时域信息和部分高频信息损失进而导致识别率不高、鲁棒性差等问题。针对上述问题,提出了一种基于残差网络与双向长短时记忆网络相结合的模型,该模型采用语谱图作为输入,同时在残差网络中设计并行卷积层,提取不同尺度的特征,然后进行特征融合,最后采用连接时序分类方法进行分类,实现一个端到端的语音识别模型。实验结果表明,该模型在Aishell-1语音集上字错误率相较于传统端到端模型的WER下降2.52%,且鲁棒性较好。 相似文献
4.
针对深度卷积神经网络随着卷积层数增加而导致网络模型难以训练和性能退化等问题,提出了一种基于深度残差网络的人脸表情识别方法。该方法利用残差学习单元来改善深度卷积神经网络模型训练寻优的过程,减少模型收敛的时间开销。此外,为了提高网络模型的泛化能力,从KDEF和CK+两种表情数据集上选取表情图像样本组成混合数据集用以训练网络。在混合数据集上采用十折(10-fold)交叉验证方法进行了实验,比较了不同深度的带有残差学习单元的残差网络与不带残差学习单元的常规卷积神经网络的表情识别准确率。当采用74层的深度残差网络时,可以获得90.79%的平均识别准确率。实验结果表明采用残差学习单元构建的深度残差网络可以解决网络深度和模型收敛性之间的矛盾,并能提升表情识别的准确率。 相似文献
5.
针对已有文本识别网络由于深度不够而识别准确率较低的问题,文中提出一种改进的端到端文本识别网络结构。首先,将文本作为序列,采用残差模块将文本按列切分成特征向量输入循环层。这种残差结构增加了卷积网络的深度,使网络保持对文本图像的最佳表征能力,实现对文本信息的捕捉。另一方面,残差模块采用堆叠层来学习残差映射,在层数加深的情况下提高了网络的收敛性。然后,采用循环层对这些文本特征序列进行上下文建模,并把建模结果输入Softmax层以获得序列对应标签的预测,实现了对任意长度文本的识别。循环层使用长短时记忆网络学习文本之间的依赖关系,解决长序列训练过程中的"梯度消失"问题。最后,通过最优路径方法进行文本标签转录。该方法找到一条路径使其概率最大,并输出这条路径对应的序列为最优序列。改进的文本识别网络结构增加了深度,提高了文本图像的特征描述能力和在噪声下的稳定性。在多个测试数据集(ICDAR2003,ICDAR2013,SVT和IIIT5K)上将所提算法与已有典型算法进行实验对比分析,结果表明该网络结构能够得到更高的场景文本识别准确率,验证了其有效性。 相似文献
6.
事件相机是一种用脉冲表达信息的仿生成像传感器,具有高时域分辨率、高动态范围、低功耗和高速率等优势.由于事件驱动特性,传统人工神经网络(artificial neural networks, ANN)无法直接处理事件相机输出的脉冲信号.而脉冲神经网络(spiking neural network, SNN)作为一种神经形态计算方法,具有高时域分辨率及事件驱动的特性,这与事件相机高度契合.但是,深层脉冲神经网络需要消耗大量存储空间以及神经元计算资源,严重限制了其在边缘计算场景的部署.本文基于特征维度映射原理,提出面向嵌入式系统的轻量化脉冲神经网络,降低存储需求、提高运行效率并提高网络性能.首先,通过分析网络参数量与网络拟合功能间的关系,明确了约束脉冲神经网络能力的参数瓶颈问题.随后,基于低维特征提取–融合策略提出一种通用轻量化特征提取结构SpikeFire,该模块在保证感受野和特征维度等基本性质不变的前提下大幅减少了网络参数.此外,模拟脑神经元复杂连接特性,模块中采用跳层连接,这既增加多尺度信息提取又有助于深层次网络的优化.最后,将本文所提轻量化网络部署在嵌入式硬件中,开发出了事件驱动的成... 相似文献
7.
视觉位置识别是指利用视觉信息实现对智能体位置的判断,在回环检测、视觉重定位等任务中发挥了重要作用。由于传统算法受环境变化的影响较大,识别准确率低,基于深度学习的视觉位置识别算法得到广泛研究,然而,基于深度学习的方法存在着可解释性差、计算量大、对环境变化适应性不够强、对图像信息的利用不够充分等问题。结合图像的语义信息和显著性检测设计了图像的全局描述符提取方式,并基于注意力机制和语义信息设计了的空间校验方法。实验表明,该方法在光照变化环境下的准确率和召回率等指标上都能够达到先进水平,同时也满足轻量级的要求。 相似文献
8.
事件可信度是对文本中事件真实情况的一种描述,是自然语言处理领域许多相关应用的基本任务。目前,大多数关于事件可信度的相关研究都是使用标注的事件进行事件可信度识别,不方便实际应用,并且忽略了不同事件源对事件可信度的影响。针对现有问题,提出了一个端到端的事件可信度识别的联合模型JESF。该模型可以同时进行事件识别、事件源识别、事件可信度识别3个任务;使用BERT(Bidirectional Encoder Representations from Transformers)和语言学特征加强单词的语义表示;使用注意力机制(Attention)和依存句法树构建图卷积神经网络(Graph Convolutional Network, GCN),以有效地提取语义和句法特征。特别地,该模型也可以应用于只考虑默认源(文本作者)的事件可信度任务。在FactBank, Meantime, UW, UDS-IH2等语料上的实验结果显示,所提模型优于基准模型。 相似文献
9.
近几年来,人工智能的热度一直居高不下,其中作为人机交互的一种重要方法—人脸表情识别已经成为计算机视觉研究的热点.从传统的机器学习算法到现在的深度学习,识别效率也在不断地提高,为了进一步提高人脸表情识别率,在传统的卷积神经网络的基础上,提出了一种基于改进的ResNet卷积神经网络的表情识别方法.该方法基于ResNet网络... 相似文献
10.
11.
针对语音情感识别任务中说话者的差异性,计算谱特征的一阶差分、二阶差分组成三通道的特征集输入二维网络。结合卷积神经网络、双向长短时记忆网络以及注意力机制建立基线模型,引入深度残差收缩网络分配二维网络中的通道权重,进一步提高语音情感识别的精度。为提升模型的学习效果,采取特征层融合(特征向量并行和特征向量拼接两种方式)和决策层融合(平均得分和最大得分两种方式)等不同信息融合机制。结果表明:(1)特征层融合中的特征向量并行策略是更有效的方式;(2)本文提出模型在CASIA和EMO-DB数据库下分别取得了84.93%和86.83%的未加权平均召回率(Unweighted average recall, UAR),相较于基线模型,引入深度残差收缩网络后的模型在CASIA和EMO-DB数据库上的未加权召回率分别提高5.3%和6.2%。 相似文献
12.
基于有监督Kohonen神经网络的步态识别 总被引:1,自引:0,他引:1
表面肌电信号随着时间的变化而改变,这将影响运动模式的分类精度.传统人体下肢假肢运动模式的识别算法不能保证在整个肌电控制时间内达到对运动模式的有效识别.为了解决这些问题,本文提取步态初期200ms的信号的特征值,将无监督和有监督的Kohonen神经网络算法应用到大腿截肢者残肢侧的步态识别中,并与传统BP神经网络进行了对比.结果表明,有监督的Kohonen神经网络算法将五种路况下步态的平均识别率提高到88.4%,优于无监督的Kohonen神经网络算法和BP神经网络. 相似文献
13.
针对有色金属领域实体识别问题,提出一种基于深度神经网络(deep neural network, DNN)架构的有色金属领域实体识别方法.为能有效获取有色金属领域实体中字符间的紧密结合特征,并回避专业领域中文分词问题,使用神经网络的方法自动学习中文字符embeddings向量化表示作为模型输入.基于降噪自动编码器(denoising autoencoder, DAE)对深度神经网络的每个隐层进行逐层预训练获取用于有色金属领域实体识别的最优特征向量组合,并详细介绍了基于神经语言模型的文本窗口降噪自动编码器预训练及有色金属实体识别的深层网络构建过程.为验证方法的有效性,对有色金属领域产品名、矿产名、地名、组织机构4类实体识别进行实验.实验结果表明,提出的方法对于专业领域的实体识别具有较好的效果. 相似文献
14.
基于DNN的低资源语音识别特征提取技术 总被引:1,自引:0,他引:1
针对低资源训练数据条件下深层神经网络(Deep neural network,DNN)特征声学建模性能急剧下降的问题,提出两种适合于低资源语音识别的深层神经网络特征提取方法.首先基于隐含层共享训练的网络结构,借助资源较为丰富的语料实现对深层瓶颈神经网络的辅助训练,针对BN层位于共享层的特点,引入Dropout,Maxout,Rectified linear units等技术改善多流训练样本分布不规律导致的过拟合问题,同时缩小网络参数规模、降低训练耗时;其次为了改善深层神经网络特征提取方法,提出一种基于凸非负矩阵分解(Convex-non-negative matrix factorization,CNMF)算法的低维高层特征提取技术,通过对网络的权值矩阵分解得到基矩阵作为特征层的权值矩阵,然后从该层提取一种新的低维特征.基于Vystadial 2013的1小时低资源捷克语训练语料的实验表明,在26.7小时的英语语料辅助训练下,当使用Dropout和Rectified linear units时,识别率相对基线系统提升7.0%;当使用Dropout和Maxout时,识别率相对基线系统提升了12.6%,且网络参数数量相对其他系统降低了62.7%,训练时间降低了25%.而基于矩阵分解的低维特征在单语言训练和辅助训练的两种情况下都取得了优于瓶颈特征(Bottleneck features,BNF)的识别率,且在辅助训练的情况下优于深层神经网络隐马尔科夫识别系统,提升幅度从0.8%~3.4%不等. 相似文献
15.
针对卷积神经网络在图像识别任务上模型复杂度大、参数量多,首先提出了一种轻量化的SepNet网络结构,该结构在分类器模块上采用克罗内克积替换了传统的全连接层.为进一步优化网络结构,在特征提取模块均衡网络深度、宽度,设计了一个利用深度可分离卷积和残差网络的可分离残差模块,最终形成了一个能实现端到端训练的轻量化网络架构,称为... 相似文献
16.
17.
基于时序深度置信网络的在线人体动作识别 总被引:1,自引:0,他引:1
在线人体动作识别是人体动作识别的最终目标,但由于如何分割动作序列是一个待解决的难点问题,因此目前大多数人体动作识别方法仅关注在分割好的动作序列中进行动作识别,未关注在线人体动作识别问题.本文针对这一问题,提出了一种可以完成在线人体动作识别的时序深度置信网络(Temporal deep belief network, TDBN)模型.该模型充分利用动作序列前后帧提供的上下文信息,解决了目前深度置信网络模型仅能识别静态图像的问题,不仅大大提高了动作识别的准确率,而且由于该模型不需要人为对动作序列进行分割,可以从动作进行中的任意时刻开始识别,实现了真正意义上的在线动作识别,为实际应用打下了较好的理论基础. 相似文献
18.
针对焊缝X射线图像缺陷识别传统方法的计算量大与准确度差的问题,提出了基于MobileNet的识别方法。首先对样本图像进行预处理和数量上的增强;然后引入MobileNet结构以解决传统深度卷积神经网络中对计算资源要求高的问题,引入残差结构与ELU激活函数以解决原始MobileNet网络中出现的退化问题与权重偏置更新失效的问题,在训练时应用迁移学习方法,解决小数据集容易过拟合与训练效率低的问题;最后,针对相同数据集,与改进前的网络、AlexNet网络和VGG-16网络进行对比,表明该文方法具备更优的识别准确率和相比传统网络拥有更小的计算量,相比传统网络的缺陷识别方法拥有更大的应用范围。 相似文献
19.
一种模块化神经网络结构用于模式识别 总被引:1,自引:0,他引:1
在模式识别中,通常直接用神经网络来处理复杂的多类分类问题,其识别的误判率较大。该文基于任务分解与模块整合的思想,提出了一个模块化Kohonen神经网络(KTD)结构用于模式分类,给出了其学习方法并做了模拟仿真,模拟仿真表明KTD能够获得较高的识别率且误判率较小。 相似文献