首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 203 毫秒
1.
人体动作识别是计算机视觉领域的研究热点之一,在人机交互、视频监控等方面具有深远的理论研究意义。为了解决2D CNN无法有效获取时间关系等问题,利用Transformer在建模长期依赖关系上的优势,引入Transformer架构并将其与2D CNN相结合用于人体动作识别,以更好地捕获上下文时间信息。首先使用融合通道-空间注意力模块的2D CNN提取强化的帧内空间特征,其次利用Transformer捕捉帧间的时间特征,最后应用MLP Head进行动作分类。实验结果表明在HMDB-51数据集和UCF-101数据集上分别达到了69.4%和95.5%的识别准确度。  相似文献   

2.
基于深度哈希的图像检索方法往往利用卷积和池化技术去提取图像局部信息,并且需要不断加深网络层次来获得全局长依赖关系,这些方法一般具有较高的复杂度和计算量。本文提出了一种注意力增强的视觉Transformer图像检索算法,算法使用预训练的视觉Transformer作为基准模型,提升模型收敛速度,通过对骨干网络的改进和哈希函数的设计,实现了高效的图像检索。一方面,本文设计了一个注意力增强模块,来捕获输入特征图的局部显著信息和视觉细节,学习相应的权重以突出重要特征,并增强输入到Transformer编码器的图像特征的表征力。另一方面,为了提高图像检索的效率,设计了一种对比哈希损失函数,生成具有判别力的二进制哈希码,从而降低了内存需求与计算复杂度。在CIFAR-10和NUS-WIDE数据集上的实验结果表明,本文提出的方法,在两个不同数据集上使用不同哈希码长度的平均精度均值达到了96.8%和86.8%,性能超过多种经典的深度哈希算法和其他两种基于Transformer架构的图像检索算法。  相似文献   

3.
视觉Transformer网络的高精度诊断性能依赖于充分的训练数据,利用卷积网络在提取局部特征上的优势,构造能同时描述故障局部和全局特征的提取层,提高诊断模型的抗噪声干扰能力。首先,引入卷积网络模块将原始振动信号转换为Transformer网络可以直接接收的特征向量,提取故障局部特征,并通过增加卷积网络的感受野。然后,结合Transformer网络多头自注意力机制生成的全局信息,构建能同时描述故障局部和全局特征的特征向量。最后,在Transformer网络的预测层,利用高效通道注意力机制对特征向量的贡献度进行自动筛选。在西储大学(CWRU)轴承数据集上的故障诊断结果表明,在信噪比-4 dB的噪声干扰下,改进后的Transformer网络轴承故障诊断模型的准确率达90.21%,与原始Transformer模型相比,准确率提高了13.2%,在噪声环境下表现出优异的诊断性能。  相似文献   

4.
针对在滚动轴承的故障诊断中,一维信息无法充分挖掘数据特征的问题,提出一种基于卷积神经网络–视觉Transformer(Convolutional neural networks-vision transformer,CNN-ViT)的滚动轴承故障类型识别模型。首先将一维时域振动信号转化为二维灰度图以更好地表现数据特征,并在ViT模型基础上增加CNN对二维灰度图进行上采样,解决了挖掘数据特征不足以及ViT模型训练时的稳定性问题。通过所提模型对轴承不同故障类型及不同损伤程度进行识别。为了验证所提方法的有效性,采用某数据集进行实验验证,同时将所提方法与其他深度学习模型的诊断结果进行了对比。验证结果表明,该方法的准确率为99.4%,具有较高的精度。  相似文献   

5.
微博短文本情感分析的目的是发现用户对热点事件的观点及态度。已有的方法大多是基于词袋模型,然而,词袋模型无法准确捕获带有情感倾向性的语言表现特征。结合卷积神经网络(CNN)和长短期记忆网络(LSTM)模型的特点,提出了卷积记忆神经网络模型(CMNN),并基于此模型来解决情感分析问题。与传统算法相比,模型避免了具体任务的特征工程设计;与CNN和LSTM相比,模型既能够有效提取短文本局部最优特征,又能够解决远距离的上下文依赖。通过在COAE2014数据集上的实验来验证了模型对微博短文本情感分析的有效性。并与CNN、LSTM以及传统模型SVM做了实验对比,结果表明,模型对于微博短文本情感分析在性能上优于其他3种模型。  相似文献   

6.
针对当前网络流量瞬时涌现导致网络安全事故骤增、网络管理负担加重等问题,基于深度学习技术提出了ResNet和一维Vision Transformer并行的网络结构对网络流量进行识别并分类。其中ResNet可以提取到流量数据在空间上深层次的特征,能够保证流量识别的准确率;一维Vision Transformer可以提取到更具代表性的时序特征。利用注意力机制将两种特征进行自适应融合得到更全面的特征表示,以提高网络识别流量的能力。在ISCX VPN-nonVPN数据集上进行实验表明:所提方法在流量的应用程序分类实验中的准确率达到了99.5%,相较于单独的ResNet和一维Vision Transformer以及经典的一维CNN和CNN+长短时记忆网络分别提高了0.9%、3.6%、6.6%和3.3%。在USTC-TFC 2016数据集上,所提方法在能够轻松识别流量是否为恶意流量的基础上,实现了对13种应用程序的分类,且平均分类准确率达到了98.92%,证明了其具有识别恶意流量并完成细粒度分类任务的能力。  相似文献   

7.
针对传统PD模式识别用统计特征量需要依赖专家经验而缺乏一定的泛化性问题和卷积神经网络(CNN)模式识别算法缺乏PD图谱时序特征信息的问题,文中构建了基于CNN-LSTM深度学习的PD PRPD图谱模式识别模型,该模型综合了CNN善于挖掘PRPD图谱局部空间信息的优点和长短时记忆网络(LSTM)善于挖掘PD图谱时序特征信息的优点,可同时提取PRPD图谱的局部空间特征和时序特征,利用变压器典型绝缘缺陷放电图谱对构建的网络进行性能测试,并与CNN和LSTM对比,结果表明,对于PD图谱稳定的悬浮电位缺陷,CNN-LSTM和CNN的识别能力均为100%,但是对于金属突出物缺陷、油纸气隙缺陷和沿面放电缺陷,CNN-LSTM的识别能力优于CNN,CNN-LSTM网络的整体识别性能优于CNN和LSTM。  相似文献   

8.
鉴于X射线辐射对患者存在的潜在风险,许多临床适应症使用低剂量计算机断层扫描(LDCT)成像,以最大限度地降低辐射剂量,同时不显著影响筛查或诊断性能。然而,计算机断层扫描(CT)成像过程中,低辐射剂量产生的噪声会降低CT图像质量,从而影响临床诊断准确性。因此,需要对低剂量CT图像进行重建,提高图像质量。视觉Transformer相比卷积神经网络(CNN)具有更卓越的特征表示能力。与CNN不同,Transformer在LDCT去噪中少有应用,为了发掘Transformer的优异特征提取能力,以实现LDCT高效去噪,提出了一种基于移动窗口多层级Transformer低剂量CT重建网络。该网络使用移动窗口方法将自注意计算限制在非重叠的局部窗口,同时允许跨窗口连接,从而提高了效率,并且降低了数据计算复杂性。此外,网络末端设计了分段残差重建模块,以此进一步实现高质量低剂量CT图像重建。对Mayo低剂量CT数据集的广泛实验表明,与经典方法相比该方法能产生更高质量的重建效果。  相似文献   

9.
基于高密度遮挡下鸟巢识别正确率低的问题,提出一种基于Transformer技术改进的Yolov5变电站鸟巢识别算法模型。首先将现有Yolov5算法原本的Yolo预测头(Yolo Prediction Heads)替换为Transformer预测头(Transformer Prediction Heads, TPH),同时,为了提高对小物体的检测能力新增了一个预测头。然后嵌入卷积注意力模块(Convolutional Block Attention Module, CBAM),提取注意区域,以抵制干扰信息,关注有用的目标对象。最后利用CSPDarknet53结构设计思想,提取最终的特征图,经CSP模块将输出的特征图进行快速降维。实验结果表明,对比Yolov5算法,TPH-Yolov5算法的mAP(Meanaverage Precision)值提高了15.7%。  相似文献   

10.
不确定目标物自动识别是研发无人化智能起重装卸系统的关键,目前有效的技术是基于深度学习的实例分割。设计了一个融合CNN和Transformer的异构特征信息的模块,以解决当前实例分割主干网络存在的提取图像全局上下文特征信息的能力有限、卷积算子难以对感受野的长程相关性进行建模、以及识别纹理特征单一目标时缺乏足够的深度线索等问题。通过利用Transformer建模全局依赖关系,并与CNN提取局部信息的能力相融合;然后通过引入Dense RepPoints检测网络构建了针对不确定目标物的实例分割网络,实现准确分割且能分割其不同表面。应用实验结果表明本方法具有达到很好的实例分割效果,AP达到9882%、mIoU达到9189%,分别比目前同类的研究成果提升了495%和542%。  相似文献   

11.
随着传感器、微电子等技术的发展,通过可穿戴式传感器对人体的运动模式进行识别,具有广泛的应用价值,如何提高识别的准确率,具有重要研究意义。考虑到人体下肢运动的特点,本文提出了一种基于CNN和Mogrifier LSTM的人体运动模式识别算法,先利用CNN提取原始数据的局部相关特征,再使用Mogrifier LSTM代替全连接层,挖掘局部相关特征的前后依赖关系,对行走、跑步、上楼梯、下楼梯、上坡和下坡六种常见的运动模式进行识别。实验结果表明,相比于传统LSTM算法,Mogrifier LSTM的准确率提升了1.03%,将CNN和Mogrifier LSTM相结合后,准确率进一步提升了1.17%,达到了98.18%,证明了算法的优越性。  相似文献   

12.
为了进一步提升从单目二维人体姿态预测三维人体姿态的方法性能,提出一种融合 Transformer 和语义图卷积的三 维人体姿态估计模型,模型由4个部分组成,Transformer 编码网络、语义图卷积编码网络、姿态坐标预测模块和姿态坐标错 误回归模块。首先,Transformer编码网络对关节特征进行全局特征编码,以增强人体姿态的全局关联性。其次,语义图卷积 编码网络专注于局部关节特征提取,以加强局部关节特征之间的关联性。接下来,姿态坐标预测模块和姿态坐标错误回归模 块将关节全局和局部编码特征融合,以增强对三维姿态的准确建模能力。通过在 Human3.6M 数据集上进行实验表明,方法 在估计性能方面取得了较好的改进,以真实的二维人体姿态作为输入,在 MPJPE 和 PA-MPJPE 值分别为32.7和25.9 mm, 与实验对照方法相比,性能分别提升了3.82%和1.14%。  相似文献   

13.
针对基于图卷积的骨架行为识别方法在建模关节特征时严重依赖手工设计图形拓扑,缺乏建模全局关节间依赖关系的缺点,设计了一种时空卷积Transformer实现对空间和时间关节特征的建模。空间关节特征建模中,提出一种动态分组解耦Transformer,通过将输入骨架序列在通道维度进行分组并为每个组动态生成不同的注意力矩阵,允许建模关节之间的全局空间依赖关系,无需事先知道人体拓扑结构。时间关节特征建模中,通过多尺度时间卷积实现对不同时间尺度行为特征的提取。最后,提出一种时空-通道联合注意力模块,进一步对所提取到的时空特征进行修正。在NTU-RGB+D和NTU-RGB+D 120数据集的跨主体评估标准上达到了92.5%和89.3%的Top1识别准确率,实验结果表明了所提方法的有效性。  相似文献   

14.
针对基于主题的文本分类任务存在的主题特征表征能力不足、数据高维导致的特征维度高等问题,本文对输入的特征表示与卷积神经网络结构(CNN)做出了改进。在特征表示时提出了使用LDA模型计算逆主题空间频率从而得到文本的主题向量矩阵,降低了噪声主题的特征表达,增强了关键主题的权重;分别将文本的主题向量矩阵与词向量矩阵作为CNN模型的输入。提出了双层CNN网络结构,在每层CNN的池化层后增加一层多通道池化层,以融合每层CNN的池化结果,降低特征维度的同时获取更多的局部显著特征;最后使用Attention机制对融合的特征进行加权后输入到全连接层进行分类。由实验结果可知,改进的模型在文本分类任务上的准确率、召回率均在98%以上,F1值较基准实验提高了近6%。  相似文献   

15.
为提升无人机大范围弱纹理场景下的状态估计,提出一种改进视觉惯性里程计融合GPS的定位方法。首先,通过在视觉惯性里程计中加入线特征来表示环境的几何结构信息,提升位姿估计的准确性;其次,通过引入长度阈值筛选,剔除对位姿估计贡献不大的短线段,改善特征追踪的鲁棒性;最后,使用非线性优化的方式,将GPS测量信息和改进的视觉惯性里程计融合,校正视觉惯性里程计的累积误差。基于EuRoC数据集仿真实验以及应用于无人机的真实场景实验表明,相较于原算法,加入线特征算法的定位误差在仿真实验中降低了39.14%,室内场景降低了23.48%,室外场景降低了33.58%。融合了GPS的点线特征算法相较于原算法,定位误差降低了53.99%。  相似文献   

16.
针对工业场景目标工件跟踪任务精度低、失败率高的问题,提出了多尺度Transformer在线更新的工件跟踪算法。首先,采用Transformer特征金字塔结构,融合多层次特征信息,以实现鲁棒的对目标表观建模;其次,使用Transformer模块对高级语义信息进行特征融合,使得网络模型专注于目标工件本身;然后,提出了基于排序的交并化(IoU)损失函数优化策略,有效地抑制干扰物对跟踪器影响;最后,设计一种在线更新策略更新目标模板,增强网络的鲁棒性。实验结果表明,在VOT-2018上准确率和失败率分别比基准跟踪器提高3.8%和4.1%,且能保持53 fps的实时跟踪速度;在LaSOT数据集上精度与成功率别为0.578和0.573,均优于基准跟踪器。通过CCD工业相机采集视频序列验证算法可以准确且鲁棒的跟踪目标工件。  相似文献   

17.
为进一步提高变压器有载分接开关(OLTC)故障识别的精度,从OLTC切换过程中振动信号递归图的纹理特征出发,提出了一种基于卷积神经网络(CNN)的变压器OLTC故障识别方法。首先根据OLTC振动信号的相空间分布,基于相点距离映射构建了OLTC振动信号的距离映射递归图(DMRP),然后通过合理选取CNN的网络层数、卷积核尺寸等结构超参数和对卷积核进行降维处理,提出了基于CNN的OLTC故障识别模型。对某CM型OLTC正常与典型故障下振动信号的计算结果表明,DMRP能自适应地对振动信号的相空间相点分布进行描述,所提出的识别模型对OLTC的典型故障均具有良好的识别性能,尤其在轻微故障的识别上相比于现有方法准确率提升了至少10%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号