首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
针对自然环境中存在人脸遮挡、姿势变化等复杂因素,以及卷积神经网络(CNN)中的卷积滤波器由于空间局部性无法学习大多数神经层中不同面部区域之间的长程归纳偏差的问题,提出一种用于动态人脸表情识别(DFER)的混合注意力机制模型(HA-Model),以提升DFER的鲁棒性和准确性。HA-Model由空间特征提取和时序特征处理两部分组成:空间特征提取部分通过两种注意力机制——Transformer和包含卷积块注意力模块(CBAM)的网格注意力模块,引导网络从空间角度学习含有遮挡、姿势变化的鲁棒面部特征并关注人脸局部显著特征;时序特征处理部分通过Transformer引导网络学习高层语义特征的时序联系,用于学习人脸表情特征的全局表示。实验结果表明,HA-Model在DFEW和AFEW基准上的准确率分别达到了67.27%和50.41%,验证了HA-Model可以有效提取人脸特征并提升动态人脸表情识别的精度。  相似文献   

2.
针对现有的交通标志识别算法在识别率和识别速度等方面存在的不足,在空间不变性方面还可以进一步利用的问题,提出一种基于空间变换网络和注意力机制的交通标志识别算法.首先将交通标志图片经过数据增强,然后输入到空间变换网络中,使得图片具有空间不变性,经过卷积层提取特征和池化层降维,提取图片抽象语义信息进行分类,在模型中加入改进的...  相似文献   

3.
运用命名实体识别算法从海量医疗文本中抽取信息,对于构建知识图谱、对话系统等具有重要意义.然而医疗实体间存在嵌套、歧义和专业术语缩写多样性的问题,传统的基于统计的方法对于实体边界的定位存在较大偏差.考虑到医疗文本的复杂性,提出了多层Transformer模型,基于其multi-head和self-attention机制提...  相似文献   

4.
受人脑视觉感知机制启发,在深度学习框架下提出基于注意力机制的时间分组深度网络行为识别算法.针对局部时序信息在描述持续时间较长的复杂动作上的不足,使用视频分组稀疏抽样策略,以更低的成本进行视频级时间建模.在识别阶段引入通道注意力映射,进一步利用全局特征信息和捕捉分类兴趣点,执行通道特征重新校准,提高网络的表达能力.实验表明,文中算法在UCF101、HMDB51数据集上的识别准确率较高.  相似文献   

5.
本文采用引入人类视觉系统的注意力机制对AlexNet网络模型进行改进,通过融入注意力机制对AlexNet注意力机制网络进行研究,并通过CIFAR-10数据集进行实验对比验证.实验对比结果表明,AlexNet注意力机制网络模型比传统AlexNet网络模型具有更好的分类效果,其分类准确率提升了2%.  相似文献   

6.
7.
目的 视频异常检测通过挖掘正常事件样本的模式来检测不符合正常模式的异常事件。基于自编码器的模型广泛用于视频异常检测领域,由于自监督学习的特征提取具有一定盲目性,使得网络的特征表达能力有限。为了提升模型对正常模式的学习能力,提出一种基于Transformer和U-Net的视频异常检测方法。方法 首先,编码器对输入的连续帧进行下采样提取低层特征,并将最后一层特征图输入Transformer编码全局信息,学习特征像素之间的相关信息。然后解码器对编码特征进行上采样,通过跳跃连接与编码器中相同分辨率的低层特征融合,将全局空间信息与局部细节信息结合从而实现异常定位。针对近景康复动作的异常反馈需求,本文基于周期性动作收集了一个室内近景数据集,并进一步引入动态图约束引导网络关注近景周期性运动区域。结果 实验在4个室外公开数据集和1个室内近景数据集上与同类方法比较。在室外数据集CUHK(Chinese University of Hong Kong)Avenue,UCSD Ped1(University of California, San Diego, pedestrian1),UCSD Ped2,L...  相似文献   

8.
在长文本数据中存在很多与主题不相关词汇,导致这些文本数据具有信息容量大、特征表征不突出等特点。增加这些文本中关键词汇的特征影响,是提高文本分类器性能需要解决的问题。提出一种结合自注意力机制的循环卷积神经网络文本分类模型RCNN_A。注意力机制对文本词向量计算其对正确分类类别的贡献度,得到注意力矩阵,将注意力矩阵和词向量矩阵相结合作为后续结构的输入。实验结果表明,RCNN_A在10类搜狗新闻数据集上,得到了97.35%的分类正确率,比Bi-LSTM(94.75%)、Bi-GRU(94.25%)、TextCNN(93.31%)、RCNN(95.75%)具有更好的文本分类表现。通过在深度神经网络模型中引入注意力机制,能够有效提升文本分类器性能。  相似文献   

9.
魏紫薇  屈丹  柳聪 《计算机工程》2022,48(7):220-226
全民安全意识的逐步提高使得智能监控设备遍布各大公共场所,行人重识别作为视频分析的关键技术之一,被广泛应用于智能安防、自动驾驶等领域。为了提高真实环境下跨摄像头行人检索的识别精度,提出一种基于注意力机制的行人重识别特征提取方法。在数据处理阶段,考虑不同训练数据量下识别效果存在差异的问题,对行人图片采用自动增强方法进行数据增强,以提高数据集规模。在特征提取阶段,将连接注意力模块与ResNet50残差网络相结合构成特征提取网络,提取显著性更强的行人特征。在损失优化阶段,采用三元组损失和圆损失对行人特征进行优化并完成距离度量,最终根据距离的远近得到行人排序结果。实验结果表明,在Market1501数据集上该方法的Rank-1值和mAP值分别达到95.90%和89.66%,在DukeMTMC-reID数据集上Rank-1值和mAP值分别达到91.16%和81.24%,在MSMT17数据集上Rank-1值和mAP值分别达到84.37%和62.73%,与现有经典行人重识别方法PCB、MGN、Pyramid、OSNet等相比,其网络识别性能评价指标均有明显提升。  相似文献   

10.
近年来,基于位置服务的应用逐渐开始普及,它在为人们生活提供便利的同时,也对个人隐私造成了巨大威胁.现有研究表明,在具备大量历史轨迹数据的情况下,攻击者能够从匿名化的轨迹数据集中识别出用户身份与轨迹的链接关系.然而,这些相关研究都面临着数据稀疏和数据质量差这两方面的问题.数据稀疏指用户的轨迹往往只分布在局部区域,同时缺乏...  相似文献   

11.
针对焊缝X射线图像缺陷识别传统方法的计算量大与准确度差的问题,提出了基于MobileNet的识别方法。首先对样本图像进行预处理和数量上的增强;然后引入MobileNet结构以解决传统深度卷积神经网络中对计算资源要求高的问题,引入残差结构与ELU激活函数以解决原始MobileNet网络中出现的退化问题与权重偏置更新失效的问题,在训练时应用迁移学习方法,解决小数据集容易过拟合与训练效率低的问题;最后,针对相同数据集,与改进前的网络、AlexNet网络和VGG-16网络进行对比,表明该文方法具备更优的识别准确率和相比传统网络拥有更小的计算量,相比传统网络的缺陷识别方法拥有更大的应用范围。  相似文献   

12.
目的 现有图像级标注的弱监督分割方法大多利用卷积神经网络获取伪标签,其覆盖的目标区域往往过小。基于Transformer的方法通常采用自注意力对类激活图进行扩张,然而受其深层注意力不准确性的影响,优化之后得到的伪标签中背景噪声比较多。为了利用该两类特征提取网络的优点,同时结合Transformer不同层级的注意力特性,构建了一种结合卷积特征和Transformer特征的自注意力融合调制网络进行弱监督语义分割。方法 采用卷积增强的Transformer (Conformer)作为特征提取网络,其能够对图像进行更加全面的编码,得到初始的类激活图。设计了一种自注意力层级自适应融合模块,根据自注意力值和层级重要性生成融合权重,融合之后的自注意力能够较好地抑制背景噪声。提出了一种自注意力调制模块,利用像素对之间的注意力关系,设计调制函数,增大前景像素的激活响应。使用调制后的注意力对初始类激活图进行优化,使其覆盖较多的目标区域,同时有效抑制背景噪声。结果 在最常用的PASCAL VOC 2012(pattern analysis,statistical modeling and computational learning visual object classes 2012)数据集和COCO 2014 (common objectes in context 2014)数据集上利用获得的伪标签进行分割网络的训练,在对比实验中本文算法均取得最优结果,在PASCAL VOC验证集上,平均交并比(mean intersection over union,mIoU)达到了70.2%,测试集上mIoU值为70.5%,相比对比算法中最优的Transformer模型,其性能在验证集和测试集上均提升了0.9%,相比于卷积神经网络最优方法,验证集上mIoU提升了0.7%,测试集上mIoU值提升了0.8%。在COCO 2014验证集上结果为40.1%,与对比算法中最优方法相比分割精度提高了0.5%。结论 本文提出的弱监督语义分割模型,结合了卷积神经网络和Transformer的优点,通过对Transformer自注意力进行自适应融合调制,得到了图像级标签下目前最优的语义分割结果,该方法可应用于三维重建、机器人场景理解等应用领域。此外,所构建的自注意力自适应融合模块和自注意力调制模块均可嵌入到Transformer结构中,为具体视觉任务获取更鲁棒、更具鉴别性的特征。  相似文献   

13.
在实际应用场景下,通过图像识别的方式来识别小麦的病虫害具有极大的挑战性。与以往纯粹基于卷积神经网络(Convolutional Neural Network, CNN)的方法相比,将小麦图像转换成一系列视觉语言,并从全局视角进行小麦识别的方法是更可行和实用的。运用Convolutional Visual Transformers(CVT)来解决小麦识别分为2个环节。首先,利用2分支CNN生成的2种特征图来实现注意选择性融合(Attentional Selective Fusion, ASF)。ASF通过融合多个特征和全局-局部注意力来获取有区别的信息,并投射成一系列的视觉语言。其次,受Transformers在自然语言处理方面的成功启发,用全局自注意力来建模这些视觉语言之间的关系。将CVT与经典分类网络LeNet-5、ResNet-18、VGG-16、EfficientNet对比,识别率有所提升,同时该方法具有良好的泛化能力。  相似文献   

14.
雨天作为较常见的一种自然天气情况,会极大地影响户外视觉系统所拍摄到的图像和视频数据的成像质量并制约后续高级计算机视觉任务的性能;针对目前除雨算法存在伪影残留、细节丢失等问题,为了充分提取图像特征,有效去除雨条纹,提高除雨效率,提出一种新颖的单阶段深度学习除雨方法;采用高效卷积和跨尺度自注意力相结合的方式,弥补纯卷积网络无法满足的全局特征建模能力;嵌入多尺度空间特征融合模块,有效增加网络的感受野,增强网络对不同分布的雨条纹特征的学习能力;设计了一种混合损失函数,利用各损失函数的优势来弥补单一损失函数表现出来的缺陷;经过在不同类型数据集上的大量实验证明,该算法不仅能够有效去除雨条纹,充分保留背景细节,而且处理速度也有显著的提升。  相似文献   

15.
视频监控系统中的人员异常行为识别研究具有重要意义.针对传统算法检测实时性和准确性差,易受环境影响的问题,提出一种基于骨架序列提取的异常行为识别算法.首先,改进YOLOv3网络用以对目标进行检测、结合RT-MDNet算法进行跟踪,得到目标的运动轨迹;然后,利用OpenPose模型提取轨迹中目标的骨架序列;最后通过时空图卷积网络结合聚类对目标进行异常行为识别.实验结果表明,在存在光照变化的复杂环境下,算法识别准确率达94%,处理速度达18.25 fps,能够实时、准确地识别多种目标的异常行为.  相似文献   

16.
细粒度图像识别旨在从类别图像中辨别子类别。由于图像间只有细微差异,这使得识别任务具有挑战性。随着深度学习技术的不断进步,基于深度学习的方法定位局部和表示特征的能力越来越强,其中以卷积神经网络(CNN)和Transformer为基础的各类算法大大提高了细粒度图像识别精度,细粒度图像领域得到了显著发展。为了整理两类方法在细粒度图像识别领域的发展历程,对该领域近年来只运用类别标签的方法进行了综述。介绍了细粒度图像识别的概念,详细阐述了主流细粒度图像数据集;介绍了基于CNN和Transformer的细粒度图像识别方法及其性能;最后,总结了细粒度图像识别未来的研究方向。  相似文献   

17.
李文英  曹斌  曹春水  黄永祯 《自动化学报》2018,44(11):2023-2030
考古出土的青铜器铭文是非常宝贵的文字材料,准确、快速地了解其释义和字形演变源流对考古学、历史学和语言学研究均有重要意义.青铜器铭文的辨识需要综合文字的形、音、义进行研究,其中第一步也是最重要的一步就是分析文字的形体特征.本文提出一种基于两阶段特征映射的神经网络模型来提取每个文字的形体特征,最后对比目前已知的文字研究成果,如《古文字类编》、《说文解字》,得出识别的结果.通过定性和定量的实验分析,我们发现本文提出的方法可达到较高的识别精度.特别地,在前10个预测类别中(Top-10)准确率达到了94.2%,大幅缩小了考古研究者的搜索推测空间,提高了青铜铭文识别的效率和准确性.  相似文献   

18.
水面污染严重影响水面景观和水体生态. 针对识别水面污染过程中水面场景复杂、小目标污染物特征难以提取等问题, 本文提出一种基于深度可分离卷积与交叉注意力算法模块(deep-wise convolution and cross attention, DCCA). 使用深度可分离卷积降低模型的参数量和计算量, 使用交叉注意力建立不同尺度特征图之间的关系, 使模型更好地理解上下文信息并提高识别复杂场景和小目标的能力. 实验结果表明, 添加DCCA模块后平均精确率提升了1.8%, 达到了88.7%. 并使用较少的显存占用提高了水面污染的检测效果.  相似文献   

19.
二维人脸识别受光照、遮挡和姿态的影响较大.为了克服二维人脸识别的缺点,本文提出了一种基于深度学习的多模态融合三维人脸识别算法.该方法首先使用卷积自编码器将彩色图像和深度图进行融合,将融合后的图像作为网络的输入进行预训练,并且设计了一种新的损失函数cluster loss,结合Softmax损失,预训练了一个精度非常高的模型.之后使用迁移学习将预训练的模型进行微调,得到了一个轻量级神经网络模型.将原始数据集进行一系列处理,使用处理之后的数据集作为测试集,测试的识别准确率为96.37%.实验证明,该方法弥补了二维人脸识别的一些缺点,受光照和遮挡的影响非常小,并且相对于使用高精度三维人脸图像的三维人脸识别,本文提出的算法速度快,并且鲁棒性高.  相似文献   

20.
人脸表情识别是模式识别领域中一个重要的研究方向。传统的机器学习方法受限于需要手动提取特征,该方式会导致识别结果的泛化能力不足,且稳定性较差。针对该限制,设计了一种基于深度学习的人脸表情识别算法,该算法通过卷积神经网络提取特征,然后经过全局空间注意力模块对特征分配权重,增强并融合重要特征、抑制边缘特征,从而提升网络分类的准确性。通过在FER2013人脸表情数据集上的实验,验证了该算法的合理性与有效性,最高达到了1.014%的准确度提升。最后,将算法应用于真实场景下的人脸表情识别,同样能拥有较高的识别精度,验证了该算法在真实环境下的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号