首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 328 毫秒
1.
高琦煜  方虎生 《计算机科学》2017,44(Z11):199-201, 232
行人检测是计算机视觉领域中的经典问题,HOG结合SVM的方法是解决这一问题的有效途径,HOG对行人特征的有效描述起到了重要作用。卷积神经网络(CNN)作为一种有效的特征提取方法,通过特征图可以实现对特征更好的描述。提出将卷积神经网络(CNN)与传统的HOG+SVM算法相结合的方法。首先利用CNN在下采样层中可以使用不同的卷积核对数据进行不同角度特征描述的特点,对样本进行多角度浅层特征提取;然后用HOG对得到的浅层特征进行进一步的提取;最后采用支持向量机(SVM)完成训练、分类。实验表明,该方法对于行人检测具有很高的识别率,优于传统方法。  相似文献   

2.
为了克服单一神经网络模型提取表情特征困难,以及堆叠深层网络结构会造成训练过程复杂、参数冗余等问题,本文提出了一种引入注意力机制的轻量级CNN通道和卷积自编码器预训练通道的双通道模型.在轻量级CNN通道中以具有残差思想的深度可分离卷积结构进行深层次特征提取并且减少了模型参数量,还引入了通道域注意力机制使得该通道能够学习到...  相似文献   

3.
图像标题生成是指通过计算机将图像翻译成描述该图像的标题语句。针对现有图像标题生成任务中,未充分利用图像的局部和全局特征以及时间复杂度较高的问题,本文提出一种基于卷积神经网络(Convolution Neural Networks,CNN)和Transformer的混合结构图像标题生成模型。考虑卷积网络所具有的空间和通道特性,首先将轻量化高精度的注意力ECA与卷积网络CNN进行融合构成注意力残差块,用于从输入图像中提取视觉特征;然后将特征输入到序列模型Transformer中,在编码器端借助自注意学习来获得所参与的视觉表示,在语言解码器中捕获标题中的细粒度信息以及学习标题序列间的相互作用,进而结合视觉特征逐步得到图像所对应的标题描述。将模型在MSCOCO数据集上进行实验,BLEU-1、BLEU-3、BLEU-4、Meteor和CIDEr指标分别提高了0.3、0.5、0.7、0.4、1.6个百分点。  相似文献   

4.
针对现有行人属性识别方法模型复杂,识别性能较低的问题,提出一种端到端的行人属性识别方法。构建注意力机制修正网络,在主干网络的不同卷积层后添加注意力分支,以提取注意力特征关注属性相关空域;提出一种注意力机制辅助训练方法,将注意力分支与主网络在预测级进行损失融合,通过梯度反向传播修正主网络权重,实现主网络的有效训练;在预测阶段,利用权重修正后的主网络实现属性识别。在RAP数据集上的实验结果表明,提出方法在没有额外辅助信息、不增加主网络体积和计算量的情况下,提升了行人属性识别性能。  相似文献   

5.
目的 针对传统红外与可见光图像融合方法中人工设计特征提取和特征融合的局限性,以及基于卷积神经网络(convolutional neural networks, CNN)的方法无法有效提取图像中的全局上下文信息和特征融合过程中融合不充分的问题,本文提出了基于视觉Transformer和分组渐进式融合策略的端到端无监督图像融合网络。方法 首先,将在通道维度上进行自注意力计算的多头转置注意力模块和通道注意力模块组合成视觉Transformer,多头转置注意力模块解决了自注意力计算量随像素大小呈次方增大的问题,通道注意力可以强化突出特征。其次,将CNN和设计的视觉Transformer并联组成局部—全局特征提取模块,用来提取源图像中的局部细节信息和全局上下文信息,使提取的特征既具有通用性又具有全局性。此外,为了避免融合过程中信息丢失,通过将特征分组和构造渐进残差结构的方式进行特征融合。最后,通过解码融合特征得到最终的融合图像。结果 实验在TNO数据集和RoadScene数据集上与6种方法进行比较。主观上看,本文方法能够有效融合红外图像和可见光图像中的互补信息,得到优质的融合图像。从客观定量分析...  相似文献   

6.
结合卷积神经网络(CNN)和嵌套长短期记忆网络(NLSTM)2种模型,基于注意力机制提出一个用于文本表示和分类的CNLSTM模型。采用CNN提取短语序列的特征表示,利用NLSTM学习文本的特征表示,引入注意力机制突出关键短语以优化特征提取的过程。在3个公开新闻数据集中进行性能测试,结果表明,该模型的分类准确率分别为96.87%、95.43%和97.58%,其性能比baseline方法有显著提高。  相似文献   

7.
针对传统的人工特征选取需要耗费大量时间和精力的问题,本文在传统卷积神经网络(convolutional neural networks,CNN)模型的基础上,提出了一种基于多尺度卷积核CNN的特征提取与分类方法,并在脑电情绪识别分类上进行了验证.本文首先进行了通道选择方面的研究,其次使用多尺度卷积核CNN模型对提取了微分熵(differential entropy feature,DE)特征的脑电数据进行情绪三分类实验,相比于传统的CNN模型,多尺度卷积核CNN模型在卷积层中采用多个尺度的卷积核,同时从高维度与低维度对脑电信号进行二次特征提取.实验结果表明,预处理数据在33通道的情绪分类平均准确率为89.72%,几乎接近全通道的平均准确率;多尺度卷积核CNN在微分熵特征上的情绪三分类取得了98.19%的平均分类准确率,实验结果证明了该模型的有效性和鲁棒性.  相似文献   

8.
为了提高对混沌时间序列预测的精准度,提出了一种基于模糊信息粒化和注意力机制的混合神经网络预测模型。首先对数据进行归一化处理,利用模糊信息粒化对数据的复杂度进行简化;然后将经过相空间重构后的样本输入卷积神经网络(CNN)提取空间特征;再利用长短期记忆神经网络(LSTM)进一步提取时间特征;最后将融合特征传递给注意力机制提取关键特征,得出预测结果。选取Logistic、洛伦兹和太阳黑子混沌时间序列进行实验,并与CNN-LSTM-Att模型、CNN-LSTM模型、FIG-CNN模型、FIG-LSTM模型、CNN模型、LSTM模型、支持向量机(SVM)及误差逆传播(BP)模型进行对比分析。结果表明,所提的预测模型预测精度更高,误差更小。  相似文献   

9.
行人属性识别(pedestrian attribute recognition,PAR)的目的是从输入图像中挖掘行人的属性信息.近年来,卷积神经网络(convolution neural network,CNN)的兴起在行人属性识别中获得了广泛的应用.现有的方法多采用属性不可知的视觉注意或启发式的身体部位定位机制来增强...  相似文献   

10.
目的 跨摄像头跨场景的视频行人再识别问题是目前计算机视觉领域的一项重要任务。在现实场景中,光照变化、遮挡、观察点变化以及杂乱的背景等造成行人外观的剧烈变化,增加了行人再识别的难度。为提高视频行人再识别系统在复杂应用场景中的鲁棒性,提出了一种结合双向长短时记忆循环神经网络(BiLSTM)和注意力机制的视频行人再识别算法。方法 首先基于残差网络结构,训练卷积神经网络(CNN)学习空间外观特征,然后使用BiLSTM提取双向时间运动信息,最后通过注意力机制融合学习到的空间外观特征和时间运动信息,以形成一个有判别力的视频层次表征。结果 在两个公开的大规模数据集上与现有的其他方法进行了实验比较。在iLIDS-VID数据集中,与性能第2的方法相比,首位命中率Rank1指标提升了4.5%;在PRID2011数据集中,相比于性能第2的方法,首位命中率Rank1指标提升了3.9%。同时分别在两个数据集中进行了消融实验,实验结果验证了所提出算法的有效性。结论 提出的结合BiLSTM和注意力机制的视频行人再识别算法,能够充分利用视频序列中的信息,学习到更鲁棒的序列特征。实验结果表明,对于不同数据集,均能显著提升识别性能。  相似文献   

11.
当前行人属性识别(PAR)公开数据集中属性标注繁杂且采集场景多样,各数据集中行人属性差异较大,进而导致公开数据库已有的标记信息数据难以直接应用到PAR实际问题中。针对上述问题,提出一种基于领域自适应的多源多标签PAR方法。首先通过领域自适应方法对样本进行特征对齐完成多个数据集之间的统一风格转换;接着提出多属性one-hot编码加权算法,将多数据集中共有属性的标签对齐;最后结合多标签半监督损失函数,进行跨数据集联合训练以提高属性识别准确率。通过所提出的特征对齐和标签对齐算法,可有效解决PAR多数据集中属性异构性问题。将三个行人属性数据集PETA、RAPv1和RAPv2分别与PA-100K数据集对齐后的实验结果表明,所提出的方法对比StrongBaseline在平均准确率上分别提升了1.22、1.62和1.53个百分点,说明该方法在跨数据集PAR中具有一定的优势。  相似文献   

12.
王诗言  曾茜  周田  吴华东 《计算机工程》2021,47(3):269-275,283
目前多数利用卷积神经网络进行图像超分辨率重建的方法忽视对自然图像固有属性的捕捉,并且仅在单一尺度下提取特征。针对该问题,提出一种基于注意力机制和多尺度特征融合的网络结构。利用注意力机制融合图像的非局部信息和二阶特征,提高网络的特征表达能力,同时使用不同尺度的卷积核提取图像的不同尺度信息,以保存多尺度完整的信息特征。实验结果表明,该方法重建图像的客观评价指标和视觉效果均优于Bicubic、SRCNN、SCN和LapSRN方法。  相似文献   

13.
多标签图像分类是多标签数据分类问题中的研究热点.针对目前多标签图像分类方法只学习图像的视觉表示特征,忽略了图像标签之间的相关信息以及标签语义与图像特征的对应关系等问题,提出了一种基于多头图注意力网络与图模型的多标签图像分类模型(ML-M-GAT).该模型利用标签共现关系与标签属性信息构建图模型,使用多头注意力机制学习标签的注意力权重,并利用标签权重将标签语义特征与图像特征进行融合,从而将标签相关性与标签语义信息融入到多标签图像分类模型中.为验证本文所提模型的有效性,在公开数据集VOC-2007和COCO-2014上进行实验,实验结果表明, ML-M-GAT模型在两个数据集上的平均均值精度(mAP)分别为94%和82.2%,均优于CNN-RNN、ResNet101、MLIR、MIC-FLC模型,比ResNet101模型分别提高了4.2%和3.9%.因此,本文所提的ML-M-GAT模型能够利用图像标签信息提高多标签图像分类性能.  相似文献   

14.
Recently, pedestrian attributes like gender, age, clothing etc., have been used as soft biometric traits for recognizing people. Unlike existing methods that assume the independence of attributes during their prediction, we propose a multi-label convolutional neural network (MLCNN) to predict multiple attributes together in a unified framework. Firstly, a pedestrian image is roughly divided into multiple overlapping body parts, which are simultaneously integrated in the multi-label convolutional neural network. Secondly, these parts are filtered independently and aggregated in the cost layer. The cost function is a combination of multiple binary attribute classification cost functions. Experiments show that the proposed method significantly outperforms the SVM based method on the PETA database.  相似文献   

15.
针对自动驾驶实际道路场景复杂导致行人误检率高的问题,提出一种基于卷积神经网络及改进支持向量机的行人检测方法。利用聚合通道特征快速获取图像候选区域,将归一化后的候选区域图像输入卷积神经网络对其进行深度特征提取;利用主成分分析法将卷积神经网络末端所得到的特征向量进行降维处理,减少其冗余特征信息以获得精确的行人特征描述;将行人特征送至优化后的支持向量机完成分类。考虑支持向量机在分类过程中存在核函数参数选择困难的问题,利用改进后的蚁群算法对其进行优化选择,获得最优支持向量机参数以提高分类精度。实验结果表明,不同场景下的行人平均检测精确度达到92%,误检率大幅下降且具有较好的实时性。  相似文献   

16.
针对融合视觉信息的仿鼠脑海马模型闭环检测精度较低、地图构建不准确的问题,文中提出基于卷积神经网络的仿鼠脑海马结构认知地图构建方法.利用改进的卷积神经网络模型提取视觉输入特征,融合空间细胞计算模型得到位置信息,并构建认知地图.基于汉明距离计算视觉信息与视图库中图像的相似度,实现对复杂动态环境中熟悉场景的识别,完成机器人在环境中的定位及位置纠正.仿真与物理实验验证文中方法的有效性与鲁棒性.  相似文献   

17.
为获得更具判别性的视觉特征并提升情感分类效果,构建融合双注意力多层特征的视觉情感分析模型。通过卷积神经网络提取图像多通道的多层次特征,根据空间注意力机制对多通道的低层特征赋予空间注意力权重,利用通道注意力机制对多通道的高层特征赋予通道注意力权重,分别强化不同层次的特征表示,将强化后的高层特征和低层特征进行融合,形成用于训练情感分类器的判别性特征。在3个真实数据集Twitter Ⅰ、Twitter Ⅱ和EmotionROI上进行对比实验,结果表明,该模型的分类准确率分别达到79.83%、78.25%和49.34%,有效提升了社交媒体视觉情感分析的效果。  相似文献   

18.
19.
行人外观属性是区分行人差异的重要语义信息。行人属性识别在智能视频监控中有着至关重要的作用,可以帮助我们对目标行人进行快速的筛选和检索。在行人重识别任务中,可以利用属性信息得到精细的特征表达,从而提升行人重识别的效果。文中尝试将行人属性识别与行人重识别相结合,寻找一种提高行人重识别性能的方法,进而提出了一种基于特征定位与融合的行人重识别框架。首先,利用多任务学习的方法将行人重识别与属性识别结合,通过修改卷积步长和使用双池化来提升网络模型的性能。其次,为了提高属性特征的表达能力,设计了基于注意力机制的平行空间通道注意力模块,它不仅可以在特征图上定位属性的空间位置,而且还可以有效地挖掘与属性关联度较高的通道特征,同时采用多组平行分支结构减小误差,进一步提高网络模型的性能。最后,利用卷积神经网络设计特征融合模块,将属性特征与行人身份特征进行有效融合,以获得更具鲁棒性和表达力的行人特征。实验在两个常用的行人重识别数据集DukeMTMC-reID和Market-1501上进行,结果表明,所提方法在现有的行人重识别方法中处于领先水平。  相似文献   

20.
赵小虎  李晓 《计算机应用》2021,41(6):1640-1646
针对图像语义描述方法中存在的图像特征信息提取不完全以及循环神经网络(RNN)产生的梯度消失问题,提出了一种基于多特征提取的图像语义描述算法。所构建模型由三个部分组成:卷积神经网络(CNN)用于图像特征提取,属性提取模型(ATT)用于图像属性提取,而双向长短时记忆(Bi-LSTM)网络用于单词预测。该模型通过提取图像属性信息来增强图像表示,从而精确描述图中事物,并且使用Bi-LSTM捕捉双向语义依赖,从而进行长期的视觉语言交互学习。首先,使用CNN和ATT分别提取图像全局特征与图像属性特征;其次,将两种特征信息输入到Bi-LSTM中生成能够反映图像内容的句子;最后,在Microsoft COCO Caption、Flickr8k和Flickr30k数据集上验证了所提出算法的有效性。实验结果表明,与m-RNN方法相比,所提出的算法在描述性能方面提高了6.8~11.6个百分点。所提算法能够有效地提高模型对图像的语义描述性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号