首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
对于三维物体的识别任务,基于多视图卷积神经网络的方法(MVCNN)在准确性和训练速度等方面都优于基于三维数据表示的方法。但MVCNN依赖于三维模型,且采用了固定视角的视图,不符合实际的应用场景;此外,其视图特征融合采用了最大值池化操作,会损失部分原始特征信息。针对这一问题,该文提出了一种基于多视图循环神经网络(MVRNN)的三维物体识别方法,从3个方面对MVCNN进行改进。首先,在交叉熵损失函数中引入特征辨识度指标,以提高不同物体特征之间的辨识度;其次,使用循环神经网络代替MVCNN的最大值池化操作来融合多个自由视觉视图特征,得到一个更加紧凑且物体外观信息完备的融合特征;最后,利用二分类网络对自由视角单视图特征和融合特征进行匹配,实现三维物体的细粒度识别。为了验证MVRNN的性能,分别在公开数据集ModelNet和自建数据集MV3D上进行对比实验。实验结果表明,与MVCNN相比,MVRNN提取的多视图特征具有更高的辨识度,在两个数据集上的识别准确率均较有明显提升。  相似文献   

2.
针对已有的动作识别方法的特征提取不足、识别率较低等问题,结合双流网络、3D卷积神经网络和卷积LSTM网络的优势,提出一种融合模型. 该融合模型为了更好地提取人体动作特征,采用SSD目标检测方法将人体目标分割出作为局部特征和原视频的全局特征共同训练,并采用后期融合进行分类; 将3D卷积块注意模块采用shortcut结构的方式融合到3D卷积神经网络中,加强神经网络对视频的通道和空间特征提取; 并且通过将神经网络中部分3D卷积层替换为ConvLSTM层的方法,更好地得到视频的时序关系. 实验在公开的KTH数据集  相似文献   

3.
Expression, occlusion, and pose variations are three main challenges for 3D face recognition. A novel method is presented to address 3D face recognition using scale-invariant feature transform(SIFT) features on 3D meshes. After preprocessing, shape index extrema on the 3D facial surface are selected as keypoints in the difference scale space and the unstable keypoints are removed after two screening steps. Then, a local coordinate system for each keypoint is established by principal component analysis(PCA).Next, two local geometric features are extracted around each keypoint through the local coordinate system. Additionally, the features are augmented by the symmetrization according to the approximate left-right symmetry in human face. The proposed method is evaluated on the Bosphorus, BU-3DFE, and Gavab databases, respectively. Good results are achieved on these three datasets. As a result, the proposed method proves robust to facial expression variations, partial external occlusions and large pose changes.  相似文献   

4.
For point cloud classification, deep learning based methods use operations like voxelization to generate regular 3D grids or render the 3D mesh into a collection of images from multiple angles. However, the conversion will introduce additional computing and storage consumption. Some methods directly consume the raw point cloud. But their network scale and computational complexity make it difficult for them to deploy in embedded environments. On the basis of intensive studies of these algorithms, a novel lightweight dual path way network is proposed in this paper. Without additional conversion, our network attains a comparable performance but has 0.8 million floating parameters only. With point-wise and neighbor-wise representations, our approach incorporates global and local features of the point cloud. Experimental results on ModelNet40 and MNIST data-set demonstrate that our method achieves a good accuracy, and prove the effectiveness of our design.  相似文献   

5.
在人类交互行为识别领域,基于RGB视频的局部特征往往不能有效区分近似动作,将深度图像(Depth)与彩色图像(RGB)在识别过程中进行融合,提出一种融合Depth信息的整体和个体分割融合的双人交互行为识别算法。该算法首先分别对RGB和Depth视频进行兴趣点提取,在RGB视频上采用3DSIFT进行特征描述,在Depth视频上利用YOLO网络对左右两人兴趣点进行划分,并使用视觉共生矩阵对局部关联信息进行描述。最后使用最近邻分类器分别对RGB特征和Depth特征进行分类识别,进一步通过决策级融合两者识别结果,提高识别准确率。结果表明,结合深度视觉共生矩阵可以大大提高双人交互行为识别准确率,对于SBU Kinect interaction数据库中的动作可以达90%的正确识别率,验证了所提算法的有效性。  相似文献   

6.
车道线检测在智能交通领域占有重要地位,其检测的准确度和速度对于辅助驾驶以及自动驾驶有重要影响.针对目前深度学习方法识别车道线精度差、速度慢的问题,提出了一种高效的车道线分割方法LaneSegNet.首先基于编码和解码网络原理构建主干网络Lane-Net,用于提取车道线特征信息并分割出车道线;然后使用多尺度空洞卷积特征融合网络,可以极大地扩充模型的感受野,提取全局特征信息;最后使用混合注意力网络获取丰富的车道线特征,并增强与当前任务相关的信息.实验结果表明:在TuSimple数据集上,该方法检测车道线的准确率为97.6%;在CULane数据集上,该方法在标准路面的检测准确率达到92.5%,多种路面综合检测准确率为75.2%.本文提出的LaneSegNet车道线检测方法分割精确度和推理速度优于其他对比模型,且具有更强的适应性和鲁棒性.  相似文献   

7.
针对细粒度车型识别图像分类因存在冗余特征而导致识别率低的问题,提出一种基于奇异值分解与中心度量的细粒度车型识别算法。首先,提出一种基于奇异值分解卷积神经网络,对全连接层的权重矩阵进行奇异值分解后重新赋值并微调,可以去除具有相关性的冗余特征,学习到细粒度级别的区分性特征;其次,提出一种学习不同特征的融合损失方法,将中心距离损失和分类损失进行加权融合,使得学习的特征类内之间的距离更小。实验表明,该方法使用 Residual Network(ResNet)框架在Cars-196细粒度车型数据集上测试,准确率能够达到93.02%,优于目前表现较好的双线性和注意力模型。扩展实验证明该方法同样适用于其他网络框架。  相似文献   

8.
针对微表情动作幅度小、强度低等缺点,提出了一种基于带有注意力机制的卷积神经网络(ACNN)和双向长短期记忆网络(Bi-LSTM)相结合的神经网络结构。实验采用CASME II数据集,为了减少出现过拟合的风险,首先将预处理后的特征向量经过预训练的VGG16网络提取出基本特征,接着对输出特征进行裁剪,得到带有局部特征的24个微表情识别块和带有整个图片特征的全局特征向量;然后将24个识别块分别经过局部识别块注意力卷积神经网络(BR-ACNN)提取出带有注意力信息的局部特征,将全局特征向量经过全局注意力卷积神经网络(GR-ACNN)提取出带有注意力信息的全局特征;最后,将提取的局部和全局特征,经过Bi-LSTM提取出微表情序列之间的相关性信息。实验结果显示,5折交叉验证平均准确率为0.69,UF1为0.638 2,UAR为0.675 0。CASME II数据集上结果显示,所提算法模型相对OFFApexNet模型,其UF1提高了0.028 1,UAR提高了0.096 9;相对ATNet模型,其UF1提高了0.007 2,UAR提高...  相似文献   

9.
在自动驾驶场景下,针对语义分割模型在车载硬件设备中部署时内存受限且算力不足的问题,需要设计一种较好权衡效率和精度的语义分割模型。采用单分支网络结构,设计了一个轻量级多尺度双向注意力网络。为了实现高效的特征提取,设计了一种轻量级卷积单元来构成网络的特征提取骨干。为了较好地定位和分割道路场景中尺度差异较大的物体,提出了一种多尺度双向注意力模块。它具有全局多尺度感受野,并且在沿一个方向编码通道注意力的同时保留了另一个方向的空间位置信息。基于该注意力模块,设计了跳跃注意力连接模块和特征注意力融合模块,使得输出特征兼具细节信息和语义信息。模型在Cityscapes数据集上以0.9M的参数量,取得了71.86%的平均交并比,同时在单个RTX2080Ti GPU下实现了88FPS的推理速度。实验结果表明,该模型能够实现较高的分割精度,适用于车载硬件下的部署和应用,具有一定的实用价值。  相似文献   

10.
基于特征融合的三维模型检索方法能有效提高检索效率,提出一种融合整体和局部信息的三维模型检索方法。分别通过Canny算子提取边缘特征和基于尺度不变特征变换特征的词袋模型提取词频向量特征,边缘特征用于描述三维模型的整体信息,词频向量特征用于描述三维模型的局部信息,将这两种特征融合成为新的特征用于描述三维模型。试验表明,融合整体和局部信息的三维模型检索方法能够有效地提高检索结果的准确率。  相似文献   

11.
针对智能会议环境下基于单模特征的人脸识别的识别率低、鲁棒性差的问题,提出了一种在智能会议室环境下基于核相关权重鉴别分析(KRWDA)算法的融合全局和局部特征的多特征融合人脸识别方法。基于相关权重鉴别分析算法并结合核方法,提出了一种核相关权重鉴别分析算法,有效解决了小样本问题。利用全局特征和局部特征在识别时所描述的内容和作用的互补性在特征层融合两种特征,全局信息和局部信息分别采用离散余弦变换和Ga-bor小波变换提取。在AMIES2016数据库上的仿真实验表明,本文所提出的方法可以有效地提高系统身份识别的正确率。  相似文献   

12.
针对遥感图像语义分割中存在的分割耗时长、分割小目标不准确的问题,提出基于多级特征级联的高分辨率遥感图像快速语义分割模型(multi-level feature cascade network,MFCNet).该模型主要由特征编码、特征融合以及目标细化3部分组成.特征编码对输入的不同分辨率图像用不同量级主干网络进行特征提...  相似文献   

13.
深度卷积神经网络对高分辨率遥感影像进行语义分割时,对图像的下采样会造成物体边缘模糊,使分割结果在边缘附近划分不清晰,误分类较多.通过在网络中增加边缘信息可以提升模型对遥感图像的分割能力.因此,提出了一个用于语义分割的双路网络模型,增加一路边缘网络学习目标的边缘特征,并利用边缘特征对分割特征进行细化.同时,作为一个多任务...  相似文献   

14.
针对传统服饰图像分割中标签易混淆和小目标易丢失带来的目标边缘细节难以保留等问题,提出了一种基于卷积注意力特征的残差期望最大化注意力语义分割网络模型。该模型首先以ResNeXt-50作为共享特征的主干网络,并通过在特征提取阶段引入一组平行的卷积注意力模块,可以有效地抑制无效特征,使目标区域的特征更加显著。然后利用残差思想对期望最大化注意力(EMA)单元进行优化,以解决迭代过程中梯度爆炸或者消失的问题,从而更好地建立特征图中位置间的关联,最终实现基于显著性融合学习的语义分割模型。最后在传统民族服饰数据集上通过定性与定量的实验验证了所提模型的有效性,其中平均交并比分割指标达到83.91%,取得了同类算法中最优效果。  相似文献   

15.
针对多通道脑电(EEG)的情感识别,提出了一种卷积回声状态网络(CESN)模型。首先构造EEG信号的特征矩阵序列;然后通过卷积操作提取各个样本的高层抽象特征,形成一维特征向量序列;利用具有自反馈功能的蓄水池结构,捕获向量序列的动态时序信息;最后用岭回归来实现情感识别。在情感分析专用生理信号数据集上进行实验的结果表明,EEG信号的动态时序性蕴含着与情感状态相关的区分性信息,所提的CESN模型能够有效地挖掘这种信息,并用于情感分类,解决了卷积神经网络中因使用反向传播算法而导致的局部最优和训练时间过长的问题。  相似文献   

16.
面向人体动作识别的局部特征时空编码方法   总被引:2,自引:0,他引:2  
为克服BoF特征袋模型在视频人体动作识别中忽视局部特征间时空位置关系的问题,本文提出局部特征时空编码方法。将局部特征时空位置坐标引入特征编码中,直接对它们的时空位置关系建模。首先,将局部特征投影到人体运动子时空域,获得局部特征的时空位置坐标;然后,在特征编码阶段同时对局部特征的出现信息和时空位置坐标进行编码;最后,采用特征池提取该时空域内局部特征的统计信息用于动作分类。为进一步提高性能,多尺度时空编码和局部约束时空编码方法也一并被提出,并在分类阶段采用局部约束块稀疏表示分类方法提高动作识别精度。在KTH, Weizmann, UCF sports等标准测试集的实验表明,本文算法能够有效表示局部特征间时空位置关系、提高动作识别精度。  相似文献   

17.
为了从医疗图像中自动且准确地提取兴趣区域,提出基于神经网络的分割模型MS2Net.针对传统卷积操作缺乏获取长距离依赖关系能力的问题,为了更好提取上下文信息,提出融合卷积和Transformer的架构.基于Transformer的上下文抽取模块通过多头自注意力得到像素间相似度关系,基于相似度关系融合各像素特征使网络拥有全局视野,使用相对位置编码使Transformer保留输入特征图的结构信息.为了使网络适应兴趣区域形态的差异,在MS2Net中应用解码端多尺度特征并提出多尺度注意力机制.对多尺度特征图依次应用分组通道和分组空间注意力,使网络自适应地选取合理的多尺度语义信息. MS2Net在数据集ISBI 2017和CVC-ColonDB上均取得较U-Net、CE-Net、DeepLab v3+、UTNet等先进方法更优的交并比指标,有着较好的泛化能力.  相似文献   

18.
针对全卷积神经网络模型在进行建筑物提取时易产生过度分割以及内部空洞的问题,提出基于多重多尺度融合注意力网络(MMFA-Net)的高分辨率遥感影像建筑物提取方法. 该方法以U-Net为主体架构,设计2个模块:多重高效通道注意力(MECA)和多尺度特征融合注意力(MFA). MECA设计在模型跳跃连接中,通过权重配比强化有效特征信息,避免注意力向无效特征的过渡分配;采用多重特征提取,减少有效特征的损失. MFA被嵌入模型底部,结合并行连续中小尺度空洞卷积与通道注意力,获得不同的空间特征与光谱维度特征,缓解空洞卷积造成的大型建筑物像素缺失问题. MMFA-Net通过融合MECA和MFA,提高了建筑物提取结果的完整度和精确率. 将模型在WHU、Massachusetts和自绘建筑物数据集上进行验证,在定量评价方面优于其他5种对比方法,F1分数和IoU分别达到93.33%、87.50%;85.38%、74.49%和88.46%、79.31%.  相似文献   

19.
为了解决现有基于深度学习方法的视觉情感分析忽略了图像各局部区域情感呈现的强度差异问题,提出一种结合空间注意力的卷积神经网络spatial attention with CNN, SA-CNN用于提升视觉情感分析效果。设计一个情感区域探测神经网络用于发现图像中诱发情感的局部区域;通过空间注意力机制对情感映射中各个位置赋予注意力权重,恰当抽取各区域的情感特征表示,从而有助于利用局部区域情感信息进行分类;整合局部区域特征和整体图像特征形成情感判别性视觉特征,并用于训练视觉情感的神经网络分类器。该方法在3个真实数据集TwitterⅠ、TwitterⅡ和Flickr上的情感分类准确率分别达到82.56%、80.23%、79.17%,证明利用好图像局部区域情感表达的差异性,能提升视觉情感分类效果。  相似文献   

20.
Unlike named entity recognition (NER) for English, the absence of word boundaries reduces the final accuracy for Chinese NER. To avoid accumulated error introduced by word segmentation, a deep model extracting character-level features is carefully built and becomes a basis for a new Chinese NER method, which is proposed in this paper. This method converts the raw text to a character vector sequence, extracts global text features with a bidirectional long short-term memory and extracts local text features with a soft attention model. A linear chain conditional random field is also used to label all the characters with the help of the global and local text features. Experiments based on the Microsoft Research Asia (MSRA) dataset are designed and implemented. Results show that the proposed method has good performance compared to other methods, which proves that the global and local text features extracted have a positive influence on Chinese NER. For more variety in the test domains, a resume dataset from Sina Finance is also used to prove the effectiveness of the proposed method.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号