首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
基于深度特征表达与学习的视觉跟踪算法研究   总被引:2,自引:0,他引:2  
该文针对视觉跟踪中运动目标的鲁棒性跟踪问题,将深度学习引入视觉跟踪领域,提出一种基于多层卷积滤波特征的目标跟踪算法。该算法利用分层学习得到的主成分分析(PCA)特征向量,对原始图像进行多层卷积滤波,从而提取出图像更深层次的抽象表达,然后利用巴氏距离进行特征相似度匹配估计,进而结合粒子滤波算法实现目标跟踪。结果表明,这种多层卷积滤波提取到的特征能够更好地表达目标,所提跟踪算法对光照变化、遮挡、异面旋转、摄像机抖动都具有很好的不变性,对平面内旋转也具有一定的不变性,在具有此类特点的视频序列上表现出非常好的鲁棒性。  相似文献   

2.
基于全卷积神经网络的非对称并行语义分割模型   总被引:1,自引:0,他引:1       下载免费PDF全文
李宝奇  贺昱曜  何灵蛟  强伟 《电子学报》2019,47(5):1058-1064
针对RGB图像具有丰富的色彩细节特征,红外图像对目标轮廓、尺寸、边界等外形特征有较高敏感度的特点,提出了一种非对称并行语义分割模型APFCN(Asymmetric Parallelism Fully Convolutional Networks).APFCN上路设计了一个卷积核尺寸非统一的五层空洞卷积网络来提取红外图像目标高层轮廓特征;下路沿用卷积加池化网络提取RGB图像三个尺度上的细节特征;后端将红外图像高层特征与RGB图像三个尺度的细节特征进行融合,并将4倍上采样后的融合特征作为语义分割输出.结果表明,APFCN在像素精度和交并比等方面均优于FCN(输入为RGB图像或红外图像),适用于背景一致下地面目标的语义分割任务.  相似文献   

3.
夏玉果  丁晟  赵力 《无线电工程》2023,(9):2174-2181
电子元器件的识别对于现代电子产品的智能生产和制造具有重要的作用,为了进一步获取电子元器件图像的关键特征,提升图像细粒度表达能力,提出一种基于多尺度注意力机制深度迁移识别方法。以Xception为主干网络架构,引入多尺度池化通道注意力和多尺度空间注意力模块,结合空间金字塔池化的思想,对特征图的每个通道进行不同尺度的最大池化和均值池化,获取通道方向上不同尺度的特征信息;在空间层面上进行不同尺度的空洞卷积,增大特征图的感受野,获取更加全面的空间特征信息;通过深度迁移学习,实现特征参数共享,进一步提高模型的泛化能力。在5种常见的电子元器件数据集上进行实验,结果表明,所提方法能有效获取图像不同尺度的显著特征信息,提升识别效果。  相似文献   

4.
江泽涛  秦嘉奇  张少钦 《电子学报》2000,48(9):1729-1734
传统的卷积神经网络使用池化层对信息进行降维操作,通常会造成信息损失,从而影响网络的表达能力.针对这一问题,使用参数池化层(Parameterized Pooling Layer)替代传统卷积神经网络中的池化层,提出参数池化卷积神经网络(Parameterized Pooling CNN,PPCNN).参数池化层在仅仅增加了少量网络参数的情况下,最大可能的保留了卷积神经网络中希望被保留下来的特征;同时,由于增加了池化层前向传播的信息,从而影响了反向传播算法中权值的更新,网络收敛速度更快;实验结果表明,PPCNN模型与传统卷积神经网络模型以及部分改进模型相比,参数池化卷积神经网络模型是有效的.  相似文献   

5.
颜料的分类识别是古代壁画进行保护修复的基础,多光谱成像方法能够无损快速地获取壁画颜料的光谱图像数据并进行分析。传统利用卷积神经网络进行特征提取的算法中连续的卷积和池化操作会丢失壁画多光谱图像的部分特征信息,使得图像细节无法重建,导致分类图像边界不平滑。针对该问题,提出了一种基于多尺度特征融合的三维空洞卷积残差神经网络对壁画多光谱图像进行颜料分类。首先,在卷积核中引入空洞结构提高卷积核的感受野来提取不同尺度信息,避免池化操作所导致的部分特征丢失;其次,使用特征融合的方法融合不同尺度的特征图,增加多尺度特征的结构层次;最后,引入残差学习模块避免网络层数加深导致的梯度消失问题,重建完整的边缘信息。实验结果表明,所提方法在模拟壁画多光谱图像数据集上的总体精度和平均精度分别达到了98.87%和96.89%,与各对照组相比,不仅具有更好的分类精度,而且得到了边界更清晰的分类图像。  相似文献   

6.
基于改进深层网络的人脸识别算法   总被引:4,自引:0,他引:4       下载免费PDF全文
目前的人脸识别算法在其特征提取过程中采用手工设计(hand-crafted)特征或利用深度学习自动提取特征.本文提出一种基于改进深层网络自动提取特征的人脸识别算法,可以更准确地提取出目标的鉴别性特征.算法首先对图像进行ZCA(Zero-mean Component Analysis)白化等预处理,减小特征相关性,降低网络训练复杂度.然后,基于卷积、池化、多层稀疏自动编码器构建深层网络特征提取器.所使用的卷积核是通过单独的无监督学习获得的.此改进的深层网络通过预训练和微调,得到一个自动的深层特征提取器.最后,利用Softmax回归模型对提取的特征进行分类.本文算法在多个常用人脸库上进行了实验,表明了其在性能上比传统方法和普通深度学习方法都有所提高.  相似文献   

7.
为了改善计算机断层扫描(CT)影像重建质量不高的问题,提出一种基于残差注意力聚合对偶回归网络(RAADRNet)的超分辨率CT重建方法。多特征下采样提取模块(MFDEB)通过平均池化、最大池化和卷积运算完成多特征下采样提取,在多特征融合后嵌入通道学习注意力(CLA)和空间学习注意力(SLA),同时并入前级融合特征提取图像的浅层特征。CLA、SLA分别引入通道权重特征学习以及激活函数1+tanh()完成特征提取。残差注意力聚合模块(RAAB)通过CLA嵌入残差网络构成的残差通道学习注意力模块(RCLAB)与SLA构成的空间特征融合模块(SFFB)联合提取图像的深层特征。原始网络在浅层特征与通过亚像素卷积放大的深层特征进行特征融合后完成重建。对偶网络进一步约束重建映射函数的解空间。实验表明,所提算法在重建图像的峰值信噪比(PSNR)和结构相似度(SSIM)上都得到了较好的提升。  相似文献   

8.
高分辨率遥感图像内容复杂,提取特征来准确地表达图像内容是提高检索性能的关键。卷积神经网络(CNN)迁移学习能力强,其高层特征能够有效迁移到高分辨率遥感图像中。为了充分利用高层特征的优点,该文提出一种基于高层特征图组合及池化的方法来融合不同CNN中的高层特征。首先将高层特征作为特殊的卷积层特征,进而在不同输入尺寸下保留高层输出的特征图;然后将不同高层输出的特征图组合成一个更大的特征图,以综合不同CNN学习到的特征;接着采用最大池化的方法对组合特征图进行压缩,提取特征图中的显著特征;最后,采用主成分分析(PCA)来降低显著特征的冗余度。实验结果表明,与现有检索方法相比,该方法提取的特征在检索效率和准确率上都有优势。  相似文献   

9.
面对海量的视频数据,视频摘要技术在视频检索、视频浏览等领域发挥着越来越重要的作用,其旨在通过生成简短的视频片段或选择关键帧集合来获取输入视频中的重要信息.现有的方法大多集中在研究视频摘要的代表性和多样性上,没有考虑到视频结构等多尺度上下文信息.针对上述问题,提出了一种基于全卷积序列网络的视频摘要模型,模型中利用时间金字塔池化对视频中的多尺度上下文信息进行提取,并利用全连接的条件随机场对视频帧序列进行标注.在SumMe和TVSum数据集上的实验表明,所提模型取得了比全卷积序列网络更好的性能,在这两个数据集上F分指标分别提高了1.6%和3.0%.  相似文献   

10.
目前在深度学习领域很少以天然气泄露图像为数据进行研究,本文使用甲烷红外图像训练的卷积神经网络(VGG16)来实现泄露检测。另外,针对泄露的甲烷气体与背景图像存在相似性的问题,使用U2-Net图像分割网络代替背景建模方法来提取泄露气体区域。通过迁移VGG16网络模型结构和卷积层参数,在卷积层和激励层之间加入BN层以提高训练速度,将最后一层池化层替换为基于最大池化算法的动态自适应池化方法以提高检测精度。将改进的VGG16神经网络对分割的红外图像进行训练并与其他卷积神经网络进行对比,使用准确率,精准率,召回率和F1-score来对模型进行综合评价,其表现效果最好。与现有的检测方法进行对比,所提出的检测方法准确率更高。该检测方法能够实现高精度泄漏检测,满足天然气泄露检测准确性的要求,且模型具有较好的泛化能力和鲁棒性。  相似文献   

11.
张润谷 《激光杂志》2020,41(2):194-198
视网膜血管的形态结构信息可以为糖尿病、高血压等疾病提供诊断依据。提出了一种基于多尺度多路径的全卷积神经网络的视网膜血管分割方法。首先,利用空洞卷积代替池化层和上采样操作,在不增加参数的情况下增加感受野,避免了细节信息的丢失;其次,通过使用不同空洞率的空洞卷积实现图像数据的多尺度特征提取,充分学习图像的多尺度特征,避免网络过深,并提升了细小血管的提取能力;同时,利用跳层结构在网络中建立多条信息流通路径,通过多路径信息流充分传递多尺度特征信息,提高网络预测效果。实验结果表明,该算法在DRIVE数据集上的平均准确度、灵敏度和特异性分别为95.46%.81.24%,97.77%,取得了较好的视网膜血管的分割效果。  相似文献   

12.
In this paper, we present a general framework for computing full reference image quality scores in the discrete wavelet domain using the Haar wavelet. In our framework, quality metrics are categorized as either map-based, which generate a quality (distortion) map to be pooled for the final score, e.g., structural similarity (SSIM), or nonmap-based, which only give a final score, e.g., Peak signal-to-noise ratio (PSNR). For map-based metrics, the proposed framework defines a contrast map in the wavelet domain for pooling the quality maps. We also derive a formula to enable the framework to automatically calculate the appropriate level of wavelet decomposition for error-based metrics at a desired viewing distance. To consider the effect of very fine image details in quality assessment, the proposed method defines a multi-level edge map for each image, which comprises only the most informative image subbands. To clarify the application of the framework in computing quality scores, we give some examples to show how the framework can be applied to improve well-known metrics such as SSIM, visual information fidelity (VIF), PSNR, and absolute difference. The proposed framework presents an excellent tradeoff between accuracy and complexity. We compare the complexity of various algorithms obtained by the framework to the IPP-based H.264 baseline profile encoding using C/C++ implementations. For example, by using the framework, we can compute the VIF at about 5% of the complexity of its original version, but with higher accuracy.  相似文献   

13.
14.
基于图模型的指静脉全局特征表达方法不仅可以降低成像质量对采集设备的依赖性,还能提高匹配效率。针对于目前指静脉图模型的研究中存在的图结构不稳定,匹配效率随图模型的变大而降低的问题,本文提出了一种基于SLIC(Simple Linear Iterative Clustering)超像素分割算法构建加权图的方法,并改进ChebyNet图卷积神经网络(Graph Convolutional Neural Networks, GCNs)提取加权图的图级(graph-level)特征。针对指静脉样本数普遍较少,而ChebyNet中卷积网络参数量较大容易造成过拟合以及其快速池化层不能自适应地选择节点的问题,本文提出了全局池化结构的改进GCNs模型SCheby-MgPool(Simplified Cheby-Multi gPool)。实验结果表明,本文提出的方法提取的指静脉特征在识别精度,匹配效率上都具有较好的性能。   相似文献   

15.
针对低质量文档图像存在的背景渗透、页面污渍 、边缘大面积与文本相似的噪声等 现象,改进D-LinkNet框架,提出了一种融合多尺度特征(multiple scale feature)的低 质量文档图像二值化算法,简称为MD-LinkNet。该算法有两处改进,一是在编解码中间部 分 增加剩余多核池化(RMP)模块来通过四个池化操作以提取丰富的文档特征信息;二是将池 化后的低分辨率图像通过DUpsample而不是双线性插值进行上采样,结合了文档图像像素邻 域信息,将文档图像的全局与局部特征进行融合,提高了分割精度。实验结果表明,在2017 年和2018年国际文档图像二值化竞赛(DIBCO)数据集中,本文算法 的F值(F-measure)最 高分别达到了90.54、91.42,验证了所提出算 法在解决 多种复杂噪声背景的低质量文档图像下的鲁棒性,且相比其他最新经典算法效果较优。  相似文献   

16.
Recent developments in Internet technologies have resulted in a wide range of high-speed internet choices to rural communities. In this paper, we present decision support models to select the high-speed access technologies with different characteristics under a multiple number of performance criteria (cost quality and speed). Specifically, we first construct an analytic hierarchy process (AHP) model, which provides the overall priority weights for each access technology under the multiple criteria. Next, we examine the cases of communities pooling their budget resources for additional mutual benefit. This examination leads to a couple of mixed integer programming models to determine the optimal technology selections of the pooled communities, taking the economies of scale, homogeneity/heterogeneity of communities into consideration. Throughout this paper, the main features are illustrated via numerical examples.  相似文献   

17.
Currently, video-based Sign language recognition (SLR) has been extensively studied using deep learning models such as convolutional neural networks (CNNs) and recurrent neural networks (RNNs). In addition, using multi view attention mechanism along with CNNs could be an appealing solution that can be considered in order to make the machine interpretation process immune to finger self-occlusions. The proposed multi stream CNN mixes spatial and motion modelled video sequences to create a low dimensional feature vector at multiple stages in the CNN pipeline. Hence, we solve the view invariance problem into a video classification problem using attention model CNNs. For superior network performance during training, the signs are learned through a motion attention network thus focusing on the parts that play a major role in generating a view based paired pooling using a trainable view pair pooling network (VPPN). The VPPN, pairs views to produce a maximally distributed discriminating features from all the views for an improved sign recognition. The results showed an increase in recognition accuracies on 2D video sign language datasets. Similar results were obtained on benchmark action datasets such as NTU RGB D, MuHAVi, WEIZMANN and NUMA as there is no multi view sign language dataset except ours.  相似文献   

18.
Image steganalysis based on convolutional neural networks(CNN) has attracted great attention. However, existing networks lack attention to regional features with complex texture, which makes the ability of discrimination learning miss in network. In this paper, we described a new CNN designed to focus on useful features and improve detection accuracy for spatial-domain steganalysis. The proposed model consists of three modules: noise extraction module, noise analysis module and classification module. A channel attention mechanism is used in the noise extraction module and analysis module, which is realized by embedding the SE(Squeeze-and-Excitation) module into the residual block. Then, we use convolutional pooling instead of average pooling to aggregate features. The experimental results show that detection accuracy of the proposed model is significantly better than those of the existing models such as SRNet, Zhu-Net and GBRAS-Net. Compared with these models, our model has better generalization ability, which is critical for practical application.  相似文献   

19.
Attention mechanism has been found effective for human gaze estimation, and the attention and diversity of learned features are two important aspects of attention mechanism. However, the traditional attention mechanism used in existing gaze model is more prone to utilize first-order information that is attentive but not diverse. Though the existing bilinear pooling-based attention could overcome the shortcoming of traditional attention, it is limited to extract high-order contextual information. Thus we introduce a novel bilinear pooling-based attention mechanism, which could extract the second-order contextual information by the interaction between local deep learned features. To make the gaze-related features robust for spatial misalignment, we further propose an attention-in-attention method, which consists of a global average pooling and an inner attention on the second-order features. For the purpose of gaze estimation, a new bilinear pooling-based attention networks with attention-in-attention is further proposed. Extensive evaluation shows that our method surpasses the state-of-the-art by a big margin.  相似文献   

20.
针对现有图像质量评价方法的缺陷,通过深度学习理论建模人眼视觉系统(human vision system,HVS)特性,提出了一种基于视觉特征深度感知与学习融合(deeply perception and learning for pooling,DPLP)的评价方法.首先为了增加图像视觉特征的稳定性,根据人眼感光的空域结构特征和频域多通道特性,对图像依次进行二维Log-Gabor小波变换、梯度变换和频谱残余的深度视觉信息处理,然后分别提取各层视觉信息进行质量评价.其次为了克服HVS融合的不确定性,对质量评价信息采取了深度池化策略,第一层为评价视图的空域融合,采取了符合人眼感光特性的高斯加权策略;第二层为多通道评价的频域融合,采取了具有HVS推理能力的BP神经网络的学习-预测策略;第三层为各级视觉特征的评价融合,采取了具有自适应特性的回归函数策略.最后,基于现实中的各种失真类型图像进行了实验,结果表明所提方法具有较高的主客观评价一致性水平和更好的稳定性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号