首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
基于全卷积神经网络的非对称并行语义分割模型   总被引:1,自引:0,他引:1       下载免费PDF全文
李宝奇  贺昱曜  何灵蛟  强伟 《电子学报》2019,47(5):1058-1064
针对RGB图像具有丰富的色彩细节特征,红外图像对目标轮廓、尺寸、边界等外形特征有较高敏感度的特点,提出了一种非对称并行语义分割模型APFCN(Asymmetric Parallelism Fully Convolutional Networks).APFCN上路设计了一个卷积核尺寸非统一的五层空洞卷积网络来提取红外图像目标高层轮廓特征;下路沿用卷积加池化网络提取RGB图像三个尺度上的细节特征;后端将红外图像高层特征与RGB图像三个尺度的细节特征进行融合,并将4倍上采样后的融合特征作为语义分割输出.结果表明,APFCN在像素精度和交并比等方面均优于FCN(输入为RGB图像或红外图像),适用于背景一致下地面目标的语义分割任务.  相似文献   

2.
基于改进深层网络的人脸识别算法   总被引:4,自引:0,他引:4       下载免费PDF全文
目前的人脸识别算法在其特征提取过程中采用手工设计(hand-crafted)特征或利用深度学习自动提取特征.本文提出一种基于改进深层网络自动提取特征的人脸识别算法,可以更准确地提取出目标的鉴别性特征.算法首先对图像进行ZCA(Zero-mean Component Analysis)白化等预处理,减小特征相关性,降低网络训练复杂度.然后,基于卷积、池化、多层稀疏自动编码器构建深层网络特征提取器.所使用的卷积核是通过单独的无监督学习获得的.此改进的深层网络通过预训练和微调,得到一个自动的深层特征提取器.最后,利用Softmax回归模型对提取的特征进行分类.本文算法在多个常用人脸库上进行了实验,表明了其在性能上比传统方法和普通深度学习方法都有所提高.  相似文献   

3.
夏玉果  丁晟  赵力 《无线电工程》2023,(9):2174-2181
电子元器件的识别对于现代电子产品的智能生产和制造具有重要的作用,为了进一步获取电子元器件图像的关键特征,提升图像细粒度表达能力,提出一种基于多尺度注意力机制深度迁移识别方法。以Xception为主干网络架构,引入多尺度池化通道注意力和多尺度空间注意力模块,结合空间金字塔池化的思想,对特征图的每个通道进行不同尺度的最大池化和均值池化,获取通道方向上不同尺度的特征信息;在空间层面上进行不同尺度的空洞卷积,增大特征图的感受野,获取更加全面的空间特征信息;通过深度迁移学习,实现特征参数共享,进一步提高模型的泛化能力。在5种常见的电子元器件数据集上进行实验,结果表明,所提方法能有效获取图像不同尺度的显著特征信息,提升识别效果。  相似文献   

4.
为了改善计算机断层扫描(CT)影像重建质量不高的问题,提出一种基于残差注意力聚合对偶回归网络(RAADRNet)的超分辨率CT重建方法。多特征下采样提取模块(MFDEB)通过平均池化、最大池化和卷积运算完成多特征下采样提取,在多特征融合后嵌入通道学习注意力(CLA)和空间学习注意力(SLA),同时并入前级融合特征提取图像的浅层特征。CLA、SLA分别引入通道权重特征学习以及激活函数1+tanh()完成特征提取。残差注意力聚合模块(RAAB)通过CLA嵌入残差网络构成的残差通道学习注意力模块(RCLAB)与SLA构成的空间特征融合模块(SFFB)联合提取图像的深层特征。原始网络在浅层特征与通过亚像素卷积放大的深层特征进行特征融合后完成重建。对偶网络进一步约束重建映射函数的解空间。实验表明,所提算法在重建图像的峰值信噪比(PSNR)和结构相似度(SSIM)上都得到了较好的提升。  相似文献   

5.
江泽涛  秦嘉奇  张少钦 《电子学报》2000,48(9):1729-1734
传统的卷积神经网络使用池化层对信息进行降维操作,通常会造成信息损失,从而影响网络的表达能力.针对这一问题,使用参数池化层(Parameterized Pooling Layer)替代传统卷积神经网络中的池化层,提出参数池化卷积神经网络(Parameterized Pooling CNN,PPCNN).参数池化层在仅仅增加了少量网络参数的情况下,最大可能的保留了卷积神经网络中希望被保留下来的特征;同时,由于增加了池化层前向传播的信息,从而影响了反向传播算法中权值的更新,网络收敛速度更快;实验结果表明,PPCNN模型与传统卷积神经网络模型以及部分改进模型相比,参数池化卷积神经网络模型是有效的.  相似文献   

6.
针对现有算法在空时分组码(Space-Time Block Code,STBC)识别过程中存在的低信噪比下误判概率高、识别效率低等问题,本文提出了一种基于多模态特征融合网络(Multi-Modality Features Fusion Network,MMFFN)的空时分组码自动识别方法 .首先,在合并卷积层将STBC时域样本映射为一维特征向量的基础上,采用多扩张率下的扩张卷积提取非连续时间窗的STBC码内特征,实现多时延特征自提取;然后,构建多时序特征自提取模块以提取码间时序特征,进一步扩展映射特征类型;最后,将多时延拼接层获取的最大时延特征作为深层融合特征,并增加了带跨越连接的残差层以提升融合特征利用率,实现空时分组码识别.仿真实验结果表明,本文算法在-9dB下对6类STBC信号的识别准确率达到了90%以上,较现有识别算法的性能获得了显著提升,对低信噪比有较强的适应性.本文提出的STBC多时延特征提取和融合方法,为结合传统算法设计深度学习网络结构提供了新思路,其思想同样可应用于其他通信信号识别领域.  相似文献   

7.
针对遥感图像水体分割任务,提出了一种多尺度融合注意力模块改进的UNet网络——A-MSFAM-UNet,该方法在GF-2遥感图像水体分割任务中实现了端到端高分辨率遥感图像水体分割。首先,针对以往注意力模块全局池化操作带来的局部信息不敏感问题,设计了一种多尺度融合注意力模块(MSFAM),该模块使用点卷积融合通道全局信息、深度可分离卷积弥补全局池化造成的信息丢失。MSFAM用于UNet跳跃连接后的特征融合部分重新分配特征点权重以提高特征融合效率,增强网络获取不同尺度信息的能力。其次,空洞卷积用于VGG16主干网络扩展感受野,在不损失分辨率的情况下聚合全局信息。结果表明,A-MSFAM-UNet优于其他通道注意力(SENet、ECANet)改进的UNet,在GF-2水体分割数据集上平均交并比(MIoU)、平均像素精度(MPA)和准确率(Acc)分别达到了96.02%、97.98%和99.26%。  相似文献   

8.
针对近红外光谱高维、非线性、大量噪声对定量建模的影响,将深度自编码网络引入到光谱特征学习中,提出一种改进卷积自编码网络的特征提取方法(1D-BCAE),并将其应用到烟叶关键指标的近红外光谱定量建模中,提高了模型的准确性和稳健性。首先利用适合光谱数据的一维卷积核和池化窗口进行特征提取,其次在编码过程中加入BasicBlock模块和批归一化(BN)结构优化网络结构,减少了参数量和计算量的同时,降低了光谱中的噪声和非线性特征的影响,优化了网络的训练效率。通过设计一种对应相连的结构,把编码器中各模块的参数传递给相应的解码器,减少了网络训练过程中细节特征的丢失。通过实验对比重构误差和均方根误差,验证了所提方法的有效性,然后分别采用全谱段和主成分分析(PCA)、卷积自编码(CAE)网络、1D-BCAE提取后的特征结合偏最小二乘(PLS)法建立了关于烟叶中烟碱、总糖指标的定量模型,并进行了对比分析。结果表明,1D-BCAE能有效学习高维数据中的内在结构和非线性关系,所建的模型具有更好的性能。所提方法实现了对待测组分光谱信息的有效提取,对建立稳健校正模型、降低模型复杂度具有重要意义。  相似文献   

9.
面对海量的视频数据,视频摘要技术在视频检索、视频浏览等领域发挥着越来越重要的作用,其旨在通过生成简短的视频片段或选择关键帧集合来获取输入视频中的重要信息.现有的方法大多集中在研究视频摘要的代表性和多样性上,没有考虑到视频结构等多尺度上下文信息.针对上述问题,提出了一种基于全卷积序列网络的视频摘要模型,模型中利用时间金字塔池化对视频中的多尺度上下文信息进行提取,并利用全连接的条件随机场对视频帧序列进行标注.在SumMe和TVSum数据集上的实验表明,所提模型取得了比全卷积序列网络更好的性能,在这两个数据集上F分指标分别提高了1.6%和3.0%.  相似文献   

10.
针对皮肤病图像边界模糊且分布不规则、传统卷积分割方法无法满足对边缘细节提取的问题,提出了多级分裂卷积HSC-Net的皮肤病图像分割方法。网络编码端使用ImageNet上的VGG16-BN预训练模型,预训练参数会在训练过程中进行自动微调。将预训练模型中传统的最大池化层用软池化(Soft-pool)层进行替换,以减少传统池化的精度损失。解码端的HSC通过对特征图信息的分级提取,能高效利用特征信息。在解码端融入极化自注意力(Polarized Self-Attention, PSA)机制,使得空间和通道维度上获取更丰富的梯度信息。在ISIC2018数据集上的实验结果显示,精确度、Jaccard指数和Dice指数分别为96.21%、81.88%、81.65%,在准确性、轻量化和边界分割效果上优于现有的分割方法。  相似文献   

11.
张润谷 《激光杂志》2020,41(2):194-198
视网膜血管的形态结构信息可以为糖尿病、高血压等疾病提供诊断依据。提出了一种基于多尺度多路径的全卷积神经网络的视网膜血管分割方法。首先,利用空洞卷积代替池化层和上采样操作,在不增加参数的情况下增加感受野,避免了细节信息的丢失;其次,通过使用不同空洞率的空洞卷积实现图像数据的多尺度特征提取,充分学习图像的多尺度特征,避免网络过深,并提升了细小血管的提取能力;同时,利用跳层结构在网络中建立多条信息流通路径,通过多路径信息流充分传递多尺度特征信息,提高网络预测效果。实验结果表明,该算法在DRIVE数据集上的平均准确度、灵敏度和特异性分别为95.46%.81.24%,97.77%,取得了较好的视网膜血管的分割效果。  相似文献   

12.
In this paper, we present a general framework for computing full reference image quality scores in the discrete wavelet domain using the Haar wavelet. In our framework, quality metrics are categorized as either map-based, which generate a quality (distortion) map to be pooled for the final score, e.g., structural similarity (SSIM), or nonmap-based, which only give a final score, e.g., Peak signal-to-noise ratio (PSNR). For map-based metrics, the proposed framework defines a contrast map in the wavelet domain for pooling the quality maps. We also derive a formula to enable the framework to automatically calculate the appropriate level of wavelet decomposition for error-based metrics at a desired viewing distance. To consider the effect of very fine image details in quality assessment, the proposed method defines a multi-level edge map for each image, which comprises only the most informative image subbands. To clarify the application of the framework in computing quality scores, we give some examples to show how the framework can be applied to improve well-known metrics such as SSIM, visual information fidelity (VIF), PSNR, and absolute difference. The proposed framework presents an excellent tradeoff between accuracy and complexity. We compare the complexity of various algorithms obtained by the framework to the IPP-based H.264 baseline profile encoding using C/C++ implementations. For example, by using the framework, we can compute the VIF at about 5% of the complexity of its original version, but with higher accuracy.  相似文献   

13.
14.
基于图模型的指静脉全局特征表达方法不仅可以降低成像质量对采集设备的依赖性,还能提高匹配效率。针对于目前指静脉图模型的研究中存在的图结构不稳定,匹配效率随图模型的变大而降低的问题,本文提出了一种基于SLIC(Simple Linear Iterative Clustering)超像素分割算法构建加权图的方法,并改进ChebyNet图卷积神经网络(Graph Convolutional Neural Networks, GCNs)提取加权图的图级(graph-level)特征。针对指静脉样本数普遍较少,而ChebyNet中卷积网络参数量较大容易造成过拟合以及其快速池化层不能自适应地选择节点的问题,本文提出了全局池化结构的改进GCNs模型SCheby-MgPool(Simplified Cheby-Multi gPool)。实验结果表明,本文提出的方法提取的指静脉特征在识别精度,匹配效率上都具有较好的性能。   相似文献   

15.
针对低质量文档图像存在的背景渗透、页面污渍 、边缘大面积与文本相似的噪声等 现象,改进D-LinkNet框架,提出了一种融合多尺度特征(multiple scale feature)的低 质量文档图像二值化算法,简称为MD-LinkNet。该算法有两处改进,一是在编解码中间部 分 增加剩余多核池化(RMP)模块来通过四个池化操作以提取丰富的文档特征信息;二是将池 化后的低分辨率图像通过DUpsample而不是双线性插值进行上采样,结合了文档图像像素邻 域信息,将文档图像的全局与局部特征进行融合,提高了分割精度。实验结果表明,在2017 年和2018年国际文档图像二值化竞赛(DIBCO)数据集中,本文算法 的F值(F-measure)最 高分别达到了90.54、91.42,验证了所提出算 法在解决 多种复杂噪声背景的低质量文档图像下的鲁棒性,且相比其他最新经典算法效果较优。  相似文献   

16.
Recent developments in Internet technologies have resulted in a wide range of high-speed internet choices to rural communities. In this paper, we present decision support models to select the high-speed access technologies with different characteristics under a multiple number of performance criteria (cost quality and speed). Specifically, we first construct an analytic hierarchy process (AHP) model, which provides the overall priority weights for each access technology under the multiple criteria. Next, we examine the cases of communities pooling their budget resources for additional mutual benefit. This examination leads to a couple of mixed integer programming models to determine the optimal technology selections of the pooled communities, taking the economies of scale, homogeneity/heterogeneity of communities into consideration. Throughout this paper, the main features are illustrated via numerical examples.  相似文献   

17.
Currently, video-based Sign language recognition (SLR) has been extensively studied using deep learning models such as convolutional neural networks (CNNs) and recurrent neural networks (RNNs). In addition, using multi view attention mechanism along with CNNs could be an appealing solution that can be considered in order to make the machine interpretation process immune to finger self-occlusions. The proposed multi stream CNN mixes spatial and motion modelled video sequences to create a low dimensional feature vector at multiple stages in the CNN pipeline. Hence, we solve the view invariance problem into a video classification problem using attention model CNNs. For superior network performance during training, the signs are learned through a motion attention network thus focusing on the parts that play a major role in generating a view based paired pooling using a trainable view pair pooling network (VPPN). The VPPN, pairs views to produce a maximally distributed discriminating features from all the views for an improved sign recognition. The results showed an increase in recognition accuracies on 2D video sign language datasets. Similar results were obtained on benchmark action datasets such as NTU RGB D, MuHAVi, WEIZMANN and NUMA as there is no multi view sign language dataset except ours.  相似文献   

18.
Image steganalysis based on convolutional neural networks(CNN) has attracted great attention. However, existing networks lack attention to regional features with complex texture, which makes the ability of discrimination learning miss in network. In this paper, we described a new CNN designed to focus on useful features and improve detection accuracy for spatial-domain steganalysis. The proposed model consists of three modules: noise extraction module, noise analysis module and classification module. A channel attention mechanism is used in the noise extraction module and analysis module, which is realized by embedding the SE(Squeeze-and-Excitation) module into the residual block. Then, we use convolutional pooling instead of average pooling to aggregate features. The experimental results show that detection accuracy of the proposed model is significantly better than those of the existing models such as SRNet, Zhu-Net and GBRAS-Net. Compared with these models, our model has better generalization ability, which is critical for practical application.  相似文献   

19.
Attention mechanism has been found effective for human gaze estimation, and the attention and diversity of learned features are two important aspects of attention mechanism. However, the traditional attention mechanism used in existing gaze model is more prone to utilize first-order information that is attentive but not diverse. Though the existing bilinear pooling-based attention could overcome the shortcoming of traditional attention, it is limited to extract high-order contextual information. Thus we introduce a novel bilinear pooling-based attention mechanism, which could extract the second-order contextual information by the interaction between local deep learned features. To make the gaze-related features robust for spatial misalignment, we further propose an attention-in-attention method, which consists of a global average pooling and an inner attention on the second-order features. For the purpose of gaze estimation, a new bilinear pooling-based attention networks with attention-in-attention is further proposed. Extensive evaluation shows that our method surpasses the state-of-the-art by a big margin.  相似文献   

20.
针对现有图像质量评价方法的缺陷,通过深度学习理论建模人眼视觉系统(human vision system,HVS)特性,提出了一种基于视觉特征深度感知与学习融合(deeply perception and learning for pooling,DPLP)的评价方法.首先为了增加图像视觉特征的稳定性,根据人眼感光的空域结构特征和频域多通道特性,对图像依次进行二维Log-Gabor小波变换、梯度变换和频谱残余的深度视觉信息处理,然后分别提取各层视觉信息进行质量评价.其次为了克服HVS融合的不确定性,对质量评价信息采取了深度池化策略,第一层为评价视图的空域融合,采取了符合人眼感光特性的高斯加权策略;第二层为多通道评价的频域融合,采取了具有HVS推理能力的BP神经网络的学习-预测策略;第三层为各级视觉特征的评价融合,采取了具有自适应特性的回归函数策略.最后,基于现实中的各种失真类型图像进行了实验,结果表明所提方法具有较高的主客观评价一致性水平和更好的稳定性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号