首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
康书宁  张良 《信号处理》2020,36(11):1897-1905
基于深度学习的人体动作识别近几年取得了良好的识别效果,尤其是二维卷积神经网络可以较充分的学习人体动作的空间特征,但在捕获长时间的运动信息上仍存在问题。针对此问题,提出了基于语义特征立方体切片的人体动作识别模型来联合地学习动作的表观和运动特征。该模型在时序分割网络(Temporal Segment Networks,TSN)的基础上,选取InceptionV4作为骨干网络提取人体动作的表观特征,将得到的三维特征图立方体分为二维的空间上和时间上的特征图切片。另外设计一个时空特征融合模块协同的学习多维度切片的权重分配,从而得到人体动作的时空特征,由此实现了网络的端到端训练。与TSN模型相比,该模型在UCF101和 HMDB51数据集上的准确率均有所提升。实验结果表明,该模型在不显著增加网络参数量的前提下,能够捕获更丰富的运动信息,使人体动作的识别结果提高。   相似文献   

2.
童鸣  何楚  何博琨  王文伟 《信号处理》2019,35(12):2017-2028
近30年间,深度学习异军突起。它在各项计算机视觉任务中都取得了令人瞩目的进步,加之大量高质多样化数据的出现,使得各种依赖数据的目标检测方法重现曙光。然而,这些深度网络算法通常需要大量数据来支持数百亿参数的计算,其运行效率较低并且对存储空间的要求越来越高,使得在小型设备或移动端中无法嵌入大型神经网络。因此,本文提出优化目标检测算法以适应移动端环境,利用CNN卷积核多样性和可分离的原理,应用深度可分离卷积(Depthwise Separable Convolution)结构的理论,提出单阶段-端到端目标检测压缩网络DW-YOLOv3。最后,在带有详细标注的地面观测实况大规模基准数据集VisDrone2018数据集上的结果表明,本文提出的改进单阶段-可分离卷积目标检测压缩网络算法可以将网络参数压缩8-9倍,由于其增加了整体网络的深度,在对网络整体性能影响较小的同时提升了对无人机视角图像中小目标物体的识别性能。   相似文献   

3.
数字全息术(DH)是监测透明样品定量三维信息的一种重要技术。然而,常规数字全息重建中需要相位畸变补偿和解包裹,严重影响了相位重建速度和重建精度。提出一种融合空洞卷积和注意力机制的改进残差Unet方法,实现了数字全息端到端相位重建,简化成像过程,提高了图像重建质量。此外,该方法还可以通过调整残差块,得到最优的实时重建网络模型。实验结果表明,所提基于深度学习的相位重建方法能够实时获得样品精确的三维形貌信息,有利于对动态样品进行实时监测。  相似文献   

4.
光场图像的深度估计是3维重建、自动驾驶、对象跟踪等应用中的关键技术。然而,现有的深度学习方法忽略了光场图像的几何特性,在边缘、弱纹理等区域表现出较差的学习能力,导致深度图像细节的缺失。该文提出了一种基于语义导向的光场图像深度估计网络,利用上下文信息来解决复杂区域的不适应问题。设计了语义感知模块的编解码结构来重构空间信息以更好地捕捉物体边界,空间金字塔池化结构利用空洞卷积增大感受野,挖掘多尺度的上下文内容信息;通过无降维的自适应特征注意力模块局部跨通道交互,消除信息冗余的同时有效融合多路特征;最后引入堆叠沙漏串联多个沙漏模块,通过编解码结构得到更加丰富的上下文信息。在HCI4D光场数据集上的实验结果表明,该方法表现出较高的准确性和泛化能力,优于所比较的深度估计的方法,且保留较好的边缘细节。  相似文献   

5.
史聪伟  赵杰煜  陈瑜 《电子学报》2020,48(4):648-653
三维目标的形状变化给目标识别带来很大挑战,同时三维网格模型的不规则数据结构难以直接应用卷积运算提取三维目标特征.对此,本文提出了一种高效的三维形变目标的网格卷积特征表示方法,准确提取形状信息并进行分类.首先通过网格卷积运算获得形变目标中典型局部曲面形状分布,其次通过马尔科夫链对曲面形状的空间共现关系建模,从而形成三维模型的全局特征描述,最后采用支持向量机实现形变目标分类.该方法将连续多项式函数作为卷积模板,实现针对不规则数据结构的网格卷积运算,并且给出了卷积模板参数的无监督学习方法.在标准非刚性三维模型数据集SHREC10与SHREC15上的实验结果表明本文方法能有效提取三维网格模型的形状信息,分类准确率分别达到了92.88%与96.54%.  相似文献   

6.
为了提高监控场景中行人检测的准确度,提出了一种基于上下文信息的行人检测方法.该方法将监控场景的上下文信息融入到卷积神经网络中,选择性地学习对行人检测有帮助的上下文信息.首先,利用一个截断的卷积神经网络提取输入图像的多张特征图.然后,将多张特征图通过两个包含上下文信息的卷积层,形成一张掩码图.最后,通过在掩码图上估计行人的边界框,获得行人检测的结果.实验表明,该方法能实现监控场景中准确且快速的行人检测.  相似文献   

7.
基于深度学习和智能规划的行为识别   总被引:1,自引:0,他引:1       下载免费PDF全文
现有行为识别方法在未能持续覆盖造成视频监控盲区所引起行为数据缺失的情况,难以有效实施特征分析、行为分类补全,无法准确识别出智能体完整的行为动作序列.为此,本文提出一种基于深度学习和智能规划的行为识别方法.首先,利用深度残差网络对图像进行分类训练,然后使用递归神经网络对图像特征进行提取深度信息以增强分类效果;其次,运用智能规划的STRIPS (Stanford Research Institute Problem Solver)模型,将深度学习提取的图像特征命题信息转化为规划领域的模型描述文档,并使用前向状态空间搜索规划器推导出完整的行为动作序列.在HMDB51等行为识别公共数据集中,本方法与生成式对抗网络、深度卷积逆向图网络、深度信念网络、支持向量机等同类先进方法相比展现出更好的性能.  相似文献   

8.
钟锦鑫  尹维  冯世杰  陈钱  左超 《红外与激光工程》2020,49(6):20200011-1-20200011-11
针对传统的单幅散斑图像匹配算法测量精度低且无法测量复杂面型物体等问题,提出了一种基于深度学习的散斑投影轮廓术,即通过深度学习的方法实现散斑图像的逐像素匹配。设计利用孪生卷积神经网络结构,将目标散斑图像和参考散斑图像以图像块的形式输入神经网络。通过卷积层运算提取散斑图像块的特征信息,进而将子网络得到的特征信息融合为两个图像块之间的匹配系数,以获得散斑图像的视差数据,并最终可将视差数据转化为物体的三维信息。实验结果表明,该方法可以通过单幅散斑图像实现精度约为290 μm的三维轮廓测量。  相似文献   

9.
针对如何利用视频中空域C3D与光流2D网络的互补性、光流高效计算与存储问题,提出基于端到端时空双流卷积网络融合的视频分类算法(TV BN-Inception network and ResNeXt-101 TVBN-ResNeXt),可融合C3D与自学习端到端光流卷积网络的优点。针对空间流,首先基于C3D 的ResNeXt-101残差网络进行空域视频分类;然后另一支路使用端到端时间流网络,由TVnet网络实时进行光流学习,其次针对堆叠光流特征数据利用BN-Inception网络进行视频分类;最后将双流支路的视频分类结果进行加权融合形成最后判决。在UCF-101和HMDB-51数据集上的实验分别达到94.6%和70.4%的准确率。结果表明,本文提出的TVBN-ResNeXt双流互补网络融合方法不但可解决光流自学习问题,提高网络的运行效率,还可有效提高视频分类的性能   相似文献   

10.
针对网络模型执行过程耗时过长的问题,受到像素切割网络架构中的编解码结构启发,设计了一种高效的轻量级主干网络,使用深度可分离卷积作为基本的卷积模块,利用了多维自学习模块(Multidimensional Self-Learning Module, MSLM)对特征矩阵进行自适应的学习来增强有用信息权重,同时使用编解码结构对其主干结构进行效率上的优化,设计出了深度可分离网络(Codec Depth Separable Network, CSDNet),相比于MobileNet性能提升了72%,精度提升了5.2%。  相似文献   

11.
杨勇  吴峥  张东阳  刘家祥 《信号处理》2020,36(9):1598-1606
为了在图像重建质量和网络参数之间取得较好的平衡,本文提出一种基于渐进式特征增强网络的超分辨率(Super-Resolution,SR)重建算法。该方法主要包含两个模块:浅层信息增强模块和深层信息增强模块。在浅层信息增强模块中,首先利用单层卷积层提取低分辨率(Low-Resolution,LR)图像的浅层信息,再通过我们设计的多尺度注意力块来实现特征的提取和增强。深层信息增强模块先利用残差学习块学习图像的深度信息,然后将得到的深层信息通过设计的多尺度注意力块来获得增强后的深层多尺度信息。最后我们利用跳转连接的方式将首层得到的浅层信息和深层多尺度信息进行像素级相加得到融合特征图,再对其进行上采样操作,得到最终的高分辨率(High-Resolution, HR)图像。实验结果表明,相比于一些主流的深度学习超分辨率方法,本文方法重建得到的图像无论是主观效果还是客观指标,都取得了更好的效果。   相似文献   

12.
姚少卿  苏志刚 《信号处理》2020,36(11):1940-1946
基于深度学习的语义分割算法可以实现安检违禁品自动识别,并获得违禁品的位置、类别及形状信息。但传统的语义分割算法在面对违禁品尺寸不一且目标多样的识别任务时表现较差。针对该问题,本文提出了一种基于语义分割技术的多目标违禁品识别算法。编码阶段,设计使用空洞空间金字塔卷积模块(Atrous Spatial Pyramid Convolution Block, ASPC),提升网络对于特征图多尺度信息的挖掘能力。同时引入注意力机制,对ASPC模块的特征提取过程进行监督,进一步提升模块的特征提取能力。解码阶段,受U-Net模型启发,采用逐级上采样操作,同时加入1×1卷积实现通道降维,减少计算量,提升模型运行速度。实验结果显示,本文提出的算法在多目标违禁品识别任务中表现良好,平均交并比(mIoU)得分78.62,处理单张图片用时(Time)68ms。   相似文献   

13.
在有监督语音增强任务中,上下文信息对目标语音的估计产生重要影响,为了获取更加丰富的语音全局相关特征,该文以尽可能小的参数为前提,设计了一种新型卷积网络来进行语音增强。所提网络包含编码层、传输层与解码层3个部分:编解码部分提出一种2维非对称膨胀残差(2D-ADR)模块,其能明显减小训练参数并扩大感受野,提升网络对上下文信息的获取能力;传输层提出一种1维门控膨胀残差(1D-GDR)模块,该模块结合膨胀卷积、残差学习与门控机制,能够选择性传递特征并获取更多时序相关信息,同时采用密集跳跃连接的方式对8个1D-GDR模块进行堆叠,以增强层间信息流动并提供更多梯度传播方式;最后,对相应编解码层进行跳跃连接并引入注意力机制,以使解码过程获得更加鲁棒的底层特征。实验部分,使用了不同的参数设置以及对比方法来验证网络的有效性与鲁棒性,通过在28种噪声环境下训练及测试,相比于其他方法,该文方法以1.25×106的参数取得了更优的客观和主观指标,具备较强的增强效果与泛化能力。  相似文献   

14.
时文华  张雄伟  邹霞  孙蒙 《信号处理》2019,35(4):631-640
针对传统的神经网络未能对时频域的相关性充分利用的问题,提出了一种利用深度全卷积编解码神经网络的单通道语音增强方法。在编码端,通过卷积层的卷积操作对带噪语音的时频表示逐级提取特征,在得到目标语音高级特征表示的同时逐层抑制背景噪声。解码端和编码端在结构上对称,在解码端,对编码端获得的高级特征表示进行反卷积、上采样操作,逐层恢复目标语音。跳跃连接可以很好地解决极深网络中训练时存在的梯度弥散问题,本文在编解码端的对应层之间引入跳跃连接,将编码端特征图信息传递到对应的解码端,有利于更好地恢复目标语音的细节特征。 对特征融合和特征拼接两种跳跃连接方式、基于L1和 L2两种训练损失函数对语音增强性能的影响进行了研究,通过实验验证所提方法的有效性。   相似文献   

15.
Network traffic classification method basing on CNN   总被引:1,自引:0,他引:1  
Since the feature selection process will directly affect the accuracy of the traffic classification based on the traditional machine learning method,a traffic classification algorithm based on convolution neural network was tailored.First,the min-max normalization method was utilized to process the traffic data and map them into gray images,which would be used as the input data of convolution neural network to realize the independent feature learning.Then,an improved structure of the classical convolution neural network was proposed,and the parameters of the feature map and the full connection layer were designed to select the optimal classification model to realize the traffic classification.The tailored method can improve the classification accuracy without the complex operation of the network traffic.A series of simulation test results with the public data sets and real data sets show that compared with the traditional classification methods,the tailored convolution neural network traffic classification method can improve the accuracy and reduce the time of classification.  相似文献   

16.
王小宇  李凡  曹琳  李军  张驰  彭圆  丛丰裕 《信号处理》2020,36(6):958-965
由于水声信号的高度复杂性,基于特征工程的传统水下目标识别方法表现欠佳。基于深度学习模型的水下目标识别方法可有效减少由于特征提取过程带来的水声信号信息损失,进而提高水下目标识别效果。本文提出一种适用于水下目标识别场景的卷积神经网络结构,即在卷积模块化设计中引入卷积核为1的卷积层,更大程度地保留水声信号局部特征,且降低模型的复杂程度;同时,以全局平均池化层替代全连接层的方式构造基于特征图对应的特征向量主导分类结果的网络结构,使结果更具可解释性,且减少训练参数降低过拟合风险。实验结果表明该方法得到的水下目标识别准确率(91.7%)要优于基于传统卷积神经网络(69.8%)和基于高阶统计量特征的传统方法识别表现(85%)。这说明本文提出的模型能更好保留水声信号的时域结构,进而提高分类识别效果。   相似文献   

17.
针对现有图像拼接检测网络模型存在边缘信息关注度不够、像素级精准定位效果不够好等问题,提出一种融入残差注意力机制的DeepLabV3+图像拼接篡改取证方法,该方法利用编-解码结构实现像素级图像的拼接篡改定位。在编码阶段,将高效注意力模块融入ResNet101的残差模块中,通过残差模块的堆叠以减小不重要的特征比重,凸显拼接篡改痕迹;其次,利用带有空洞卷积的空间金字塔池化模块进行多尺度特征提取,将得到的特征图进行拼接后通过空间和通道注意力机制进行语义信息建模。在解码阶段,通过融合多尺度的浅层和深层图像特征提升图像的拼接伪造区域的定位精度。实验结果表明,在CASIA 1.0、COLUMBIA和CARVALHO数据集上的拼接篡改定位精度分别达到了0.761、0.742和0.745,所提方法的图像拼接伪造区域定位性能优于一些现有的方法,同时该方法对JPEG压缩也具有更好的鲁棒性。  相似文献   

18.
Deep image compression efficiency has been improved in the past years. However, to fully exploit context information for compressing image objects of different scales and shapes, more adaptive geometric structure of inputs should be considered. In this paper, we novelly introduce deformable convolution and its spatial attention extension into deep image compression task to fully exploit the context information. Specifically, a novel deep image compression network with Multi-Scale Deformable Convolution and Spatial Attention, named MS-DCSA, is proposed to better extract compact and efficient latent representation as well as reconstruct higher-quality images. First, multi-scale deformable convolution is presented to provide multi-scale receptive fields for learning spatial sampling offsets in deformable operations. Subsequently, multi-scale deformable spatial attention module is developed to generate attention masks to re-weight extracted features according to their importance. In addition, the multi-scale deformable convolution is applied to design delicate up/down sampling modules. Extensive experiments demonstrate that the proposed MS-DCSA network achieves improved performance on both PSNR and MS-SSIM quality metrics, compared to conventional as well as competing deep image compression methods.  相似文献   

19.
针对传统编解码结构的医学图像分割网络存在特征信息利用率低、泛化能力不足等问题,该文提出了一种结合编解码模式的多尺度语义感知注意力网络(multi-scale semantic perceptual attention network,MSPA-Net) 。首先,该网络在解码路径加入双路径多信息域注意力模块(dual-channel multi-information domain attention module,DMDA) ,提高特征信息的提取能力;其次,网络在级联处加入空洞卷积模块(dense atrous convolution module,DAC) ,扩大卷积感受野;最后,借鉴特征融合思想,设计了可调节多尺度特征融合模块 (adjustable multi-scale feature fusion,AMFF) 和双路自学习循环连接模块(dual self-learning recycle connection module,DCM) ,提升网络的泛化性和鲁棒性。为验证网络的有效性,在CVC-ClinicDB、ETIS-LaribPolypDB、COVID-19 CHEST X-RAY、Kaggle_3m、ISIC2017和Fluorescent Neuronal Cells等数据 集上进行验证,实验结果表明,相似系数分别达到了94.96%、92.40%、99.02%、90.55%、92.32%和75.32%。因此,新的分割网络展现了良好的泛化能力,总体性能优于现有网络,能够较好实现通用医学图像的有效分割。  相似文献   

20.
廖理心  赵耀  韦世奎 《信号处理》2022,38(6):1192-1201
高质量的数据是深度卷积神经网络成功的关键因素之一。在计算机视觉领域,常用图像数据集通常以JPEG格式存储。这种有损压缩技术不可避免地会导致原始数据信息的丢失,进而造成利用压缩数据训练的卷积神经网络的性能降低。因此,为了增强卷积神经网络的性能,本文提出了一种面向压缩图像复原的增强训练方法,通过复原压缩图像实现卷积神经网络的性能增强。该方法具体为一个包含复原模块和任务模块的联合增强框架。复原模块致力于恢复有损压缩技术造成的信息丢失;任务模块专注于基于任务需求增强压缩图像。两个模块联合训练,使得压缩图像的复原增强更具有目的性。本文通过图像分类任务的实验表明,与压缩图像相比,该方法能有效地复原压缩图像,增强卷积神经网络的性能。此外,该方法中两个模块间的低耦合性和可替代性保证了该方法的适用性。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号