首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
在满足鲁棒性、独特性前提下,为了提高视频指纹系统紧凑性,提出一种端到端的深度度量学习视频指纹算法.网络整体框架由权值共享的三分支网络组成,分支网络采用改进的3D残差网络将多层特征融合并进行压缩,实现视频数据到指纹的端到端映射.网络目标函数由度量和分类双损失函数组成,其中,设计的边界约束三元组角度度量损失函数克服了普通三元组损失函数对特征相关性表达不足的问题;分类损失函数弥补了度量损失对样本特征整体分布不敏感的问题.在公开数据集FCVID上对文中算法、传统方法和深度方法进行了大量实验.结果表明,深度度量学习视频指纹算法在鲁棒性、独特性提高的同时紧凑性显著提高.  相似文献   

2.
随着自媒体时代的兴起,网民自制的短视频数据在网络上广泛传播,视频版权保护已成为重中之重。视频指纹技术将数字视频内容映射为唯一的身份描述符,用于视频数据的智能化审核。如何充分挖掘短视频的时空信息和视频间的关联性形成有效的视觉特征表达,是决定短视频指纹质量的关键因素。因此,基于R(2+1)D三元孪生网络模型,提出一种短视频指纹提取方法。首先,使用R(2+1)D卷积神经网络模型提取短视频的时空特征;然后构建权重参数共享的三元组网络学习成组视频的关联性,映射为紧凑的哈希特征表示;最后通过哈希层编码为视频指纹。在CC_Web_Video和VCDB数据集进行了实验,结果表明该方法可以在保证短视频指纹紧凑性的前提下,取得优于其他算法的性能指标。  相似文献   

3.
高精度物体检测网络急剧增加的参数和计算量使得它们很难在车辆和无人机等端侧设备上直接部署使用。针对这一问题,从网络压缩和计算加速两方面入手,提出了一种面向残差网络的新型压缩方案来实现YOLOv3的压缩,并通过ZYNQ平台对这一压缩后的网络进行加速。首先,提出了包括网络裁剪和网络量化两方面的网络压缩算法。网络裁剪方面,给出了针对残差结构的裁剪策略来将网络剪枝分为通道剪枝和残差链剪枝两个粒度,解决了通道剪枝无法应对残差连接的局限性,进一步降低了模型的参数量;网络量化方面,实现了一种基于相对熵的模拟量化方法,以通道为单位对参数进行量化,在线统计模型的参数分布与参数量化造成的信息损失,从而辅助选择最优量化策略来减少量化过程的精度损失。然后,在ZYNQ平台上设计并改进了8比特的卷积加速模块,从而优化了片上缓存结构并结合Winograd算法实现了压缩后YOLOv3的加速。实验结果表明,所提压缩算法较YOLOv3 tiny能够进一步降低模型尺寸,但检测精度提升了7个百分点;同时ZYNQ平台上的硬件加速方法获得了比其他平台更高的能耗比,从而推进了YOLOv3以及其他残差网络在ZYNQ端侧的实际部署。  相似文献   

4.
目的 现存的去噪算法中很多在去除噪声的同时都存在边缘信息过光滑、易产生彩色伪影的问题,为了解决这些缺点,本文提出了一种基于联合感知损失的深度残差去噪网络。方法 首先利用低通滤波器将噪声图片分解成高频层和低频层,然后将包含噪声和边缘信息的高频层输入设计好的残差网络中,通过常规逐像素损失方法学习端到端的残差映射预测出噪声残差图片,再由一个从输入直接通往输出的全局跳跃连接处理得到初始较模糊的去噪结果,最后级联一个预训练好的语义分割网络用来定义感知损失,指导前面的去噪模型学习更多语义特征信息来增强被模糊的边缘细节,得到更清晰真实的去噪结果。结果 本文从定性和定量两个方面进行对比实验。以峰值信噪比(PSNR)作为量化指标来评价算法性能,结果表明所提出的网络在同其他对比方法一样使用逐像素损失训练时能产生最好的指标结果,在Set5、Set14和BSD100测试集25噪声级别时的结果分别为30.51 dB、30.60 dB和29.38 dB。在视觉定性分析上,本文提出的感知损失模型明显取得了更清晰的去噪结果,相比其他方法产生的模糊区域该方法保留了更多的边缘信息和纹理细节。此外还进行了盲去噪测试实验,对一张含有不同噪声级别的图片进行去噪处理,结果表明本文训练好的算法模型可以一次性处理多种未知级别的噪声并产生满意的去噪输出而且没有多余伪影。结论 基于边缘增强的感知损失残差网络的图像去噪算法在去除噪声的同时可以保留更多容易被模糊的边缘细节,改善去噪结果过平滑的问题,提高图像视觉效果。  相似文献   

5.
周云  陈淑荣 《计算机应用》2020,40(8):2236-2240
针对传统卷积神经网络(CNN)对人体行为动作仅能提取局部特征易导致相似行为动作识别准确率不高的问题,提出了一种基于双流非局部残差网络(NL-ResNet)的行为识别方法。首先提取视频的RGB帧和密集光流图,分别作为空间流和时间流网络的输入,并通过角落裁剪和多尺度相结合的预处理方法进行数据增强;其次分别利用残差网络的残差块提取视频的局部表观特征和运动特征,再通过在残差块之后接入的非局部CNN模块提取视频的全局信息,实现网络局部特征和全局特征的交叉提取;最后将两个分支网络分别通过A-softmax损失函数进行更精细的分类,并输出加权融合后的识别结果。该方法能充分利用局部和全局特征提高模型的表征能力。在UCF101数据集上,NL-ResNet取得了93.5%的识别精度,与原始双流网络相比提高了5.5个百分点。实验结果表明,所提模型能更好地提取行为特征,有效提高行为识别的准确率。  相似文献   

6.
针对宫颈细胞图像的相似性极高,其细粒度分类存在准确率低的问题,提出了一种基于双路径网络与局部判别损失函数的DRMNet(dense reset module net)算法.该算法在特征提取阶段以残差结构为主体,加入密集连接路径,结合两者优点,使网络对特征有着高复用率、低特征冗余度的同时,保持探索新特征的能力.在分类阶段...  相似文献   

7.
针对现有的人体行为识别算法不能充分利用网络多层次时空信息的问题,提出了一种基于三维残差稠密网络的人体行为识别算法。首先,所提算法使用三维残差稠密块作为网络的基础模块,模块通过稠密连接的卷积层提取人体行为的层级特征;其次,经过局部特征聚合自适应方法来学习人体行为的局部稠密特征;然后,应用残差连接模块来促进特征信息流动以及减轻训练的难度;最后,通过级联多个三维残差稠密块实现网络多层局部特征提取,并使用全局特征聚合自适应方法学习所有网络层的特征用以实现人体行为识别。设计的网络算法在结构上增强了对网络多层次时空特征的提取,充分利用局部和全局特征聚合学习到更具辨识力的特征,增强了模型的表达能力。在基准数据集KTH和UCF-101上的大量实验结果表明,所提算法的识别率(top-1精度)分别达到了93.52%和57.35%,与三维卷积神经网络(C3D)算法相比分别提升了3.93和13.91个百分点。所提算法框架有较好的鲁棒性和迁移学习能力,能够有效地处理多种视频行为识别任务。  相似文献   

8.
面向三维模型视图特征提取的残差卷积网络优化   总被引:1,自引:0,他引:1  
在已有残差卷积神经网络基础上,采用加权损失函数提高视图特征的可分性,提出面向三维模型视图特征提取的残差卷积网络优化算法.首先对三维模型进行多视图渲染得到二维视图;然后通过残差网络扩展模块加深网络深度;最后采用中心损失函数和交叉熵损失函数定义加权损失函数,解决交叉熵损失函数因为类内距离小于类间距离而导致的特征不可分问题.在ModelNet数据集上的实验结果表明,该算法提取到的特征在三维模型分类问题上性能表现优异.  相似文献   

9.
目的 通道注意力机制在图像超分辨率中已经得到了广泛应用,但是当前多数算法只能在通道层面选择感兴趣的特征图而忽略了空间层面的信息,使得特征图中局部空间层面上的信息不能合理利用。针对此问题,提出了区域级通道注意力下的图像超分辨率算法。方法 设计了非局部残差密集网络作为网络的主体结构,包括非局部模块和残差密集注意力模块。非局部模块提取非局部相似信息并传到后续网络中,残差密集注意力模块在残差密集块结构的基础上添加了区域级通道注意力机制,可以给不同空间区域上的通道分配不同的注意力,使空间上的信息也能得到充分利用。同时针对当前普遍使用的L1和L2损失函数容易造成生成结果平滑的问题,提出了高频关注损失,该损失函数提高了图像高频细节位置上损失的权重,从而在后期微调过程中使网络更好地关注到图像的高频细节部分。结果 在4个标准测试集Set5、Set14、BSD100(Berkeley segmentation dataset)和Urban100上进行4倍放大实验,相比较于插值方法和SRCNN(image super-resolution using deep convolutional networks)算法,本文方法的PSNR(peak signal to noise ratio)均值分别提升约3.15 dB和1.58 dB。结论 区域级通道注意力下的图像超分辨率算法通过使用区域级通道注意力机制自适应调整网络对不同空间区域上通道的关注程度,同时结合高频关注损失加强对图像高频细节部分的关注程度,使生成的高分辨率图像具有更好的视觉效果。  相似文献   

10.
3D点云的不规则性与无序性使点云的分类仍具有挑战性.针对上述问题,文中设计基于残差边卷积的3D点云分类算法,可直接从点云学习到具有区分度的形状描述子,用于目标分类.首先,设计具有残差学习的边卷积模块,用于点云的特征提取.通过K近邻算法,该边卷积模块在输入点云上构建局部图,使用卷积及最大池化进行局部特征的提取与聚合.然后,通过多层感知器从原始点特征中提取全局特征,并以残差学习的方式与局部特征结合.最后,以该卷积块为基本单元,构建深度神经卷积网络,实现3D点云的分类.文中方法较全面地考虑点云局部特征与全局特征的有机结合,网络具有更深层次的结构,最终得到的形状描述子更抽象,具有更高的区分度.在具有挑战性的ModelNet40、ScanObjectNN数据集上的实验证实文中方法的分类性能较优.  相似文献   

11.
针对在视频行为检测中卷积神经网络(CNN)对时域信息理解能力不足的问题,提出了一种融合非局部神经网络的行为检测模型.模型采用一种双分支的CNN结构,分别提取视频的空间特征和运动特征.将视频单帧和视频连续帧序列作为网络输入,空间网络对视频当前帧进行2D CNN特征提取,时空网络采用融合非局部模块的3D CNN来捕获视频帧...  相似文献   

12.
针对无人机视频中存在目标密集、运动噪声强而导致跟踪性能显著下降的问题,提出了一种改进YOLOv3的车辆检测算法及一种基于深度度量学习的多车辆跟踪算法。针对车辆检测的精度与实时性问题,采用深度可分离卷积网络MobileNetv3作为特征提取网络实现网络结构轻量化,同时采用CIoU Loss作为边框损失函数对网络进行训练。为了在多目标跟踪过程中提取到更具判别力的深度特征,提出了一种基于深度度量学习的多车辆跟踪算法,实验证明,本文提出的算法有效改善车辆ID跳变问题,速度上满足无人机交通视频下车辆跟踪的实时性要求,达到17 f/s。  相似文献   

13.
针对课堂教学场景遮挡严重、学生众多,以及目前的视频行为识别算法并不适用于课堂教学场景,且尚无学生课堂行为的公开数据集的问题,构建了课堂教学视频库以及学生课堂行为库,提出了基于深度时空残差卷积神经网络的课堂教学视频中实时多人学生课堂行为识别算法.首先,结合实时目标检测和跟踪,得到每个学生的实时图片流;接着,利用深度时空残...  相似文献   

14.
吴桦  于振华  程光  胡晓艳 《软件学报》2021,32(10):3310-3330
加密视频识别是网络安全和网络管理领域亟待解决的问题,已有的方法是将视频的加密传输指纹与视频指纹库中的视频指纹进行匹配,从而识别出加密传输的视频.现有工作主要集中在匹配识别算法的研究上,但是没有专门针对待匹配数据源的研究,也缺少在大型视频指纹库里对这些算法的查准率和假阳率指标的分析,由此造成现有成果的实用性不能保证.针对这一问题,首先分析使用安全传输层协议加密的应用数据单元(application data unit,简称ADU)密文长度相对明文长度发生漂移的原因,首次将HTTP头部特征和TLS片段特征作为ADU长度复原的拟合特征,提出了一种对加密ADU指纹精准复原方法HHTF,并将其应用于加密视频识别.基于真实Facebook视频模拟构建了20万级的大型指纹库.从理论上推导并计算出:只需已有方法十分之一的ADU数目,在该指纹库中视频识别准确率、查准率、查全率达到100%,假阳率达到0.在模拟大型视频指纹库中的实验结果与理论推导结果一致.HHTF方法的应用,使得在大规模视频指纹库场景中识别加密传输的视频成为可能,具有很强的实用性和应用价值.  相似文献   

15.
现有视频行人重识别方法无法有效地提取视频连续帧之间的时空信息,因此提出一种基于非局部关注和多重特征融合的行人重识别网络来提取全局与局部表征特征和时序信息。首先嵌入非局部关注模块来提取全局特征;然后通过提取网络的低中层特征和局部特征实现多重特征融合,从而获得行人的显著特征;最后将行人特征进行相似性度量并排序,计算出视频行人重识别的精度。在大数据集MARS和DukeMTMC-VideoReID上进行实现,结果显示所提出的模型较现有的多尺度三维卷积(M3D)和学习片段相似度聚合(LCSA)模型的性能均有明显提升,平均精度均值(mAP)分别达到了81.4%和93.4%,Rank-1分别达到了88.7%和95.3%;同时在小数据集PRID2011上,所提模型的Rank-1也达到94.8%。  相似文献   

16.
针对原始C3D卷积神经网络的层数较少、参数量较大和难以关注关键帧而导致的人体行为识别准确率较低的问题,提出一种基于改进型C3D的注意力残差网络模型;首先,增加原始网络卷积层并采用卷积核合并与拆分操作实现(3×1×7)和(3×7×1)的非对称式卷积核,之后采用全预激活式残差网络结构来增加构建的非对称卷积层,并且在残差块中增加时空通道注意力模块;最后,为展示该算法的先进性和应用性,则将该算法与原始C3D网络以及其他流行算法分别在基准数据集HMDB51和自建的43类别体育运动数据集上相比较;实验结果表明,该算法与原始C3D网络相比,在HMDB51和43类体育运动数据集上分别提高了9.88%和21.61%,参数量比原来降低了38.68%,并且结果也优于其他流行算法。  相似文献   

17.
This paper proposes a method to realize a 3D video system that can capture video data from multiple cameras, reconstruct 3D models, transmit 3D video streams via the network, and display them on remote PCs. All processes are done in real time. We represent a player with a simplified 3D model consisting of a single plane and a live video texture extracted from multiple cameras. This 3D model is simple enough to be transmitted via a network. A prototype system has been developed and tested at actual soccer stadiums. A 3D video of a typical soccer scene, which includes more than a dozen players, was processed at video rate and transmitted to remote PCs through the internet at 15–24 frames per second.  相似文献   

18.
现有的视频烟雾检测方法大多通过运动检测提取疑似烟区,并依据经验手工设计提取烟雾特征,在复杂场景中检测准确率不高。针对以上问题,提出了一种基于时空双路3D残差卷积网络的视频烟雾检测方法,基于混合高斯背景模型与原始视频帧的小波低频分量差进行疑似烟区提取,其次构造时空双路3D残差卷积神经网络,并引入注意力机制加权融合烟雾时空域特征,实现端对端的烟雾识别。实验结果表明,该方法可以得到更为完整的疑似烟区,尤其对于过于稀薄和浓厚的烟雾分割效果较好,且相比于传统的烟雾检测方法和2D的烟雾检测卷积网络,在烟雾检测准确率上得到了提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号