首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
针对全监督视频实例分割网络训练数据高度依赖精细掩码标注,时间和人工成本过高,导致智能机器无法快速适应新场景的问题,提出一种端到端的掩码生成动态调控弱监督视频实例分割(Weakly Supervised Video Instance Segmentation,WSVIS)网络。为克服初始掩码预测层通道维度突降导致的实例激活特征丢失问题,构建多级特征融合模块,利用特征复用策略预测初始实例特征并融合相对位置信息生成初始预测掩码。然后,提出动态调控机制在通道和空间维度上建立掩码特征依赖关系,强化初始预测掩码与实例感知信息之间的动态交互。最后,网络设计二元颜色相似性生成伪亲和标签取代精细掩码标注,联合边界框与掩码一致性损失实现仅边界框标注的弱监督视频实例分割。实验结果表明,在BoxSet和YT-VIS数据集上,WSVIS网络能达到与全监督网络相近的分割精度和分割效果,同时能够满足实时推理要求,为智能机器快速适应新场景实现实时环境感知和理解提供了理论支撑和算法依据。  相似文献   

2.
提出了基于在线随机森林投票识别人物动作类别的方法。建立了在线随机森林投票模型。通过在线训练和在线检测两部分进行了算法研究,提高了检测人物动作类别的准确率。基于人物动作在时间和空间上有重要信息,该方法首先通过提取图像立体块的lab色彩空间值、一阶差分、二阶差分以及大位移光流特征值在线训练随机森林;训练结束后,形成强分类器,利用分类器对检测图像进行投票,生成动作空间图;最后,在动作空间图中寻求最大值,判断检测图像的动作类别。验证结果表明在低分辨的视频图像中,本方法能够确定人物的动作类别,对Weizmann数据库和KTH数据库的识别率分别为97.3%和89.5%,对UCF sports数据库的识别率为79.2%,动作识别准确率有所提高。该方法增加了光流能量场特征表述,将原始投票理论拓展至三维空间,并且采用向下采样的方式更新结点信息,能够判断人物动作类别,为智能视频技术提供了有效的补充信息。  相似文献   

3.
在偏光式立体投影机领域,复合立体视频的分解主要通过计算机显卡的双屏输出功能来实现,系统的视频接收模块和外部连接结构复杂,视频播放依赖于特定硬件需求的计算机。为解决这一问题,提出了一种应用于偏光式3D投影系统的视频画面分割模块的设计和实现方法。视频画面分割模块基于FPGA技术,采用SDRAM作为图像帧缓存,对立体视频中左右画面进行实时分割和同步传输,能够替代计算机显卡的双屏输出功能。模块易于集成在投影系统中,可简化系统的视频接收模块和外部连接结构,实现独立立体视频播放功能。  相似文献   

4.
视频超分辨率(Video-Super Resolution,VSR)旨在将低分辨率视频帧序列重建为高分辨率视频帧序列。相较于图像超分辨率,VSR由于增加了时间维度的信息,因此通常需要依赖邻近帧高度相关信息实现当前帧的重建。如何对齐相邻帧,并获取帧间高度相关信息,是VSR任务关注的重点问题。本文将VSR任务分为去模糊、对齐、重建三个阶段。在去模糊阶段,将当前帧与相邻帧进行预对齐,获取与当前帧高度相关的特征信息,通过强化当前帧的细节以便实现初始阶段更多特征信息的提取。在对齐阶段,通过对输入特征进行二次对齐操作,利用相邻帧中高度相关信息进一步强化当前帧中特征信息。在重建阶段,通过聚合原始低分辨率帧以在网络末端提供更多特征信息。本文利用多层感知机(Multi-Layer Perceptron,MLP)代替传统卷积操作构造特征提取模块,同时对生成的特征信息进行二次对齐,以细化图像特征获得更优的视频帧重建效果。实验结果表明,本文提出的算法在多种公开数据集上的视频帧序列重建精度更高的同时,也取得了更少的网络参数量和更连贯的视频序列重建表现。  相似文献   

5.
在对装配作业人员进行动作分析的过程中,动作的识别和记录一般通过手工操作完成,这种方法不仅工作量大,而且效率低。为解决该问题,提出了一种新的基于机器视觉的装配动作自动分割与识别方法。首先利用基于内容的动态关键帧提取技术提取视频流中的关键帧,实现动作的自动分割;然后提取感兴趣区域的尺度不变局部特征点,据此得出关键帧的特征向量;最后,基于支持向量机构建特征向量分类器对动作进行分类。装配线上样本视频的实验结果表明,所提方法达到了96%的正确识别率。  相似文献   

6.
针对混凝土表面裂缝分割过程中分割精度低、细微裂缝漏分和背景干扰等问题,提出一种联合线性引导和网格优化的裂缝分割模型。首先,在主干网络中引入多分支线性引导模块,通过自适应单维度池化增强网络对裂缝线性结构的表达能力,让不同区域的裂缝建立联系,增强全局上下文信息感知能力,提高网络分割精度;然后,提出网格细节优化模块,通过分区-优化-合并三步骤,将整个空间域划分为若干个空间网格,提取空间网格中的细微裂缝信息,防止细微裂缝漏分;最后,在主干网络的跳跃连接处嵌入混合注意力模块,在空间和通道双维度突出裂缝特征,减少背景干扰。在Deepcrack537,Crack500和CFD裂缝数据集上,所提模型的IoU值分别达到77.07%,58.96%和56.55%,F1-score值分别达到87.05%,74.19%和72.24%,明显优于大多数现有方法,具有更高的分割精度。  相似文献   

7.
针对在线铁谱视频图像气泡高干扰所面临的磨粒分割困难问题,提出一种气泡高干扰在线铁谱视频图像的磨粒快速分割算法。首先运用运动检测的方法确定视频中气泡的位置,并用相邻帧相同位置的图像信息对气泡区域进行处理,再使用双边滤波对处理后的图像进行平滑去噪,实现气泡干扰的初步抑制;最后基于抑制气泡图像的灰度直方图,对每一帧图像选取其自适应的阈值,实现在线铁谱视频图像中磨粒的快速分割。该研究为在线铁谱的磨粒分割与后续对磨粒特征的智能提取和分析奠定了基础。  相似文献   

8.
针对目前双流卷积神经网络通常使用堆叠RGB帧和光流图分别提取视频的表观信息和运动信息,存在信息冗余和计算复杂度高的问题,基于时域分割网络提出了一种结合光流图、差分图像和并行卷积神经网络的行为识别算法。首先通过分析行为视频中存在的运动模糊现象,设计了一种基于图像特征量的关键帧选取算法,同时构建了一个包含表观信息流和运动信息流的改进时域分割网络,将关键帧RGB图像、非关键帧光流图像和差分图像并行地输入特征提取网络计算分类得分,最后将关键帧与非关键帧的行为类别得分进行平均融合后输入SoftMax层得到视频类别概率。为进一步降低算法的参数量和计算复杂度,设计了一种轻量化卷积神经网络作为特征提取网络。本文算法在UCF101数据集的识别准确率为94.7%,在HMDB51数据集的识别准确率为69.3%,推理速度相比于时域分割网络快了45.3%。实验结果表明,该算法能够高效利用视频的表观信息和运动信息,且具有较高的行为识别准确率。  相似文献   

9.
为了实现视频手势的实时分割与定位,提出一种基于肤色采样点筛选的视频手势分割算法对视频中的运动手势进行实时分割与定位。首先,对视频的每一帧通过图像预处理获取肤色采样点;其次,融合运动信息对肤色采样点进行初步筛选;然后,通过区域生长法再次筛选肤色采样点提取特征点;最后,通过特征点实现视频手势的分割与定位。实验结果表明,该方法具有良好的手势分割效果和较高的定位准确度。  相似文献   

10.
动作识别是计算机视觉基础任务之一,骨架序列包含了大部分的动作信息,因此基于骨架的动作识别算法受到很多学者关注。人体骨架在数学上是一个天然的图,所以图卷积被广泛应用于动作识别。但普通的图卷积只聚合两两节点间的低阶信息,不能建模多节点间的高阶复杂关系。针对此问题,本文提出一种多尺度超图卷积网络,在空间和时间两个维度聚合更丰富的信息,提高动作识别准确度。多尺度超图卷积网络采用编解码结构,编码器使用超图卷积模块聚合超边中多个节点间的相关信息,解码器使用超图融合模块恢复原始骨架结构,另外基于空洞卷积设计了多尺度时间图卷积模块以更好地聚合时间维度运动信息。NTU-RGB+D和Kinetics数据集上的实验结果验证了算法的有效性。  相似文献   

11.
视频分割在视频编码、智能监控和信息检索等领域有着广泛应用,分割质量的好坏直接影响视频的后续处理,所以,基于运动目标的视频分割技术是重要而又富有挑战性的。本文在现有方法的基础上,研究了最近的国内外文献,介绍和分析了其中的算法,并对未来的发展进行了展望。  相似文献   

12.
针对传统双流网络无法捕捉视频序列中的时序关系从而导致对时序依赖较大的行为识别效果不理想的问题,提出一种基于改进双流时空网络的人体行为识别算法。首先利用时间移位思想,使卷积神经网络对视频中的时序关系建模,从而高效地捕捉视频中的时空信息;同时使用注意力机制改善由于通道信息在时间轴上移动导致的空间特征学习能力下降的问题;在此基础上构建了一个包含时空表观信息流和时空运动信息流的双流网络结构;最后,采用加权平均的方式融合双流网络,得到最终的识别结果。在UCF101和HMDB51数据集上分别进行了实验,识别准确率为96.3%和77.7%,实验结果表明,与传统双流网络方法相比,识别准确率得到了一定的提升,验证了本文算法能够有效捕捉视频中的时序关系,增强网络的特征表达能力,提高对时序依赖较大的行为和近似行为的辨识能力。  相似文献   

13.
李庆辉  李艾华  郑勇  方浩 《光学精密工程》2018,26(10):2584-2591
为提高基于人体骨架(Skeleton-based)的动作识别准确度,提出一种利用骨架几何特征与时序注意递归网络的动作识别方法。首先,利用旋转矩阵的向量化形式描述身体部件对之间的相对几何关系,并与关节坐标、关节距离两种特征融合后作为骨架的特征表示;然后,提出一种时序注意方法,通过与之前帧加权平均对比来判定当前帧包含的有价值的信息量,采用一个多层感知机实现权值的生成;最后,将骨架的特征表示乘以对应权值后输入一个LSTM网络进行动作识别。在MSR-Action3D和UWA3D Multiview Activity II数据集上该方法分别取得了96.93%和80.50%的识别结果。实验结果表明该方法能对人体动作进行有效地识别且对视角变化具有较高的适应性。  相似文献   

14.
王兵  瑚琦  卞亚林 《光学仪器》2023,45(2):46-54
图像语义分割需要精细的细节信息和丰富的语义信息,然而在特征提取阶段,连续下采样操作会导致图像中物体的空间细节信息丢失。为解决该问题,提出一种双分支结构语义分割算法,在特征提取阶段既能有效获取丰富的语义信息又能减少物体细节信息的丢失。该算法的一个分支使用浅层网络保留高分辨率细节信息有助于物体的边缘分割,另一个分支使用深层网络进行下采样获取语义信息有助于物体的类别识别,再将两种信息有效融合可以生成精确的像素预测。通过Cityscapes数据集和CamVid数据集上的实验验证,与现有语义分割算法相比,所提算法在较少的参数条件下,获得了较好的分割效果。  相似文献   

15.
特种视频(本文特指暴力视频)的智能分类技术有助于实现网络信息内容安全的智能监控。针对现有特种视频多模态特征融合时未考虑语义一致性等问题,本文提出了一种基于音视频多模态特征融合与多任务学习的特种视频识别方法。首先,提取特种视频的表观信息和运动信息随时空变化的视觉语义特征及音频信息语义特征;然后,构建具有语义保持的共享特征子空间,以实现音视频多种模态特征的融合;最后,提出基于音视频特征的语义一致性度量和特种视频分类的多任务学习特种视频分类理论框架,设计了对应的损失函数,实现了端到端的特种视频智能识别。实验结果表明,本文提出的算法在Violent Flow和MediaEval VSD 2015两个数据集上平均精度分别为97.97%和39.76%,优于已有研究。结果证明了该算法的有效性,有助于提升特种视频监控的智能化水平。  相似文献   

16.
为提高运动目标分割算法对多种复杂场景的自适应能力和分割精度,提出一种基于运动显著图和光流矢量分析的目标分割算法。该算法首先基于运动显著图提取运动目标的大致区域,然后利用光流矢量获得运动目标和背景区域的运动边界,并结合点在多边形内部原理得到运动目标内部精确的像素点,最后以超像素为基本分割单元,通过引入置信度的概念实现最终像素一级的目标分割。通过与典型算法进行多场景实验对比,表明该算法能够有效实现多种复杂场景下的运动目标分割,并且较现有算法具有更高的分割精度。  相似文献   

17.
H.264/AVC压缩域鲁棒视频水印   总被引:1,自引:0,他引:1  
针对现有H.264/AVC压缩域开环水印方法存在误差漂移及鲁棒性差的问题,分析了该类水印算法的特点及误差漂移机制,提出了一种无误差漂移的鲁棒视频水印算法。首先,基于视频重建过程,分析了开环回路水印方法的误差漂移机制,得到由水印信息造成的独立重建误差。然后,采用误差间的线性组合得到4个可以避免误差漂移的水印模板。最后,通过调制残差系数与相应水印模板之间的正负相关性,将水印嵌入在非零系数多的4×4子块上,而不像以往算法将水印直接添加在残差系数上。实验结果表明:所提算法造成的平均结构相似度下降在0.005以内;码率的增长在1.00%左右;对重量化转码、加性高斯白噪声、亮度调节等常见水印攻击,误码率均在0.15以下。得到的结果满足视频水印算法对透明性,码率稳定性,鲁棒性的要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号