首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
图像语义分割一直是计算机视觉中具有挑战性的任务之一。目前多数基于卷积神经网络的语义分割算法存在分割结果不精确,不连续等问题。为了提高图像分割效果,提出了基于生成对抗学习的图像语义分割网络模型。该模型由生成网络和判别网络两部分组成。生成网络含有五个模块,主要作用是生成语义分割图,判别网络与生成网络进行对抗训练,优化生成网络以使生成图像更加接近于Ground Truth。通过在Pascal VOC 2012数据集上对图像进行语义分割的分析,验证了该算法可以有效提高图像语义分割的精度。  相似文献   

2.
目的 域自适应分割网(AdaptSegNet)在城市场景语义分割中可获得较好的效果,但是该方法直接采用存在较大域差异(domain gap)的源域数据集GTA(grand theft auto)5与目标域数据集Cityscapes进行对抗训练,并且在网络的不同特征层间的对抗学习中使用固定的学习率,所以分割精度仍有待提高。针对上述问题,提出了一种新的域自适应的城市场景语义分割方法。方法 采用SG-GAN(semantic-aware grad-generative adversarial network(GAN))方法对虚拟数据集GTA5进行预处理,生成新的数据集SG-GTA5,其在灰度、结构以及边缘等信息上都更加接近现实场景Cityscapes,并用新生成的数据集代替原来的GTA5数据集作为网络的输入。针对AdaptSegNet加入的固定学习率问题,在网络的不同特征层引入自适应的学习率进行对抗学习,通过该学习率自适应地调整不同特征层的损失值,达到动态更新网络参数的目标。同时,在对抗网络的判别器中增加一层卷积层,以增强网络的判别能力。结果 在真实场景数据集Cityscapes上进行验证,并与相关的域自适应分割模型进行对比,结果表明:提出的网络模型能更好地分割出城市交通场景中较复杂的物体,对于sidewalk、wall、pole、car、sky的平均交并比(mean intersection over union, mIoU)分别提高了9.6%、5.9%、4.9%、5.5%、4.8%。结论 提出方法降低了源域和目标域数据集之间的域差异,减少了训练过程中的对抗损失值,规避了网络在反向传播训练过程中出现的梯度爆炸问题,从而有效地提高了网络模型的分割精度;同时提出基于该自适应的学习率进一步提升模型的分割性能;在模型的判别器网络中新添加一个卷积层,能学习到图像的更多高层语义信息,有效地缓解了类漂移的问题。  相似文献   

3.
医学图像分割是计算机辅助诊断的关键技术.青光眼作为全球第二大致盲眼病,其早期筛查和临床诊断依赖于眼底图的视盘和视杯的准确分割.但传统的视盘和视杯分割方法采用人工构建特征,模型泛化能力差.近年来,基于卷积神经网络的端对端学习模型可通过自动发现特征来分割视盘和视杯,但由于标注样本有限,模型难以训练.提出一个基于半监督条件生成对抗网络的视盘和视杯两阶段分割模型——CDR-GANs.该模型的每个分割阶段均由语义分割网络、生成器和判别器构成,通过对抗学习,判别器引导语义分割网络和生成器学习眼底图及其分割图的联合概率分布.在真实数据集ORIGA上的实验结果表明,CDR-GANs在均交并比(mean intersection over union,简称MIoU)、CDR绝对误差(absolute CDR error)和实际分割效果这些指标上明显优于现有模型.  相似文献   

4.
针对现有视频修复中存在的修复结果语义信息不连续问题,提出基于时空生成对抗网络的修复方法,其包含2种网络模型:单帧修复模型和序列修复模型.单帧修复模型采用单帧堆叠式生成器和空间判别器,实现对起始帧的高质量空间域缺损修复.在此基础上,序列修复模型针对后续帧的缺损问题,采用序列堆叠式生成器和时空判别器,实现时空一致的视频修复.在UCF-101和FaceForensics数据集上的实验结果表明,该方法能够大幅提升修复视频的时空连贯性,与基准方法相比,在峰值信噪比、结构相似性、图像块感知相似性和稳定性误差等性能指标上均表现更优.  相似文献   

5.
目的 将半监督对抗学习应用于图像语义分割,可以有效减少训练过程中人工生成标记的数量。作为生成器的分割网络的卷积算子只具有局部感受域,因此对于图像不同区域之间的远程依赖关系只能通过多个卷积层或增加卷积核的大小进行建模,但这种做法也同时失去了使用局部卷积结构获得的计算效率。此外,生成对抗网络(generative adversarial network, GAN)中的另一个挑战是判别器的性能控制。在高维空间中,由判别器进行的密度比估计通常是不准确且不稳定的。为此,本文提出面向图像语义分割的半监督对抗学习方法。方法 在生成对抗网络的分割网络中附加两层自注意模块,在空间维度上对语义依赖关系进行建模。自注意模块通过对所有位置的特征进行加权求和,有选择地在每个位置聚合特征。因而能够在像素级正确标记值数据的基础上有效处理输入图像中广泛分离的空间区域之间的关系。同时,为解决提出的半监督对抗学习方法的稳定性问题,在训练过程中将谱归一化应用到对抗网络的判别器中,这种加权归一化方法不仅可以稳定判别器网络的训练,并且不需要对唯一的超参数进行密集调整即可获得满意性能,且实现简单,计算量少,即使在缺乏互补的正则化...  相似文献   

6.
为解决微表情识别领域数据集样本数量少,样本类型分布不均导致识别率鲁棒性差的问题,提出了一种基于双流增强网络的微表情识别模型。该模型基于单帧RGB图像流及光流图像流的双流卷积神经网络,以权威数据集为基础,数据增强为基准,构建微表情识别模型。通过在SoftMax逻辑回归层融合单帧空域信息和光流时域信息,对两个独立流的网络性能进行提升,并通过引入基于带循环约束的生成对抗网络的图像生成方式对数据集进行扩充。通过将输入微表情视频帧序列进行分解,将其分割为双流网络的灰度单帧序列与光流单帧序列,对两类序列图进行数据增强,再进行微表情识别模型构建的方法,有效提高了微表情识别率。基于双流增强网络的微表情识别模型可以较好提升微表情识别准确度,鲁棒性较好,泛化状态较稳定。  相似文献   

7.
针对当前基于深度学习的彩色化模型在面对具有多个目标的复杂场景时存在的误着色问题,提出一种基于像素级生成对抗网络的彩色化模型.该模型在生成网络中采用全卷积网络模型处理不定尺度的输入灰度图像,并加入与真实彩色分量间的L1损失作为彩色化优化目标;在判别网络中,采用语义分割网络计算像素级Softmax损失,反向传递优化彩色化生成网络.在Pascal Segmentation及ILSVRC2012数据集上进行的彩色化图像质量比较,实验结果表明,与同类模型相比,本文模型在处理复杂场景灰度图像的彩色化任务中具有更高的着色准确率,并且对不同目标之间具有更好的区分度.  相似文献   

8.
翻译算法自从提出以来受到研究者的广泛关注,基于生成对抗网络的图像翻译方法在图片风格转化、图像修复、超分辨率生成等领域得到广泛应用。针对生成对抗网络图像翻译方法框架过于庞大的缺点,提出了一种改进的生成对抗网络算法:二分生成对抗网络(BGAN)。BGAN引入二分生成器结构代替双生成器-判别器结构,神经网络模型相比以往方法资源消耗更少。实验结果表明,BGAN与其他图像翻译算法相比而言,生成的图样样本更清晰、质量更好。  相似文献   

9.
生成式对抗网络GAN功能强大,但是具有收敛速度慢、训练不稳定、生成样本多样性不足等缺点。该文结合条件深度卷积对抗网络CDCGAN和带有梯度惩罚的Wasserstein生成对抗网络WGAN-GP的优点,提出了一个混合模型-条件梯度Wasserstein生成对抗网络CDCWGAN-GP,用带有梯度惩罚的Wasserstein距离训练对抗网络保证了训练稳定性且收敛速度更快,同时加入条件c来指导数据生成。另外为了增强判别器提取特征的能力,该文设计了全局判别器和局部判别器一起打分,最后提取判别器进行图像识别。实验结果证明,该方法有效的提高了图像识别的准确率。  相似文献   

10.
针对当前视频帧预测模型中存在的预测准确度较差和物体结构信息丢失等问题,提出了一种动态卷积生成对抗网络.在生成网络中,首先使用卷积长短时记忆网络初步提取输入视频流的图像特征,然后利用卷积神经动态平流单元对视频流中的运动特征进行提取,最后将上述两种特征组合后输出一组预测视频帧;在判别网络中,采用一个3D卷积网络一次性接收全...  相似文献   

11.
增强现实应用场景不断拓展,但水面检测领域由于物理光学的反射等特性的影响制约了水面增强现实的应用。对此提出一种语义驱动下的基于ORB-SLAM2系统在水面场景下进行实时增强现实效果提升的方法。将视频帧传入深度学习语义分割网络ICNet中,把分割后得到的标签图和原视频帧一同输入SLAM系统的前端进行追踪及地图构建。在语义的指导下,水域内拟合平面并根据水面反射原理将3D模型放置在平面的同时,在关于平面镜面对称的位置生成其倒影。倒影的颜色依据提出的混色模型进行渲染。实验结果表明,在户外水面场景下增强现实的效果得到了提升,虚拟物体与真实物体视觉一致性也更为连贯。  相似文献   

12.
针对如何在镜头基础上进行聚类,以得到更高层次的场景问题,提出了一个基于语义的场景分割算法。该算法首先将视频分割为镜头,并提取镜头的关键帧。然后计算关键帧的颜色直方图和MPEG-7边缘直方图,以形成关键帧的特征;接着利用镜头关键帧的颜色和纹理特征对支持向量机(SVM)进行训练来构造7个基于SVM对应不同语义概念的分类器,并利用它们对要进行场景分割的视频镜头关键帧进行分类,以得到关键帧的语义。并根据关键帧包含的语义概念形成了其语义概念矢量,最后根据语义概念矢量通过对镜头关键帧进行聚类来得到场景。另外.为提取场景关键帧,还构建了镜头选择函数,并根据该函数值的大小来选择场景的关键帧。实验结果表明,该场景分割算法与Hanjalic的方法相比,查准率和查全率分别提高了34.7%和9.1%。  相似文献   

13.
目的 视觉感知技术是智能车系统中的一项关键技术,但是在复杂挑战下如何有效提高视觉性能已经成为智能驾驶领域的重要研究内容。本文将人工社会(artificial societies)、计算实验(computational experiments)和平行执行(parallel execution)构成的ACP方法引入智能驾驶的视觉感知领域,提出了面向智能驾驶的平行视觉感知,解决了视觉模型合理训练和评估问题,有助于智能驾驶进一步走向实际应用。方法 平行视觉感知通过人工子系统组合来模拟实际驾驶场景,构建人工驾驶场景使之成为智能车视觉感知的“计算实验室”;借助计算实验两种操作模式完成视觉模型训练与评估;最后采用平行执行动态优化视觉模型,保障智能驾驶对复杂挑战的感知与理解长期有效。结果 实验表明,目标检测的训练阶段虚实混合数据最高精度可达60.9%,比单纯用KPC(包括:KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute),PASCAL VOC(pattern analysis,statistical modelling and computational learning visual object classes)和MS COCO(Microsoft common objects in context))数据和虚拟数据分别高出17.9%和5.3%;在评估阶段相较于基准数据,常规任务(-30°且垂直移动)平均精度下降11.3%,环境任务(雾天)平均精度下降21.0%,困难任务(所有挑战)平均精度下降33.7%。结论 本文为智能驾驶设计和实施了在实际驾驶场景难以甚至无法进行的视觉计算实验,对复杂视觉挑战进行分析和评估,具备加强智能车在行驶过程中感知和理解周围场景的意义。  相似文献   

14.
Augmented Reality (AR) composes virtual objects with real scenes in a mixed environment where human–computer interaction has more semantic meanings. To seamlessly merge virtual objects with real scenes, correct occlusion handling is a significant challenge. We present an approach to separate occluded objects in multiple layers by utilizing depth, color, and neighborhood information. Scene depth is obtained by stereo cameras and two Gaussian local kernels are used to represent color, spatial smoothness. These three cues are intelligently fused in a probability framework, where the occlusion information can be safely estimated. We apply our method to handle occlusions in video‐based AR where virtual objects are simply overlapped on real scenes. Experiment results show the approach can correctly register virtual and real objects in different depth layers, and provide a spatial‐awareness interaction environment. Copyright © 2009 John Wiley & Sons, Ltd.  相似文献   

15.
To enable content based functionalities in video processing algorithms, decomposition of scenes into semantic objects is necessary. A semi-automatic Markov random field based multiresolution algorithm is presented for video object extraction in a complex scene. In the first frame, spatial segmentation and user intervention determine objects of interest. The specified objects are subsequently tracked in successive frames and newly appeared objects/regions are also detected. The video object extraction algorithm includes discrete wavelet transform decomposition multiresolution Markov random field (MRF)-based spatial segmentation with emphasis on border smoothness at different resolutions, and an MRF-based backward region classification that determines the tracked objects in the scene. Finally, a motion constraint, embedded in the region classifier, determines the newly appeared objects/regions and completes the proposed algorithm towards an efficient video segmentation algorithm. The results are applicable for generic segmentation applications, however the proposed multiresolution video segmentation algorithm supports scalable object-based wavelet coding in particular. Moreover, compared to traditional object extraction algorithms, it produces smoother and more visually pleasing shape masks at different resolutions. The proposed effective multiresolution video object extraction method allows for larger motion, better noise tolerance and less computational complexity  相似文献   

16.
对视频进行分割并建立索引有利于视频的浏览和检索。提出一种融合剧本和字幕对电影类视频进行场景分割与索引的方法。该方法通过字幕与场景中对白文本的匹配获得场景视频片段的初始分割边界,分析视频帧之间的颜色分布差异,以确定场景间的最终边界。实验结果表明,与完全依赖视频内容分析的方法相比,该方法对电影视频场景片段的分割速度和准确度较高。  相似文献   

17.
In this paper, we present a real time system for detecting repeated video clips from a live video source such as news broadcasts. Our system utilizes customized temporal video segmentation techniques to automatically partition the digital video signal into semantically sensible shots and scenes. As each frame of the video source is processed, we extract auxiliary information to facilitate repeated sequence detection. When the video transition marking the end of the shot/scene is detected, we are able to rapidly locate all previous occurrences of the video clip. Our objective is to use repeated sequence information in our multimedia content analysis application to deduce semantic relationships among shots/scenes in the input video. Our real time video processing techniques are independent of source and domain and can be applied to other applications such as commercial detection and improved video compression.  相似文献   

18.
从深度图RGB-D域中联合学习RGB图像特征与3D几何信息有利于室内场景语义分割,然而传统分割方法通常需要精确的深度图作为输入,严重限制了其应用范围。提出一种新的室内场景理解网络框架,建立基于语义特征与深度特征提取网络的联合学习网络模型提取深度感知特征,通过几何信息指导的深度特征传输模块与金字塔特征融合模块将学习到的深度特征、多尺度空间信息与语义特征相结合,生成具有更强表达能力的特征表示,实现更准确的室内场景语义分割。实验结果表明,联合学习网络模型在NYU-Dv2与SUN RGBD数据集上分别取得了69.5%与68.4%的平均分割准确度,相比传统分割方法具有更好的室内场景语义分割性能及更强的适用性。  相似文献   

19.
虚拟现实场景是由虚拟场景和实际场景融合而成,在进行视角变化时,为了达到逼真的效果,要求虚拟摄像机与真实摄像机的视角同时变换。系统在对SDI信号进行分析的基础上,对视频信号进行解析,对多路SDI视频信号进行有效的视频数据提取,将提取出的有效视频数据分别利用DDR进行缓冲。以经过外部同步的视频像素时钟作为视频输出时钟,对视频数据进行重新编码,在视频逆场中进行视频缓冲区的切换。下位机在接收到上位机发出的切换命令后及时反馈切换时延参数,上位机根据时延参数完成对虚拟摄像机视角的切换,实现在变换视角时达到虚拟摄像机与真实摄像机的视角同步切换。通过对该系统的搭建,采用FPGA来实现视频信号的切换,试验结果表明该虚拟现实系统可以完成虚拟摄像机与真实摄像机视角的同步切换,在实际环境中取得了良好的切换效果。在虚拟现实环境中,采用该系统的实景视频切换技术,解决了虚拟摄像机与真实摄像机视角同步切换的问题,达到了虚拟场景与现实场景的完美融合。  相似文献   

20.
提出一种基于全局场景特征在视频序列中寻找频繁镜头集合,并通过局部语义特征精确定位视频场景边界的视频场景分割方法。首先对分析视频进行高精度镜头分割,选取具有代表性的镜头关键帧。然后提取各镜头关键帧的全局场景特征和局部特征,并利用局部特征聚类得到的视觉词对各个镜头关键帧进行语义标注。接下来计算基于全局场景特征的镜头间相关性,结合视频场景的概念和特性,在镜头关键帧序列中寻找局部频繁出现的相关性高的镜头集合,粗略定位视频场景位置。最后利用镜头关键帧的语义标注特征精确定位视频场景边界。实验证明该方法能够准确、有效地检测并定位到大部分视频场景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号