共查询到19条相似文献,搜索用时 62 毫秒
1.
恶劣场景下采集的图像与视频数据存在复杂的视觉降质,一方面降低视觉呈现与感知体验,另一方面也为视觉分析理解带来了很大困难。为此,系统地分析了国际国内近年恶劣场景下视觉感知与理解领域的重要研究进展,包括图像视频与降质建模、恶劣场景视觉增强、恶劣场景下视觉分析理解等技术。其中,视觉数据与降质建模部分探讨了不同降质场景下的图像视频与降质过程建模方法,涵盖噪声建模、降采样建模、光照建模和雨雾建模。传统恶劣场景视觉增强部分探讨了早期非深度学习的视觉增强算法,包括直方图均衡化、视网膜大脑皮层理论和滤波方法等。基于深度学习模型的恶劣场景视觉增强部分则以模型架构创新的角度进行梳理,探讨了卷积神经网络、Transformer 模型和扩散模型等架构。不同于传统视觉增强的目标为全面提升人眼对图像视频的视觉感知效果,新一代视觉增强及分析方法考虑降质场景下机器视觉对图像视频的理解性能。恶劣场景下视觉理解技术部分探讨了恶劣场景下视觉理解数据集和基于深度学习模型的恶劣场景视觉理解,以及恶劣场景下视觉增强与理解协同计算。论文详细综述了上述研究的挑战性,梳理了国内外技术发展脉络和前沿动态。最后,根据上述分析展望了恶劣场景下视觉感知与理解的发展方向。 相似文献
2.
为提升变电站巡检机器人巡检效率和环境适应能力,将深度学习算法应用于变电站巡检机器人仪表检测和道路场景理解中,提出一种多视觉任务交替实现的轻量级卷积神经网络.该网络由骨干结构、控制模块、任务分支3部分串联组成,通过改进的Inception结构结合注意力模型提取图像特征信息,引入基于分类思想的控制模块实现仪表检测和场景理解支路交替运行,使网络充分利用平台计算资源,避免对无效信息的处理.实验结果表明,所提网络与传统网络相比,其精度与效率都有较大的提升,同时,在实际变电站场景中,该网络也体现出更高的适应性,可以更好辅助机器人完成巡检任务. 相似文献
3.
4.
行人重识别(Person Re-Identification,简称Re-ID)旨在研究多个不相交摄像头间特定行人的匹配问题。文中首次以复杂场景中需要克服的挑战为行人重识别论文的分类依据,将2010-2021年期间发表的研究成果分为7类,即姿势问题、遮挡问题、照明问题、视角问题、背景问题、分辨率问题以及开放性问题,该分类方式有利于研究人员从实际需求出发,根据要解决的问题找到相应的解决方案。首先回顾行人重识别的研究背景、意义及研究现状,总结当前主流的行人重识别框架,统计了2013年以来发表在三大计算机视觉顶级会议CVPR,ICCV以及ECCV的论文情况和国家基金项目中Re-ID的相关项目情况;其次就复杂场景中面临的七大挑战,分别从问题成因和解决方案两方面对现有文献展开分析,归纳总结出处理各类挑战的主流方法;然后给出了行人重识别研究中泛化性较高的方法,并列举了当前行人重识别研究的难点;最后讨论了行人重识别未来的发展趋势。 相似文献
5.
对于工作在典型非结构化场景中的移动机器人系统, 具有良好的室外自然场景感知与理解能力是其能够自主运行的前提条件. 移动机器人使用视觉传感器来进行室外自然场景的理解一直是该领域的研究热点. 本文首先介绍了基于视觉的移动机器人自然场景理解的研究现状, 对其相关子领域的研究思路与前沿技术进行了着重论述与分析, 并从实时性和环境自适应性等方面对相关技术的实用性问题加以讨论. 最后对该领域的研究重点和技术发展趋势进行了探讨. 相似文献
6.
海上石油平台监控环境复杂,采油工作平台摄像头监控角度不同,海上环境复杂多变,雨雾等天气下,摄像头图片模糊不清.针对上述增加了目标检测的难度的问题,提出了一种基于卷积神经网络的复杂场景目标检测算法(简称ODCS)来检测图像中的特定对象.该方法结合不同分辨率的特征图预测来自然处理各种尺寸的对象,消除了特征重新采样阶段,并将所有计算封装在单个网络中,这样易于训练且可以直接集成到需要检测组件的系统中.实验结果表明,相对于传统的方法,该方法检测在准确率和召回率上明显提高,且检测效率能够满足实时应用的要求. 相似文献
7.
为了更好地在日常生活中给人提供智能化服务,对家庭环境下人的行为理解问题进行了研究.首先利用运动目标检测方法提取运动人体在环境中的坐标,然后结合行为特点把场景划分成不同区域,建立人体在环境中的位置关联矩阵和时空关联矩阵.通过马尔可夫模型统计出人体在空间中的位置状态转移概率矩阵及其状态持续时间矩阵,生成日常行为模板.根据当前行为与日常行为模板的相似度可检测出反常习惯和突发异常行为,同时可根据不同区域的行为模式分析人的意图.在智能空间平台下利用机器视觉技术基于场景信息实现了人的行为理解,并通过实验表明了方法的有效性. 相似文献
8.
李金峰 《数码设计:surface》2021,10(3):1-2
本文通过VGG16网络对电脑游戏人物头像进行识别,实验结果显示识别准确率超过95%.因此,该方法是一种有效的电脑游戏人物头像识别方法,可应用于电脑游戏识别与监控领域. 相似文献
9.
在无人驾驶技术中,道路场景的理解是一个非常重要的环境感知任务,也是一个很具有挑战性的课题。提出了一个深层的道路场景分割网络(Road Scene Segmentation Network,RSSNet),该网络为32层的全卷积神经网络,由卷积编码网络和反卷积解码网络组成。网络中采用批正则化层防止了深度网络在训练中容易出现的“梯度消失”问题;在激活层中采用了Maxout激活函数,进一步缓解了梯度消失,避免网络陷入饱和模式以及出现神经元死亡现象;同时在网络中适当使用Dropout操作,防止了模型出现过拟合现象;编码网络存储了特征图的最大池化索引并在解码网络中使用它们,保留了重要的边缘信息。实验证明,该网络能够大大提高训练效率和分割精度,有效识别道路场景图像中各像素的类别并对目标进行平滑分割,为无人驾驶汽车提供有价值的道路环境信息。 相似文献
10.
11.
随着科技的发展与进步,人工智能已逐渐成为新一轮产业变革的核心驱动力,其中自动驾驶领域被给予了前所未有的关注。基于深度学习算法,设计了一个道路场景物体识别模型。首先为数据集制作,收集道路场景数据,做数据增强操作;其次,设计道路场景物体识别方案,选取深度学习网络VGG16和SSD框架进行构建;再次,将传统的车道线检测算法与深度学习物体识别算法相结合,使得模型在识别车辆、行人、动物等物体的同时,进行车道线检测,增加了模型检测功能;最后,在不同的天气,光照环境下,对模型进行测试。测试结果表明,设计的道路场景物体识别模型具有较好的检测识别效果,在光照变化和天气影响下,亦能达到较高的准确率。 相似文献
12.
行为识别是计算机视觉领域意义重大的热点研究问题,它经历了从手工设计特征表征到深度学习特征表达的发展过程.从传统行为识别模型和深度学习模型两方面,对行为识别发展历程中产生的主流算法进行了归类梳理.传统行为识别模型主要包括基于轮廓剪影、时空兴趣点、人体关节点、运动轨迹的特征描述方法.其中改进的密集轨迹方式拥有良好的鲁棒性和... 相似文献
13.
14.
15.
对话情绪识别是情感计算领域的一个热门研究课题;旨在检测对话过程中每个话语的情感类别。其在对话理解和对话生成方面具有重要的研究意义;同时在社交媒体分析、推荐系统、医疗和人机交互等诸多领域具有广泛的实际应用价值。随着深度学习技术的不断创新和发展;对话情绪识别受到学术界和工业界越来越多的关注;现阶段需要综述性的文章对已有研究成果进行总结;以便更好地开展后续工作。从问题定义、问题切入方式、研究方法、主流数据集等多个角度对该领域的研究成果进行全面梳理;回顾和分析了对话情绪识别任务的发展。对话文本中含有丰富的语义信息;结合视频和音频可以进一步提升建模效果;因此;重点对文本对话情绪识别以及多模态对话情绪识别的方法进行了梳理;立足于当前研究现状;总结了现有对话情绪识别领域存在的开放问题以及未来的发展趋势。 相似文献
16.
人体行为识别广泛应用于智能安防、自动驾驶和人机交互等领域。随着拍摄设备和传感器技术的发展,可获取用于人体行为识别的数据不再局限于RGB数据,还有深度、骨骼和红外等多模态数据。详细介绍了基于RGB和骨骼数据模态的人体行为识别任务中特征提取方法,包括基于手工标注和基于深度学习的方法。对于RGB数据模态,重点分析了基于双流卷积神经网络、3D卷积神经网络和混合网络的特征提取算法。对于骨骼数据模态,介绍了目前流行的单人和多人姿态评估算法;重点分析了基于卷积神经网络、循环神经网络和图卷积神经网络的分类算法;进一步全面展示了两种数据模态的通用数据集。此外,基于RGB和骨骼各自的数据结构特征,探讨了目前面临的挑战,最后对未来基于深度学习的人体行为识别方法的研究方向进行了展望。 相似文献
17.
视觉位置识别是移动机器人维持高精度定位和维护地图一致性的重要手段。然而, 受视点和外观变化的双重干扰, 位置识别问题仍然极具挑战性。本文提出了一种基于局部与全局描述符紧耦合联合决策的分层式视觉位置识别方法。该方法基于多任务知识蒸馏来学习描述符提取能力。经过良好训练的轻量化模型以紧耦合的形式同时提取图像的全局和局部描述符, 并进一步实现局部描述符的二值化表示和词袋空间映射。在所构建的位置识别架构中, 提出了分层式识别策略进行由粗到精的位置检索, 并基于相位相关法分配全局和局部描述符的联合决策权重。在多项基准数据集上的评估结果证实, 所提方法在可接受的匹配效率下实现了匹配性能的显著提升, 在多种复杂环境下表现出较强的泛化性和鲁棒性。 相似文献
18.
针对常规场景识别方法在室内环境中性能显著下降的问题,提出一种融合全局及显著性区域特征的移动机器人室内场景识别方法.利用改进的Bo W(bag-of-words)模型进行室内场景判别的同时,结合视觉注意方法提取出场景图像的最大及次大显著区域,送入改进的BDBN(bilinear deep belief network)模型来自动学习图像特征,进行类别判断.利用分段判别策略对于两个模型的结果进行融合,并输出最终场景判别结果.将本方法应用于实际机器人平台及包含67个类别的MIT室内场景数据库,实验结果表明,相较于常规Bo W模型,本方法可以有效提高识别准确率10%以上.此外,本方法在MIT数据库中达到平均44.3%的准确率,优于相关文献算法. 相似文献
19.
Multimodal video sentiment analysis is a rapidly growing area. It combines verbal (i.e., linguistic) and non-verbal modalities (i.e., visual, acoustic) to predict the sentiment of utterances. A recent trend has been geared towards different modality fusion models utilizing various attention, memory and recurrent components. However, there lacks a systematic investigation on how these different components contribute to solving the problem as well as their limitations. This paper aims to fill the gap, marking the following key innovations. We present the first large-scale and comprehensive empirical comparison of eleven state-of-the-art (SOTA) modality fusion approaches in two video sentiment analysis tasks, with three SOTA benchmark corpora. An in-depth analysis of the results shows that the attention mechanisms are the most effective for modelling crossmodal interactions, yet they are computationally expensive. Second, additional levels of crossmodal interaction decrease performance. Third, positive sentiment utterances are the most challenging cases for all approaches. Finally, integrating context and utilizing the linguistic modality as a pivot for non-verbal modalities improve performance. We expect that the findings would provide helpful insights and guidance to the development of more effective modality fusion models. 相似文献