期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

汪文靖杨文瀚方玉明黄华刘家瑛《中国图象图形学报》2024,29(6):1667-1684

恶劣场景下采集的图像与视频数据存在复杂的视觉降质,一方面降低视觉呈现与感知体验,另一方面也为视觉分析理解带来了很大困难。为此,系统地分析了国际国内近年恶劣场景下视觉感知与理解领域的重要研究进展,包括图像视频与降质建模、恶劣场景视觉增强、恶劣场景下视觉分析理解等技术。其中,视觉数据与降质建模部分探讨了不同降质场景下的图像视频与降质过程建模方法,涵盖噪声建模、降采样建模、光照建模和雨雾建模。传统恶劣场景视觉增强部分探讨了早期非深度学习的视觉增强算法,包括直方图均衡化、视网膜大脑皮层理论和滤波方法等。基于深度学习模型的恶劣场景视觉增强部分则以模型架构创新的角度进行梳理,探讨了卷积神经网络、Transformer 模型和扩散模型等架构。不同于传统视觉增强的目标为全面提升人眼对图像视频的视觉感知效果,新一代视觉增强及分析方法考虑降质场景下机器视觉对图像视频的理解性能。恶劣场景下视觉理解技术部分探讨了恶劣场景下视觉理解数据集和基于深度学习模型的恶劣场景视觉理解,以及恶劣场景下视觉增强与理解协同计算。论文详细综述了上述研究的挑战性,梳理了国内外技术发展脉络和前沿动态。最后,根据上述分析展望了恶劣场景下视觉感知与理解的发展方向。相似文献

2.

面向变电站机器人的仪表检测与场景理解技术

彭志远谷湘煜杨利萍周仁彬邹娟刘晓熠《计算机工程与设计》2021,42(12):3540-3547

为提升变电站巡检机器人巡检效率和环境适应能力,将深度学习算法应用于变电站巡检机器人仪表检测和道路场景理解中,提出一种多视觉任务交替实现的轻量级卷积神经网络.该网络由骨干结构、控制模块、任务分支3部分串联组成,通过改进的Inception结构结合注意力模型提取图像特征信息,引入基于分类思想的控制模块实现仪表检测和场景理解支路交替运行,使网络充分利用平台计算资源,避免对无效信息的处理.实验结果表明,所提网络与传统网络相比,其精度与效率都有较大的提升,同时,在实际变电站场景中,该网络也体现出更高的适应性,可以更好辅助机器人完成巡检任务. 相似文献

3.

联合场景和行为特征的短视频行为识别

董旭谭励周丽娜宋艳艳《计算机科学与探索》2020,14(10):1754-1761

相似文献

4.

面向复杂场景的行人重识别综述

张敏余增韩云星李天瑞《计算机科学》2022,(10):138-150

行人重识别(Person Re-Identification,简称Re-ID)旨在研究多个不相交摄像头间特定行人的匹配问题。文中首次以复杂场景中需要克服的挑战为行人重识别论文的分类依据,将2010-2021年期间发表的研究成果分为7类,即姿势问题、遮挡问题、照明问题、视角问题、背景问题、分辨率问题以及开放性问题,该分类方式有利于研究人员从实际需求出发,根据要解决的问题找到相应的解决方案。首先回顾行人重识别的研究背景、意义及研究现状,总结当前主流的行人重识别框架,统计了2013年以来发表在三大计算机视觉顶级会议CVPR,ICCV以及ECCV的论文情况和国家基金项目中Re-ID的相关项目情况;其次就复杂场景中面临的七大挑战,分别从问题成因和解决方案两方面对现有文献展开分析,归纳总结出处理各类挑战的主流方法;然后给出了行人重识别研究中泛化性较高的方法,并列举了当前行人重识别研究的难点;最后讨论了行人重识别未来的发展趋势。相似文献

5.

移动机器人基于视觉室外自然场景理解的研究与进展 总被引：3，自引：2，他引：1

下载免费PDF全文

庄严陈东王伟韩建达王越超《自动化学报》2010,36(1):1-11

对于工作在典型非结构化场景中的移动机器人系统, 具有良好的室外自然场景感知与理解能力是其能够自主运行的前提条件. 移动机器人使用视觉传感器来进行室外自然场景的理解一直是该领域的研究热点. 本文首先介绍了基于视觉的移动机器人自然场景理解的研究现状, 对其相关子领域的研究思路与前沿技术进行了着重论述与分析, 并从实时性和环境自适应性等方面对相关技术的实用性问题加以讨论. 最后对该领域的研究重点和技术发展趋势进行了探讨. 相似文献

6.

基于卷积神经网络的复杂场景目标检测算法

下载免费PDF全文

王晓宁宫法明时念云吕轩轩《计算机系统应用》2019,28(6):153-158

海上石油平台监控环境复杂,采油工作平台摄像头监控角度不同,海上环境复杂多变,雨雾等天气下,摄像头图片模糊不清.针对上述增加了目标检测的难度的问题,提出了一种基于卷积神经网络的复杂场景目标检测算法(简称ODCS)来检测图像中的特定对象.该方法结合不同分辨率的特征图预测来自然处理各种尺寸的对象,消除了特征重新采样阶段,并将所有计算封装在单个网络中,这样易于训练且可以直接集成到需要检测组件的系统中.实验结果表明,相对于传统的方法,该方法检测在准确率和召回率上明显提高,且检测效率能够满足实时应用的要求. 相似文献

7.

家庭智能空间下基于场景的人的行为理解

田国会吉艳青李晓磊《智能系统学报》2010,5(1):57-62

为了更好地在日常生活中给人提供智能化服务,对家庭环境下人的行为理解问题进行了研究.首先利用运动目标检测方法提取运动人体在环境中的坐标,然后结合行为特点把场景划分成不同区域,建立人体在环境中的位置关联矩阵和时空关联矩阵.通过马尔可夫模型统计出人体在空间中的位置状态转移概率矩阵及其状态持续时间矩阵,生成日常行为模板.根据当前行为与日常行为模板的相似度可检测出反常习惯和突发异常行为,同时可根据不同区域的行为模式分析人的意图.在智能空间平台下利用机器视觉技术基于场景信息实现了人的行为理解,并通过实验表明了方法的有效性. 相似文献

8.

基于深度学习和计算机视觉的电脑游戏人物头像识别

李金峰《数码设计:surface》2021,10(3):1-2

本文通过VGG16网络对电脑游戏人物头像进行识别,实验结果显示识别准确率超过95％.因此,该方法是一种有效的电脑游戏人物头像识别方法,可应用于电脑游戏识别与监控领域. 相似文献

9.

基于深度卷积神经网络的道路场景理解

吴宗胜傅卫平韩改宁《计算机工程与应用》2017,53(22):8-15

在无人驾驶技术中,道路场景的理解是一个非常重要的环境感知任务,也是一个很具有挑战性的课题。提出了一个深层的道路场景分割网络（Road Scene Segmentation Network,RSSNet）,该网络为32层的全卷积神经网络,由卷积编码网络和反卷积解码网络组成。网络中采用批正则化层防止了深度网络在训练中容易出现的“梯度消失”问题;在激活层中采用了Maxout激活函数,进一步缓解了梯度消失,避免网络陷入饱和模式以及出现神经元死亡现象;同时在网络中适当使用Dropout操作,防止了模型出现过拟合现象;编码网络存储了特征图的最大池化索引并在解码网络中使用它们,保留了重要的边缘信息。实验证明,该网络能够大大提高训练效率和分割精度,有效识别道路场景图像中各像素的类别并对目标进行平滑分割,为无人驾驶汽车提供有价值的道路环境信息。相似文献

10.

基于视觉的人行为理解综述* 总被引：1，自引：0，他引：1

凌志刚赵春晖梁彦潘泉王燕《计算机应用研究》2008,25(9):2570-2578

基于视觉的人体运动分析是计算机领域中备受关注的前沿方向之一,而人行为理解由于在智能监控、人机交互、虚拟现实和基于内容的视频检索等方面有着广泛的应用前景更是成为了未来研究的前瞻性方向之一。行为理解问题一般遵从如下基本过程：特征提取与运动表征;行为识别;高层行为与场景理解。着重从这三个方面逐一回顾了近年来人行为理解研究的发展现状和常用方法,并对当前该研究方向上亟待解决的问题和未来趋势作了较为详细的分析。相似文献

11.

道路场景物体识别模型研究

李志军许军《工业控制计算机》2018,(5):53-55

随着科技的发展与进步,人工智能已逐渐成为新一轮产业变革的核心驱动力,其中自动驾驶领域被给予了前所未有的关注。基于深度学习算法,设计了一个道路场景物体识别模型。首先为数据集制作,收集道路场景数据,做数据增强操作;其次,设计道路场景物体识别方案,选取深度学习网络VGG16和SSD框架进行构建;再次,将传统的车道线检测算法与深度学习物体识别算法相结合,使得模型在识别车辆、行人、动物等物体的同时,进行车道线检测,增加了模型检测功能;最后,在不同的天气,光照环境下,对模型进行测试。测试结果表明,设计的道路场景物体识别模型具有较好的检测识别效果,在光照变化和天气影响下,亦能达到较高的准确率。相似文献

12.

人体行为识别研究综述

裴利沈刘少博赵雪专《计算机科学与探索》2022,(2):305-322

行为识别是计算机视觉领域意义重大的热点研究问题,它经历了从手工设计特征表征到深度学习特征表达的发展过程.从传统行为识别模型和深度学习模型两方面,对行为识别发展历程中产生的主流算法进行了归类梳理.传统行为识别模型主要包括基于轮廓剪影、时空兴趣点、人体关节点、运动轨迹的特征描述方法.其中改进的密集轨迹方式拥有良好的鲁棒性和... 相似文献

13.

人运动的视觉分析综述 总被引：141，自引：1，他引：141

王亮胡卫明谭铁牛《计算机学报》2002,25(3):225-237

目前,人运动的视觉分析是计算机视觉领域中最活跃的研究主题之一,其核心是利用计算机视觉技术从图像序列中检测,跟踪,识别人并对其行为进行理解与描述,它在虚拟现实,视觉监控,感知接口等领域均有着广泛的应用前景,人运动的视觉分析系统一般遵从下述的处理过程：（1）运动检测,（2）运动目标分类,（3）人的跟踪,（4）行为理解与描述,该文将重点从此四个方面回顾人运动分析的发展水平和常用的处理方法,并对研究难点及未来的发展趋势作了较为详细的分析。相似文献

14.

人行为识别与理解研究探讨 总被引：7，自引：0，他引：7

刘相滨向坚持王胜春《计算机与现代化》2004,(12):1-5,27

人行为识别与理解越来越受到计算机视觉领域研究者的广泛关注,近年来人体跟踪技术取得了显著的进展,然而人行为识别与理解研究的进展却没有这么大。本文在简单介绍了当前人行为识别与理解技术研究情况的基础上．分析了存在的一些问题,探讨了该技术未来的研究发展趋势。相似文献

15.

对话情绪识别综述

陈晓婷李实《计算机工程与应用》2023,59(3):33-48

对话情绪识别是情感计算领域的一个热门研究课题;旨在检测对话过程中每个话语的情感类别。其在对话理解和对话生成方面具有重要的研究意义;同时在社交媒体分析、推荐系统、医疗和人机交互等诸多领域具有广泛的实际应用价值。随着深度学习技术的不断创新和发展;对话情绪识别受到学术界和工业界越来越多的关注;现阶段需要综述性的文章对已有研究成果进行总结;以便更好地开展后续工作。从问题定义、问题切入方式、研究方法、主流数据集等多个角度对该领域的研究成果进行全面梳理;回顾和分析了对话情绪识别任务的发展。对话文本中含有丰富的语义信息;结合视频和音频可以进一步提升建模效果;因此;重点对文本对话情绪识别以及多模态对话情绪识别的方法进行了梳理;立足于当前研究现状;总结了现有对话情绪识别领域存在的开放问题以及未来的发展趋势。相似文献

16.

基于多模态数据的人体行为识别方法研究综述

王彩玲闫晶晶张智栋《计算机工程与应用》2024,60(9):1-18

人体行为识别广泛应用于智能安防、自动驾驶和人机交互等领域。随着拍摄设备和传感器技术的发展,可获取用于人体行为识别的数据不再局限于RGB数据,还有深度、骨骼和红外等多模态数据。详细介绍了基于RGB和骨骼数据模态的人体行为识别任务中特征提取方法,包括基于手工标注和基于深度学习的方法。对于RGB数据模态,重点分析了基于双流卷积神经网络、3D卷积神经网络和混合网络的特征提取算法。对于骨骼数据模态,介绍了目前流行的单人和多人姿态评估算法;重点分析了基于卷积神经网络、循环神经网络和图卷积神经网络的分类算法;进一步全面展示了两种数据模态的通用数据集。此外,基于RGB和骨骼各自的数据结构特征,探讨了目前面临的挑战,最后对未来基于深度学习的人体行为识别方法的研究方向进行了展望。相似文献

17.

基于局部与全局描述符紧耦合联合决策的机器人分层式视觉位置识别方法

李康宇王西峰朱守泰《信息与控制》2024,13(3):400-415

视觉位置识别是移动机器人维持高精度定位和维护地图一致性的重要手段。然而, 受视点和外观变化的双重干扰, 位置识别问题仍然极具挑战性。本文提出了一种基于局部与全局描述符紧耦合联合决策的分层式视觉位置识别方法。该方法基于多任务知识蒸馏来学习描述符提取能力。经过良好训练的轻量化模型以紧耦合的形式同时提取图像的全局和局部描述符, 并进一步实现局部描述符的二值化表示和词袋空间映射。在所构建的位置识别架构中, 提出了分层式识别策略进行由粗到精的位置检索, 并基于相位相关法分配全局和局部描述符的联合决策权重。在多项基准数据集上的评估结果证实, 所提方法在可接受的匹配效率下实现了匹配性能的显著提升, 在多种复杂环境下表现出较强的泛化性和鲁棒性。相似文献

18.

一种融合全局及显著性区域特征的室内场景识别方法

牛杰卜雄洙钱堃李众《机器人》2015,(1)

针对常规场景识别方法在室内环境中性能显著下降的问题,提出一种融合全局及显著性区域特征的移动机器人室内场景识别方法.利用改进的Bo W(bag-of-words)模型进行室内场景判别的同时,结合视觉注意方法提取出场景图像的最大及次大显著区域,送入改进的BDBN(bilinear deep belief network)模型来自动学习图像特征,进行类别判断.利用分段判别策略对于两个模型的结果进行融合,并输出最终场景判别结果.将本方法应用于实际机器人平台及包含67个类别的MIT室内场景数据库,实验结果表明,相较于常规Bo W模型,本方法可以有效提高识别准确率10%以上.此外,本方法在MIT数据库中达到平均44.3%的准确率,优于相关文献算法. 相似文献

19.

What makes the difference? An empirical comparison of fusion strategies for multimodal language analysis

《Information Fusion》2021

Multimodal video sentiment analysis is a rapidly growing area. It combines verbal (i.e., linguistic) and non-verbal modalities (i.e., visual, acoustic) to predict the sentiment of utterances. A recent trend has been geared towards different modality fusion models utilizing various attention, memory and recurrent components. However, there lacks a systematic investigation on how these different components contribute to solving the problem as well as their limitations. This paper aims to fill the gap, marking the following key innovations. We present the first large-scale and comprehensive empirical comparison of eleven state-of-the-art (SOTA) modality fusion approaches in two video sentiment analysis tasks, with three SOTA benchmark corpora. An in-depth analysis of the results shows that the attention mechanisms are the most effective for modelling crossmodal interactions, yet they are computationally expensive. Second, additional levels of crossmodal interaction decrease performance. Third, positive sentiment utterances are the most challenging cases for all approaches. Finally, integrating context and utilizing the linguistic modality as a pivot for non-verbal modalities improve performance. We expect that the findings would provide helpful insights and guidance to the development of more effective modality fusion models. 相似文献