首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
近年来,深度学习算法在众多有监督学习问题上取得了卓越的成果,其在精度、效率和智能化等方面的性能远超传统机器学习算法,部分甚至超越了人类水平。当前,深度学习研究者的研究兴趣逐渐从监督学习转移到强化学习、半监督学习以及无监督学习领域。视频预测算法,因其可以利用海量无标注自然数据去学习视频的内在表征,且在机器人决策、无人驾驶和视频理解等领域具有广泛的应用价值,近两年来得到快速发展。本文论述了视频预测算法的发展背景和深度学习的发展历史,简要介绍了人体动作、物体运动和移动轨迹的预测,重点介绍了基于深度学习的视频预测的主流方法和模型,最后总结了当前该领域存在的问题和发展前景。  相似文献   

2.
群体行为识别是指给定一个包含多人场景的视频,模型需要识别出视频中多个人物正在共同完成的群体行为.群体行为识别是视频理解中的一个重要问题,可以被应用在运动比赛视频分析、监控视频识别、社交行为理解等现实场景中.多人场景视频较为复杂,时间和空间上的信息十分丰富,对模型提取关键信息的能力要求更高.模型只有高效地建模场景中的层次化关系,并为人物群体提取有区分性的时空特征,才能准确地识别出群体行为.由于其广泛的应用需求,群体行为识别问题受到了研究人员的广泛关注.对近几年来群体行为识别问题上的大量研究工作进行了深入分析,总结出了群体行为识别研究所面临的主要挑战,系统地归纳出了6种类型的群体行为识别方法,包含传统非深度学习识别方法以及基于深度学习技术的识别方法,并对未来研究的可能方向进行了展望.  相似文献   

3.
基于深度学习的目标检测技术综述   总被引:2,自引:0,他引:2  
目标检测是计算机视觉领域中的研究热点.近年来,目标检测的深度学习算法有突飞猛进的发展.基于深度学习的目标检测算法大致可分为基于候选区域和基于回归两大类.基于候选区域的目标检测算法精度高,但是结构复杂,检测速度较慢.而基于回归的目标检测算法结构简单、检测速度快,在实时目标检测领域有较高的应用价值,然而检测精度相对略低.本文总结了基于深度学习的目标检测主流算法,并分析了相关算法的优缺点和应用场景.最后根据深度学习的目标检测算法中存在的困难和挑战,对未来的发展趋势做了思考和展望.  相似文献   

4.
深度学习的图像实例分割方法综述   总被引:1,自引:0,他引:1  
实例分割是一项具有挑战性的任务,需要同时进行实例级和像素级的预测,在自动驾驶、视频分析、场景理解等方面应用广泛.近年来,基于深度学习的实例分割方法迅速发展,如两阶段检测器Faster R-CNN扩展出的聚焦于网络的精度而非速度的强大实例分割基准Mask R-CNN,一度成为实例分割的标杆.利用高速检测的单阶段检测器延伸出的实例分割算法YOLACT填补了实时实例分割模型的空白,具有较高的研究和应用价值.本文首先对实例分割算法进行了类别划分,然后对一些代表性的算法及其改进算法进行了深入分析,并阐述了相关算法的优缺点,最后对实例分割方法未来的发展进行了展望.  相似文献   

5.
丁光耀  徐辰  钱卫宁  周傲英 《软件学报》2024,35(3):1207-1230
计算机视觉因其强大的学习能力,在各种真实场景中得到了广泛应用.随着数据库的发展,利用数据库中成熟的数据管理技术来处理视觉分析应用,已成为一种日益增长的研究趋势.图像、视频和文本等多模态数据的相互融合处理,也促进了视觉分析应用的多样性和准确性.近年来,因深度学习的兴起,支持深度学习的视觉分析应用开始受到广泛关注.然而,传统的数据库管理技术在深度学习场景下面临着复杂视觉分析语义难以表达、应用执行效率低等问题.因此,支持深度学习的视觉数据库管理系统得到了广泛关注.综述了目前视觉数据库管理系统的研究进展:首先,总结了视觉数据库管理系统在不同层面上面临的挑战,包括编程接口、查询优化、执行调度和数据存储;其次,分别探讨了上述4个层面上的相关技术;最后,对视觉数据库管理系统未来的研究方向进行了展望.  相似文献   

6.
目标检测算法应用广泛,一直是计算机视觉领域备受关注的研究热点。近年来,随着深度学习的发展,3D图像的目标检测研究取得了巨大的突破。与2D目标检测相比,3D目标检测结合了深度信息,能够提供目标的位置、方向和大小等空间场景信息,在自动驾驶和机器人领域发展迅速。文中首先对基于深度学习的2D目标检测算法进行概述;其次根据图像、激光雷达、多传感器等不同数据采集方式,分析目前具有代表性和开创性的3D目标检测算法;结合自动驾驶的应用场景,对比分析不同3D目标检测算法的性能、优势和局限性;最后总结了3D目标检测的应用意义以及待解决的问题,并对3D目标检测的发展方向和新的挑战进行了讨论和展望。  相似文献   

7.
近年来深度学习迅猛发展,颠覆了语音识别、图像分类、文本理解等领域的算法设计思路。深度学习因其具备强大的特征提取能力,在图像识别领域的成绩尤为突出。然而深度学习与视频监控领域的结合并不多,由于深度模型具有多层网络结构,算法复杂度大,训练和更新模型时比较耗时,很难满足实时性要求。回顾了深度学习的发展史,介绍了最近10年来国内外深度学习主要模型,论述了基于深度学习的目标跟踪算法,指出了各算法的优缺点,最后对当前该领域存在的问题和发展前景进行了总结和展望。  相似文献   

8.
深度学习算法和GPU算力的不断进步正促进着人工智能技术在包括计算机视觉、语音识别、自然语言处理等领域得到广泛应用.与此同时,深度学习已经开始应用于以自动驾驶为代表的安全攸关领域.但是,近两年接连发生了几起严重的交通事故表明深度学习技术的成熟度还远未达到安全攸关应用的要求,因此对可信人工智能系统的研究已经成为了一个热点方向.本文对现有的面向实时应用的深度学习领域的研究工作进行了综述,首先介绍了深度学习技术应用于实时嵌入式系统所面临的关键设计问题,然后从深层神经网络的轻量化设计、GPU时间分析与任务调度、CPU+GPU SoC异构平台的资源管理、深层神经网络与网络加速器的协同设计等多个方面对现有的研究工作进行了分析和总结,最后展望了面向实时应用的深度学习领域进一步的研究方向.  相似文献   

9.
推荐系统是学习用户偏好,实现个性化推荐的系统化应用技术,在商品购买、影音推荐、关联阅读等多领域得到了广泛的应用。近年来,随着多源异构数据的激增和深度学习的兴起,传统推荐算法中的表征学习模式逐步被深度学习代替。梳理推荐算法的背景和发展趋势,并给出内容推荐的算法思路及其优劣评价,分别介绍多层感知机、自动编码器、卷积神经网络以及循环神经网络等深度学习方法的网络结构和算法优势。从技术应用的视角综述深度学习在内容推荐中的应用现状与研究成果,对不同经典深度推荐算法进行分析与比较。在此基础上,指出深度学习在可解释性、学习效率等方面的不足,并对交叉领域学习、多任务学习、表征学习等未来研究方向进行展望。  相似文献   

10.
点云分割是点云数据理解中的一个关键技术,但传统算法无法进行实时语义分割。近年来深度学习被应用在点云分割上并取得了重要进展。综述了近四年来基于深度学习的点云分割的最新工作,按基本思想分为基于视图和投影的方法、基于体素的方法、无序点云的方法、有序点云的方法以及无监督学习的方法,并简要评述;最后分析各类方法优劣并展望未来研究趋势。  相似文献   

11.
Several scene-detection algorithms, which are only based on bit rate fluctuations, have been proposed. All of them are presented on the fixed thresholds, which are obtained by the empirical records of the video characteristics. Due to the sensitivity of these methods to the accuracy of the records, which are generally obtained by testing several values repeatedly, bad performance evaluation might be observed for the actual scene detection, especially for real-time video traffic. In this paper, we review the previous works in this area, and study the correlation between the scene duration and the scene change at the frame level, and simultaneously investigate the local statistical characteristics of scenes such as variance and peak bit rate etc. Based on this analysis, an effective decision function is first constructed for the scene segmentation. Then, we propose a scene-detection algorithm using the defined dynamic threshold model, which can capture the statistical properties of the scene changes. Experimental results using 15 variable bit rate MPEG video traces indicate good performances of the proposed algorithm with significantly improved scene-detection accuracy.  相似文献   

12.
视觉目标跟踪指在一个视频序列中,给定第一帧目标区域,在后续帧中自动匹配到该目标区域的任务.通常来说,由于场景遮挡、光照变化、物体本身形变等复杂因素,目标与场景的表观会发生剧烈的变化,这使得跟踪任务本身面临极大的挑战.在过去的十年中,随着深度学习在计算机视觉领域的广泛应用,目标跟踪领域也迅速发展,研究人员提出了一系列优秀...  相似文献   

13.
基于深度卷积特征的细粒度图像分类研究综述   总被引:1,自引:0,他引:1  
罗建豪  吴建鑫 《自动化学报》2017,43(8):1306-1318
细粒度图像分类问题是计算机视觉领域一项极具挑战的研究课题,其目标是对子类进行识别,如区分不同种类的鸟.由于子类别间细微的类间差异和较大的类内差异,传统的分类算法不得不依赖于大量的人工标注信息.近年来,随着深度学习的发展,深度卷积神经网络为细粒度图像分类带来了新的机遇.大量基于深度卷积特征算法的提出,促进了该领域的快速发展.本文首先从该问题的定义以及研究意义出发,介绍了细粒度图像分类算法的发展现状.之后,从强监督与弱监督两个角度对比分析了不同算法之间的差异,并比较了这些算法在常用数据集上的性能表现.最后,我们对这些算法进行了总结,并讨论了该领域未来可能的研究方向及其面临的挑战.  相似文献   

14.
张康  安泊舟  李捷  袁夏  赵春霞 《软件学报》2023,34(1):444-462
近年来随着计算机视觉领域的不断发展,三维场景的语义分割和形状补全受到学术界和工业界的广泛关注.其中,语义场景补全是这一领域的新兴研究,该研究以同时预测三维场景的空间布局和语义标签为目标,在近几年得到快速发展.对近些年该领域提出的基于RGB-D图像的方法进行了分类和总结.根据有无使用深度学习将语义场景补全方法划分为传统方法和基于深度学习的方法两大类.其中,对于基于深度学习的方法,根据输入数据类型将其划分为基于单一深度图像的方法和基于彩色图像联合深度图像的方法.在对已有方法分类和概述的基础上,对语义场景补全任务所使用的相关数据集进行了整理,并分析了现有方法的实验结果.最后,总结了该领域面临的挑战和发展前景.  相似文献   

15.
随着深度学习与人工智能技术的不断发展,视频目标跟踪已经成为了计算机视觉的重要研究内容,在公安布控、人机交互、交通管制、军事等各个领域起到越来越重要的作用。尽管现在国内外学者提出了多种目标跟踪算法,也搭建了较为完善的目标跟踪系统,但是算法的鲁棒性依然是一个比较大的挑战。本文对运动目标跟踪系统结构进行了简要介绍,并从特征提取及融合、外观模型、目标搜索等方面详细阐述了目前主流运动目标跟踪算法。然后对目标跟踪算法在深度学习大环境下的新发展进行了分析,从基于深度学习的目标跟踪及目标检测算法角度分析了深度学习在提高目标检测算法鲁棒性方面的有效性,最后概述了深度学习在视频目标检测算法中的具体应用并对其未来发展进行了展望。  相似文献   

16.
孟令睿  丁光耀  徐辰  钱卫宁  周傲英 《软件学报》2022,33(10):3635-3655
摄像设备在生活中的普及,使得视频数据快速增长,这些数据中蕴含丰富的信息.早期,研究人员基于传统的计算机视觉技术开发视频分析系统,用于提取并分析视频数据.近年来,深度学习技术在人脸识别等领域取得了突破性进展,基于深度学习的新型视频分析系统不断涌现.从应用、技术、系统等角度,综述了新型视频分析系统的研究进展.首先,回顾了视频分析系统的发展历史,指出了新型视频分析系统与传统视频分析系统的区别;其次,分析了新型视频分析系统在计算和存储两方面所面临的挑战,从视频数据的组织分布和视频分析的应用需求两方面探讨了新型视频分析系统的影响因素;再次,将新型视频分析系统划分为针对计算优化的系统和针对存储优化的系统两大类,选取其中典型的代表并介绍其核心设计理念;最后,从多个维度对比和分析了新型视频分析系统,指出了这些系统当前存在的问题,并据此展望了新型视频分析系统未来的研究和发展方向.  相似文献   

17.
智能视觉监控技术研究进展   总被引:23,自引:0,他引:23       下载免费PDF全文
新一代智能视觉监控技术的研究是一个极具挑战性的前沿课题,它旨在赋予监控系统观察分析场景内容的能力,实现监控的自动化和智能化,因而具有巨大的应用潜力。视觉监控系统的智能化分析过程由运动目标检测、分类、跟踪和视频内容分析等几个基本环节组成,其中视频内容分析又包括异常检测、人的身份识别以及视频内容理解描述等。本文在总结以上有关关键技术研究进展的基础上,进一步提出将超分辨率复原技术引入视觉监控领域,介绍了超分辨率复原的主要算法及其在智能视觉监控中的应用。  相似文献   

18.
单目标跟踪是一种在视频中利用目标外观和上下文信息对单个目标分析运动状态、提供定位的技术,在智能监控、智能交互、导航制导等方面具有应用前景,但遮挡、背景干扰、目标变化等问题导致实际应用的进展缓慢.随着近年来深度学习的快速发展,研究使用深度学习技术优化单目标跟踪算法已成为计算机视觉领域的热点之一.围绕基于深度学习的单目标跟踪算法,在分析了单目标跟踪的基本原理基础上,从相关滤波、孪生网络、元学习、注意力、循环神经网络和生成对抗网络六个方面,根据核心算法的不同分别进行了概述和分析;此外,对研究现状进行了总结,提出了算法的发展趋势和优化思路.  相似文献   

19.
Deep learning has emerged as a powerful machine learning technique to employ in multimodal sentiment analysis tasks. In the recent years, many deep learning models and various algorithms have been proposed in the field of multimodal sentiment analysis which urges the need to have survey papers that summarize the recent research trends and directions. This survey paper tackles a comprehensive overview of the latest updates in this field. We present a sophisticated categorization of thirty-five state-of-the-art models, which have recently been proposed in video sentiment analysis field, into eight categories based on the architecture used in each model. The effectiveness and efficiency of these models have been evaluated on the most two widely used datasets in the field, CMU-MOSI and CMU-MOSEI. After carrying out an intensive analysis of the results, we eventually conclude that the most powerful architecture in multimodal sentiment analysis task is the Multi-Modal Multi-Utterance based architecture, which exploits both the information from all modalities and the contextual information from the neighbouring utterances in a video in order to classify the target utterance. This architecture mainly consists of two modules whose order may vary from one model to another. The first module is the Context Extraction Module that is used to model the contextual relationship among the neighbouring utterances in the video and highlight which of the relevant contextual utterances are more important to predict the sentiment of the target one. In most recent models, this module is usually a bidirectional recurrent neural network based module. The second module is an Attention-Based Module that is responsible for fusing the three modalities (text, audio and video) and prioritizing only the important ones. Furthermore, this paper provides a brief summary of the most popular approaches that have been used to extract features from multimodal videos in addition to a comparative analysis between the most popular benchmark datasets in the field. We expect that these findings can help newcomers to have a panoramic view of the entire field and get quick experience from the provided helpful insights. This will guide them easily to the development of more effective models.  相似文献   

20.
在各种灾害中,火灾是最经常、最普遍的威胁公众安全和社会发展的主要灾害之一。随着经济建设的迅猛发展,城市规模日趋扩大,重大火灾隐患急剧增加。然而,目前广泛使用的烟雾传感器探测火灾的方法,易受距离等因素影响,导致检测不及时。视频监控系统的引入为解决这一问题提供了新思路,基于视频的传统图像处理算法是较早提出的方法,最近机器视觉与图像处理技术快速发展,涌现出一系列使用深度学习技术来自动检测视频和图像中火灾的方法,在消防安全领域具有非常重要的实际应用价值。为了综合分析火灾检测的深度学习方法相关改进及应用,简要介绍了基于深度学习的火灾检测流程,重点从分类、检测、分割3个粒度对火灾检测的深度方法详细对比分析,阐述每类算法针对现有问题采取的相关改进。总结现阶段火灾检测存在的问题,并提出未来的研究方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号