首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
夏旻  宋稳柱  施必成  刘佳 《计算机应用》2018,38(8):2141-2147
针对深度强化学习中卷积神经网络(CNN)层数过深导致的梯度消失问题,提出一种将密集连接卷积网络应用于强化学习的方法。首先,利用密集连接卷积网络中的跨层连接结构进行图像特征的有效提取;然后,在密集连接卷积网络中加入权重系数,加权密集连接卷积网络中的每一层都接收到前面几层产生的所有特征图,且之前所有层在跨层连接中被赋予不同的初始权重;最后,在训练中动态调整每层的权重,从而更加有效地提取特征。与常规深度强化学习方法相比,在GridWorld仿真实验中,在相同训练步数内的平均奖励值提升了85.67%;在FlappyBird仿真中,平均奖励值提升了55.05%。实验结果表明所提方法能在不同难度的游戏仿真实验中获得更好的性能。  相似文献   

2.
针对现有抓取技术在复杂环境下难以进行有效的目标导向性抓取的问题, 本文提出了一种基于深度强化学习的推动和抓取协同操作的方法. 相对于以往的抓取方法, 本方法使用深度学习来处理Intel-D435i相机所获得的RGB-D图像数据, 同时又在视觉网络中引入了注意力机制, 用来提高系统对工作区域内目标物体的敏感性. 其次,使用深度Q网络来学习UR5机械臂与环境之间的交互过程, 提出了密集奖励策略来评判推动或抓取操作的好坏. 随着训练次数的不断增加, UR5机械臂在训练过程中不断地优化两种操作之间的协同策略, 从而更高效的进行决策.最后, 在V-rep仿真平台上设计了仿真场景, 并进行测试, 平均抓取成功率达到92.5%. 通过与其他几种方法进行对比, 证明该方法可以在复杂环境下较好的完成目标物体的抓取任务.  相似文献   

3.
针对固体放射性废物分拣作业中,放射性废物杂乱无序、远程遥操作抓取效率低、人工分拣危险性大等典型问题,提出一种基于深度强化学习的放射性固体废物抓取方法。该方法使用改进深度Q网络算法,通过获取的图像信息,使机器人与环境不断进行交互并获得回报奖励,回报奖励由机械臂动作执行结果和放射性区域内放射性活度的高低构成,根据◢Q◣值的大小得到机械臂的最佳抓取位置。用V-REP软件对UR5机械臂建立仿真模型,在仿真环境中完成不同类型固体放射性废物抓取的训练与测试。仿真结果表明,固体废物在松散放置时该方法可使机械臂抓取成功率大于90%,在紧密放置时抓取成功率大于65%,机械臂不会受到废物堆叠的影响,并且会优先抓取放射性区域内具有高放射性活度的物体。  相似文献   

4.
导航和避障是移动机器人自主智能中一项基础且重要的任务,其目的是引导机器人到达相应的位置。随着移动机器人的广泛使用,移动机器人常需要在大量移动障碍物的环境中导航和避障。提出了一种基于深度强化学习的导航避障算法,通过基于残差卷积和注意力机制的深度Q网络与势能奖励函数相结合,提高了在密集动态环境中导航避障的性能。仿真实验证明,当环境中动态障碍物密度大于0.4 ppm时,导航成功率大于60%。  相似文献   

5.
王亚群  戴华林  王丽  李国燕 《计算机工程》2021,47(11):262-267,291
为解决目前单目图像深度估计方法存在的精度低、网络结构复杂等问题,提出一种密集卷积网络结构,该网络采用端到端的编码器和解码器结构。编码器引入密集卷积网络DenseNet,将前面每一层的输出作为本层的输入,在加强特征重用和前向传播的同时减少参数量和网络计算量,从而避免梯度消失问题发生。解码器结构采用带有空洞卷积的上投影模块和双线性插值模块,以更好地表达由编码器所提取的图像特征,最终得到与输入图像相对应的估计深度图。在NYU Depth V2室内场景深度数据集上进行训练、验证和测试,结果表明,该密集卷积网络结构在δ<1.25时准确率达到0.851,均方根误差低至0.482。  相似文献   

6.
随着遥感技术的飞速发展,遥感图像目标检测在资源勘探、城市规划、自然灾害评估等方面得到广泛应用.遥感影像背景复杂、目标尺度较小,难以检测.针对此问题,文中提出基于深度强化学习的遥感图像可解释目标检测方法.首先,将深度强化学习应用于超快速区域神经网络中的候选区域生成网络,修改激励函数,提高对遥感图像的检测精度.然后,将原有参数量较大的主干网络轻量化,提高方法的检测速度和可移植性.最后,利用网络解剖方法对隐层表征的可解释性进行量化,赋予方法人类理解的可解释性概念.实验表明,文中方法在3个公开的遥感数据集上的性能有所提升.通过改进的网络解剖方法进一步验证方法的有效性.  相似文献   

7.
8.
针对现有深度强化学习算法在状态空间维度大的环境中难以收敛的问题,提出了在时间维度上提取特征的基于一维卷积循环网络的强化学习算法;首先在深度Q网络(DQN,deep Q network)的基础上构建一个深度强化学习系统;然后在深度循环Q网络(DRQN,deep recurrent Q network)的神经网络结构基础上加入了一层一维卷积层,用于在长短时记忆(LSTM,long short-term memory)层之前提取时间维度上的特征;最后在与时序相关的环境下对该新型强化学习算法进行训练和测试;实验结果表明这一改动可以提高智能体的决策水平,并使得深度强化学习算法在非图像输入的时序相关环境中有更好的表现。  相似文献   

9.
本文基于恶意家族代码可视化典型纹理特征,提出一种改进的R-FCN和迁移学习的深度学习检测方法,通过计算恶意纹理与背景纹理的IoU交叉比,剔除恶意纹理的相近边框,重新训练困难负样本等方法,提高了分类和定位检测精度;同时结合迁移学习方法加快模型收敛。实验结果表明,本文提出的改进方法在分类准确率、边框回归检测速率和m AP等方面优于其他恶意代码可视化纹理检测方法。  相似文献   

10.
舒凌洲  吴佳  王晨 《计算机应用》2019,39(5):1495-1499
针对城市交通信号控制中如何有效利用相关信息优化交通控制并保证控制算法的适应性和鲁棒性的问题,提出一种基于深度强化学习的交通信号控制算法,利用深度学习网络构造一个智能体来控制整个区域交通。首先通过连续感知交通环境的状态来选择当前状态下可能的最优控制策略,环境的状态由位置矩阵和速度矩阵抽象表示,矩阵表示法有效地抽象出环境中的主要信息并减少了冗余信息;然后智能体以在有限时间内最大化车辆通行全局速度为目标,根据所选策略对交通环境的影响,利用强化学习算法不断修正其内部参数;最后,通过多次迭代,智能体学会如何有效地控制交通。在微观交通仿真软件Vissim中进行的实验表明,对比其他基于深度强化学习的算法,所提算法在全局平均速度、平均等待队长以及算法稳定性方面展现出更好的结果。其中,与基线相比,平均速度提高9%,平均等待队长降低约13.4%。实验结果证明该方法能够适应动态变化的复杂的交通环境。  相似文献   

11.
张冬冬 《信息与电脑》2023,(18):167-169
由于现有的资源分配方法吞吐量小,节点缓存压力大,提出基于深度强化学习的通信网络资源分配方法。首先,运用深度强化学习法提取数据特征,增强模型的学习能力。其次,根据当前的状态做出最佳的动作,选择对应的分配动作,调整资源比例。最后,构建异构网络模型,共享网络中的频谱资源。实验结果表明,当迭代次数增加到150次时,该方法的吞吐量达到平稳状态,优于对照组。  相似文献   

12.
针对现有的图像特征分类方法收敛性差,分类无法满足日益增加的网络需求的现状,本文提出了一种基于深度强化学习的图像特征分类方法。通过对目标图像特征区域进行复域Contourlet分解,过滤处理分解结果,从而可以将目标图像子带系数矩阵提取出来,求取系数矩阵的相关特征。采取深度学习网络,使所选图像的特征向量直接经过已训练的层状网络深度模型,完成图像特征分类。实验结果表明,所提方法的误识率比现有方法明显降低,收敛速度明显提升。改进方法比传统方法更具优势,能够满足图像特征分类智能化处理的需要。  相似文献   

13.
为深入了解基于深度学习的单图像超分辨率重建(SISR)的发展,把握当前研究的热点和方向,针对现有基于深度学习的单图像超分辨率重建模型进行了梳理。介绍了相关深度学习算法和基于深度学习的模型以及评价指标,并通过实验对比分析现有模型的性能,其目的在于从本质上了解基于深度学习的单图像超分辨率重建模型的优势;对单图像超分辨率重建的关键问题进行了总结,并对未来的发展趋势进行了展望。  相似文献   

14.
近年来,深度强化学习(deep reinforcement learning, DRL)在游戏人工智能、机器人等领域取得了诸多重要成就.然而,在具有稀疏奖励、随机噪声等特性的现实应用场景中,该类方法面临着状态动作空间探索困难的问题.基于内在动机的深度强化学习探索方法是解决上述问题的一种重要思想.首先解释了深度强化学习探索困难的问题内涵,介绍了3种经典探索方法,并讨论了这3种方法在高维或连续场景下的局限性;接着描述了内在动机引入深度强化学习的背景和算法模型的常用测试环境,在此基础上详细梳理各类探索方法的基本原理、优势和缺陷,包括基于计数、基于知识和基于能力3类方法;然后介绍了基于内在动机的深度强化学习技术在不同领域的应用情况;最后总结亟需解决的难以构建有效状态表示等关键问题以及结合表示学习、知识积累等领域方向的研究展望.  相似文献   

15.
深度强化学习中稀疏奖励问题研究综述   总被引:1,自引:0,他引:1  
强化学习作为机器学习的重要分支,是在与环境交互中寻找最优策略的一类方法。强化学习近年来与深度学习进行了广泛结合,形成了深度强化学习的研究领域。作为一种崭新的机器学习方法,深度强化学习同时具有感知复杂输入和求解最优策略的能力,可以应用于机器人控制等复杂决策问题。稀疏奖励问题是深度强化学习在解决任务中面临的核心问题,在实际应用中广泛存在。解决稀疏奖励问题有利于提升样本的利用效率,提高最优策略的水平,推动深度强化学习在实际任务中的广泛应用。文中首先对深度强化学习的核心算法进行阐述;然后介绍稀疏奖励问题的5种解决方案,包括奖励设计与学习、经验回放机制、探索与利用、多目标学习和辅助任务等;最后对相关研究工作进行总结和展望。  相似文献   

16.
张时进 《信息与电脑》2023,(11):195-197
由于现有机器人避障方法绕过障碍物不能及时达到原点,研究了基于深度强化学习的红外单目摄像头移动机器人避障方法。在神经网络中,设计方法通过卷积遍历整个图像区域进行特征学习,在池化层去除冗余特征信息,将图像输入障碍物检测网络检测,生成避障场景下的深度图,运用红外单目摄像头及视觉传感器采集图像中的信息进行训练,实现避障任务。实验结果表明,在不同行驶环境下,3组移动机器人绕过障碍物后均能准确到达原点(0,0)位置。  相似文献   

17.
场景分割的目标是判断场景图像中每个像素的类别.场景分割是计算机视觉领域重要的基本问题之一,对场景图像的分析和理解具有重要意义,同时在自动驾驶、视频监控、增强现实等诸多领域具有广泛的应用价值.近年来,基于深度学习的场景分割技术取得了突破性进展,与传统场景分割算法相比获得分割精度的大幅度提升.首先分析和描述场景分割问题面临的3个主要难点:分割粒度细、尺度变化多样、空间相关性强;其次着重介绍了目前大部分基于深度学习的场景分割算法采用的“卷积-反卷积”结构;在此基础上,对近年来出现的基于深度学习的场景分割算法进行梳理,介绍针对场景分割问题的3个主要难点,分别提出基于高分辨率语义特征图、基于多尺度信息和基于空间上下文等场景分割算法;简要介绍常用的场景分割公开数据集;最后对基于深度学习的场景分割算法的研究前景进行总结和展望.  相似文献   

18.
移动边缘计算(MEC)可以在网络边缘为用户提供就近的存储和计算服务,从而为移动用户带来低能耗、低时延的优势。该文针对基于超密集网络(UDN)的多用户多MEC场景,从用户侧出发,以最小化用户计算总开销为目的,解决用户在卸载过程中的卸载决策和上传传输功率优化以及MEC计算资源分配问题。具体而言,考虑到该问题是一个具有NP-hard性质的MINLP问题,该文将该问题分解为两个子问题并通过两个阶段的方式进行求解。首先在第一个阶段设计了一种基于深度强化学习(DQN)的任务卸载决策来解决任务卸载子问题,然后在第二个阶段分别使用KKT条件以及黄金分割算法解决MEC计算资源分配和上行传输功率的优化问题。仿真结果表明,所提方案在保证用户时延约束的前提下,有效降低了用户的计算开销,提升了系统性能。  相似文献   

19.
针对传统视频图像背景分割方法效率低、抗干扰能力弱、层次模糊等问题,基于全卷积深度学习网络算法研究了一种视频图像背景的分割方法。应用全卷积神经网络算法,完成视频图像背景的特征提取,构建结构化学习模块,再利用深度学习网络实现视频图像背景的多模态特征融合,基于损失函数建立视频图像背景分割模型。结果显示,对于随机的10组视频图像数据包,设计方法完成分割处理所用时间的平均值为15.03min,像素准确率均值为99.24%,分割区域间对比度均值为0.91,区域内一致性测度值均值为9.52,分割合理性均值为0,表明本次设计方法有效改善了视频图像背景的分割质量和分割效果,具有较高的精准性和完整性。  相似文献   

20.
王童  李骜  宋海荦  刘伟  王明会 《控制与决策》2022,37(11):2799-2807
针对现有基于深度强化学习(deep reinforcement learning, DRL)的分层导航方法在包含长廊、死角等结构的复杂环境下导航效果不佳的问题,提出一种基于option-based分层深度强化学习(hierarchical deep reinforcement learning, HDRL)的移动机器人导航方法.该方法的模型框架分为高层和低层两部分,其中低层的避障和目标驱动控制模型分别实现避障和目标接近两种行为策略,高层的行为选择模型可自动学习稳定、可靠的行为选择策略,从而有效避免对人为设计调控规则的依赖.此外,所提出方法通过对避障控制模型进行优化训练,使学习到的避障策略更加适用于复杂环境下的导航任务.在与现有DRL方法的对比实验中,所提出方法在全部仿真测试环境中均取得最高的导航成功率,同时在其他指标上也具有整体优势,表明所提出方法可有效解决复杂环境下导航效果不佳的问题,且具有较强的泛化能力.此外,真实环境下的测试进一步验证了所提出方法的潜在应用价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号