共查询到20条相似文献,搜索用时 62 毫秒
1.
基于隐偏向信息学习的强化学习算法 总被引:4,自引:0,他引:4
传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信息的概念,建立了一种基于偏向信息学习的强化学习模型,并提出了一种基于特征的改进SARSA(λ)算法.针对于拄箱任务的实验表明,改进的算法明显提高了学习效率. 相似文献
2.
3.
给出了一种新的激励学习(RL)方法,它能够有效地解决一个状态与动作空间为连续的非线性控制问题.在实际的应用中,离散的RL方法能把许多非线性控制问题分解成几个局部线性控制作业.提供了一种由简单的线性控制器和Q-学习构成的层次性RL算法.连续状态-动作空间被形象地分成为一些格子,并且每个格子都有它自己的局部线性控制器.状态空间的隔离是处理维数问题的一种相当简单的方法,但是经常会引起非Markov效果,而局部线性控制器能弥补这个缺陷. 相似文献
4.
目的讨论平均准则下控制马氏链的强化学习算法,在事先未知状态转移矩阵及报酬函数的条件下,通过试凑法寻找使得长期每阶段期望平均报酬最大的最优控制策略.方法结合平均报酬问题的一步学习算法和即时差分学习算法,提出了一种多步强化学习算法--R(λ)学习算法.结果与结论新算法使得已有的R学习算法成为其λ=0时的特例.同时它也是折扣报酬Q(λ)学习算法到平均报酬问题的自然推广.仿真结果表明λ取中间值的R(λ)学习算法明显优于一步的R学习算法. 相似文献
5.
为了提高迭代学习控制方法在移动机器人轨迹跟踪问题中的收敛速度,提出了一种带有可变遗忘因子的离散迭代学习控制算法.该算法是在开闭环离散迭代学习控制律基础上,通过可变遗忘因子对上一次的控制量进行调节,并增加了带有可变遗忘因子的初始修正项.通过适当选取学习律中的初始控制输入,带遗忘因子的初始修正项可以避免迭代轨迹的大幅度摆动,从而可以使迭代学习的收敛速度得到显著提高.并利用范数理论对算法的收敛性进行了严格证明,得到了使算法收敛的范数形式的充分条件.最后通过仿真实验验证了所提算法的有效性. 相似文献
6.
对智能体在不确定环境下的学习与规划问题的激励学习技术进行了综述.首先介绍了用于描述隐状态问题的部分可观测Markov决策理论(POMDPs),在简单回顾其它POMDP求解技术后,重点讨论环境模型事先未知的激励学习技术,包括两类:一类为基于状态的值函数学习;一类为策略空间的直接搜索.最后分析了这些方法尚存在的问题,并指出了未来可能的研究方向. 相似文献
7.
为提高运动目标跟踪算法的鲁棒性,提出一种基于多示例学习(MIL)框架的跟踪算法。该算法利用类Haar特征构建若干弱分类器,然后级联为多示例学习强分类器,根据目标在视频前一帧中的位置,依据最大熵原理,在当前帧中找出目标可能出现的范围,并利用该强分类器确定其最有可能出现的位置,作为跟踪结果,并且将该位置不同邻域内的图像分别作为正包和负包去更新多示例学习强分类器。实验结果表明,该算法对于运动目标外观有显著变化的情况具有较好的鲁棒性和实时性。 相似文献
8.
在一种新的准则概率阈值准则下讨论马尔可夫决策的最优解的算法问题.在该准则下,采用基于未来阈值的方法,求解马尔可夫最优策略. 相似文献
9.
10.
原始在线加权的多示例学习跟踪假设每个示例是独立且在包中的贡献均相同,同时为所有正样本赋予相同的权重,这不符合"包中的示例与目标位置的远近,对目标贡献程度是不一样"的事实.再加上原始算法采取单一特征无法准确和全面地表示目标包中所包含的示例,从而影响了跟踪算法的鲁棒性.针对原始算法的这些问题,提出一种基于带权重多样例学习的视觉跟踪方法.该方法同时融合多特征(HOG特征和Haar特征),在多示例学习框架下同时训练分类器,并通过样本特征相似度的比较来赋予不同的权重.对不同场景的图像序列进行实验,通过在公共测试集上与多种主流算法做对比,显示这样得到的目标外表模型对于前景和背景具有更高的区分能力.结果表明:该算法具有更高的准确性和更强的适应性,可以有效克服传统多示例学习中的分类器退化问题. 相似文献
11.
针对多任务下机器人模仿学习控制策略的获取问题,构建复合协方差函数,采用高斯过程回归方法对示教机器人的示教行为样本点建立高斯过程回归模型,并对其中的超参数进行优化,从而得出模仿学习控制策略,模仿机器人应用控制策略完成模仿任务.以Braitenberg车为仿真实验研究对象,对其趋光、避障多任务的模仿学习进行研究.仿真实验研究结果表明:与基于单一协方差函数的模仿学习算法相比,基于复合协方差函数的模仿学习算法不仅能够实现单任务环境下的机器人模仿学习,而且能够实现多任务环境下的机器人模仿学习,且精度更高.任务环境改变实验研究结果表明该方法有很好的适应性. 相似文献
12.
Multi-agent systems composed of concurrent re-inforcement learners have attracted increasing atten-tionin recent years . Multiagent reinforcement learn-ing[1]is much harder than the single-agent case . Thehardness mainly comesfromthefact that the environ-ment is not stationary fromthe viewof an agent be-cause of the existence of other learning agents .Based on stochastic games ,a multi-agent rein-forcement learning algorithmfor zero-sumstochasticgames was proposed by Littman[2]andit was extend… 相似文献
13.
基于Elman网络的非线性系统增强式学习控制 总被引:1,自引:0,他引:1
针对具有连续状态和未知系统模型的非线性系统控制问题,提出一种基于Elman神经网络的Q学习控制策略.利用Elman网络良好的动态特性及泛化能力,对状态一动作对的Q值进行在线估计,解决状态空间泛化中易出现的“维数灾”问题.借鉴TD(λ)算法中状态的资格迹机制,通过对权值向量定义对应的资格迹来加速神经网络的学习过程.将所提方法应用于具有连续状态的小车爬山控制问题,学习系统在经过大约60多次学习后即能获得小车爬山控制策略,仿真结果表明所提方法能够有效解决具有连续状态的非线性系统的无模型增强学习控制. 相似文献
14.
传统的流量工程策略的研究大多集中在构建和求解数学模型方面,其计算复杂度过高,为此,提出了一种经验驱动的基于多智能体强化学习的流量分配算法.该算法无需求解复杂数学模型即可在预计算的路径上进行有效的流量分配,从而高效且充分地利用网络资源.算法在软件定义网络控制器上进行集中训练,且在训练完成后再接入交换机或者路由器上分布式执行,同时也避免和控制器的频繁交互.实验结果表明,相对于最短路径和等价多路径算法,新算法有效减少了网络的端到端时延,并且增大了网络吞吐量. 相似文献
15.
为提高多接入边缘计算(MEC)任务卸载效率,提出了一个任务卸载和异构资源调度的联合优化模型.考虑异构的通信资源和计算资源,联合最小化用户的设备能耗、任务执行时延和付费,并利用深度强化学习(DRL)算法对该模型求最优的任务卸载算法.仿真结果表明,该优化算法比银行家算法的设备能耗、时延和付费的综合指标提升了27.6%. 相似文献
16.
提出并实现了一种基于BCI代理的软件运行轨迹捕获技术。该技术能在不改变源代码,且无需AOP技术所必须的织入器支持的情况下,为目标系统注入监测探针代码,实现监测其运行轨迹的功能,为进一步分析、推断软件运行行为是否异常提供技术支持。 相似文献
17.
为了研究在有限信道状态信息下,密集型网络的资源分配问题,提出了交替方向乘子法结合深度强化学习算法的模型驱动学习框架。该框架区别于数据驱动框架,能够根据具体问题进行一对一建模。针对资源分配的问题建模内容包括:将基站选择、功率和子载波分配用交替方向乘子法进行交替优化;用深度强化学习算法优化权重,求解目标函数,提高算法性能;框架利用有效信道状态信息而非多余信息,降低了通信开销;加强对最低用户服务质量要求参数的约束,可以在保证用户的体验下最大化小区频谱效率。仿真结果表明,该模型驱动学习框架在较少的迭代次数下即可收敛。 相似文献
18.
基于BP-GA的融合算法实现 总被引:1,自引:0,他引:1
搜索和寻优是控制、预测等应用技术的基础。在人工智能领域,人工神经网络和遗传算法是解决搜索和寻优这2个问题的基本方法。对BP算法和遗传算法进行了研究,指出了其优缺点;研究了传统的将BP和GA结合起来求解问题的几种方式。鉴于这几种方式存在的实际应用缺陷,提出了一种新型的融合算法,阐述了其基本原理,给出了设计流程图,并详细研究了该融合算法的设计步骤。最后,运用示例验证该算法。 相似文献
19.
为解决多无人机(unmanned aerial vehicle,UAV)在复杂环境下的路径规划问题,提出一个多智能体深度强化学习UAV路径规划框架. 该框架首先将路径规划问题建模为部分可观测马尔可夫过程,采用近端策略优化算法将其扩展至多智能体,通过设计UAV的状态观测空间、动作空间及奖赏函数等实现多UAV无障碍路径规划;其次,为适应UAV搭载的有限计算资源条件,进一步提出基于网络剪枝的多智能体近端策略优化(network pruning-based multi-agent proximal policy optimization, NP-MAPPO)算法,提高了训练效率. 仿真结果验证了提出的多UAV路径规划框架在各参数配置下的有效性及NP-MAPPO算法在训练时间上的优越性. 相似文献
20.
未来第6代移动通信系统(6G)网络服务支持虚实结合、实时交互,亟需快速匹配多租户个性化服务需求,对此,提出了一种两层递阶的网络切片智能管理方案,上层部署全局资源管理器,下层部署面向不同租户的本地资源管理器.首先,考虑不同租户多类型切片请求的差异性,基于端到端切片的实时状态描述建立服务质量评估模型.结合服务质量反馈,利用深度强化学习(DRL)算法,优化上层全局资源分配和下层局部资源调整,提升不同域多维资源的使用效益,并使能租户资源定制化.仿真结果表明,所提方案能够在优化资源供应商长期收益的同时,保障服务质量. 相似文献