期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

周晓柯孙志毅彭志平《计算机应用研究》2014,(11)

自主系统中,agent通过与环境交互来执行分配给他们的任务,采用分层强化学习技术有助于agent在大型、复杂的环境中提高学习效率。提出一种新方法,利用蚂蚁系统优化算法来识别分层边界发现子目标状态,蚂蚁遍历过程中留下信息素,利用信息素的变化率定义了粗糙度,用粗糙度界定子目标;agent使用发现的子目标创建抽象,能够更有效地探索。在出租车环境下验证算法的性能,实验结果表明该方法可以显著提高agent的学习效率。相似文献

2.

基于路径匹配的在线分层强化学习方法 总被引：1，自引：0，他引：1

石川史忠植王茂光《计算机研究与发展》2008,45(9)

如何在线找到正确的子目标是基于option的分层强化学习的关键问题.通过分析学习主体在子目标处的动作,发现了子目标的有效动作受限的特性,进而将寻找子目标的问题转化为寻找路径中最匹配的动作受限状态.针对网格学习环境,提出了单向值方法表示子目标的有效动作受限特性和基于此方法的option自动发现算法.实验表明,基于单向值方法产生的option能够显著加快Q学习算法,也进一步分析了option产生的时机和大小对Q学习算法性能的影响. 相似文献

3.

基于虚拟子目标的移动机器人主动寻径导航 总被引：2，自引：0，他引：2

仲朝亮刘士荣《机器人》2009,31(6):1

纯粹的反应式导航算法有时会出现“没有远见现象”,为此设计了一种基于行为和虚拟路径子目标的移动机器人主动寻径导航策略．该策略首先在机器人的局部探测域内运用改进的可视点寻径法寻找最优虚拟子目标,接着使用行为决策树实现快速的行为决策．机器人将如人类寻路一样,主动地灵巧绕过障碍物,基于圆弧轨迹的运动方式使之能以平滑的路径到达目标．仿真结果验证了本策略的可行性和有效性．相似文献

4.

融合好奇心和策略蒸馏的稀疏奖励探索机制

王子腾于亚新夏子芳乔佳琪《计算机应用》2023,(7):2082-2090

深度强化学习算法在奖励稀疏的环境下，难以通过与环境的交互学习到最优策略，因此需要构建内在奖励指导策略进行探索更新。然而，这样仍存在一些问题：1）状态分类存在的统计失准问题会造成奖励值大小被误判，使智能体（agent）学习到错误行为；2）由于预测网络识别状态信息的能力较强，内在奖励产生状态的新鲜感下降，影响了最优策略的学习效果；3）由于随机状态转移，教师策略的信息未被有效利用，降低了智能体的环境探索能力。为了解决以上问题，提出一种融合随机生成网络预测误差与哈希离散化统计的奖励构建机制RGNP-HCE(Randomly Generated Network Prediction and Hash Count Exploration)，并通过蒸馏（distillation）将多教师策略的知识迁移到学生策略中。RGNP-HCE机制采用好奇心分类思想构建融合奖励：一方面在多回合间以随机生成网络预测差构建全局好奇心奖励；另一方面在单回合内以哈希离散化统计构建局部好奇心奖励，从而保证内在奖励的合理性以及策略梯度更新的正确性。此外，将多个教师策略学习到的知识通过蒸馏迁移到学生策略中，有效提升学生策略的环... 相似文献

5.

基于合作技能博弈的单任务联盟结构生成算法

史强夏阳王磊《计算机应用研究》2012,29(7):2509-2512

提出一种用于单任务最优联盟结构生成算法STCSG。利用合作技能博弈(CSGs)模型和超图生成合作技能超图(skill hypergraph),根据STSG中最优联盟结构特性,具体讨论了当每个agent最多只能拥有一个技能和一个技能最多被两个agent共同拥有两种情况下搜索合作技能超图的策略,从而求得最优联盟结构。实验结果表明该算法搜索效率较高,时间复杂度为O(n2)。相似文献

6.

未知环境下基于约束点的移动机器人路径规划

许重阳王文格武凯宾《微计算机信息》2012,(5):72-74

针对未知环境中障碍物种类多样性和位置不确定性的特点,提出了基于约束点的路径规划方法。首先对机器人在未知环境中检测到的局部障碍物信息进行分类和几何特征属性描述,得其约束点信息,然后引入改进后的A*算法,将其搜索范围局限于约束点上,计算约束点的评价函数值后得到子目标点,机器人到达子目标点后,若陷入死区,则采取回溯路径策略,重新选择子目标点,否则根据该点所属的障碍物种类采取跨越或绕行避障策略,最后移动机器人在未知环境中顺利到达目标点。仿真研究说明本文提出的路径规划方法具有可行性和有效性。相似文献

7.

结合新颖性和风险评估的内在奖励方法

下载免费PDF全文

赵英秦进袁琳琳《计算机工程与应用》2023,59(5):148-154

强化学习算法依赖于精心设计的外在奖励,然而Agent在和环境交互过程中,环境反馈给Agent的外在奖励往往是非常稀少的或延迟,这导致了Agent无法学习到一个好的策略。为了解决该问题,从新颖性和风险评估这两方面设计一个内在奖励,使Agent能充分地探索环境以及考虑环境中存在不确定性动作。该方法分为两部分,首先是新颖性描述为对当前状态-动作和转换后状态的访问次数,将具体执行的动作考虑进去;其次是动作的风险程度,风险评估从累积奖励方差考虑,来判断当前动作对状态的意义是有风险的还是无风险的。该方法在Mujoco环境下进行了评估,实验验证该方法取得了更高的平均奖励值,尤其是在外在奖励延迟的情况下,也能取得不错的平均奖励值。说明该方法能有效地解决外在奖励稀疏的问题。相似文献

8.

基于可分解MDP模型的MAS协作策略优化及分布执行

王晓伶慕德俊刘哲元袁源《计算机科学》2009,36(1):39-42

不确定环境下MAS生成协作策略的复杂度关系到协作任务能否成功实现.为降低马尔可夫决策模型生成MAS协作策略的复杂度,减少协作通信量,改进了可分解MDP模型生成策略树的方法.利用Bayesian网络中agent状态之间存在的条件独立性与上下文独立性,分解并优化SPI算法生成的策略树,使得MAS中处于独立状态的agent可以分布独立运行,只有在需要同其他agent协商时才进行通信.通信时采用端对端的方式,agent不仅知道协商内容、协商时机,而且知道协作的目标.实验表明,采用该协作策略MAS在完成协作任务获得目标奖励的同时可以有效降低通信量. 相似文献

9.

基于奖励预测误差的内在好奇心方法

谭庆李辉吴昊霖王壮邓书超《计算机应用》2022,42(6):1822-1828

针对状态预测误差直接作为内在好奇心奖励,在状态新颖性与奖励相关度低的任务中强化学习智能体不能有效探索环境的问题,提出一种基于奖励预测误差的内在好奇心模块（RPE-ICM）。RPE-ICM利用奖励预测误差网络（RPE-Network）学习并修正状态预测误差奖励,并将奖励预测误差（RPE）模型的输出作为一种内在奖励信号去平衡探索过度与探索不足,使得智能体能够更有效地探索环境并利用奖励去学习技能,从而达到更好的学习效果。在不同的MuJoCo环境中使用RPE-ICM、内在好奇心模块（ICM）、随机蒸馏网络（RND）以及传统的深度确定性策略梯度（DDPG）算法进行对比实验。结果表明,相较于传统DDPG、ICM-DDPG以及RND-DDPG,基于RPE-ICM的DDPG算法的平均性能在Hopper环境中分别提高了13.85%、13.34%和20.80%。相似文献

10.

基于优化子目标数的Option-Critic算法

刘成浩朱斐刘全《计算机学报》2021,44(9):1922-1933

时间抽象是分层强化学习中的重要研究方向,而子目标是时间抽象形成的核心元素.目前,大部分分层强化学习需要人工给出子目标或设定子目标数量.然而,在很多情况下,这不仅需要大量的人工干预,而且所作设定未必适合对应场景,在动态环境未知的指导下,这一问题尤为突出.针对此,提出基于优化子目标数的Option-Critic算法(Option-Critic algorithm based on Sub-goal Quantity Optimization,OC-SQO),增加了智能体对环境的探索部分,通过与环境的简单交互,得到适用于应用场景的初始子目标数量估值,并在此基础上识别子目标,然后利用通过策略梯度生成对应的抽象,使用初态、内部策略和终止函数构成的三元组表示,以此进行训练,根据交互得到的抽象改变当前状态,不断迭代优化.OC-SQO算法可以在任意状态下开始执行,不要求预先指定子目标和参数,在执行过程中使用策略梯度生成内部策略、抽象间策略和终止函数,不需要提供内部奖赏信号,也无需获取子目标的情况,尽可能地减少了人工干预.实验验证了算法的有效性. 相似文献

11.

MAS中基于多奖惩标准的Q学习算法研究

乔林罗杰《计算机科学》2012,39(105):235-237

传统的Q学习算法是基于单奖惩标准的。基于单奖惩标准的Q学习算法往往不能适应multi-agent system相似文献

12.

基于增量式相似度的样本评估方法

周瑞朋秦进《计算机应用研究》2021,38(7):1963-1966

现有的强化学习算法存在样本利用率低的问题,导致智能体寻找最优策略的能力下降.为解决这个问题,提出了基于增量式相似度的样本评估方法.设计了一个状态新颖度度量方法和一个样本价值评价函数.计算新状态与基准状态之间的相似度,基于状态的相似度计算状态的新颖程度,再增量式更新基准状态,直到训练结束.计算样本价值时,将状态的新颖程度考虑在内,再针对样本奖励值是否大于零分别进行计算.最后根据其样本价值结合排名选择和随机选择进行采样.该方法在Playing Atari 2600的控制问题中取得了更高的奖励值,说明该方法缓解了样本利用率低的问题,且通过增量式计算相似度减少了计算量. 相似文献

13.

结合状态预测的深度强化学习交通信号控制

唐慕尧周大可李涛《计算机应用研究》2022,39(8)

深度强化学习（deep reinforcement learning,DRL）可广泛应用于城市交通信号控制领域,但在现有研究中,绝大多数的DRL智能体仅使用当前的交通状态进行决策,在交通流变化较大的情况下控制效果有限。提出一种结合状态预测的DRL信号控制算法。首先,利用独热编码设计简洁且高效的交通状态;然后,使用长短期记忆网络（long short-term memory,LSTM）预测未来的交通状态;最后,智能体根据当前状态和预测状态进行最优决策。在SUMO（simulation of urban mobility）仿真平台上的实验结果表明,在单交叉口、多交叉口的多种交通流量条件下,与三种典型的信号控制算法相比,所提算法在平均等待时间、行驶时间、燃油消耗、CO2排放等指标上都具有最好的性能。相似文献

14.

COOPERATIVE LEARNING BY POLICY-SHARING IN MULTIPLE AGENTS

Kao-Shing Hwang Chia-Ju Lin Chia-Yue Lo 《控制论与系统》2013,44(4):286-309

Reinforcement learning is one of the more prominent machine-learning technologies due to its unsupervised learning structure and ability to continually learn, even in a dynamic operating environment. Applying this learning to cooperative multi-agent systems not only allows each individual agent to learn from its own experience, but also offers the opportunity for the individual agents to learn from the other agents in the system so the speed of learning can be accelerated. In the proposed learning algorithm, an agent adapts to comply with its peers by learning carefully when it obtains a positive reinforcement feedback signal, but should learn more aggressively if a negative reward follows the action just taken. These two properties are applied to develop the proposed cooperative learning method. This research presents the novel use of the fastest policy hill-climbing methods of Win or Lose Fast (WoLF) with policy-sharing. Results from the multi-agent cooperative domain illustrate that the proposed algorithms perform better than Q-learning alone in a piano mover environment. It also demonstrates that agents can learn to accomplish a task together efficiently through repetitive trials. 相似文献

15.

An efficient initialization approach of Q-learning for mobile robots

Yong Song Yi-bin Li Cai-hong Li Gui-fang Zhang 《International Journal of Control, Automation and Systems》2012,10(1):166-172

This article demonstrates that Q-learning can be accelerated by appropriately specifying initial Q-values using dynamic wave expansion neural network. In our method, the neural network has the same topography as robot work space. Each neuron corresponds to a certain discrete state. Every neuron of the network will reach an equilibrium state according to the initial environment information. The activity of the special neuron denotes the maximum cumulative reward by following the optimal policy from the corresponding state when the network is stable. Then the initial Q-values are defined as the immediate reward plus the maximum cumulative reward by following the optimal policy beginning at the succeeding state. In this way, we create a mapping between the known environment information and the initial values of Q-table based on neural network. The prior knowledge can be incorporated into the learning system, and give robots a better learning foundation. Results of experiments in a grid world problem show that neural network-based Q-learning enables a robot to acquire an optimal policy with better learning performance compared to conventional Q-learning and potential field-based Qlearning. 相似文献

16.

On the selection of a subgoal and the use of a priori information in learning control systems

L. E. Jones III K. S. Fu 《Automatica》1969,5(6):705-720

Numerous methods have been proposed for the design of control systems which learn to function in unknown or partially known environments. Most learning schemes are radical departures from the techniques using continuous adjustment of parameters which grew out of early developments in model reference systems. Principal contributions to the area have been controller models and algorithms. In studying these models, the system is abstracted to such an extent that there is quite often a loss of contact with practical considerations. The objective of this paper is to present some results in the theory of learning control, but also to look again at some of the practical problems encountered in applying a learning controller to a problem.

This paper defines the subgoal as a subordinate to the primary goal of minimizing the performance index. It must evaluate each decision one control interval after it is instituted. The subgoal problem is to choose a subgoal which will direct the learning process to the optimal as prescribed by the given performance index. An analytical solution is presented and extended heuristically for the general case. This extended method makes use of the a priori information about the plant.

Two other problems are also discussed. A fixed grid is used to partition the state space into control situations, and a method of extending the grid is proposed and evaluated. The controller is initialized using the a priori information, too. A full scale simulation confirms that the proposed methods of choosing the subgoal, extending the fixed grid and initializing the controller are improvements over previous methods. 相似文献

17.

基于内在动机的智能机器人自主发育算法

任红格向迎帆李福进《计算机应用》2015,35(9):2602-2605

针对两轮自平衡机器人在学习过程中主动性差的问题,受心理学内在动机理论启发,提出一种基于内在动机的智能机器人自主发育算法。该算法在强化学习的理论框架中,引入模拟人类好奇心的内在动机理论作为内部驱动力,与外部奖赏信号一起作用于整个学习过程。采用双层内部回归神经网络存储知识的学习与积累,使机器人逐步学会自主平衡技能。最后针对测量噪声污染对机器人平衡控制中两轮角速度的影响,进一步采用卡尔曼滤波方法进行补偿,以提高算法收敛速度,降低系统误差。仿真实验表明,该算法能够使两轮机器人通过与环境的交互获得认知,成功地学会运动平衡控制技能。相似文献