首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于马尔科夫过程的强化学习作为一种在线学习方式,能够很好地应用于单智能体环境中.但是由于强化学习理论的限制,在多智能体系统中马尔科夫过程模型不再适用,因此强化学习不能直接用于多智能体的协作学习问题.本文提出了多智能体协作的两层强化学习方法.该方法主要通过在单个智能体中构筑两层强化学习单元来实现.第一层强化学习单元负责学习智能体的联合任务协作策略,第二层强化学习单元负责学习在本智能体看来是最有效的行动策略.所提出的方法应用于3个智能体协作抬起圆形物体的计算机模拟中,结果表明所提出的方法比采用传统强化学习方法的智能体协作得更好.  相似文献   

2.
介绍了一种基于分层思想的强化学习方法,即将机器人的复杂行为分解为一系列简单的行为进行离线独立学习,并分别设计了每个层次的结构、参数及函数。这种学习方法能够减小状态空间并简化强化函数的设计,从而提高了学习的速率以及学习结果的准确性,并使学习过程实现了决策的逐步求精。最后以多机器人避障为任务模型,将避障问题分解为躲避静态和动态障碍物以及向目标点靠近3个子行为分别进行学习,实现了机器人的自适应行为融合,并利用仿真实验对其有效性进行了验证。  相似文献   

3.
0 INTRODUCTIONEstablishingaindependencerobotwholearntocar ryouttaskdependingonvisualinformationhasbecomeaprimarilychallengeofartificialintelligence .Recently ,asakindofrobotlearningapproachthatneednotran scendentalknowledgeandhashighresponseandadapta tio…  相似文献   

4.
在多智能体分层强化学习研究成果的基础上,考虑多机器人系统经常面临的通信困难问题(如水下环境),提出一种基于半马尔可夫对策的多机器人分层强化学习方法,通过引入对策论方法解决通信困难情况下多机器人学习问题。仿真实验结果表明了该方法的有效性。  相似文献   

5.
The application of reinforcement learning is widely used by multi-agent systems in recent years. An agent uses a multi-agent system to cooperate with other agents to accomplish the given task, and one agent‘s behavior usually affects the others‘ behaviors. In traditional reinforcement learning, one agent takes the others location, so it is difficult to consider the others‘ behavior, which decreases the learning efficiency. This paper proposes multi-agent reinforcement learning with cooperation based on eligibility traces, i.e. one agent estimates the other agent‘s behavior with the other agent‘s eligibility traces. The results of this simulation prove the validity of the proposed learning method.  相似文献   

6.
Robot path planning in dynamic environment based on reinforcement learning   总被引:4,自引:0,他引:4  
0 INTRODUCTIONOneofthemostimportantproblemsinmobilerobotcontrolispathplanning .Therearealreadysomemeth odsthatsolvepathplanningproblems ,suchasartificialpotentialmethodandgridmethod .Inthesemethods,itisnecessarytoestablishtheenvironment’smodelbeforeperfo…  相似文献   

7.
Proposes a reinforcement learning scheme based on a special Hierarchical Fuzzy Neural-Networks (HFNN) for solving complicated learning tasks in a continuous multi-variables environment. The output of the previous layer in the HFNN is no longer used as if-part of the next layer, but used only in then-part. Thus it can deal with the difficulty when the output of the previous layer is meaningless or its meaning is uncertain. The proposed HFNN has a minimal number of fuzzy rules and can successfully solve the problem of rules combination explosion and decrease the quantity of computation and memory requirement. In the learning process, two HFNN with the same structure perform fuzzy action composition and evaluation function approximation simultaneously where the parameters of neural-networks are tuned and updated on line by using gradient descent algorithm. The reinforcement learning method is proved to be correct and feasible by simulation of a double inverted pendulum system.  相似文献   

8.
针对基于深度强化学习的交通信号控制方法存在难以及时更新交叉口信号控制策略的问题,提出基于改进深度强化学习的单交叉口交通信号控制方法. 构建新的基于相邻采样时间步实时车辆数变化量的奖励函数,以及时跟踪并利用交叉口交通状态动态的变化过程. 采用双网络结构提高算法学习效率,利用经验回放改善算法收敛性. 基于SUMO的仿真测试结果表明,相比传统控制方法和深度强化学习方法,所提方法能明显缩短交叉口车辆平均等待时间和平均排队长度,提高交叉口通行效率.  相似文献   

9.
In multi-agent systems, joint-action must be employed to achieve cooperation because the evaluation of the behavior of an agent often depends on the other agents‘ behaviors. However, joint-action reinforcement learning algorithms suffer the slow convergence rate because of the enormous learning space produced by jointaction. In this article, a prediction-based reinforcement learning algorithm is presented for multi-agent cooperation tasks, which demands all agents to learn predicting the probabilities of actions that other agents may execute. A multi-robot cooperation experiment is run to test the efficacy of the new algorithm, and the experiment results show that the new algorithm can achieve the cooperation policy much faster than the primitive reinforcement learning algorithm.  相似文献   

10.
11.
基于免疫聚类的自动分层强化学习方法研究   总被引:1,自引:0,他引:1  
为解决分层强化学习中现有的自动分层方法对环境和状态空间特性依赖过强的问题,提出了一种基于免疫聚类的自动分层强化学习方法.该方法以Sutton提出的Option框架为基础,在学习的初始阶段,每个Option仅包含一个人口状态且执行平坦策略,经过若干个学习周期对环境进行充分探测后,应用免疫聚类方法对状态空间进行聚类,同时生成每个聚类空间下的Option,并在学习过程中完成内部策略的学习,从而实现自动分层.以二维有障碍栅格空间内路径规划为问题背景进行了仿真实验,仿真结果表明该方法不受状态空间的结构性和可分割性以及强化信号延迟的影响.  相似文献   

12.
基于人工神经网络的强化学习在机器人足球中的应用   总被引:7,自引:1,他引:7  
将人工神经网络与强化学习相结合,提出了基于人工神经网络的强化学习的应用方法,并用该方法解决了机器人足球比赛中踢球机器人的动作选择问题.实验结果表明了该方法的有效性.  相似文献   

13.
为了解决较大时空范围内的动态预测无法获得精确解的问题,采用支持较复杂工作流模式的群智计算方式,提出一种基于关系转移和增强学习的动态预测算法,解决时空数据中的优化问题.设计一个关系转移块,通过对时空数据进行特征提取来学习关系转移概率.建立一个预测增强学习块,随时间序列并行处理转移关系概率,根据特征偏好对时空数据进行优先排...  相似文献   

14.
为了解决传统的可变导向车道控制方法无法适应多路口场景下的复杂交通流的问题,提出基于多智能体强化学习的多路口可变导向车道协同控制方法来缓解多路口的交通拥堵状况. 该方法对多智能体强化学习 (QMIX)算法进行改进,针对可变导向车道场景下的全局奖励分配问题,将全局奖励分解为基本奖励与绩效奖励,提高了拥堵场景下对车道转向变化的决策准确性. 引入优先级经验回放算法,以提升经验回放池中转移序列的利用效率,加速算法收敛. 实验结果表明,本研究所提出的多路口可变导向车道协同控制方法在排队长度、延误时间和等待时间等指标上的表现优于其他控制方法,能够有效协调可变导向车道的策略切换,提高多路口下路网的通行能力.  相似文献   

15.
人群疏散引导系统可在建筑物内发生灾害时有效保护生命安全,减少人员财产损失.针对现有人群疏散引导系统需要人工设计模型和输入参数,工作量大且容易造成误差的问题,本文提出了基于深度强化学习的端到端智能疏散引导方法,设计了基于社会力模型的强化学习智能体仿真交互环境.使智能体可以仅以场景图像为输入,通过与仿真环境的交互和试错自主...  相似文献   

16.
基于Q-学习的进化博弈决策模型   总被引:1,自引:0,他引:1  
基于Q-强化学习算法,建立了进化博弈中代理人的决策模型.考虑到强化学习算法不需要建立环境模型,可用于不完全、不确定信息问题,将Q-强化学习算法引入到进化博弈中,研究了进化博弈中两种Q-学习决策模型:单代理人Q-学习决策模型和多代理人Q-学习决策模型,并针对不同结构的进化博弈选择不同的决策模型和算法进行了讨论.仿真算例的结果说明基于Q-学习的决策模型能指导代理人学习、选择最优策略.  相似文献   

17.
针对机器人末端执行器和曲面工件接触时难以得到恒定接触力的问题,建立机器人末端执行器与曲面工件的接触模型.构建曲面接触力坐标系与机器人传感器测量坐标系之间的关系,利用基于概率动力学模型的强化学习(PILCO)算法对模型输出参数与接触状态的关系进行学习,对部分接触状态进行预测,强化学习根据预测的状态优化机器人位移输入参数,得到期望跟踪力信号. 实验中,将强化学习的输入状态改为一段时间内的状态平均值以减少接触状态下信号的干扰. 实验结果表明,利用PILCO算法在迭代8次后能够得到较稳定的力,相比于模糊迭代算法收敛速度较快,力误差绝对值的平均值减少了29%.  相似文献   

18.
在不确定供应链环境中提高供应链节点决策能力是提高竞争优势的主要方式。需求波动沿供应链从下游到上游逐级放大的牛鞭效应是供应链管理的重要问题。在综合分析供应链牛鞭效应的成因以及现有对策基础上,针对多层、多节点供应链模型,分析并运用强化学习理论和方法,提出有助于减弱牛鞭效应的强化学习算法。该强化学习算法能够用在不确定、多层、多成员供应链环境中,可取得整体最大效益,从而提高供应链的运作效率。  相似文献   

19.
为了提高数控加工中的机床效能和加工效率,探究深度强化学习在加工参数优化问题中的适用性,提出一种基于深度强化学习的数控铣削加工参数优化方法.选取切削力合力和材料除去率作为效能和效率的优化目标,利用遗传算法优化反向传播神经网络(GA-BPNN)构建切削力合力和铣削参数的优化函数,并采用经验公式建立材料除去率的优化函数.应用竞争网络架构(Dueling DQN)算法获得切削力合力和材料除去率多目标优化的Pareto前沿,并结合优劣解距离法和熵值法从Pareto前沿中选择决策解.基于45钢的铣削试验,验证了Dueling DQN算法用于加工参数优化的有效性,相比经验选取加工参数,通过Dueling DQN优化得到的加工方案使切削力合力降低了8.29%,加工效率提高了4.95%,为加工参数的多目标优化方法和加工参数的选择提供了指导.  相似文献   

20.
多步截断SARSA强化学习算法   总被引:3,自引:2,他引:3  
提出了一种新的 on- policy强化学习算法 ,其基本思想是按照一定学习策略 ,利用 k(k >1)步的信息来估计 TD (λ)回报值 ,从而加快对行动最优值估计的更新。更新速度比 SARSA (0 )算法快 ,但不象 SARSA (λ)需要大量的计算  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号