首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
邵杰  杜丽娟  杨静宇 《通信技术》2010,43(4):220-222
提出了一种基于改进学习分类器的多机器人强化学习方法。增强学习使机器人能发现一组用于指导其强化学习行为的规则。遗传算法则在现有的规则中淘汰掉较差的,并利用较优的种群规则产生出新的学习规则。规则合并能提高多机器人的并行强化学习效率,使多个机器人自主地学习到相互协作的最优策略。算法的分析和仿真表明,将改进的学习分类器用于多机器人的强化学习是有效的。  相似文献   

2.
强化学习是Agent学习中广泛使用的方法,在智能机器人、经济学、工业制造和博弈等领域得到了广泛的应用,但学习速度慢是强化学习的主要不足。迁移学习可从源任务中获得与目标任务相关的知识,利用这些知识去提高学习效率与效果。本文提出Agent地图迁移算法,实现了Agent在不同状态空间下的经验迁移。实现将Agent在简单环境中的学习经验迁移到复杂环境中,实验中验证了算法可加快Agent路径规划速度。  相似文献   

3.
Agent强化学习是机器学习的一个重要分支。阐述了Agent强化学习算法的基本理论,建立了求解类货郎担等NP问题的数学模型,给出了Agent强化学习算法解决这类问题的框架和基本方法,并运用该方法成功地解决了一个赛程安排问题,较传统方法有一定的改进。  相似文献   

4.
RLGA:一种基于强化学习机制的遗传算法   总被引:3,自引:0,他引:3       下载免费PDF全文
分析了强化学习与遗传算法工作机制,在提出基因空间分割概念的基础上,提出了一种将强化学习与遗传算法内在结合起来的算法RLGA,在遗传算法的框架下实现强化学习机制.从理论上分析了RLGA的收敛性,讨论了RLGA的时间和空间效率及其与基因空间分割的关系,通过实验分析了RLGA中基因空间分割的指导范围.实验结果表明,RLGA具有良好的全局收敛性能.  相似文献   

5.
在自动驾驶、团队配合游戏等现实场景的序列决策问题中,多智能体强化学习表现出了优秀的潜力。然而,多智能体强化学习面临着维度灾难、不稳定性、多目标性和部分可观测性等挑战。为此,概述了多智能体强化学习的概念与方法,并整理了当前研究的主要趋势和研究方向。研究趋势包括CTDE范式、具有循环神经单元的智能体和训练技巧。主要研究方向涵盖混合型学习方法、协同与竞争学习、通信与知识共享、适应性与鲁棒性、分层与模块化学习、基于博弈论的方法以及可解释性。未来的研究方向包括解决维度灾难问题、求解大型组合优化问题和分析多智能体强化学习算法的全局收敛性。这些研究方向将推动多智能体强化学习在实际应用中取得更大的突破。  相似文献   

6.
强化学习的模型、算法及应用   总被引:1,自引:0,他引:1  
强化学习不需要具有先验知识,通过试错与环境交互获得策略的改进,具有自学习和在线学习能力,是构造智能体的核心技术之一.文中首先综述了强化学习模型和基本原理,然后介绍了强化学习的主要算法,包括Sarsa 算法、TD算法、Q-学习算法及函数估计算法,最后介绍了强化学习的应用情况及未来研究方向.  相似文献   

7.
卞凯 《电子技术》2011,38(8):1-3
交通控制系统是一个复杂的巨系统,传统的建模和控制方式难以获得较好的控制效果.文章针对区域协调控制中难以建立精确数学模型的特点,引入了强化学习,提出了基于强化学习的无模型区域协调控制算法.采用微观交通仿真软件对算法进行了仿真实验,与Webster定时控制进行对比,实验结果表明:强化学习算法取得较好的效果.  相似文献   

8.
控制系统的响应特性取决于控制律参数,经典的PID方法难以实现参数的自整定。强化学习能够通过系统自身和环境的交互实现参数的自动调整,但是在控制律参数需要频繁调整的应用场合,常规的强化学习方法无法满足实时性要求,而且容易陷入局部收敛。对传统的强化学习方法加以改进后,加快了在线学习速度,提高了强化学习算法的寻优能力。仿真结果表明,该方法可以在一定范围内快速求得全局最优解,提高控制系统的自适应性,为控制系统参数的自整定提供了依据。  相似文献   

9.
文章分析了一种基于粒子滤波和强化学习的算法。该算法通过结合粒子滤波和Q-学习算法,得到一种基于粒子滤波和强化学习的机会频谱接入算法(RLPF)。实验结果表明,RLPF算法能够在策略空间直接进行全局搜索,这是对传统的基于局部搜索策略的强化学习算法的明显改善。  相似文献   

10.
针对风、光等可再生能源发电不断并入电力系统,使配电网由被动逐渐转变为主动,由此需要主电网、主动配电网和微电网统一调度的问题,基于深度分布式强化学习方法,提出了电力系统分散协调的一体化调度方法。首先,基于传统经济调度模型,提出了主电网、主动配电网和微电网分散协调的调度模型;其次,对传统强化学习方法进行改进,提出了深度分布式强化学习协调模型;第三,将分散协调的深度强化学习方法应用至经济调度中,推导得到分散协调的经济调度方法;最后,以实际电网为例进行验证,表明了所提方法的有效性。  相似文献   

11.
黄海清张平  张曦文 《电子学报》2006,34(B12):2537-2540
将马尔可夫判决过程和强化学习算法相结合,给出了异构无线网络环境下用户业务偏好评估模型的技术框架.为动态环境下用户需求的感知、量化和适配特征的研究提供了基本的数学描述,对解决用户体验的评价问题和业务与业务环境的适配问题提供了新的研究思路.仿真结果表明构建的模型能够在满足用户偏好的前提下智能选择业务.  相似文献   

12.
基于高斯过程分类器的连续空间强化学习   总被引:2,自引:1,他引:1       下载免费PDF全文
王雪松  张依阳  程玉虎 《电子学报》2009,37(6):1153-1158
如何将强化学习方法推广到大规模或连续空间,是决定强化学习方法能否得到广泛应用的关键.不同于已有的值函数逼近法,把强化学习构建为一个简单的二分类问题,利用分类算法来得到强化学习中的策略,提出一种基于高斯过程分类器的连续状态和连续动作空间强化学习方法.首先将连续动作空间离散化为确定数目的离散动作,然后利用高斯分类器对系统的连续状态-离散动作对进行正负分类,对判定为正类的离散动作按其概率值进行加权求和,进而得到实际作用于系统的连续动作.小船靠岸问题的仿真结果表明所提方法能够有效解决强化学习的连续空间表示问题.  相似文献   

13.
仵博  郑红燕  冯延蓬  陈鑫 《电子学报》2014,42(7):1429-1434
针对贝叶斯强化学习中参数个数巨大,收敛速度慢,无法实现在线学习的问题,提出一种基于模型的可分解贝叶斯强化学习方法.首先,将学习参数进行可分解表示,降低学习参数的个数;然后,根据先验知识和观察数据采用贝叶斯方法来学习,最优化探索和利用二者之间的平衡关系;最后,采用基于点的贝叶斯强化学习方法实现学习过程的快速收敛,从而达到在线学习的目的.仿真结果表明该算法能够满足实时系统性能的要求.  相似文献   

14.
We present analog VLSI neuromorphic architectures fora general class of learning tasks, which include supervised learning,reinforcement learning, and temporal difference learning. Thepresented architectures are parallel, cellular, sparse in globalinterconnects, distributed in representation, and robust to noiseand mismatches in the implementation. They use a parallel stochasticperturbation technique to estimate the effect of weight changeson network outputs, rather than calculating derivatives basedon a model of the network. This model-free technique avoidserrors due to mismatches in the physical implementation of thenetwork, and more generally allows to train networks of whichthe exact characteristics and structure are not known. With additionalmechanisms of reinforcement learning, networks of fairly generalstructure are trained effectively from an arbitrarily suppliedreward signal. No prior assumptions are required on the structureof the network nor on the specifics of the desired network response.  相似文献   

15.
In mobile edge computing, service migration can not only reduce the access latency but also reduce the network costs for users. However, due to bandwidth bottleneck, migration costs should also be considered during service migration. In this way, the trade-off between benefits of service migration and total service costs is very important for the cloud service providers. In this paper, we propose an efficient dynamic service migration algorithm named SMDQN, which is based on reinforcement learning. We consider each mobile application service can be hosted on one or more edge nodes and each edge node has limited resources. SMDQN takes total delay and migration costs into consideration. And to reduce the size of Markov decision process space, we devise the deep reinforcement learning algorithm to make a fast decision. We implement the algorithm and test the performance and stability of it. The simulation result shows that it can minimize the service costs and adapt well to different mobile access patterns.  相似文献   

16.
Fuzzy inference system learning by reinforcement methods   总被引:9,自引:0,他引:9  
Fuzzy Actor-Critic Learning (FACL) and Fuzzy Q-Learning (FQL) are reinforcement learning methods based on dynamic programming (DP) principles. In the paper, they are used to tune online the conclusion part of fuzzy inference systems (FIS). The only information available for learning is the system feedback, which describes in terms of reward and punishment the task the fuzzy agent has to realize. At each time step, the agent receives a reinforcement signal according to the last action it has performed in the previous state. The problem involves optimizing not only the direct reinforcement, but also the total amount of reinforcements the agent can receive in the future. To illustrate the use of these two learning methods, we first applied them to a problem that involves finding a fuzzy controller to drive a boat from one bank to another, across a river with a strong nonlinear current. Then, we used the well known Cart-Pole Balancing and Mountain-Car problems to be able to compare our methods to other reinforcement learning methods and focus on important characteristic aspects of FACL and FQL. We found that the genericity of our methods allows us to learn every kind of reinforcement learning problem (continuous states, discrete/continuous actions, various type of reinforcement functions). The experimental studies also show the superiority of these methods with respect to the other related methods we can find in the literature  相似文献   

17.
针对深度神经网络模型仅学习当前指代链语义信息忽略了单个指代链识别结果的长期影响问题,提出一种结合深度强化学习(deep reinforcement learning)的维吾尔语人称代词指代消解方法.该方法将指代消解任务定义为强化学习环境下顺序决策过程,有效利用之前状态中先行语信息判定当前指代链指代关系.同时,采用基于整体奖励信号优化策略,相比于使用损失函数启发式优化特定的单个决策,该方法直接优化整体评估指标更加高效.最后在维吾尔语数据集进行实验,实验结果显示,该方法在维吾尔语人称代词指代消解任务中的F值为85.80%.实验结果表明,深度强化学习模型能显著提升维吾尔语人称代词指代消解性能.  相似文献   

18.
当前的移动边缘计算资源分配结构多为单向形式,资源分配效率较低,导致资源分配比下降,文中设计了一种基于强化学习的移动边缘计算资源分配方法,并通过实验验证了其有效性。根据当前的测试需求,首先部署了资源采集节点,然后采用多阶的方式,提升整体的资源分配效率,构建多阶迁移资源分配结构,最后设计了移动边缘计算强化学习资源分配模型,采用动态化辅助协作处理的方式来实现资源分配。测试结果表明,对于选定的5个测试周期,经过3个分配组的测定及比对,最终得出的资源分配比均可以达到5.5以上,这说明在强化学习技术的辅助下,文中设计的移动边缘计算资源分配方法更加灵活、多变,针对性较强,具有实际的应用价值。  相似文献   

19.
Wireless sensor networking is a viable communication technology among low-cost and energy-limited sensor nodes deployed in an environment. Due to high operational features, the application area of this technology is extended significantly but with some energy related challenges. One main cause of the nodes energy wasting in these networks is idle listening characterized with no communication activity. This drawback can be mitigated by the means of energy-efficient multiple access control schemes so as to minimize idle listening. In this paper, we discuss the applicability of distributed learning algorithms namely reinforcement learning towards multiple access control (MAC) in wireless sensor networks. We perform a comparative review of relevant work in the literature and then present a cooperative multi agent reinforcement learning framework for MAC design in wireless sensor networks. Accordingly, the paper concludes with some major challenges and open issues of distributed MAC design using reinforcement learning.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号