首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
我们将一种快速稳定的紧致指数时间差分法应用于求解Cahn-Hilliard方程,并采用多步逼近法和龙格库塔方法有效地解决了方程中的非线性项带来的稳定问题。通过与经典的半隐式欧拉方法对比,分别对不同体自由能模型和不同扩散迁移率下的相场方程求解进行收敛性测试,验证了算法的正确性和高效性。最后我们用提出的方法对Flory-Huggins模型的粗化率进行研究,得到了与理论预测值一致的结果。  相似文献   

2.
3.
从机器学习的角度理解,车辆路径规划问题(VRP)可转化为单代理有限状态空间的强化学习问题进行研究.针对小规模VRP问题,提出时间差分模型,使用Sarsa和Q-learning算法进行优化.针对大规模VRP问题,构建环境模型,通过蒙特卡洛法优化代理策略和值函数.在公开数据集上的实验结果表明,强化学习能有效求解小规模VRP...  相似文献   

4.
强化学习的研究需要解决的重要难点之一是:探索未知的动作和采用已知的最优动作之间的平衡。贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理,做出最优决策的概率手段。因此,把强化学习和贝叶斯学习相结合,使 Agent 可以根据已有的经验和新学到的知识来选择采用何种策略:探索未知的动作还是采用已知的最优动作。本文分别介绍了单 Agent 贝叶斯强化学习方法和多 Agent 贝叶斯强化学习方法:单 Agent 贝叶斯强化学习包括贝叶斯 Q 学习、贝叶斯模型学习以及贝叶斯动态规划等;多 Agent 贝叶斯强化学习包括贝叶斯模仿模型、贝叶斯协同方法以及在不确定下联合形成的贝叶斯学习等。最后,提出了贝叶斯在强化学习中进一步需要解决的问题。  相似文献   

5.
强化学习及其在电脑围棋中的应用   总被引:3,自引:0,他引:3       下载免费PDF全文
陈兴国  俞扬 《自动化学报》2016,42(5):685-695
强化学习是一类特殊的机器学习, 通过与所在环境的自主交互来学习决策策略, 使得策略收到的长期累积奖赏最大. 最近, 在围棋和电子游戏等领域, 强化学习被成功用于取得人类水平的操作能力, 受到了广泛关注. 本文将对强化学习进行简要介绍, 重点介绍基于函数近似的强化学习方法, 以及在围棋等领域中的应用.  相似文献   

6.
结合强化学习技术讨论了单移动Agent学习的过程,然后扩展到多移动Agent学习领域,提出一个多移动Agent学习算法MMAL(MultiMobileAgentLearning)。算法充分考虑了移动Agent学习的特点,使得移动Agent能够在不确定和有冲突目标的上下文中进行决策,解决在学习过程中Agent对移动时机的选择,并且能够大大降低计算代价。目的是使Agent能在随机动态的环境中进行自主、协作的学习。最后,通过仿真试验表明这种学习算法是一种高效、快速的学习方法。  相似文献   

7.
基于强化学习的多Agent系统   总被引:4,自引:0,他引:4  
1 引言强化学习允许自主Agent能够在没有关于任务和环境的先验知识的条件下通过不断地反射学习提高自己完成任务的能力,但是强化学习需要大量的计算,也就意味着大量的时间的消耗。对于许多实时系统的计算能力是一个大的挑战。进一步,如果是在多个Agent组成的Agent社会中,每个Agent的行动都有可能导致环境状态的改变,使得普通的相对单个  相似文献   

8.
多Agent协作的强化学习模型和算法   总被引:2,自引:0,他引:2  
结合强化学习技术讨论了多Agent协作学习的过程,构造了一个新的多Agent协作学习模型。在这个模型的基础上,提出一个多Agent协作学习算法。算法充分考虑了多Agent共同学习的特点,使得Agent基于对动作长期利益的估计来预测其动作策略,并做出相应的决策,进而达成最优的联合动作策略。最后,通过对猎人。猎物追逐问题的仿真试验验证了该算法的收敛性,表明这种学习算法是一种高效、快速的学习方法。  相似文献   

9.
提出了一种基于强化学习的双边优化协商模型。引入了一个中介Agent。在强化学习策略中使用不同的参数产生提议,进而选出最好的参数进行协商。为了进一步提高协商的性能,还提出了基于中介Agent自适应的学习能力。仿真实验结果证明了所提协商方法的有效性,且该方法提高了协商的性能。  相似文献   

10.
强化学习是Agent通过试错与环境交互改进动作策略,单Agent强化学习能够进行自学习和在线学习,单Agent的知识和资源是有限的,多个Agent强化学习是求解复杂问题的有效途径。多Agent系统比单Agent具有更强的问题求解能力,但多Agent的参与又增加了问题的复杂性。本文分析了多Agent强化学习方法的研究现状,总结了目前存在的主要问题及其解决方法,最后介绍了多Agent技术在实际问题中的部分应用。  相似文献   

11.
基于Agent的用户兴趣学习算法及其实现   总被引:3,自引:0,他引:3  
通过对用户兴趣学习上的Bayesian算法和向量空间法的对比,提出了采用ID3算法实现用户兴趣学习,并介绍了其在智能引擎中的应用和具体实现方法。  相似文献   

12.
张驰  韩光胜 《计算机仿真》2005,22(5):189-192
为了在multi-agent系统中实现agent之间的竞争与协作,该文提出了一种新的在线学习方法,即:改进的模糊Q学习方法,在这种方法中,agent通过增强学习方法来调节模糊推理系统,进而获得最优的模糊规则。为了改善学习的时间,Q学习方法中的奖励值并不是固定的,而是根据状态而变化。将改进的模糊Q学习方法应用到RoboCup仿真环境中,使智能体通过在线学习获得跑位技巧。并通过实验证明厂该方法的有效性。  相似文献   

13.
不平衡指派问题的差额法求解及其应用   总被引:5,自引:0,他引:5  
苏祥定  孙桐  马霖 《计算机工程》2005,31(22):178-180
提出了用差额法求解最大值的不平衡指派问题,并在训练评估与决策系统中,应用该方法求解在单位数多于任务数时的任务分配方案,使得训练指数达到最大。经验证用这个方法求解最大值的不平衡指派问题,操作简单,易于编程。  相似文献   

14.
针对智能决策支持系统实现中的一些难点 ,探讨了智能体技术在人机界面、数据仓库和模型管理中的应用 ,并对各智能体之间的协作过程进行了描述。  相似文献   

15.
Agent在智能信息检索中的应用研究   总被引:17,自引:0,他引:17  
从信息检索的现状出发 ,运用人工智能的技术 ,提出了一种基于Agent的信息检索方法。通过建立用户个性化信息表 ,辅助过滤Agent在信息提取过程中的精确性 ,从而弥补了现有系统在自适应用户兴趣和交互方式等方面的不足  相似文献   

16.
The spiral learning method aims at improving study interest and setting up a learning target and changing passive learning to change into active learning.In software engineering study,the realization of the spiral learning method sets up a learning target according to some items or knowledge and divides a big target into a few of small targets in order to easily make them and helps students better learning in the process of the realization.  相似文献   

17.
VB5.0在火山灾害信息系统用户界面设计中的应用   总被引:1,自引:0,他引:1  
长白山火山是我国最具潜在喷发性危险的活火山之一,通过地理信息系统(GIS)对火山灾害信息进行管理,可以有效地进行火山灾害的监测、预测预报和分析评估。探讨了利用可视化编程语言Visual Basic 5.0设计长白山火山灾害信息系统数据库用户界面的方法和事件驱动机制,以期更好地实现数据库中数据对系统的支持。  相似文献   

18.
文章在简单概述强化学习理论的基础上,对强化学习在实际机器人应用中经常遇到的连续状态-动作空间、信度分配、探索和利用的平衡、不完整信息等关键性问题进行了讨论,给出了一些常用的解决方法,以期为相关的研究和应用提供一个参考。  相似文献   

19.
以网站界面设计项目为例,从教师的角度出发,介绍了设计和安排这个项目的实施过程,并将知识技能融入到项目的实施过程中,最终达到培养学生学习能力、综合素质能力,从而达到更适应社会发展需要的目的.  相似文献   

20.
移动边缘计算是一种新兴的分布式和泛在计算模式,其将计算密集型和时延敏感型任务转移到附近的边缘服务器,有效缓解了移动终端资源不足的问题,显著减小了用户与计算处理节点之间的通信传输开销.然而,如果多个用户同时提出计算密集型任务请求,特别是流程化的工作流任务请求,边缘计算环境往往难以有效地进行响应,并会造成任务拥塞.另外,受...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号