期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

一种基于Agent团队的强化学习模型与应用研究 总被引：20，自引：2，他引：20

蔡庆生张波《计算机研究与发展》2000,37(9):1087-1093

多Ａｇｅｎｔ学习是近年来受到较多关注的研究方向,以单Ａｇｅｎｔ强化Ｑ－ｌｅａｒｎｉｎｇ算法为基础,提出了一种基于Ａｇｅｎｔ团队的强化学习模,这个模型的最大特点是引入主导Ａｇｅｎｔ作为团队学习的主角,并通过主导Ａｇｅｎｔ的角色变换实现整个团队的学习。结合仿真机器人足球领域,设计了具体的应用模型,在几个方面对Ｑ－ｌｅａｒｎｉｎｇ进行扩充,并进行了实验,在仿真机器人足球领域的成功应用表明了这个模型的有效相似文献

2.

一种基于强化学习的学习Agent 总被引：22，自引：2，他引：22

李宁高阳陆鑫陈世福《计算机研究与发展》2001,38(9):1051-1056

强化学习通过感知环境状态和从环境中获得不确定奖赏值来学习动态系统的最优行为策略,是构造智能Agent的核心技术之一,在面向Agent的开发环境AODE中扩充BDI模型,引入策略和能力心智成分,采用强化学习技术实现策略构造函数,从而提出一种基于强化学习技术的学习Agent,研究AODE中自适应Agent物结构和运行方式,使智能Agent具有动态环境的在线学习能力,有效期能够有效地满足Agent各种心智要求。相似文献

3.

无模型强化学习研究综述

秦智慧李宁刘晓彤刘秀磊佟强刘旭红《计算机科学》2021,48(3):180-187

强化学习(Reinforcement Learning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与环境进行交互来学习,最终将累积收益最大化.常用的强化学习算法分为模型化强化学习(Model-based Reinforcement Lear-ning)和无模型强化学习(Model-free... 相似文献

4.

基于模型的机器人强化学习研究综述

孙世光兰旭光张翰博郑南宁《模式识别与人工智能》2022,35(1):1-16

基于模型的强化学习通过学习一个环境模型和基于此模型的策略优化或规划,实现机器人更接近于人类的学习和交互方式.文中简述机器人学习问题的定义,介绍机器人学习中基于模型的强化学习方法,包括主流的模型学习及模型利用的方法.主流的模型学习方法具体介绍前向动力学模型、逆向动力学模型和隐式模型.模型利用的方法具体介绍基于模型的规划、... 相似文献

5.

一种基于DFS的Agent在线学习模型研究

钱旭培《计算机与现代化》2006,(11):5-7,20

Agent的学习理论是目前研究的热点问题。本文基于动态模糊集（DFS）,抓住Agent心智特性,提出了一种Agent学习模型,构建出该模型下的Agent混合结构并给出了该模型的工作机制,最后借助动态模糊集（DFS）和强化学习技术实现了模型中的策略构造函数,使Agent具有自适应动态环境的能力和在线学习能力。相似文献

6.

模型化强化学习研究综述

赵婷婷孔乐韩雅杰任德华陈亚瑞《计算机科学与探索》2020,14(6):918-927

相似文献

7.

深度强化学习研究综述

赵星宇丁世飞《计算机科学》2018,45(7):1-6

作为一种崭新的机器学习方法,深度强化学习将深度学习和强化学习技术结合起来,使智能体能够从高维空间感知信息,并根据得到的信息训练模型、做出决策。由于深度强化学习算法具有通用性和有效性,人们对其进行了广泛的研究,并将其运用到了日常生活的各个领域。首先,对深度强化学习研究进行概述,介绍了深度强化学习的基础理论;然后,分别介绍了基于值函数和基于策略的深度强化学习算法,讨论了其应用前景;最后,对相关研究工作做了总结和展望。相似文献

8.

基于动态模糊逻辑的一种学习模型 总被引：1，自引：0，他引：1

李凡长刘贵全《计算机科学》1996,23(3):73-74

机器学习是人工智能的重要组成部分,可以说人工智能的进一步发展与机器学习的进展是不可分的。要使计算机具有智能,最关键的一点就是要使其具有学习的能力。本文以动态模糊集为基础得到了一个新的学习模型。相似文献

9.

一种面向服务器集群的自律计算模型

刘文洁李战怀《计算机应用》2007,27(B06):299-301

针对服务器集群系统无法快速部署和维护成本过高的问题，在研究了自律计算和服务器集群系统的特点的基础上，提出了一种基于自律计算的集群部署和管理模型，阐述了模型系统构成和各个模块的功能并提出了自律管理方案，通过系统部署的自动化以及排除操作错误等，削减应用成本从而实现系统的自我管理。相似文献

10.

基于Markov对策的多Agent强化学习模型及算法研究 总被引：19，自引：0，他引：19

高阳周志华何佳洲陈世福《计算机研究与发展》2000,37(3):257-263

在ＭＤＰ,单Ａｇｅｎｔ可以通过强化学习来寻找问题的最优解。但在多Ａｇｅｎｔ系统中,ＭＤＰ模型不再适用。同样极小极大Ｑ算法只能解决采用零和对策模型的ＭＡＳ学习问题。文中采用非零和Ｍａｒｋｏｖ对策作为多Ａｇｅｎｔ系统学习框架,并提出元对策强化学习的学习模型和元对策Ｑ算法。理论证明元对策Ｑ算法收敛在非零和Ｍａｒｋｏｖ对策的元对策最优解。相似文献

11.

基于Agent系统再励学习的应用

郭颂李朝纯杨开英《计算机应用与软件》2005,22(4):67-69

本文介绍了Agent组织规则及再励学习的理论,给出了一种基于再励学习的Agem组织规则生成机制和相应的算法。从而得出结论：Agent组织规则在求解过程中起着重要的作用,可以有效地减少冲突,提高求解效率。相似文献

12.

基于Agent的智能化学习平台的研究

余腊生彭杜葳《计算机应用与软件》2008,25(2):99-102

在传统的基于Web的远程教学系统中,系统按照事先设定的教学策略将课件存储在服务器上,等待学习者点击浏览或下载,学生只能被动地受教而不能根据自身特点选择学习策略,调度、控制学习进度,而在此单一模式下,教师的指导者地位也无法得到充分体现,师生间、学习者间的交互性和协作性差.提出了一种支持四层结构的智能化学习平台的解决方案.重点讨论了智能化学习系统中支持个性化学习的多Agent技术,包括:移动Agent、多Agent特性,个性化学习Agent的功能结构、Agent实现的技术、策略与层次等热点问题. 相似文献

13.

CORBA分布计算平台基于反应式Agent模型的流控机制研究 总被引：2，自引：0，他引：2

项君周立吴泉源王怀民《计算机研究与发展》2001,38(7):826-832

基于反应式Agent模型和CORBA标准中POA处理状态语义的定义,提出了一种基于层次管理域的可配置多端口ORB结构,支持用户按照管理域部署和管理分布应用,并基于该结构讨论了CORBA分布计算平台的流控实现技术。基于Reactor模板的扩展技术,给出了一种基于事件类型“借用”策略、公平,自调度的流控机制和算法,解决了流控机制中的关键问题。相似文献

14.

自主发育智能机器人体系结构研究 总被引：1，自引：0，他引：1

王作为张汝波《计算机应用与软件》2011,28(11)

传统的机器人系统范式分类已经无法将新出现的方法和理论纳入其中。为此,首先从认知的角度重新对机器人的范式进行分类。新的范式分类涵盖了传统的系统范式,明确了自主发育在机器人系统范式中的地位。在此基础上,提出了自主发育智能机器人体系结构。该结构只需利用基本的感知能力和行动能力,分别利用感知发育模块、认知发育模块和行为发育模块实现自主感知分类、时空经验知识以及反应式行为的逐层发育。各发育模块之间互相依赖并可以同时学习,具有实时的自主发育能力。相似文献

15.

可视化智能界面系统研究 总被引：1，自引：0，他引：1

蒋伟进姚丽娜许宇晖许宇胜《计算机应用与软件》2004,21(10):13-15,118

可视化自适应人机交互界面的设计是智能系统能否成功实施与应用的关键之一,基于此提出了将Agent技术引入用户界面设计中。界面采用可视化的知识表示,知识库直观,知识获取直接面对领域专家,实现了知识自动获取;同时界面针对不同用户群设计了多种界面变体,从而增强了系统的灵活性和对用户的适应性;建立了智能引导和帮助,集成了语音合成技术,实现了界面系统的“声形”并茂,降低和减少了用户使用系统的要求与学习时间,使系统更易学易用。相似文献

16.

关系强化学习方法的初步研究

刘全周文云李志涛《计算机应用与软件》2010,27(2):40-43

强化学习方法是人工智能领域中比较重要的方法之一,自从其提出以来已经有了很大的发展,并且能用来解决很多的问题。但是在遇到大规模状态空间问题时,使用普通的强化学习方法就会产生“维数灾”现象,所以提出了关系强化学习,把强化学习应用到关系领域可以在一定的程度上解决“维数灾”难题。在此基础上,简单介绍关系强化学习的概念以及相关的算法,以及以后有待解决的问题。相似文献

17.

基于动机模型的自主性虚拟人行为选择研究

徐冰刘肖健《计算机应用与软件》2012,29(4):71-74

自主性虚拟人的研究是人工生命和计算机动画交叉融合的新领域.但是由于人的心理活动是一个整体的过程,动机、感知等这些参数都是互有联系和影响的,目前的研究仍然只是局部和有限的.借鉴马斯洛理论,基于动机模型框架提出一种简化的抑制和疲劳模型控制的虚拟人自主行为选择机制,实验结果表明,该方法较好地解决了在资源有限的动态虚拟环境中,虚拟人如何在多个相互抑制的行为之间对行为进行仲裁和选择.经实验证明,该研究可以应用于智能交互领域. 相似文献

18.

基于神经网络的强化学习算法研究 总被引：11，自引：0，他引：11

陆鑫高阳李宁陈世福《计算机研究与发展》2002,39(8):981-985

BP神经网络在非线性控制系统中被广泛运用，但作为有导师监督的学习算法，要求批量提供输入输出对神经网络训练，而在一些并不知道最优策略的系统中，这样的输入输出对事先并无法得到，另一方面，强化学习从实际系统学习经验来调整策略，并且是一个逼近最优策略的过程，学习过程并不需要导师的监督。提出了将强化学习与BP神经网络结合的学习算法-RBP模型。该模型的基本思想是通过强化学习控制策略，经过一定周期的学习后再用学到的知识训练神经网络，以使网络逐步收敛到最优状态。最后通过实验验证了该方法的有效性及收敛性。相似文献