首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 562 毫秒
1.
唐亮贵  刘波  唐灿  程代杰 《计算机科学》2007,34(11):156-158
在深入分析Agent决策过程中状态与行为空间的迁移与构造的基础上,设计了Agent基于强化学习的最优行为选择策略和Agent强化学习的神经网络模型与算法,并对算法的收敛性进行了证明。通过对多Agent电子商务系统.中Agent竞价行为的预测仿真实验,验证了基于神经网络的Agent强化学习算法具有良好的性能和行为逼近能力。  相似文献   

2.
借鉴内分泌系统对神经系统与遗传系统的高层调节机制,提出了一种新的基于内分泌调节机制的机器人行为规划算法.此算法中机器人通过神经系统接受环境信息并进行行为决策,行为决策的效果通过一种情感学习模型进行反馈.情感学习模型根据机器人的内、外环境状态,产生情感因子(即生物激素),再由情感因子来调节神经系统的记忆和行为决策,最后神经系统的记忆与行为模式又由遗传系统得以继承.该算法有效避免了神经系统复杂的自学习过程。同时也保证机器人有较强的自适应能力.为了验证算法的有效性,本文做了机器人足球队守门员训练的仿真实验,结果也表明该算法具有很强的自适应学习能力.  相似文献   

3.
基于内分泌调节机制的行为自组织算法   总被引:4,自引:0,他引:4  
借鉴内分泌系统的高层调节机制,提出了一种新的自主体行为自组织算法.此算法用 神经系统接受环境信息,通过一种情感学习模型来产生情感因子(即生物激素),再由情感因子 来调节神经系统的记忆和行为决策,最后神经系统的记忆与行为模式由遗传系统得以继承. 其优点是避免了神经系统复杂的自学习过程,同时保证系统的行为决策具有较高的自组织、 自适应能力.为了验证算法的有效性,倒立摆控制的仿真实验表明该算法具有很强的自适应 求解能力.  相似文献   

4.
MAS系统的问题求解能力分析   总被引:2,自引:0,他引:2  
本文用状态空间搜索模型分析了多Agent系统(MAS)的问题求解能力,认为MAS系统中Agent之间知识的组合应用和对问题搜索方向的交互和决策是影响MAS系统问题求解能力的主要原因,在状态空间搜索模型下可以将Agent间知识的组合应用表达为不同Agent的搜索路径的组合,而Agent对搜索方向的判断是基于启发式信息做出的,从而为形式化分析MAS系统的性能建立了通用的模型.本文以A*算法为例探讨了可采纳算法下多Agent合作求解效果与Agent的知识和启发信息之间的关系,指出只有在一定条件下MAS系统才会获得更好的解题能力.本文还对非可采纳算法下MAS系统性能分析方法提出了初步看法.  相似文献   

5.
多Agent协作追捕问题是多Agent协调与协作研究中的一个典型问题。针对具有学习能力的单逃跑者追捕问题,提出了一种基于博弈论及Q学习的多Agent协作追捕算法。首先,建立协作追捕团队,并构建协作追捕的博弈模型;其次,通过对逃跑者策略选择的学习,建立逃跑者有限的Step-T累积奖赏的运动轨迹,并把运动轨迹调整到追捕者的策略集中;最后,求解协作追捕博弈得到Nash均衡解,每个Agent执行均衡策略完成追捕任务。同时,针对在求解中可能存在多个均衡解的问题,加入了虚拟行动行为选择算法来选择最优的均衡策略。C#仿真实验表明,所提算法能够有效地解决障碍环境中单个具有学习能力的逃跑者的追捕问题,实验数据对比分析表明该算法在同等条件下的追捕效率要优于纯博弈或纯学习的追捕算法。  相似文献   

6.
多任务联盟形成中的Agent行为策略研究   总被引:2,自引:0,他引:2  
Agent联盟是多Agent系统中一种重要的合作方式,联盟形成是其研究的关键问题.本文提出一种串行多任务联盟形成中的Agent行为策略,首先论证了Agent合作求解多任务的过程是一个Markov决策过程,然后基于Q-学习求解单个Agent的最优行为策略.实例表明该策略在面向多任务的领域中可以快速、有效地串行形成多个任务求解联盟.  相似文献   

7.
基于强化学习的多Agent协作研究   总被引:2,自引:0,他引:2  
强化学习为多Agent之间的协作提供了鲁棒的学习方法.本文首先介绍了强化学习的原理和组成要素,其次描述了多Agent马尔可夫决策过程MMDP,并给出了Agent强化学习模型.在此基础上,对多Agent协作过程中存在的两种强化学习方式:IL(独立学习)和JAL(联合动作学习)进行了比较.最后分析了在有多个最优策略存在的情况下,协作多Agent系统常用的几种协调机制.  相似文献   

8.
实时环境下Agent决策机制研究   总被引:4,自引:0,他引:4  
随着实时应用的日益广泛,越来越复杂的技术已经被应用到实时系统中.在分析已有Agent模型的基础上,提出了一种新的实时Agent模型.这种模型将Agent的审慎型行为和反应型行为结合在一起,其效率比已有的Agent模型有较大的提高.还讨论了实时Agent的决策机制,提出用感知器算法对特征进行分类和任意时间算法进行决策.  相似文献   

9.
结合强化学习技术讨论了单移动Agent学习的过程,然后扩展到多移动Agent学习领域,提出一个多移动Agent学习算法MMAL(MultiMobileAgentLearning)。算法充分考虑了移动Agent学习的特点,使得移动Agent能够在不确定和有冲突目标的上下文中进行决策,解决在学习过程中Agent对移动时机的选择,并且能够大大降低计算代价。目的是使Agent能在随机动态的环境中进行自主、协作的学习。最后,通过仿真试验表明这种学习算法是一种高效、快速的学习方法。  相似文献   

10.
Agent组织规则的再励学习   总被引:2,自引:0,他引:2  
Agent组织是一种灵活有效的多Agent系统求解方式。Agent组织规则在Agent组织的求解过程中起着重要作用,可以有效地减少冲突提高求解效率。给出了一种基于再励学习的Agent组织规则生成机制和相应的算法,通过实验表明了算法的有效性,改进了Zambonelli和Jennings等人关于Agent组织规则的工作。  相似文献   

11.
本文针对具有变负载的不确定刚性机械手系统,提出了一种依赖平均驻留时间的神经网络自适应切换控制策略.本控制方案将夹持不同负载的刚性机械手系统视为切换系统,即根据负载的不同将整个系统分为若干子系统,并基于平均驻留时间原则对每个子系统分别设计控制器.在各子系统中,分别采用径向基函数(RBF)神经网络逼近系统结构参数,以避免控制器对系统精确模型的依赖.同时,基于神经网络设计鲁棒补偿项,以抑制集总扰动对系统的影响.然后,利用多Lyapunov函数方法证明了轨迹跟踪误差的一致最终有界性.最后,通过仿真验证,所提出的控制方案不仅可实现变负载机械手期望轨迹的高精度跟踪,而且可有效削弱输入力矩的抖振.  相似文献   

12.
在集成方法中,神经网络集成方法对研制集成型模式识别系统是有效的.但是,单个 子分类器和集成网络的性能对集成系统的整体识别效果都有影响.因此,要进一步提高系统 性能也必须改进子分类器和集成网络.文中采用竞争监督学习法,构造一个网络集成系统,用 于手写数字字符识别.实验证明,该方法的确能够改进系统的收敛速度和泛化能力.  相似文献   

13.
This paper attempts to develop an optimized adaptive trajectory control system for helicopters based on the dynamic inversion method. This control algorithm is implemented by three time-scale separation architectures. Pseudo control hedging (PCH) is used to protect the adaptive element from actuator saturation nonlinearities and also from the inner-outer-loop interaction. In addition, to augment the attitude control system, two online adaptive architectures that employ a neural network are used. By tuning the neural network based on the system model, a better and faster learning will be achieved, but this is a frustrating and time consuming process. Due to complexity in accurate tuning of neural network, this paper introduces a non-dominated sorting genetic algorithm II (NSGA-II) for off-line optimization of the neural network. Thus, in the proposed method, the neural network can compensate model inversion error caused by the deficiency of full knowledge of helicopter dynamics more accurately. The effectiveness of proposed method is demonstrated by numerical simulations.  相似文献   

14.
The classical affine iterative closest point (ICP) algorithm is fast and accurate for affine registration between two point sets, but it is easy to fall into a local minimum. As an extension of the classical affine registration algorithm, this paper first proposes an affine ICP algorithm based on control point guided, and then applies this new method to establish a robust non-rigid registration algorithm based on local affine registration. The algorithm uses a hierarchical iterative method to complete the point set non-rigid registration from coarse to fine. In each iteration, the sub data point sets and sub model point sets are divided, meanwhile, the shape control points of each sub point set are updated. Then we use the control point guided affine ICP algorithm to solve the local affine transformation between the corresponding sub point sets. Next, the local affine transformation obtained by the previous step is used to update the sub data point sets and their shape control point sets. Experimental results demonstrate that the accuracy and convergence of our algorithm are greatly improved compared with the traditional point set non-rigid registration algorithms.  相似文献   

15.
Petri网分解的保性条件分析   总被引:3,自引:2,他引:3  
Petri网的分解技术是用于复杂网系统分析的一种有效手段 .基于库所指标的 Petri网分解方法 ,将一个复杂的网系统分解成结构满足 |· t|≤且 |t· |≤ 1的简单子网 ,通过分解得到的子网与原系统的状态和行为之间存在着一种投影关系 .但是 ,子网本身也增加了一些不必要的状态和行为 (原网系统在子网上的投影只是子网状态和行为的一个子集 ) .本文提出分解过程中的状态保性和行为保性的概念 ,证明了分解过程中行为和状态保性的充要条件 ,基于标识可达图给出了相应的判定算法 ,对复杂系统的 Petri网分析方法提供了更为有效的理论和可行的技术  相似文献   

16.
In this paper a direct adaptive neural-network control strategy for unknown nonlinear systems is presented. The system considered is described by an unknown NARMA model, and a feedforward neural network is used to learn the system. Taking the neural network as a neural model of the system, control signals are directly obtained by minimizing either the instant difference or the cumulative differences between a set point and the output of the neural model. Since the training algorithm guarantees that the output of the neural model approaches that of the actual system, it is shown that the control signals obtained can also make the real system output close to the set point. An application to a flow-rate control system is included to demonstrate the applicability of the proposed method and desired results are obtained.  相似文献   

17.
工业控制系统是用于工业环境中监视和控制物理设备的互连设备系统,近年来日益遭受层出不穷的各类新型攻击。针对工业控制系统的运行安全问题,文章提出一种改进概率神经网络的工业控制系统安全态势评估方法。该方法首先对收集到的工控数据进行预处理,并利用主成分分析法对数据进行降维;然后使用改进的果蝇优化算法对概率神经网络的参数进行优化,之后通过优化后的概率神经网络进行训练和预测,得到攻击类型的分类结果;最后结合文章中结构化的工控系统安全态势评估方法计算态势值,对系统的状态进行评估。实验表明,改进后的概率神经网络对攻击类型的分类准确率和精确率分别达到87.784%和96.027%,相比原概率神经网络方法,准确率和精确率分别提高了2.654%和4.820%。  相似文献   

18.

The dynamics identification and subsequent control of a nonlinear system is not a trivial issue. The application of a neural gas network that is trained with a supervised batch version of the algorithm can produce identification models in a robust way. In this paper, the neural model identifies each local transfer function, demonstrating that the local linear approximation can be done. Moreover, other parameters are analyzed in order to obtain a correct modeling. Furthermore, the algorithm is applied to control a nonlinear multi-input multi-output system composed of tanks. In addition, this plant is a coupled system where the manipulated input variables are influencing all the output variables. The aim of the work is to demonstrate that the supervised neural gas algorithm is able to obtain linear models to be used in a state space design scenario to control nonlinear coupled systems and guarantee a robust control method. The results are compared with the common approach of using a recurrent neural controller trained with a dynamic backpropagation algorithm. Regarding the steady-state errors in disturbance rejection, reference tracking and sensitivity to simple process changes, the proposed approach shows an interesting application to control nonlinear plants.

  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号