首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 423 毫秒
1.
计算机生成兵力(CGF)系统除了要建立其物理行为模型之外, 还要建立反映其主观意识行为的智能决策模型。以弹道导弹攻防对抗CGF系统为对象, 分析了影响CGF决策的相关因素, 建立了一种模糊Petri网, 用于CGF决策系统建模。最后提出了一种相应的推理算法, 并以弹道导弹攻防对抗为例, 分析了其目标选择决策行为。  相似文献   

2.
CGF系统是未来作战仿真所必备的技术支持,在介绍CGF系统的基础上,提出了以智能仿真为依托,兼顾底层机动自主和高层决策可控的设计思路。研究了自行高炮连CGF实体在机动性能方面的仿真,通过对高炮机动性能中物理行为和认知行为的研究,运用BP神经网络实现CGF实体智能机动行为的建模,并建立了动态障碍的规避模块。较好解决了中各车行进中出现的实体碰撞问题,结合实际应用对模型进行了可行性验证。  相似文献   

3.
针对FPS游戏UT2004中的NPC(Non-Player-Character,即非玩家角色)的行为决策不够灵活多变,不够智能等问题,结合行为树与Q-learning强化学习算法,提出了一种预处理与在线学习结合的方式优化NPC行为决策的方法。通过在行为树上的强化学习,NPC行为决策更为灵活、智能,即human-like。实验结果表明了该方法的有效性与可行性。  相似文献   

4.
陈浩  李嘉祥  黄健  王菖  刘权  张中杰 《控制与决策》2023,38(11):3209-3218
面对高维连续状态空间或稀疏奖励等复杂任务时,仅依靠深度强化学习算法从零学习最优策略十分困难,如何将已有知识表示为人与学习型智能体之间相互可理解的形式,并有效地加速策略收敛仍是一个难题.对此,提出一种融合认知行为模型的深度强化学习框架,将领域内先验知识建模为基于信念-愿望-意图(belief- desire-intention, BDI)的认知行为模型,用于引导智能体策略学习.基于此框架,分别提出融合认知行为模型的深度Q学习算法和近端策略优化算法,并定量化设计认知行为模型对智能体策略更新的引导方式.最后,通过典型gym环境和空战机动决策对抗环境,验证所提出算法可以高效利用认知行为模型加速策略学习,有效缓解状态空间巨大和环境奖励稀疏的影响.  相似文献   

5.
未知环境中移动机器人柔性的行为决策是完成各种任务的前提.目前的机器人行为决策方法在面对动态变化的环境时柔性较差,机器人难以获得持续稳定的学习能力.本文作者曾尝试通过集成小脑监督学习和基底神经节的强化学习来实现移动机器人动态环境下的柔性行为决策,但所提算法适应动态环境的能力有限.在前期工作基础上,本文设计了更有生物学意义的好奇度指标代替原来的警觉度指标,通过模拟蓝斑活动在基音模式和阶段模式之间的动态切换,实现移动机器人环境探索–利用的动态自适应调节.同时,设计随外部环境变化的自适应调节因子,实现移动机器人动态环境中基于小脑监督学习和基底神经节强化学习的柔性行为决策,使机器人可以获得持续稳定的学习能力.动态环境和实际环境中的实验结果验证了本文所提算法的有效性.  相似文献   

6.
突发事件爆发后,应急决策通常面临信息不对称的情形,由此获得合理的解决方案非常困难。研究需求量不确定的场景下,同时决策应急物资中心选址方案和配送路径的问题。首先引入三角模糊数刻画模糊需求,提出模糊需求下的应急物资中心选址—路径模型;然后定义Q-学习中的状态、动作和奖励,形成超启发式算法的上层策略;最后以一种新架构封装低层算子,提出一种基于Q-学习的超启发式算法。通过数值实验验证了算法的有效性,同时通过案例分析体现了模型和算法在实际应用中的可行性。  相似文献   

7.
基于内分泌调节机制的行为自组织算法   总被引:4,自引:0,他引:4  
借鉴内分泌系统的高层调节机制,提出了一种新的自主体行为自组织算法.此算法用神经系统接受环境信息,通过一种情感学习模型来产生情感因子(即生物激素),再由情感因子来调节神经系统的记忆和行为决策,最后神经系统的记忆与行为模式由遗传系统得以继承.其优点是避免了神经系统复杂的自学习过程,同时保证系统的行为决策具有较高的自组织、自适应能力.为了验证算法的有效性,倒立摆控制的仿真实验表明该算法具有很强的自适应求解能力.  相似文献   

8.
借鉴内分泌系统对神经系统与遗传系统的高层调节机制,提出了一种新的基于内分泌调节机制的机器人行为规划算法.此算法中机器人通过神经系统接受环境信息并进行行为决策,行为决策的效果通过一种情感学习模型进行反馈.情感学习模型根据机器人的内、外环境状态,产生情感因子(即生物激素),再由情感因子来调节神经系统的记忆和行为决策,最后神经系统的记忆与行为模式又由遗传系统得以继承.该算法有效避免了神经系统复杂的自学习过程。同时也保证机器人有较强的自适应能力.为了验证算法的有效性,本文做了机器人足球队守门员训练的仿真实验,结果也表明该算法具有很强的自适应学习能力.  相似文献   

9.
为了更加有效地实现CGF实体的智能决策,研究了一种智能决策系统的结构和设计,此设计以黑板系统为模型,通过内置的黑板结构、知识源结构及推理控制策略为CGF提供一个简易、友好的智能决策系统。在决策推理决策中,由于不精确推理算法的使用,使得此智能决策系统决策快速而准确,满足了CGF智能决策的需求。  相似文献   

10.
CGF是分布交互仿真环境中重要的仿真实体,CGF行为模型是构建CGF系统的核心和难点.对CGF行为的特点进行了归纳,认为CGF的行为可以由一组动作通过一定的逻辑运算进行合成.提出了基于线性赋色时态逻辑的行为建模方法,分别建立了动作、活动和行为三个不同层次的模型并给出了实例应用.采用该方法建立的CGF行为模型结构明晰,适于采用STAGE的脚本语言进行程序化描述,仿真结果表明了该方法的合理性和有效性.  相似文献   

11.
武玉英  李豪  蒋国瑞 《计算机应用研究》2015,(5):1335-1338,1344
为提高传统协商自学习能力,利用多 agent 智能技术,建立基于黑板模型的协商框架,构建五元组协商模型,采取 Q-强化学习算法,给出一种协商策略;使用 RBF 神经网络进一步优化协商策略,预测对手信息并调整让步幅度。通过算例验证该方法的可行性和有效性,通过与未改进的 Q-强化学习算法对比,该方法可增强协商agent 的自学习能力,缩短协商时间,提高冲突消解效率。  相似文献   

12.
针对移动机器人在完全未知或者部分未知的环境中进行自主导航容易陷入各种陷阱的问题,提出了一种基于多行为控制的导航方法;机器人通过激光雷达对周边环境进行感知,并将采集到的信息与行为转换条件进行匹配用于行为转换的决策;同时在该方法中通过栅格地图引入了记忆信息,从而增强机器人对周边环境的认知能力,从而提高机器人的决策能力;通过仿真实验证明了在简单环境中算法的有效性,同时也证明该算法对于某些复杂的环境有效可行,具有优化性、实时性与智能性的特点。  相似文献   

13.
在多智能体仿真中使用行为树进行决策具有直观、易扩展等优点,但行为树的设计过程过于复杂,人工调试时效率低下.引入Q-Learning来实现行为树的自动设计.为解决传统Q-Learning的收敛速度慢的问题,将模拟退火算法中的Me-tropolis准则应用到动作选择策略中,随着学习过程自适应改变次优动作的选择概率以及将动态规划思想应用到Q值更新策略.实验结果证明,基于改进的多步Q-Learning行为树的智能体决策模型具有更快的收敛速度,并且能够实现行为树的自动设计和优化.  相似文献   

14.
由于对抗双方态势的快速变化,无人机近距空战机动自主决策困难且复杂,是空中对抗的一个难点。对此,提出一种基于有限忍耐度鸽群优化(FTPIO)算法的无人机近距空战机动决策方法。该方法主要包括基于机动动作库的对手行动预测和基于FTPIO算法的机动控制量和执行时间优化求解两个部分。为提升基本鸽群优化(PIO)算法的全局探索能力,引入有限忍耐度策略,在鸽子个体几次迭代中没有找到更优解时对其属性进行一次重置,避免陷入局部最优陷阱。该方法采用的优化变量是无人机运动模型控制变量的增量,打破了机动库的限制。通过和极小极大方法、基本PIO算法和粒子群优化(PSO)算法的仿真对抗测试结果表明,所提出的机动决策方法能够在近距空战中有效击败对手,产生更为灵活的欺骗性机动行为。  相似文献   

15.
在空战研究领域,战术决策旨在提高博弈对抗收益,进而提升战机攻击效率.现有战术决策算法大多基于规则方法设计,当应用于多机空战的复杂环境时则存在设计难度大,难以求解最优解等问题.本文提出一种分层决策多机空战对抗方法,首先,在训练初始阶段借鉴已有人类专家经验,指导模型训练;其次,根据战术动作类型设计分层动作决策网络,降低动作决策空间维度;最后,将训练产生的对抗经验按阶段分解,降低策略学习难度.在多机空战仿真环境中进行了实验验证,相比于现有多机空战决策方法,本文提出的方法在训练收敛性和决策性能方面均具有更好的表现.  相似文献   

16.
FSM在海军作战仿真CGF中的应用   总被引:1,自引:0,他引:1  
计算机兵力生成(CGF)是现代作战模拟仿真中的一项重要内容,特别是在对抗条件下,CGF还必须具有战术决策能力,知道如何根据当前的战场态势,按照己方的作战原则,动态更新自身的行为.文章结合海军对海突击作战的特点,将有限状态自动机(FSM)与行为规则相结合来实现对抗条件下CGF的行为仿真,该方法已运用到对海突击作战仿真软件中,应用表明:该方法可以较真实地仿真红蓝方的行为,具有相当的战术决策能力,取得了良好的效果,也为该系统后期基于Agent的行为仿真提供了一种行为规则表示方法.  相似文献   

17.
基于Q-强化学习的多Agent协商策略及算法   总被引:1,自引:1,他引:0       下载免费PDF全文
隋新  蔡国永  史磊 《计算机工程》2010,36(17):198-200
针对传统Agent协商策略学习能力不足,不能满足现代电子商务环境需要的问题,采用Q-强化学习理论对Agent的双边协商策略加以改进,提出基于Q-强化学习的Agent双边协商策略,并设计实现该策略的算法。通过与时间协商策略比较,证明改进后的Agent协商策略在协商时间、算法效率上优于未经学习的时间策略,能够增强电子商务系统的在线学习能力,缩短协商时间,提高协商效率。  相似文献   

18.
游戏中的非玩家角色(NPC)通过学习获得智能,因此学习算法的设计是一个关键问题。提出一种改进型Q学习算法(SA-QL),它以模拟退火算法为基础,在状态空间、探索策略、报酬函数等方面改进了Q学习算法的不足。将该算法运用到行为树的设计中,使NPC能在游戏过程中实时学习,调整行为树中逻辑行为的最佳执行点,从而产生合适的行为响应。实验结果表明,SA-QL算法比传统Q学习算法效率更高,控制NPC的效果更好。  相似文献   

19.
顾伟  任勇军 《计算机与数字工程》2021,49(9):1743-1746,1871
深度Q-学习算法常用于检测社会网络平台上的僵尸攻击.但是Q-学习算法的收敛慢.为此,提出基于深度Q-学习和粒子群优化的僵尸检测(Deep Q-Learning and Particle Swarm Optimization-based Bot Detection,DQL-PSO)算法.DQL-PSO算法引用粒子群优化算法提高Q-学习算法性能,进而获取最优的学习动作序列.将学习动作序列作为粒子的位置;将状态转换概率转换成粒子速度,进而利用粒子群优化算法提升Q-学习算法性能.仿真结果表明,提出的DQL-PSO算法提高了僵尸检测的准确率,并提升了收敛速度.  相似文献   

20.
张峰  刘凌云  郭欣欣 《控制与决策》2019,34(9):1917-1922
多阶段群体决策问题是一类典型的动态群体决策问题,主要针对离散的确定状态下的最优群体决策问题求解.但由于现实环境面临的大部分是不确定状态空间,甚至是未知环境空间(例如状态转移概率矩阵完全未知),为了寻求具有较高共识度的多阶段群体最优策略,决策者需要通过对环境的动态交互来获得进一步的信息.针对该问题,利用强化学习技术,提出一种求解多阶段群体决策的最优决策算法,以解决在不确定状态空间下的多阶段群体决策问题.结合强化学习中的Q-学习算法,建立多阶段群体决策Q-学习基本算法模型,并改进该算法的迭代过程,从中学习得到群体最优策略.同时证明基于Q-学习得到的多阶段群体最优策略也是群体共识度最高的策略.最后,通过一个计算实例说明算法的合理性及可行性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号