首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
为了让游戏NPC能够学习和模拟玩家在游戏中的策略和行为方式,在基于模型的智能决策方法基础上,结合行为决策理论中的有限理性模型提出了一种新的游戏智能方法.该方法分别从有限理性模型的两个核心原则——有限理性和满意准则来改进过去的方法在感知和决策过程中所面对的问题,从而使得游戏NPC行为决策方式更加人性化.最后,通过在Starcraft平台上与其他方法的对抗性实验来进一步验证该方法的优势.  相似文献   

2.
游戏中的非玩家角色(NPC)通过学习获得智能,因此学习算法的设计是一个关键问题。提出一种改进型Q学习算法(SA-QL),它以模拟退火算法为基础,在状态空间、探索策略、报酬函数等方面改进了Q学习算法的不足。将该算法运用到行为树的设计中,使NPC能在游戏过程中实时学习,调整行为树中逻辑行为的最佳执行点,从而产生合适的行为响应。实验结果表明,SA-QL算法比传统Q学习算法效率更高,控制NPC的效果更好。  相似文献   

3.
近年来,深度强化学习在序列决策领域被广泛应用并且效果良好,尤其在具有高维输入、大规模状态空间的应用场景中优势明显.然而,深度强化学习相关方法也存在一些局限,如缺乏可解释性、初期训练低效与冷启动等问题.针对这些问题,提出了一种基于显式知识推理和深度强化学习的动态决策框架,将显式的知识推理与深度强化学习结合.该框架通过显式知识表示将人类先验知识嵌入智能体训练中,让智能体在强化学习中获得知识推理结果的干预,以提高智能体的训练效率,并增加模型的可解释性.将显式知识分为两种,即启发式加速知识与规避式安全知识.前者在训练初期干预智能体决策,加快训练速度;而后者将避免智能体作出灾难性决策,使其训练过程更为稳定.实验表明,该决策框架在不同强化学习算法上、不同应用场景中明显提高了模型训练效率,并增加了模型的可解释性.  相似文献   

4.
作为机器学习和人工智能领域的一个重要分支,多智能体分层强化学习以一种通用的形式将多智能体的协作能力与强化学习的决策能力相结合,并通过将复杂的强化学习问题分解成若干个子问题并分别解决,可以有效解决空间维数灾难问题。这也使得多智能体分层强化学习成为解决大规模复杂背景下智能决策问题的一种潜在途径。首先对多智能体分层强化学习中涉及的主要技术进行阐述,包括强化学习、半马尔可夫决策过程和多智能体强化学习;然后基于分层的角度,对基于选项、基于分层抽象机、基于值函数分解和基于端到端等4种多智能体分层强化学习方法的算法原理和研究现状进行了综述;最后介绍了多智能体分层强化学习在机器人控制、博弈决策以及任务规划等领域的应用现状。  相似文献   

5.
 空战行为决策的智能性是学术界关注的重要问题之一。提出一种基于Q-学习和行为树的CGF空战行为决策方法。通过构建CGF空战行为树模型,实现CGF智能行为;通过在行为树上的Q-学习,使CGF具有不断进化的能力。仿真结果表明,该算法在与传统算法对抗中,性能优势明显且学习能力较强。  相似文献   

6.
模仿学习一直是人工智能领域的研究热点。模仿学习是一种基于专家示教重建期望策略的方法。近年来,在理论研究中,此方法和强化学习等方法结合,已经取得了重要成果;在实际应用中,尤其是在机器人和其他智能体的复杂环境中,模仿学习取得了很好的效果。主要阐述了模仿学习在机器人学领域的研究与运用。介绍了和模仿学习相关的理论知识;研究了模仿学习的两类主要方法:行为克隆学习方法和逆强化学习方法;对模仿学习的成功应用进行总结;最后,给出当前面对的问题和挑战并且展望未来发展趋势。  相似文献   

7.
强化学习主要研究智能体如何根据环境作出较好的决策,其核心是学习策略。基于传统策略模型的动作选择主要依赖于状态感知、历史记忆及模型参数等,其智能体行为很难受到控制。然而,当人类智能体完成任务时,通常会根据自身的意愿或动机选择相应的行为。受人类决策机制的启发,为了让强化学习中的行为选择可控,使智能体能够根据意图选择动作,将意图变量加入到策略模型中,提出了一种基于意图控制的强化学习策略学习方法。具体地,通过意图变量与动作的互信息最大化使两者产生高相关性,使得策略能够根据给定意图变量选择相关动作,从而达到对智能体的控制。最终,通过复杂的机器人控制仿真任务Mujoco验证了所提方法能够有效地通过意图变量控制机器人的移动速度和移动角度。  相似文献   

8.
强化学习是机器学习领域的研究热点, 是考察智能体与环境的相互作用, 做出序列决策、优化策略并最大化累积回报的过程. 强化学习具有巨大的研究价值和应用潜力, 是实现通用人工智能的关键步骤. 本文综述了强化学习算法与应用的研究进展和发展动态, 首先介绍强化学习的基本原理, 包括马尔可夫决策过程、价值函数、探索-利用问题. 其次, 回顾强化学习经典算法, 包括基于价值函数的强化学习算法、基于策略搜索的强化学习算法、结合价值函数和策略搜索的强化学习算法, 以及综述强化学习前沿研究, 主要介绍多智能体强化学习和元强化学习方向. 最后综述强化学习在游戏对抗、机器人控制、城市交通和商业等领域的成功应用, 以及总结与展望.  相似文献   

9.
多智能体深度强化学习的若干关键科学问题   总被引:6,自引:0,他引:6  
孙长银  穆朝絮 《自动化学报》2020,46(7):1301-1312
强化学习作为一种用于解决无模型序列决策问题的方法已经有数十年的历史, 但强化学习方法在处理高维变量问题时常常会面临巨大挑战. 近年来, 深度学习迅猛发展, 使得强化学习方法为复杂高维的多智能体系统提供优化的决策策略、在充满挑战的环境中高效执行目标任务成为可能. 本文综述了强化学习和深度强化学习方法的原理, 提出学习系统的闭环控制框架, 分析了多智能体深度强化学习中存在的若干重要问题和解决方法, 包括多智能体强化学习的算法结构、环境非静态和部分可观性等问题, 对所调查方法的优缺点和相关应用进行分析和讨论. 最后提供多智能体深度强化学习未来的研究方向, 为开发更强大、更易应用的多智能体强化学习控制系统提供一些思路.  相似文献   

10.
多智能体强化学习方法在仿真模拟、游戏对抗、推荐系统等许多方面取得了突出的进展。然而,现实世界的复杂问题使得强化学习方法存在无效探索多、训练速度慢、学习能力难以持续提升等问题。该研究嵌入规则的多智能体强化学习技术,提出基于组合训练的规则与学习结合的方式,分别设计融合规则的多智能体强化学习模型与规则选择模型,通过组合训练将两者有机结合,能够根据当前态势决定使用强化学习决策还是使用规则决策,有效解决在学习中使用哪些规则以及规则使用时机的问题。依托中国电子科技集团发布的多智能体对抗平台,对提出的方法进行实验分析和验证。通过与内置对手对抗,嵌入规则的方法经过约1.4万局训练就收敛到60%的胜率,而没有嵌入规则的算法需要约1.7万局的时候收敛到50%的胜率,结果表明嵌入规则的方法能够有效提升学习的收敛速度和最终效果。  相似文献   

11.
贝叶斯知识追踪模型(Bayesian knowledge tracing,BKT)被用于智能教学系统中追踪学习者的知识状态并预测其掌握水平和未来表现.由于BKT容易忽视记忆遗忘现象,以及未考虑学习行为对表现结果产生的影响,导致模型预测结果与实际情况出现偏差.针对此问题,提出了一种融合学习者的行为和遗忘因素的贝叶斯知识追踪模型(behavior-forgetting Bayesian knowledge tracing,BF-BKT).首先,采用决策树算法处理学习行为数据,引入行为节点;然后初始化遗忘参数并赋值,更新学习者知识掌握水平的算法;最后,利用ASSISTMENTS提供的公开数据集对相关模型的预测精度进行对比.实验验证,BF-BKT能够达到更好的预测精度.  相似文献   

12.
严肃游戏是计算机游戏一个新的发展方向,可以提供形象互动的模拟教学环境,已经广泛应用于科学教育、康复医疗、应急管理、军事训练等领域。虚拟角色是严肃游戏中模拟具有生命特征的图形实体,行为可信的虚拟角色能够提升用户使用严肃游戏的体验感。严肃游戏中的图形渲染技术已经逐步成熟,而虚拟角色行为建模的研究尚在初级阶段。可信的虚拟角色必须能够具有感知、情绪和行为能力。本文分别从游戏剧情与行为、行为建模方法、行为学习和行为建模评价等4个方面来分析虚拟角色行为建模研究。分析了有限状态机和行为树的特点,讨论了虚拟角色的行为学习方法。指出了强化学习的关键要素,探讨了深度强化学习的应用途径。综合已有研究,归纳了虚拟角色行为框架,该框架主要包括感觉输入、知觉分析、行为决策和动作4大模块。从情感计算的融入、游戏剧情和场景设计、智能手机平台和多通道交互4个角度讨论需要进一步研究的问题。虚拟角色的行为建模需要综合地考虑游戏剧情、机器学习和人机交互技术,构建具有自主感知、情绪、行为、学习能力、多通道交互的虚拟角色能够极大地提升严肃游戏的感染力,更好地体现寓教于乐。  相似文献   

13.
When modeling a decision problem using the influence diagram framework, the quantitative part rests on two principal components: probabilities for representing the decision maker's uncertainty about the domain and utilities for representing preferences. Over the last decade, several methods have been developed for learning the probabilities from a database. However, methods for learning the utilities have only received limited attention in the computer science community.

A promising approach for learning a decision maker's utility function is to take outset in the decision maker's observed behavioral patterns, and then find a utility function which (together with a domain model) can explain this behavior. That is, it is assumed that decision maker's preferences are reflected in the behavior. Standard learning algorithms also assume that the decision maker is behavioral consistent, i.e., given a model of the decision problem, there exists a utility function which can account for all the observed behavior. Unfortunately, this assumption is rarely valid in real-world decision problems, and in these situations existing learning methods may only identify a trivial utility function. In this paper we relax this consistency assumption, and propose two algorithms for learning a decision maker's utility function from possibly inconsistent behavior; inconsistent behavior is interpreted as random deviations from an underlying (true) utility function. The main difference between the two algorithms is that the first facilitates a form of batch learning whereas the second focuses on adaptation and is particularly well-suited for scenarios where the DM's preferences change over time. Empirical results demonstrate the tractability of the algorithms, and they also show that the algorithms converge toward the true utility function for even very small sets of observations.  相似文献   


14.
基于智能手机内置加速度传感器的人体行为识别是近年来人工智能领域一个研究热点,传统的贝叶斯、极速学习机、决策树等识别方法都必须先针对加速度传感器采集数据提取时频域特征,并从大量的时频特征中进行特征优选。本文采用深度学习中卷积神经网络算法(Convolutional Neural Network)在大数据量与小数据量两种情况下分别进行特征学习,直接读取智能手机内置三轴加速度数据,自动提取加速度信号的特征,利用自动提取出来的加速度数据特征,结合决策树算法实现人体行为的分类识别。实验表明,该识别方法准确率较传统机器学习方法提高了1.1%~5.2%,尤其在大数据量下准确率提高更为明显。  相似文献   

15.
针对移动用户行为序列的情景感知特性,提出一种基于情景感知的行为转移模式推荐算法MPRC。该算法首先采用Apriori对用户历史行为数据进行长度为2的频繁模式的挖掘过滤,然后将过滤后的行为数据转换成决策表,采用粗糙集规则提取对决策表进行处理,挖掘情景转移模式,最后通过模式匹配及情景相似性计算进行推荐排序。实验结果证明了该算法在移动环境下的模式挖掘及推荐方面的有效性和较高的准确性。  相似文献   

16.
为了降低网站分类处理的计算量和使分类结果能够反映用户的行为规律,将URL前缀相同的网页合并为一个处理单位,并从用户的HTTP访问行为中提取用于网站分类的特征,最后针对省级区域性网络数据规模大的特点,采用可伸缩性决策树算法,从河南省教育科研计算机网用户访问的网站中提取出新闻类网站、资源共享类网站和通讯类网站.该方法与传统的网站分类方法相比,不需要逐个分析网页内容,适合处理大规模数据.  相似文献   

17.
Skilled human welder adjusts welding parameters including the welding torch attitude, moving speed and position to control weld quality and avoid weld defects based on real time observed varying weld pool surface for precision joining using gas tungsten arc welding (GTAW). However, welder behavior/adjustment appears to be a complex reactive response. To understand this complex response and develop intelligent robotic arc welding, a new scheme that correlated welding torch attitude to weld pool surface to study welder behavior in torch adjustment as response to weld pool was proposed and realized. The torch attitude and the 3D weld pool surface were synchronously measured using a wire inertial measuring unit (IMU) and a laser vision-based approach. An image processing algorithm was developed to extract the characteristic parameters of the weld pool surface from the laser stripes reflected by the specular pool surface. The improved quaternion-based unscented Kalman filter was used to estimate the torch orientation from its inertial measurement data, showing that the torch attitude has been obtained with an acceptable error in the order of 1°(x axis and y axis) and 2°(z axis). Several experiments were performed and the correlation of the corresponding data was detailed. It indicates that the change of torch attitude represents the welder's operating skills, welding experience and smart decision. The three characteristic parameters reflect the welder's reactive response on the torch adjustments. The curvature radius of laser stripes can predict the changing trends of the weld pool surface, providing the needed information for welders to make a smart decision. The proposed scheme is feasible for measuring and analyzing the welder's skills and experience.  相似文献   

18.
未知环境中移动机器人柔性的行为决策是完成各种任务的前提.目前的机器人行为决策方法在面对动态变化的环境时柔性较差,机器人难以获得持续稳定的学习能力.本文作者曾尝试通过集成小脑监督学习和基底神经节的强化学习来实现移动机器人动态环境下的柔性行为决策,但所提算法适应动态环境的能力有限.在前期工作基础上,本文设计了更有生物学意义的好奇度指标代替原来的警觉度指标,通过模拟蓝斑活动在基音模式和阶段模式之间的动态切换,实现移动机器人环境探索–利用的动态自适应调节.同时,设计随外部环境变化的自适应调节因子,实现移动机器人动态环境中基于小脑监督学习和基底神经节强化学习的柔性行为决策,使机器人可以获得持续稳定的学习能力.动态环境和实际环境中的实验结果验证了本文所提算法的有效性.  相似文献   

19.
随着移动通信技术、物联网技术和传感器技术等的快速发展,智能家居行业发展迅速。由于人们生活水平的提高,对智能家居可以提供的智能服务需求正在增加。然而,现有的智能家居系统只能根据预设的控制方法和规则简单地重复运行,并且根据用户的日常生活习惯,不能随时提供满足其个性化需求的服务。试图为智能家居提供个性化服务,使智能家居的服务能够更加灵活、智能和人性化,报告了智能家居和关联规则挖掘的研究现状,对提高Apriori算法的效率进行了研究,设计了原型系统中的数据采集和预处理,网关以及行为识别和预测3个功能模块的总体实现方案。实验结果表明,采用关联规则数据挖掘的方法可以预测智能家居环境下用户未来的行为,同时基于散列技术的Apriori算法提高了智能家居下用户行为预测过程中的效率。  相似文献   

20.
针对目前进程行为评估模型所存在的模型优化问题和模型选取问题,定义进程行为,采用隐马尔可夫模型(HMM)来描述进程行为。讨论了准确率与误报率的关系,提出多维进程行为评估模型,以弥补单一进程行为评估模型的不足,基于布尔运算对多维进程行为评估模型进行融合,提高了评估性能。并基于代价决策树理论,给出了选取最优进程行为评估模型的目标函数,用于在融合后的多维进程行为评估模型上选择最优进程行为评估模型。最后,对所提出的多维进程行为评估模型的性能进行了测试,并与传统的STIDE和HMM方法进行了比较,结果证明了其有效性和优越性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号