首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
激励学习已被证明是在控制领域中一种可行的新方法。相比其他的方法,它能较好地处理未知环境问题,但它仍然不是一种有效的方法。幸运的是,在现实世界中,智能体总是会有一些环境的先验知识,这些能形成启发式信息。启发式搜索是一种常用的搜索方法,有很快的搜索速度,但需要精确的启发式信息,这在有些时候难以得到。文中分析比较了启发式搜索和激励学习的各自特点,提出一类新的基于启发式搜索的激励学习算法,初步的实验结果显示了较好的性能。  相似文献   

2.
徐艳艳  岳伟亚 《软件学报》2009,20(9):2352-2365
增量搜索是一种利用先前的搜索信息提高本次搜索效率的方法,通常可以用来解决动态环境下的重规划问题.在人工智能领域,一些实时系统常常需要根据外界环境的变化不断修正自身,这样就会产生一系列变化较小的相似问题,此时应用增量搜索将会非常有效.另外,基于BDD(binary decision diagram)的启发式搜索,结合了基于BDD的搜索和启发式搜索这两种方法的优点.它既用BDD这一紧凑的数据结构来表示系统的状态空间,又通过使用启发信息来进一步压缩搜索树的大小.在介绍基于BDD的启发式搜索和增量搜索之后,结合这两种方法给出了基于BDD的增量启发式搜索算法--BDDRPA*.大量的实验结果表明,BDDRPA*算法是非常有效的,它可以被广泛地应用到智能规划、移动机器人问题等领域中.  相似文献   

3.
不确定动态环境下移动机器人的完全遍历路径规划   总被引:3,自引:0,他引:3  
基于生物激励神经网络、滚动窗口和启发式搜索,提出了一种新的完全遍历路径规划方法.该方法用Grossberg的生物神经网络实现移动机器人的局部环境建模,将滚动窗口的概念引入到局部路径规划,由启发式算法决定滚动窗口内的局域路径规划目标.该方法能在不确定动态环境中有效地实现机器人自主避障的完全遍历路径规划.仿真研究证明了该方法的可用性和有效性.  相似文献   

4.
黄河燕 《计算机学报》1993,16(2):155-157
1.引言 推理是智能系统中应用知识求解问题的一种主要方法,现有的智能系统所使用的推理方式不外乎是机械式的自动推理和启发式推理。自动推理具有完备性,控制简单,但是一种盲目的搜索方法,需要穷尽搜索树中的每个节点,这一方面导致推理效率较低,有时甚至会因为扩展了太多的节点而引起组合爆炸,不能得出问题的解;启发式搜索推理则可避免自动推理的上述缺陷,在搜索一个解时可以充分利用与问题域有关的启发式信息,减  相似文献   

5.
基于改进遗传算法的粗糙集属性约简算法   总被引:1,自引:0,他引:1  
属性约简是粗糙集理论研究的主要内容之一,为了能够有效地获取决策表中属性最小约简,在分析属性约简的方法与遗传算法的基础上,将属性重要性度量作为启发式信息引入遗传算法,提出了一种启发式遗传算法.通过构造新的变异算子来引入启发式信息,体现了启发式信息的局部搜索技术,使得算法既保持整体优化特性,又具有较快的收敛速度.实验结果表明,该方法能快速有效地求出决策表的最小约简.  相似文献   

6.
基于知识的印鉴鉴别方法   总被引:11,自引:0,他引:11  
胡庆  杨静宇  张黔  刘克 《自动化学报》1991,17(6):696-704
计算机印鉴鉴别是一项十分困难但又具有广泛应用背景的课题,国际上至今尚无实用有 效的鉴别方法.本文从知识工程的角度出发,对印鉴鉴别中的启发式知识进行了深入的讨论. 并在此基础上引入了一套完整的基于启发式知识的印鉴鉴别方法.该方法以启发式搜索获得 配准关系,并根据启发式知识在其中提取一组结构特征,最后结合结构信息和统计模型作出判 决.实验结果表明,该方法在可靠性、适应性和实用性方面比现有方法均有明显改进,已接近 实用.  相似文献   

7.
基于约束最大信息熵的贝叶斯网络结构学习算法   总被引:3,自引:0,他引:3  
贝叶斯网络的学习可分为结构学习和参数学习.基于约束最大信息熵的结构学习算法是一种以搜索最高记分函数为原则的方法.本文以KL距离、相互信息以及最大相互信息为基础,通过附加合适的约束函数降低变量维数和网络结构的复杂度,提出了一种附加约束的最大熵记分函数,并结合爬山法设计一种贝叶斯网络结构学习的启发式算法.通过与著名的K2和B&B-MDL算法的实验比较,结果表明该算法在时间和精度上都具有较好的效果.  相似文献   

8.
基于粗糙集的启发式属性约简算法   总被引:1,自引:0,他引:1  
对现有启发式属性约简算法进行分析,通过实例说明一般启发式算法求得的相对约简有冗余属性存在的问题.针对这一不足,利用粗糙集理论中的条件熵作为启发信息,来缩小搜索空间,并在算法中加入消除冗余属性的二次约简过程,得到一种改进的启发式属性约简算法.提供了实例分析,验证了该改进算法具有较好的约简效果.  相似文献   

9.
启发式知识约简算法的研究与应用   总被引:6,自引:1,他引:5  
从信息角度对决策系统中的属性重要度进行度量,在此基础上,提出一种知识约简的启发式算法,它以信道容量为启发式信息,减小了知识约简过程中的搜索空间。实例分析表明,本算法能够获得决策系统的一种良好的相对约简。  相似文献   

10.
一种改进的规则知识获取方法   总被引:1,自引:0,他引:1  
知识获取是建立专家系统的最基本最重要的过程,但它又是研制和开发专家系统的“瓶颈”。文章提出了一种改进的规则知识机器自动获取技术,它将学习看作是在一个符号描述空间中的启发式搜索过程,能够通过归纳从专家决策的例子中确定决策规则,从而大大简化了从专家到机器的知识转换过程。  相似文献   

11.
渗透测试作为一种评估网络系统安全性能的重要手段, 是以攻击者的角度模拟真实的网络攻击, 找出网络系统中的脆弱点。而自动化渗透测试则是利用各种智能化方法实现渗透测试过程的自动化, 从而大幅降低渗透测试的成本。攻击路径发现作为自动化渗透测试中的关键技术, 如何快速有效地在网络系统中实现智能化攻击路径发现, 一直受到学术界的广泛关注。现有的自动化渗透测试方法主要基于强化学习框架实现智能化攻击路径发现, 但还存在奖赏稀疏、学习效率低等问题, 导致算法收敛速度慢, 攻击路径发现难以满足渗透测试的高时效性需求。为此, 提出一种基于势能的启发式奖赏塑形函数的分层强化学习算法(HRL-HRSF), 该算法首先利用渗透测试的特性, 根据网络攻击的先验知识提出了一种基于深度横向渗透的启发式方法, 并利用该启发式方法设计出基于势能的启发式奖赏塑形函数, 以此为智能体前期探索提供正向反馈, 有效缓解了奖赏稀疏的问题;然后将该塑形函数与分层强化学习算法相结合, 不仅能够有效减少环境状态空间与动作空间大小, 还能大幅度提高智能体在攻击路径发现过程中的奖赏反馈, 加快智能体的学习效率。实验结果表明, HRL-HRSF 相较于没有奖赏塑形的分层强化学习算法、DQN 及其改进算法更加快速有效, 并且随着网络规模和主机漏洞数目的增大, HRL-HRSF 均能保持更好地学习效率, 拥有良好的鲁棒性和泛化性。  相似文献   

12.
Abstract

Robot position/force control provides an interaction scheme between the robot and the environment. When the environment is unknown, learning algorithms are needed. But, the learning space and learning time are big. To balance the learning accuracy and the learning time, we propose a hybrid reinforcement learning method, which can be in both discrete and continuous domains. The discrete-time learning has poor learning accuracy and less learning time. The continuous-time learning is slow but has better learning precision. This hybrid reinforcement learning learns the optimal contact force, meanwhile it minimizes the position error in the unknown environment. Convergence of the proposed learning algorithm is proven. Real-time experiments are carried out using the pan and tilt robot and the force/torque sensor.  相似文献   

13.
虽然深度强化学习能够解决很多复杂的控制问题, 但是需要付出的代价是必须和环境进行大量的交互, 这是深度强化学习所面临的一大挑战. 造成这一问题的原因之一是仅依靠值函数损失难以让智能体从高维的复杂输入中提取有效特征. 导致智能体对所处状态理解不足, 从而不能正确给状态分配价值. 因此, 为了让智能体认识所处环境, 提高强化学习样本效率, 本文提出一种结合向前状态预测与隐空间约束的表示学习方法(regularized predictive representation learning, RPRL). 帮助智能体从高维视觉输入中学习并提取状态特征, 以此来提高强化学习样本效率. 该方法用前向的状态转移损失作为辅助损失, 使智能体学习到的特征包含环境转移的相关动态信息. 同时在向前预测的基础上添加正则化项对隐空间的状态表示进行约束, 进一步帮助智能体学习到高维度输入的平滑、规则表示. 该方法在DeepMind Control (DMControl)环境中与其他的基于模型的方法以及加入了表示学习的无模型方法进行比较, 都获得了更好的性能.  相似文献   

14.
深度强化学习因其可用于从高维的图像中提取出有效信息,从而可以自动生成解决各类复杂任务的有效策略,如游戏AI,机器人控制和自动驾驶等.然而,由于任务环境的复杂性以及智能体低下的探索效率,使得即使执行相对简单的任务,智能体仍需要与环境进行大量交互.因此,本文提出一种结合Bootstrapped探索方法的CCLF算法—Bootstrapped CCLF,该算法通过actor网络中多个head来产生更多不同的潜在动作,从而能够访问到更多不同的状态,提高智能体的探索效率,进而加快收敛过程.实验结果表明,该算法在DeepMind Control环境中具有比原算法更好的性能以及稳定性,证明了该算法的有效性.  相似文献   

15.
阳名钢  陈梦烦  杨双远  张德富 《软件学报》2021,32(12):3684-3697
二维带形装箱问题是一个经典的NP-hard的组合优化问题,该问题在实际的生活和工业生产中有着广泛的应用.研究该问题,对企业节约成本、节约资源以及提高生产效率有着重要的意义.提出了一个强化学习求解算法.新颖地使用强化学习为启发式算法提供一个初始的装箱序列,有效地改善启发式冷启动的问题.该强化学习模型能进行自我驱动学习,仅使用启发式计算的解决方案的目标值作为奖励信号来优化网络,使网络能学习到更好的装箱序列.使用简化版的指针网络来解码输出装箱序列,该模型由嵌入层、解码器和注意力机制组成.使用Actor-Critic算法对模型进行训练,提高了模型的效率.在714个标准问题实例和随机生成的400个问题实例上测试提出的算法,实验结果显示:提出的算法能有效地改善启发式冷启动的问题,性能超过当前最优秀的启发式求解算法.  相似文献   

16.
李树成  田学东 《微机发展》2005,15(8):145-147
提出了一种结合最新TDT技术、基于增强学习的优先Web环境主题搜索策略,并以此设计主题搜索器系统。该系统通过引入基于领域知识的TDT文本分类技术,大大改进了基于关键字的Naive Bayes模型主题相似性判别的准确性;通过引入基于增强学习的页面评估函数特征化主题Web环境,有效地提高了稀有信息的搜索能力。试验结果表明,该系统具有较高的实用性。  相似文献   

17.
搜索和救援优化算法(SAR)是2020年提出的模拟搜救行为的一种元启发式优化算法,用来解决工程中的约束优化问题.但是, SAR存在收敛慢、个体不能自适应选择操作等问题,鉴于此,提出一种新的基于强化学习改进的SAR算法(即RLSAR).该算法重新设计SAR的局部搜索和全局搜索操作,并增加路径调整操作,采用异步优势演员评论家算法(A3C)训练强化学习模型使得SAR个体获得自适应选择算子的能力.所有智能体在威胁区数量、位置和大小均随机生成的动态环境中训练,进而从每个动作的贡献、不同威胁区下规划出的路径长度和每个个体的执行操作序列3个方面对训练好的模型进行探索性实验.实验结果表明, RLSAR比标准SAR、差分进化算法、松鼠搜索算法具有更高的收敛速度,能够在随机生成的三维动态环境中成功地为无人机规划出更加经济且安全有效的可行路径,表明所提出算法可作为一种有效的无人机路径规划方法.  相似文献   

18.
基于强化学习的模型参考自适应控制   总被引:3,自引:0,他引:3  
提出了一种基于强化学习的模型参考自适应控制方法,控制器采用自适应启发评价算法,它由两部分组成:自适应评价单元及联想搜索单元.由参考模型给出系统的性能指标,利用系统反馈的强化信号在线更新控制器的参数.仿真结果表明:基于强化学习的模型参考自适应控制方法可以实现对一类复杂的非线性系统的稳定控制和鲁棒控制,该控制方法不仅响应速度快,而且具有较高的学习速率,实时性较强.  相似文献   

19.
This paper introduces a method of learning search control knowledge in schedule optimization problems through application of reinforcement learning. Reinforcement learning is an effective approach for the problem faced by the agent that learns its behavior through trial-and-error interactions with a dynamic environment. Nevertheless, reinforcement learning has a difficulty of slow convergence when applied to the problems with a large state space. The paper discusses the case-based function approximation technique, which makes reinforcement learning applicable to the large scale problems such as a job-shop scheduling problem. To show effectiveness of the approach, reinforcement learning is applied to acquire search control knowledge in repair-based schedule optimization process. Preliminary experiment results show that repair-action selection made by learned search control knowledge succeeded in improving scheduling quality efficiently.  相似文献   

20.
强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.针对强化学习一直被"维数灾"问题所困扰的问题,提出在关系强化学习的基础上,引入启发式轮廓表的方法,采用含轮廓表的一阶谓词表示状态、活动和Q-函数,充分发挥Prolog表的优势,将逻辑谓词规则与强化学习相结合,形成一种新的逻辑强化学习方法--CCLORRL,并对其收敛性进行了证明.该方法使用轮廓形状谓词产生形状状态表,大幅度地减少状态空间;利用启发式规则指导动作的选择,减少了样本中不存在状态选择的盲目性.CCLORRL算法应用于俄罗斯方块中,实验表明,该方法是比较高效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号