首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.

提出一种基于PSR模型的规划算法.首先提出了状态经历的概念与发现方法,并进一步用此概念来描述系统的PSR状态.在此基础上,讨论了如何用判别分析方法,确定任意经历下的PSR状态以及如何在该过程中同时获取系统的PSR模型.从而可引入Q学习算法,用于决策当前的最优策略.算法被应用于一些标准的POMDP问题,实验结果验证了所提方法的有效性.

  相似文献   

2.
刘云龙  吉国力 《计算机学报》2012,35(5):1046-1051
预测状态表示(Predictive State Representations,PSRs)是用于解决局部可观测问题的有效方法.然而,现实环境中,通过样本学习得到的PSR模型不可能完全准确.随着计算步数的增多,利用PSR模型计算得到的预测向量有可能越来越偏离其真实值,进而导致PSR模型的预测精度越来越低.文中提出了一种PSR模型的复位算法.通过使用判别分析方法确定系统所处的PSR状态,文中所提算法可对利用计算获取的预测向量复位,从而提高PSR模型的准确性.实验结果表明,采用复位算法的PSR模型在预测精度上明显优于未采用复位算法的PSR模型,验证了所提算法的有效性.  相似文献   

3.
PSR模型支持下重庆市主城区生态安全评价   总被引:1,自引:0,他引:1  
运用PSR(压力-状态-响应)模型构建重庆市主城区生态安全评价指标体系,并结合层次分析法和熵权法确定指标权重,对重庆市主城区1988~2007年近20年的生态安全情况进行评价分析,最后利用ArcGIS9.3对主城区1988、2000、2007年的生态安全指数进行可视化,动态分析主城区近20年来生态安全情况的空间差异性。结果表明:重庆市主城区过去20年间整体生态情况趋好,近年来各区环境整体上都有较大好转。分析其驱动因素,主要概括为:政府加大环保投入,人口素质提高,环保法律法规的健全等方面。  相似文献   

4.
李奇儒  耿霞 《计算机工程》2023,(12):111-120
传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内获取最优路径。为了解决上述问题,提出一种改进的ERDQN算法。通过记录重复状态出现的频率,利用该频率重新计算Q值,使得在网络训练的过程中一种状态重复出现的次数越多,下一次出现该状态的概率越低,从而提高机器人对环境的探索能力,在一定程度上降低了网络收敛于局部最优的风险,减少了网络收敛的训练回合。根据机器人移动方向和机器人与目标点的距离,重新设计奖励函数。机器人在靠近目标点时能够获得正奖励,远离目标点时能够获得负奖励,并通过当前机器人的移动方向和机器人与目标点的距离调整奖励的绝对值,从而使机器人能够在避开障碍物的前提下规划出更优路径。实验结果表明,与DQN算法相比,ERDQN算法的平均得分提高了18.9%,规划出的路径长度和回合数减少了约20.1%和500。上述结果证明了ERDQN算法能够有效提高网络收敛速度及路径规划性能。  相似文献   

5.
由于状态空间模型进化算法(SEA)易受初始种群的影响,精度不高,容易早熟等问题.因此,提出了一种基于反向学习的状态空间模型进化算法(OLSEA).通过对状态进化矩阵G重新构造实现全局搜索,增强了全局探索和局部搜索能力;算法结合了反向学习策略,提高了算法搜索效率,增强了跳出局部最优的能力;利用8种基准测试函数对算法有效性...  相似文献   

6.
在校园安全管理中,传统的定期定点巡逻和摄像头监控难以覆盖整个校园,而无人机监控则可以弥补上述缺点。由于当前的无人机路径规划算法难以保证信息的时效性,因此,研究提出了基于深度Q网络的路径规划算法。实验结果显示,深度Q网络的成功率随着测试次数的增加而升高,最终稳定在0.79左右,高于基于信息年龄的轨迹规划算法和Q学习算法。同时深度Q网络规划的路径拐点数量仅为16个,覆盖率趋近于1,均优于其余算法。在自由空间和建筑密集空间中,深度Q网络的成功率最终分别稳定在0.99和0.86左右,平均步数均未超过100步。上述结果表明,基于深度Q网络的无人机路径规划算法能高效稳定地实现最优路径规划,实现对校园安全的无死角实时监控。  相似文献   

7.
基于Q学习的适应性进化规划算法   总被引:2,自引:0,他引:2  
张化祥  陆晶 《自动化学报》2008,34(7):819-822
进化规划中, 个体选择变异策略特别重要. 适应性变异策略因在进化过程中动态选择个体变异策略, 能够取得较好的性能. 传统适应性变异策略都依据个体一步进化效果考察个体适应性, 没有从多步进化效果上对变异策略进行评价. 本文提出一种新的基于 Q 学习的适应性进化规划算法QEP (Q learning based evolutionary programming), 该算法将变异策略看成行动, 考察个体多步进化效果, 并通过计算 Q 函数值, 学习个体最优变异策略. 实验表明, QEP 能够获得好的性能.  相似文献   

8.
传统Q算法对于机器人回报函数的定义较为宽泛,导致机器人的学习效率不高。为解决该问题,给出一种回报详细分类Q(RDC-Q)学习算法。综合机器人各个传感器的返回值,依据机器人距离障碍物的远近把机器人的状态划分为20个奖励状态和15个惩罚状态,对机器人每个时刻所获得的回报值按其状态的安全等级分类,使机器人趋向于安全等级更高的状态,从而帮助机器人更快更好地学习。通过在一个障碍物密集的环境中进行仿真实验,证明该算法收敛速度相对传统回报Q算法有明显提高。  相似文献   

9.
针对现有移动机器人路径规划方法存在的收敛速度慢和难以进行在线规划的问题,研究了一种基于状态聚集SOM网和带资格迹Q学习的移动机器人路径动态规划方法——SQ(λ);首先,设计了系统的总体闭环规划模型,将整个系统分为前端(状态聚集)和后端(路径规划);然后,在传统的SOM基础上增加输出层构建出三层的SOM网实现对移动机器人状态的聚集,并给出了三层SOM网的训练算法;最后,基于聚集的状态提出了一种基于带资格迹和探索因子自适应变化的改进Q学习算法实现最优策略的获取,并能根据改进Q学习算法的收敛速度自适应地控制前端SOM输出层神经元的增减,从而改进整体算法的收敛性能;仿真实验表明:文中设计的SQ(λ)能有效地实现移动机器人的路径规划,较其它算法相比,具有收敛速度快和寻优能力强的优点,具有较大的优越性。  相似文献   

10.
于冬梅  韩晓新  李玎  夏旻 《计算机工程》2012,38(10):277-279
情感本身不能交互,但可以通过它的载体(如人或Agent)进行交互。利用该特点,提出一种基于Q学习算法的情感交互可计算模型。定义情感元的概念,情感元之间的交互实际上是情感Agent之间的交互,采用Q学习算法得到情感元的交互结果,构建齐次Markov链的情感元之间的交互模型,并通过实验结果验证了情感的多变性与复杂性。  相似文献   

11.
对于二分类问题,基于判别模型的分类器一般都是寻找一条最优判决边界,容易受到数据波动的影响。针对该问题提出一种基于生成模型的Q-learning二分类算法(BGQ-learning),将状态和动作分开编码,得到对应各类的判决函数,增加了决策空间的灵活性,同时在求解参数时,采用最小二乘时序差分(TD)算法和半梯度下降法的组合优化方法,加速了参数的收敛速度。设计实验对比了BGQ-learning算法与三种经典分类器以及一种新颖的分类器的分类性能,在UCI数据库七个数据集上的测试结果表明,该算法有着优良的稳定性以及良好的分类精确度。  相似文献   

12.
呼和  张云飞 《计算机应用》2014,(Z2):143-146
随着勘探信息系统和PSR的推广,各类石油天然气勘探成果数据逐步归档,同时也发现数据重复加载等问题。首先分析PSR归档的实际成果数据,逐步开发出各种数据分析工具,解决了PSR数据逻辑结构、二进制数据类型与数据存储结构两大难点,最终设计开发了数据迁移和可视化软件模块,从而提高了勘探成果数据的利用率,减轻了数据的重复加载,保证数据的一致性,实现了勘探信息系统与综合解释软件之间的成果数据共享;同时,该方案提高了勘探成果数据的可视化和数据利用能力,进一步推动了PSR和勘探信息系统的应用;然后展示了该软件目前的推广情况和转换前后的成果对比;最后提出了该方案下一步改进措施。  相似文献   

13.
针对传统Q-learning算法在复杂环境下移动机器人路径规划问题中容易产生维数灾难的问题,提出一种改进方法。该方法将深度学习融于Q-learming框架中,以网络输出代替Q值表,解决维数灾难问题。通过构建记忆回放矩阵和双层网络结构打断数据相关性,提高算法收敛性。最后,通过栅格法建立仿真环境建模,在不同复杂程度上的地图上进行仿真实验,对比实验验证了传统Q-learming难以在大状态空间下进行路径规划,深度强化学习能够在复杂状态环境下进行良好的路径规划。  相似文献   

14.
陈敏  王晓亮  汪万维  吴仁彪 《计算机仿真》2015,32(2):111-114,118
研究高精度雷达数据采样问题。雷达数据采样时要求数据的准确性。传统雷达数据采用是基于等间隔时间采样的,具有精度低、误差大的缺陷,无法满足高精度定位的需求。针对上述问题,提出一种采用不等间隔时间采样的高精度雷达数据仿真方法。通过为飞行器建立基本的运动模型,采用分段组合的方法生成目标运动轨迹。在此基础上结合雷达的扫描体制与目标的运动特性,采用迭代法实现了对目标运动轨迹进行精确采样。实验结果表明,改进方法能够生成连续、光滑的目标运动轨迹,生成具有精确位置信息的仿真雷达数据,可用于多雷达航迹融合等对仿真雷达数据精度要求较高的场合。  相似文献   

15.
孔锐  张冰 《计算机应用》2005,25(6):1327-1329
探讨了核Fisher判决分析算法(KernelFisherDiscriminantAnalysis,KFDA),并提出了一种基于KFDA的高性能多类分类算法。在进行多类分类时,首先通过一个非线性映射将训练样本映射到一个高维的核空间中,建立一个KFDA子空间,在该高维空间中,不同类别的样本之间的差异增大,同类样本聚集在一起,因此,在这个高维核空间中,就可以利用简单的最近邻法进行多类分类。实验结果表明,该算法在保证分类精度的条件下提高了分类器的训练和分类的速度。  相似文献   

16.
针对新闻图像检索的应用特点,提出了一种多反馈、合作型的图像检索方法。通过构造动态的Q表,保存图像的折算累计反馈;设计从探索型逐渐过渡到利用型的图像选择策略;在方差分析的基础上,设计了多反馈综合方法,全面地获取用户检索需求,从而构造了基于Q学习的相关反馈检索算法。实验结果表明了该算法是有效的,并具有更高的性能。  相似文献   

17.
传统U-Tree算法对于部分观测马尔可夫决策过程POMDP问题的解决已取得较为显著的成效,但是由于边缘节点生长过于随意,所以仍存在树的规模庞大、内存需求比较大、计算复杂度过高的问题。在原U-Tree算法的基础上,通过得到下一步观测值,来划分同一个叶子节点中做相同动作的实例,提出了一种基于有效实例来扩展边缘节点的EIU-Tree算法,大大缩减了计算规模,以此来帮助智能体更好更快地学习,并且在4×3经典栅格问题中做了仿真实验,对比于原有的U-Tree算法,该算法运行效果更好。  相似文献   

18.
针对水下环境的不确定性,建立了前视声纳的视域模型。主要采用强化学习的方法对自治水下机器人(AUV)进行控制和决策,综合Q学习算法、BP神经网络法、人工势场法对AUV进行局部路径规划。在AUV与环境的试错交互中,借助于来自成功与失败经验的奖励和惩罚值,不断改进水下机器人的自治能力。并设计了AUV局部路径规划器,实现AUV在不确定环境下的避障任务。半实物仿真证明了算法的可行性与可靠性。  相似文献   

19.
多Agent协作追捕问题是多Agent协调与协作研究中的一个典型问题。针对具有学习能力的单逃跑者追捕问题,提出了一种基于博弈论及Q学习的多Agent协作追捕算法。首先,建立协作追捕团队,并构建协作追捕的博弈模型;其次,通过对逃跑者策略选择的学习,建立逃跑者有限的Step-T累积奖赏的运动轨迹,并把运动轨迹调整到追捕者的策略集中;最后,求解协作追捕博弈得到Nash均衡解,每个Agent执行均衡策略完成追捕任务。同时,针对在求解中可能存在多个均衡解的问题,加入了虚拟行动行为选择算法来选择最优的均衡策略。C#仿真实验表明,所提算法能够有效地解决障碍环境中单个具有学习能力的逃跑者的追捕问题,实验数据对比分析表明该算法在同等条件下的追捕效率要优于纯博弈或纯学习的追捕算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号