首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
基于试探(trial-based)的值迭代算法是求解部分可观察Markov决策过程(partially observable Markov decision process,POMDP)模型的一类有效算法,其中FSVI算法是目前最快的算法之一.然而对于较大规模的POMDP问题,FSVI计算MDP值函数的时间是不容忽视的.提出一种基于最短哈密顿通路(shortest Hamiltonian path)的值迭代算法(shortest Hamiltonian path-based value iteration,SHP-VI).该方法用求解最短哈密顿通路问题的蚁群算法计算一条最优信念状态轨迹,然后在这些信念状态上反向更新值函数.通过与FSVI算法的实验比较,结果表明SHP-VI算法很大程度地提高了基于试探的算法计算信念状态轨迹的效率.  相似文献   

2.
基于试探(trial-based)的值迭代算法是求解部分可观察Markov决策过程(partially observable Markov decision process,POMDP)模型的一类有效算法,其中FSVI算法是目前最快的算法之一.然而对于较大规模的POMDP问题,FSVI计算MDP值函数的时间是不容忽视的.提出一种基于最短哈密顿通路(shortest Hamiltonian path)的值迭代算法(shortest Hamiltonian path-based value iteration,SHP-VI).该方法用求解最短哈密顿通路问题的蚁群算法计算一条最优信念状态轨迹,然后在这些信念状态上反向更新值函数.通过与FSVI算法的实验比较,结果表明SHP-VI算法很大程度地提高了基于试探的算法计算信念状态轨迹的效率.  相似文献   

3.
徐昕  沈栋  高岩青  王凯 《自动化学报》2012,38(5):673-687
基于马氏决策过程(Markov decision process, MDP)的动态系统学习控制是近年来一个涉及机器学习、控制理论和运筹学等多个学科的交叉研究方向, 其主要目标是实现系统在模型复杂或者不确定等条件下基于数据驱动的多阶段优化控制. 本文对基于MDP的动态系统学习控制理论、算法与应用的发展前沿进行综述,重点讨论增强学习(Reinforcement learning, RL)与近似动态规划(Approximate dynamic programming, ADP)理论与方法的研究进展,其中包括时域差值学习理论、求解连续状态与行为空间MDP的值函数逼近方法、 直接策略搜索与近似策略迭代、自适应评价设计算法等,最后对相关研究领域的应用及发展趋势进行分析和探讨.  相似文献   

4.
渗透测试的核心是发现渗透路径, 但并不是所有的渗透路径都能够成功, 所以需要基于当前系统环境选择最优渗透路径. 在此背景下, 首先, 本文基于攻击图将环境建模为马尔可夫决策过程(Markov decision process, MDP)图, 使用价值迭代算法寻找最优渗透路径. 其次, 对于渗透测试过程中存在的渗透动作失效问题, 提出了一种新的重规划算法, 可以在MDP图中有效处理失效渗透动作, 重新寻找最优渗透路径. 最后, 基于渗透测试过程中存在多个攻击目标的情况, 本文提出了面向MDP图的多目标全局最优渗透路径算法. 实验证明, 本文提出的算法在重规划任务方面, 表现出了更高的效率和稳定性, 在多目标任务方面, 体现出了算法的有效性, 可以避免不必要的渗透动作被执行.  相似文献   

5.
针对无人机路径规划问题,建立了具有定常非线性系统、非仿射等式约束、非凸不等式约束的非凸控制问题模型,并对该模型进行了算法设计和求解。基于迭代寻优的求解思路,提出了凸优化迭代求解方法和罚函数优化策略。前者利用凹凸过程(CCCP)和泰勒公式对模型进行凸化处理,后者将经处理项作为惩罚项施加到目标函数中以解决初始点可行性限制。经证明该方法严格收敛到原问题的Karush-Kuhn-Tucker(KKT)点。仿真实验验证了罚函数凸优化迭代算法的可行性和优越性,表明该算法能够为无人机规划出一条满足条件的飞行路径。  相似文献   

6.
伪谱法可实时求解具有高度非线性动态特性的飞行器最优轨迹;以X-51A相似飞行器模型为研究对象,采用增量法与查表插值建立纵向气动力模型,伪谱法与序列二次规划算法求解滑翔轨迹最优控制问题;提出使用多级迭代优化策略,为序列二次规划算法求解伪谱法参数化得到的大规模非线性规划问题提供初值,弥补序列二次规划算法在求解大规模非线性规划问题过程中,出现的初值敏感、收敛速度减慢等问题。通过与传统方法求解出的状态量与控制量仿真飞行状态进行对比,证明了多级迭代优化策略的有效性和高效性,该策略在实际工程应用中取得了良好效果。  相似文献   

7.
曾斌  樊旭  李厚朴 《自动化学报》2023,(7):1519-1529
复杂多变的战场环境要求后装保障能够根据战场环境变化,预见性地做出决策.为此,提出基于强化学习的动态调度方法.为准确描述保障调度问题,提出支持抢占调度、重分配及重部署决策的马尔科夫决策过程(Markov decision process, MDP)模型,模型中综合考量了任务排队、保障优先级以及油料约束等诸多问题的影响;随后设计改进策略迭代算法,训练基于神经网络的保障调度模型;训练后的神经网络模型能够近似计算状态价值函数,从而求解出产生最大期望价值的优化调度策略.最后设计一个分布式战场保障仿真实验,通过与常规调度策略的对比,验证了动态调度算法具有良好的自适应性和自主学习能力,能够根据历史数据和当前态势预判后续变化,并重新规划和配置保障资源的调度方案.  相似文献   

8.
基于点的值迭代算法是一类解决POMDP问题的有效算法,PBVI是基于点集的经典算法,但是其算法效率较为低下。FSVI使用内在的MDP最优策略来降低算法复杂度,但求解大规模问题的效果较差。为解决上述问题,提出了基于环境状态分布优化的前向搜索值迭代算法(PBVI-OSD),通过基于权重值的QMDP选出最佳的动作,基于信念状态和转换函数选取最大可能的状态,基于动作和状态从观察中随机选取一个观察概率大于阈值的观察,由此获得更具探索价值的后继信念点集,提升值迭代收敛的质量。在四个基准问题上的实验表明,相比于FSVI和PBVI,PBVI-OSD能保证收敛效率,特别是在大规模问题上能收敛到更好的全局最优解。  相似文献   

9.
文中提出考虑时间因素的0-1背包调度问题这一具有NP难度的组合优化问题。给定n个物体(每个物体i的重量为wi,连续加工时间为ti),以及一个容量为S的背包,要求给出一个调度方案(物品的放入顺序和放入时间),使得任意时刻放入背包的物品总重量不超过背包容量,每个物体需放入背包连续加工时长ti后才能取出,该问题是求使所有物体均加工完毕的时间尽可能短的调度方案。提出了3种求解算法:迭代动态规划算法、基于分枝限界的完备算法和遗传进化算法。迭代动态规划算法使用动态规划策略放置尽可能多的未加工物体到背包中,然后每次迭代取出加工完成的物品后再使用动态规划放入尽可能多的剩余未加工物品,直至所有物品被加工完成。基于分枝限界的完备算法通过定义上下界及剪枝操作,有效地降低了算法的计算复杂度。遗传进化算法将一个物品装填序列定义为个体,并定义了相应的适应度、选择、交叉与变异操作。在所设计的3组共计36个算例上的实验结果表明,迭代动态规划算法可以很快求出高质量的解,基于分枝限界的完备算法对小规模算例有很好的效果,遗传算法在处理几百个物体的算例时能在1500s内得到比动态规划算法更好的结果。  相似文献   

10.
圆木二维下料问题是木材企业中常见问题,针对一些头部与尾部直径相差不大的木材,可以将这些木材看作是圆柱体,下料时将其切成和圆木长度相等的多个长方体毛坯,该问题可转化为二维下料问题。采用顺序价值校正框架和动态规划算法求解该下料问题。顺序生成排样图,每生成一个排样图便调整毛坯的价值,重复该过程直到满足毛坯需求为止。通过迭代生成多个下料方案以便优选。圆木下料的研究对减少木材企业的成本很有意义。  相似文献   

11.
陈子璇  章宗长  潘致远  张琳婧 《软件学报》2021,32(11):3496-3511
近年来,如何生成具有泛化能力的策略已成为深度强化学习领域的热点问题之一,并涌现出了许多相关的研究成果,其中的一个代表性工作为广义值迭代网络.广义值迭代网络是一种可作用于非规则图形的规划网络模型.它利用一种特殊的图形卷积算子来近似地表示状态转移矩阵,使得其在学习到非规则图形的结构信息后,可通过值迭代过程进行规划,从而在具有非规则图形结构的任务中产生具有泛化能力的策略.然而,由于没有考虑根据状态重要性来合理分配规划时间,广义值迭代网络中的每一轮迭代都需要在整个状态空间的所有状态上同步执行.当状态空间较大时,这样的同步更新会降低网络的规划性能.用异步更新的思想来进一步研究广义值迭代网络.通过在值迭代过程中定义状态优先级并执行异步值更新,提出了一种新型的异步规划网络模型——广义异步值迭代网络.在未知的非规则结构任务中,与广义值迭代网络相比,广义异步值迭代网络具有更高效且更有效的规划过程.进一步地,改进了广义值迭代网络中的强化学习算法及图形卷积算子,并通过在非规则图形和真实地图中的路径规划实验验证了改进方法的有效性.  相似文献   

12.
A value iteration algorithm for time-aggregated Markov-decision processes (MDPs) is developed to solve problems with large state spaces. The algorithm is based on a novel approach which solves a time aggregated MDP by incrementally solving a set of standard MDPs. Therefore, the algorithm converges under the same assumption as standard value iteration. Such assumption is much weaker than that required by the existing time aggregated value iteration algorithm. The algorithms developed in this paper are also applicable to MDPs with fractional costs.  相似文献   

13.
The value iteration algorithm is a well-known technique for generating solutions to discounted Markov decision process (MDP) models. Although simple to implement, the approach is nevertheless limited in situations where many Markov decision processes must be solved, such as in real-time state-based control problems or in simulation/optimization problems, because of the potentially large number of iterations required for the value function to converge to an ε-optimal solution. Experimental results suggest, however, that the sequence of solution policies associated with each iteration of the algorithm converges much more rapidly than does the value function. This behavior has significant implications for designing solution approaches for MDPs, yet it has not been explicitly characterized in the literature nor generated significant discussion. This paper seeks to generate such discussion by providing comparative empirical convergence results and exploring several predictors that allow estimation of policy convergence speed based on existing MDP parameters.  相似文献   

14.
When modeling real-world decision-theoretic planning problems in the Markov Decision Process (MDP) framework, it is often impossible to obtain a completely accurate estimate of transition probabilities. For example, natural uncertainty arises in the transition specification due to elicitation of MDP transition models from an expert or estimation from data, or non-stationary transition distributions arising from insufficient state knowledge. In the interest of obtaining the most robust policy under transition uncertainty, the Markov Decision Process with Imprecise Transition Probabilities (MDP-IPs) has been introduced to model such scenarios. Unfortunately, while various solution algorithms exist for MDP-IPs, they often require external calls to optimization routines and thus can be extremely time-consuming in practice. To address this deficiency, we introduce the factored MDP-IP and propose efficient dynamic programming methods to exploit its structure. Noting that the key computational bottleneck in the solution of factored MDP-IPs is the need to repeatedly solve nonlinear constrained optimization problems, we show how to target approximation techniques to drastically reduce the computational overhead of the nonlinear solver while producing bounded, approximately optimal solutions. Our results show up to two orders of magnitude speedup in comparison to traditional “flat” dynamic programming approaches and up to an order of magnitude speedup over the extension of factored MDP approximate value iteration techniques to MDP-IPs while producing the lowest error of any approximation algorithm evaluated.  相似文献   

15.
针对含扩散项不可靠随机生产系统最优生产控制的优化命题, 采用数值解方法来求解该优化命题最优控制所满足的模态耦合的非线性偏微分HJB方程. 首先构造Markov链来近似生产系统状态演化, 并基于局部一致性原理, 把求解连续时间随机控制问题转化为求解离散时间的Markov决策过程问题, 然后采用数值迭代和策略迭代算法来实现最优控制数值求解过程. 文末仿真结果验证了该方法的正确性和有效性.  相似文献   

16.
This communique presents an algorithm called “value set iteration” (VSI) for solving infinite horizon discounted Markov decision processes with finite state and action spaces as a simple generalization of value iteration (VI) and as a counterpart to Chang’s policy set iteration. A sequence of value functions is generated by VSI based on manipulating a set of value functions at each iteration and it converges to the optimal value function. VSI preserves convergence properties of VI while converging no slower than VI and in particular, if the set used in VSI contains the value functions of independently generated sample-policies from a given distribution and a properly defined policy switching policy, a probabilistic exponential convergence rate of VSI can be established. Because the set used in VSI can contain the value functions of any policies generated by other existing algorithms, VSI is also a general framework of combining multiple solution methods.  相似文献   

17.
在大规模随机控制问题中,值函数逼近是一种克服维数灾的方法,考虑平均模型马氏决策规划(MDP)的状态软集结相对值迭代算法,在Span压缩的条件下,证明了该算法的收敛性,同时还给出了其误差估计。  相似文献   

18.
针对动态环境下的多Agent路径规划问题,提出了一种改进的蚁群算法与烟花算法相结合的动态路径规划方法。通过自适应信息素强度值及信息素缩减因子来加快算法的迭代速度,并利用烟花算法来解决路径规划过程中的死锁问题,避免陷入局部最优。在多Agent动态避碰过程中,根据动态障碍物与多Agent之间的运行轨迹是否相交制定相应的避碰策略,并利用路径转变函数解决多Agent的正面碰撞问题。仿真实验表明,该方法优于经典蚁群算法,能够有效解决多Agent路径规划中的碰撞问题,从而快速找到最优无碰路径。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号