首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
基于点的值迭代算法是一类解决POMDP问题的有效算法,PBVI是基于点集的经典算法,但是其算法效率较为低下。FSVI使用内在的MDP最优策略来降低算法复杂度,但求解大规模问题的效果较差。为解决上述问题,提出了基于环境状态分布优化的前向搜索值迭代算法(PBVI-OSD),通过基于权重值的QMDP选出最佳的动作,基于信念状态和转换函数选取最大可能的状态,基于动作和状态从观察中随机选取一个观察概率大于阈值的观察,由此获得更具探索价值的后继信念点集,提升值迭代收敛的质量。在四个基准问题上的实验表明,相比于FSVI和PBVI,PBVI-OSD能保证收敛效率,特别是在大规模问题上能收敛到更好的全局最优解。  相似文献   

2.
针对大规模部分可观察马尔可夫决策过程(POMDP)算法中策略树规模指数级增长、已证信念点(witness point,WP)求解困难的问题,根据策略树值函数是分段线性凸函数的特点,提出一种基于信念点的策略树增量裁剪和值迭代求解算法.在策略树生成过程中,利用边界点进行无损裁剪,利用中间点进行有损裁剪,并利用实时信念状态分布求取近似最优解.对比实验结果表明,该算法能快速收敛,以更少的时间获得相当精度的奖赏值.  相似文献   

3.
针对值迭代算法存在算法收敛不稳定及收敛速度慢的问题,文中提出改进的基于函数逼近的冗余值迭代算法.结合值迭代算法与贝尔曼冗余值迭代算法,引入权重因子,构建值函数参数更新向量.同时从理论上证明,利用此更新向量更新值函数参数可以保证算法收敛,解决值迭代算法收敛不稳定的问题.此外,算法引入遗忘因子,加快权重向量的更新速率和算法收敛速度.在Grid World问题上的实验表明,文中算法收敛性能较好,具有较好的鲁棒性.  相似文献   

4.
针对非对称旅行商问题(ATSP),提出基于反馈校正原理的自收敛求解算法框架.该方法核心是依据ATSP问题松弛模型的对偶关系推断与ATSP最优解无关弧集合的弧排除算法.该算法框架以ATSP问题的初始弧集合作为"参考输入",以ATSP最优解的上下界求解算法作为"控制对象",以弧排除算法作为"反馈校正控制器",其"反馈输入"是"控制对象"的输出差值.算法迭代过程中,上下界差值缩小,排除弧集合增加,算法呈现出自收敛性.该框架集成了数学规划方法和启发式算法的优点,论文从理论证明和仿真分析说明了该自收敛算法的有效性.  相似文献   

5.
为了改善人工鱼群算法求解精度较低、容易过早收敛的弱点,提出了一种应用佳点集和反向学习的人工鱼群算法.改进算法在迭代中对当前种群中部分优质个体执行一般动态反向学习,生成它们的反向种群,引导种群向包含全局最优的解空间逼近,以提高算法的平衡和探索能力.当种群的拥挤程度超过阈值λ时,利用佳点集机制对大部分个体重新初始化,以帮助算法脱离局部最优的约束.在六个Benchmark函数上的实验表明,该算法收敛速度快、求解精度高,适合求解函数优化问题.  相似文献   

6.
噪声通常是影响集装箱角件图像中低层次语义信息提取精度的重要因素,传统的边缘检测算法通常通过改进滤波器和阈值来消除图像中的物理噪声和环境噪声,但是却无法去除边缘检测后的噪声,为解决这一问题,提出了一种基于迭代拟合的边缘检测算法。首先,对角件图像进行一系列预处理操作获取边缘点集,其次,使用拟合算法处理点集并且得到函数表达式,然后定义偏差值度量并计算,用于衡量目标点集到拟合或者检测结果的偏差,最后,去除定义下距离拟合结果最远的指定数量的点,如此迭代拟合直至评价函数收敛。实验结果与分析表明,该算法可以有效地去除边缘点集中的非真实边缘点,相比于传统的边缘检测算法更能去除特殊噪声,算法具有收敛速度快、准确率较高、灵活性好等特点。  相似文献   

7.
基于试探(trial-based)的值迭代算法是求解部分可观察Markov决策过程(partially observable Markov decision process,POMDP)模型的一类有效算法,其中FSVI算法是目前最快的算法之一.然而对于较大规模的POMDP问题,FSVI计算MDP值函数的时间是不容忽视的.提出一种基于最短哈密顿通路(shortest Hamiltonian path)的值迭代算法(shortest Hamiltonian path-based value iteration,SHP-VI).该方法用求解最短哈密顿通路问题的蚁群算法计算一条最优信念状态轨迹,然后在这些信念状态上反向更新值函数.通过与FSVI算法的实验比较,结果表明SHP-VI算法很大程度地提高了基于试探的算法计算信念状态轨迹的效率.  相似文献   

8.
基于试探(trial-based)的值迭代算法是求解部分可观察Markov决策过程(partially observable Markov decision process,POMDP)模型的一类有效算法,其中FSVI算法是目前最快的算法之一.然而对于较大规模的POMDP问题,FSVI计算MDP值函数的时间是不容忽视的.提出一种基于最短哈密顿通路(shortest Hamiltonian path)的值迭代算法(shortest Hamiltonian path-based value iteration,SHP-VI).该方法用求解最短哈密顿通路问题的蚁群算法计算一条最优信念状态轨迹,然后在这些信念状态上反向更新值函数.通过与FSVI算法的实验比较,结果表明SHP-VI算法很大程度地提高了基于试探的算法计算信念状态轨迹的效率.  相似文献   

9.
提出一种基于修改增广Lagrange函数和PSO的混合算法用于求解约束优化问题。将约束优化问题转化为界约束优化问题,混合算法由两层迭代结构组成,在内层迭代中,利用改进PSO算法求解界约束优化问题得到下一个迭代点。外层迭代主要修正Lagrange乘子和罚参数,检查收敛准则是否满足,重构下次迭代的界约束优化子问题,检查收敛准则是否满足。数值实验结果表明该混合算法的有效性。  相似文献   

10.
王子赟  程林  王艳  纪志成 《控制与决策》2022,37(12):3223-3232
针对含有未知但有界噪声的离散系统故障诊断问题,提出基于正交超平形空间定向扩展的滤波故障诊断方法.首先,在传统超平形空间的结构基础上,利用相邻时刻超平行空间顶点极值定义正交超平行空间,包裹参数可行集的上下界的同时,保证参数边界值的单调收敛;随后,利用超平行空间与带空间的交集情况,检测系统是否发生故障,进而在故障发生时定向扩展正交超平行空间,依据带空间与正交超平行空间在扩展方向测试集的交集情况实现故障隔离;最后,利用正交超平形空间在迭代过程中的收缩性质完成故障识别.给出的仿真示例验证了算法的可行性和有效性.  相似文献   

11.
Recent scaling up of partially observable Markov decision process (POMDP) solvers toward realistic applications is largely due to point-based methods that quickly converge to an approximate solution for medium-sized domains. These algorithms compute a value function for a finite reachable set of belief points, using backup operations. Point-based algorithms differ on the selection of the set of belief points and on the order by which backup operations are executed on the selected belief points. We first show how current algorithms execute a large number of backups that can be removed without reducing the quality of the value function. We demonstrate that the ordering of backup operations on a predefined set of belief points is important. In the simpler domain of MDP solvers, prioritizing the order of equivalent backup operations on states is known to speed up convergence. We generalize the notion of prioritized backups to the POMDP framework, showing how existing algorithms can be improved by prioritizing backups. We also present a new algorithm, which is the prioritized value iteration, and show empirically that it outperforms current point-based algorithms. Finally, a new empirical evaluation measure (in addition to the standard runtime comparison), which is based on the number of atomic operations and the number of belief points, is proposed in order to provide more accurate benchmark comparisons.   相似文献   

12.
This communique presents an algorithm called “value set iteration” (VSI) for solving infinite horizon discounted Markov decision processes with finite state and action spaces as a simple generalization of value iteration (VI) and as a counterpart to Chang’s policy set iteration. A sequence of value functions is generated by VSI based on manipulating a set of value functions at each iteration and it converges to the optimal value function. VSI preserves convergence properties of VI while converging no slower than VI and in particular, if the set used in VSI contains the value functions of independently generated sample-policies from a given distribution and a properly defined policy switching policy, a probabilistic exponential convergence rate of VSI can be established. Because the set used in VSI can contain the value functions of any policies generated by other existing algorithms, VSI is also a general framework of combining multiple solution methods.  相似文献   

13.
Markov 控制过程在紧致行动集上的迭代优化算法   总被引:5,自引:0,他引:5       下载免费PDF全文
研究一类连续时间Markov控制过程(CTMCP)在紧致行动集上关于平均代价性能准则的优化算法。根据CTMCP的性能势公式和平均代价最优性方程,导出了求解最优或次最优平稳控制策略的策略迭代算法和数值迭代算法,在无需假设迭代算子是sp—压缩的条件下,给出了这两种算法的收敛性证明。最后通过分析一个受控排队网络的例子说明了这种方法的优越性。  相似文献   

14.
针对传统蚁群算法在路径规划中存在收敛速度和寻优能力不平衡,算法易陷入局部最优等问题,提出一种自适应改进蚁群算法。为了提高算法收敛速度,在栅格环境下,根据最优路径的特点以及实际环境地图的基本参数,对初始信息素进行差异化分配;为了提高蚂蚁搜索效率,在状态转移概率中引入转角启发信息并对路径启发信息进行改进;重新制定信息素更新策略,设定迭代阈值,调整信息素挥发系数和信息素浓度,使算法在迭代后期依然具有较强的搜索最优解能力;采用分段三阶贝塞尔曲线对最优路径进行平滑处理以满足机器人实际运动要求。通过实验仿真与其他算法进行对比分析,验证了改进算法的可行性、有效性和优越性。  相似文献   

15.
强化学习(Reinforcement Learning)是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回报的最大化:值迭代、策略迭代、策略搜索。该文介绍了强化学习的原理、算法,并对有环境模型和无环境模型的离散空间值迭代算法进行研究,并且把该算法用于固定起点和随机起点的格子世界问题。实验结果表明,相比策略迭代算法,该算法收敛速度快,实验精度好。  相似文献   

16.
Estimating the partition function is a key but difficult computation in graphical models. One approach is to estimate tractable upper and lower bounds. The piecewise upper bound of Sutton et al. is computed by breaking the graphical model into pieces and approximating the partition function as a product of local normalizing factors for these pieces. The tree reweighted belief propagation algorithm (TRW-BP) by Wainwright et al. gives tighter upper bounds. It optimizes an upper bound expressed in terms of convex combinations of spanning trees of the graph. Recently, Globerson et al. gave a different, convergent iterative dual optimization algorithm TRW-GP for the TRW objective. However, in many practical applications, particularly those that train CRFs with many nodes, TRW-BP and TRW-GP are too slow to be practical. Without changing the algorithm, we prove that TRW-BP converges in a single iteration for associative potentials, and give a closed form for the solution it finds. The closed-form solution obviates the need for complex optimization. We use this result to develop new closed-form upper bounds for MRFs with arbitrary pairwise potentials. Being closed-form, they are much faster to compute than TRW-based bounds. We also prove similar convergence results for loopy belief propagation (LBP) and use it to obtain closed-form solutions to the LBP pseudomarginals and approximation to the partition function for associative potentials. We then use recent results proved by Wainwright et al for binary MRFs to obtain closed-form lower bounds on the partition function. We then develop novel lower bounds for arbitrary associative networks. We report on experiments with synthetic and real-world graphs. Our new upper bounds are considerably tighter than the piecewise bounds in practice. Moreover, we can compute our bounds on several graphs where TRW-BP does not converge. Our novel lower bound, in spite of being closed-form and much faster to compute, outperforms more complicated popular algorithms for computing lower bounds like mean-field on densely connected graphs by wide margins although it does worse on sparsely connected graphs like chains.  相似文献   

17.
林冬梅  王东 《计算机应用》2007,27(10):2478-2480
将蚁群算法与局部搜索优化算法结合,可抑制蚁群算法早熟收敛问题,并能提高蚁群算法的收敛速度。通过建立有效的局部搜索优化算法的参照优化边集,提高其求解质量和效率;引入路径交换策略提高蚁群算法的收敛速度和寻优能力。实验结果表明改进的混合蚁群算法能求解规模在2000个城市以内的旅行商问题的全局最优解。  相似文献   

18.
航空发动机叶片气动性能设计的改进要求叶片加工系统采用高精度、高效率的加工工艺,基于传统建模方法的叶片加工系统已难以满足当前的加工需求。提出一种基于改进麻雀搜索算法(SSA)的拟合方法,旨在利用最少控制点高效地达到曲线拟合的目标精度,进而提升传统建模方法的精度和效率,建立适用于数字孪生生产环境的高精度、高实时性的三维叶片模型,提高航空发动机叶片的加工合格率。启发式优化算法在B样条曲线拟合中存在收敛慢的问题,而SSA不断跃向最优解的特性使其能快速收敛。基于此,改进SSA的位置更新函数并给出内节点向量更新范围的概念,通过自动迭代内节点向量配置,利用最小二乘法计算最优控制点,依据局部和全局误差计算适应度值并参与下次迭代,多次迭代后得到符合目标精度的拟合曲线。此外,为提高SSA搜索最少控制点的效率,设计一种二分搜索方法。采用某型叶片截面数据进行拟合验证,结果表明,与传统定义节点向量方法和经典优化算法相比,该方法具有较高的拟合精度和收敛效率,在20和80个控制点下分别取得了1e-3 mm和1e-5 mm左右的拟合精度,在5e-3 mm目标精度下,收敛效率较粒子群优化算法、标准SSA分别提升了14....  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号