期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈丽娜黄宏斌邓苏《计算机工程与应用》2012,48(15):7-11

主要研究一阶部分可观测马尔可夫决策过程的近似求解方法。给出了一阶信念、一阶信念粒度、流关键度的概念;提出了基于流关键度的粒度归结方法,统一一阶信念粒度;提出了一阶信念粒度距离度量方法,提出FO-PBVI方法,将PBVI提升到抽象层面。通过Tiger和Tag实验对方法进行了验证分析,通过实验可见FO-PBVI方法能够很好地适应问题规模的变化,能够求解较大规模的规划问题。相似文献

2.

基于环境状态分布优化的POMDP值迭代求解算法

朱荣鑫《计算机应用研究》2022,39(2):374-378

基于点的值迭代算法是一类解决POMDP问题的有效算法,PBVI是基于点集的经典算法,但是其算法效率较为低下。FSVI使用内在的MDP最优策略来降低算法复杂度,但求解大规模问题的效果较差。为解决上述问题,提出了基于环境状态分布优化的前向搜索值迭代算法（PBVI-OSD）,通过基于权重值的Q^MDP选出最佳的动作,基于信念状态和转换函数选取最大可能的状态,基于动作和状态从观察中随机选取一个观察概率大于阈值的观察,由此获得更具探索价值的后继信念点集,提升值迭代收敛的质量。在四个基准问题上的实验表明,相比于FSVI和PBVI,PBVI-OSD能保证收敛效率,特别是在大规模问题上能收敛到更好的全局最优解。相似文献

3.

基于实例的POMDP问题的近似求解

下载免费PDF全文

修国明张积滨潘启树《计算机工程与应用》2008,44(29):82-85

结合启发式求解和增强学习技术,深入研究了基于实例的POMDP问题的近似求解算法,包括基于最近邻算法法的NNI及它的参数化增强版本ENNI和基于局部加权回归算法的LWI,并通过实验对比,给出了相应算法在实际应用中的性能。实验证明,基于实例的方法来求解POMDP问题,能够获得性能较好的次优解。相似文献

4.

一种基于信念状态压缩的实时POMDP算法

仵博吴敏《控制与决策》2007,22(12):1417-1420

针对求解部分可观察马尔可夫决策过程（POMDP）信念状态空间是NP难问题．提出一种信念状态空间压缩（BSSC）算法．将信念状态空间的高维压缩到低维,利用动态贝叶斯网络对状态转移函数、观察函数和报酬函数进行压缩。降低求解规模,达到实时决策的目的．对比实验表明,所提出的算法可以快速求解最优策略和最优值函数．相似文献

5.

基于杂合标准的POMDP值迭代求解算法^*

刘峰《模式识别与人工智能》2016,29(11):961-968

基于点的值迭代方法是求解部分可观测马尔科夫决策过程(POMDP)问题的一类有效算法.目前基于点的值迭代算法大都基于单一启发式标准探索信念点集,从而限制算法效果.基于此种情况,文中提出基于杂合标准探索信念点集的值迭代算法(HHVI),可以同时维持值函数的上界和下界.在扩展探索点集时,选取值函数上下界差值大于阈值的信念点进行扩展,并且在值函数上下界差值大于阈值的后继信念点中选择与已探索点集距离最远的信念点进行探索,保证探索点集尽量有效分布于可达信念空间内.在4个基准问题上的实验表明,HHVI能保证收敛效率,并能收敛到更好的全局最优解. 相似文献

6.

基于信念点裁剪策略树的POMDP求解算法

郑红燕仵博冯延蓬孟宪军《信息与控制》2013,(1):53-57

针对大规模部分可观察马尔可夫决策过程(POMDP)算法中策略树规模指数级增长、已证信念点(witness point,WP)求解困难的问题,根据策略树值函数是分段线性凸函数的特点,提出一种基于信念点的策略树增量裁剪和值迭代求解算法.在策略树生成过程中,利用边界点进行无损裁剪,利用中间点进行有损裁剪,并利用实时信念状态分布求取近似最优解.对比实验结果表明,该算法能快速收敛,以更少的时间获得相当精度的奖赏值. 相似文献

7.

基于POMDP的跨层机会频谱接入优化设计

林正红江虹张娟《计算机工程》2014,(2):114-118

在功率受限的机会频谱接入(OSA)研究中,大多使用完全可观测马尔可夫决策过程(MDP)对环境建模,以提高物理层或介质访问控制(MAC)层指标,但由于感知设备的限制,无法保证用户对环境完全感知。为解决该问题,提出一种基于部分可观测马尔可夫决策过程(POMDP)与Sarsa(λ)的跨层OSA优化设计方案。结合MAC层和物理层,采用POMDP对功率受限且有感知误差的次用户频谱感知和接入过程进行建模,并将其转换为信念状态MDP(BMDP),使用Sarsa(λ)算法对其进行求解。仿真结果表明,在功率受限条件下,该Sarsa(λ)-BMDP方案的有效传输容量、吞吐量和频谱利用率分别比完全可观测Q-MDP方案低9%、7%和3%左右,其误比特率比基于点的值迭代PBVI-POMDP方案低20%左右,比Q-MDP方案高16%左右。相似文献

8.

POMDP-APF：一种基于POMDP模型的APF无人机路径规划策略

冯建新解爽郭冠麟潘成胜《计算机应用研究》2023,40(7)

针对无人机在路径规划过程中会遇到静态或者动态的障碍物,从而导致路径规划失败的问题,提出一种基于部分可观测马尔可夫决策过程（partially observable markov decision process,POMDP）模型的人工势场（artificial potential field,APF）无人机路径规划策略（POMDP-APF）。首先使用传感器获得的障碍物信息结合POMDP模型预测障碍物的未来位置,为无人机的路径规划做准备;其次,提出一种新的基于障碍物的正方体外接球的模型,保障无人机在路径规划过程中的安全性;最后,结合改进的APF算法实现无人机的路径规划。仿真结果表明,POMDP-APF策略在无人机实时路径规划中具有良好的可行性和有效性,使无人机能够有效避开障碍物,同时路径长度以及耗费时间更短。相似文献

9.

基于循环卷积神经网络的POMDP值迭代算法

于丹宁倪坤刘云龙《计算机工程》2021,47(2):90-94,102

基于卷积神经网络的部分可观测马尔科夫决策过程(POMDP)值迭代算法QMDP-net在无先验知识的情况下具有较好的性能表现,但其存在训练效果不稳定、参数敏感等优化难题.提出基于循环卷积神经网络的POMDP值迭代算法RQMDP-net,使用门控循环单元网络实现值迭代更新,在保留输入和递归权重矩阵卷积特性的同时增强网络时序... 相似文献

10.

基于部分可观测马尔可夫决策过程的水声传感器网络介质访问控制协议

徐明刘广钟《计算机应用》2015,35(11):3047-3050

针对水声传感器网络低带宽、高延迟特性造成的空时不确定性以及网络状态不能充分观察的问题,提出一种基于部分可观测马尔可夫决策过程(POMDP)的水声传感器网络介质访问控制协议.该协议首先将每个传感器节点的链路质量和剩余能量划分为多个离散等级来表达节点的状态信息.此后,接收节点通过信道状态观测和接入动作的历史信息对信道的占用概率进行预测,从而得出发送节点的信道最优调度策略;发送节点按照该策略中的调度序列在各自所分配的时隙内依次与接收节点进行通信,传输数据包.通信完成后,相关节点根据网络转移概率的统计量估计下一个时隙的状态.仿真实验表明,与传统的水声传感器网络介质访问控制协议相比,基于POMDP的介质访问控制协议可以提高数据包传输成功率和网络吞吐量,并且降低网络的能量消耗. 相似文献

11.

SHP-VI:一种基于最短哈密顿通路的POMDP值迭代算法

冯奇周雪忠黄厚宽张小平《计算机研究与发展》2011,(12)

基于试探(trial-based)的值迭代算法是求解部分可观察Markov决策过程(partially observable Markov decision process,POMDP)模型的一类有效算法,其中FSVI算法是目前最快的算法之一.然而对于较大规模的POMDP问题,FSVI计算MDP值函数的时间是不容忽视的.提出一种基于最短哈密顿通路(shortest Hamiltonian path)的值迭代算法(shortest Hamiltonian path-based value iteration,SHP-VI).该方法用求解最短哈密顿通路问题的蚁群算法计算一条最优信念状态轨迹,然后在这些信念状态上反向更新值函数.通过与FSVI算法的实验比较,结果表明SHP-VI算法很大程度地提高了基于试探的算法计算信念状态轨迹的效率. 相似文献

12.

预测行人运动的服务机器人POMDP 导航

钱堃马旭东戴先中房芳《机器人》2010,32(1):1

为提高室内动态环境下服务机器人对行人的自然避让能力,对人的运动轨迹模式进行建模,在此基础上引入了将行人运动长、短期预测结合起来的方法．为适应传感器噪声及网络延迟等因素所造成的感知—控制回路中的多源不确定性,将人与机器人的相对位置关系建模为部分可观的马尔可夫状态．采用部分可观的马尔可夫决策过程（POMDP）进行多源不确定性下的概率决策,协调控制机器人全局路径规划、反应式运动及速度控制等行为模块．实验结果验证,它能够实现提前避碰的安全导航,因避免反复的曲折与徘徊运动而提高了机器人导航效率．相似文献

13.

杂合启发式在线POMDP 规划

章宗长陈小平《软件学报》2013,24(7):1589-1600

许多不确定环境下的自主机器人规划任务都可以用部分可观察的马氏决策过程(partially observableMarkov decision process,简称POMDP)建模.尽管研究者们在近似求解技术的设计方面已经取得了显著的进展,开发高效的POMDP 规划算法依然是一个具有挑战性的问题.以前的研究结果表明:在线规划方法能够高效地处理大规模的POMDP 问题,因而是一类具有研究前景的近似求解方法.这归因于它们采取的是“按需”作决策而不是预前对整个状态空间作决策的方式.旨在通过设计一个新颖的杂合启发式函数来进一步加速POMDP 在线规划过程,该函数能够充分利用现有算法里一些被忽略掉的启发式信息.实现了一个新的杂合启发式在线规划(hybrid heuristiconline planning,简称HHOP)算法.在一组POMDP 基准问题上,HHOP 有明显优于现有在线启发式搜索算法的实验性能. 相似文献

14.

求解POMDP的动态合并激励学习算法

殷苌茗王汉兴陈焕文谢丽娟《计算机工程》2005,31(22):4-6,148

把POMDP作为激励学习（Reinforcement Leaming）问题的模型,对于具有大状态空间问题的求解有比较好的适应性和有效性。但由于其求解的难度远远地超过了一般的Markov决策过程（MDP）的求解,因此还有许多问题有待解决。该文基于这样的背景,在给定一些特殊的约束条件下提出的一种求解POMDP的方法,即求解POMDP的动态合并激励学习算法。该方法利用区域的概念,在环境状态空间上建立一个区域系统,Agent在区域系统的每个区域上独自并行地实现其最优目标,加快了运算速度。然后把各组成部分的最优值函数按一定的方式整合,最后得出POMDP的最优解。相似文献

15.

马尔可夫决策过程自适应决策的进展 总被引：6，自引：0，他引：6

李江洪韩正之《控制与决策》2001,16(1):7-11

在介绍一般马尔可夫决策过程的基础上,分析了当前主要马尔可夫过程自适应决策方法的基本思想、具体算法实现以及相应结论,总结了现有马尔可夫过程自适应决策算法的特点,并指出了需要进一步解决的问题。相似文献

16.

Access and Sharing Contents Through the Social Network: A POMDP Approach

下载免费PDF全文

Soufiana Mekouar El‐Houssine Bouyakhf Sihame El‐Hammani Khalil Ibrahimi 《Computational Intelligence》2017,33(4):680-705

Users interact in the social network by exchanging useful information. The huge amount of traffic generated requires the design of an accurate model for good management. Hence, knowing the consumers' access patterns is of a great interest for content owners. We propose a study of the access and sharing patterns based on the content's popularity. We suppose that popularity is inferred by the observation of the number of views. Our goal is twofold. On the one hand, we aim to help users select the optimal action that allows content owners to decide to change or not the used social network to another to increase their profits and, on the other hand, to assist consumers, according to their area of interest, to decide to access or not a posted content. We establish a threshold structure of the optimal policies based on a trade‐off study between profits (money, access to useful information, etc.) and costs (time spent to edit or consult content, etc.). The experimental results of the proposed analytical model show that both owners and consumers maximize their utility by choosing the best strategies. 相似文献

17.

基于改进MADDPG的UAV轨迹和计算卸载联合优化算法

苏维亚徐飞王森《计算机系统应用》2023,32(11):203-211

在地震、台风、洪水、泥石流等造成严重破坏的灾区,无人机(unmanned aerial vehicle, UAV)可以作为空中边缘服务器为地面移动终端提供服务,由于单无人机有限的计算和存储能力,难以实时满足复杂的计算密集型任务.本文首先研究了一个多无人机辅助移动边缘计算模型,并构建了数学模型;然后建立部分可观察马尔可夫决策过程,提出了基于复合优先经验回放采样方法的MADDPG算法(composite priority multi-agent deep deterministic policy gradient, CoP-MADDPG)对无人机的时延能耗以及飞行轨迹进行联合优化;最后,仿真实验结果表明,本文所提出算法的总奖励收敛速度和收敛值均优于其他基准算法,且可为90%左右的地面移动终端提供服务,证明了本文算法的有效性与实用性. 相似文献

18.

基于策略迭代和值迭代的POMDP算法

孙湧仵博冯延蓬《计算机研究与发展》2008,45(10)

部分可观察Markov决策过程是通过引入信念状态空间将非Markov链问题转化为Markov链问题来求解,其描述真实世界的特性使它成为研究随机决策过程的重要分支.介绍了部分可观察Markov决策过程的基本原理和决策过程,提出一种基于策略迭代和值迭代的部分可观察Markov决策算法,该算法利用线性规划和动态规划的思想,解决当信念状态空间较大时出现的"维数灾"问题,得到Markov决策的逼近最优解.实验数据表明该算法是可行的和有效的. 相似文献