排序方式: 共有72条查询结果,搜索用时 296 毫秒
1.
在功率受限的机会频谱接入(OSA)研究中,大多使用完全可观测马尔可夫决策过程(MDP)对环境建模,以提高物理层或介质访问控制(MAC)层指标,但由于感知设备的限制,无法保证用户对环境完全感知。为解决该问题,提出一种基于部分可观测马尔可夫决策过程(POMDP)与Sarsa(λ)的跨层OSA优化设计方案。结合MAC层和物理层,采用POMDP对功率受限且有感知误差的次用户频谱感知和接入过程进行建模,并将其转换为信念状态MDP(BMDP),使用Sarsa(λ)算法对其进行求解。仿真结果表明,在功率受限条件下,该Sarsa(λ)-BMDP方案的有效传输容量、吞吐量和频谱利用率分别比完全可观测Q-MDP方案低9%、7%和3%左右,其误比特率比基于点的值迭代PBVI-POMDP方案低20%左右,比Q-MDP方案高16%左右。 相似文献
2.
以认知无线网络动态频谱分配问题为研究对象,提出一种通用的动态频谱分配博弈框架,将频谱的动态变化、认知用户的可能影响频谱分配的自私的网络行为、频谱分配中的信息约束限制和分布式特性在动态频谱环境中加以考虑,通过VCG机制的部署和实施,有效的解决动态频谱分配问题,防止自私用户可能存在欺骗行为;为进一步提高认知无线网络中频谱分配方法的性能,提出了一种动态频谱分配的POMDP强化学习算法,通过认知用户依据它们自身历史信息的观察统计和学习,预测当前竞拍策略,通过累积折扣奖赏影响动态频谱分配。仿真结果表明,基于POMDP强化学习算法可以显著的改善认知用户的行为,提高动态频谱分配性能。 相似文献
3.
针对分布式系统存在的状态信息不完全问题,引入部分可观察的马尔可夫决策过程(POMDP)模型到生存控制系统中.在该控制系统的构造过程中,结合前瞻的思想,提出一种简易、有效的搜索算法(NSL算法)来作出决策,从而在一定程度上弥补了现有生存控制系统的不足,提高了分布式系统的可生存性. 相似文献
4.
5.
6.
为了充分利用先验信息,更好地对空闲频谱进行接入,针对认知无线电的多信道接入问题提出了一种基于半可观马尔可夫决策过程的认知无线电频谱接入方案.该方案采用信任向量,结合当前感知结果对主用户行为进行预测,并利用半可观马尔可夫决策理论选择出当前空闲概率最大的信道进行接入.同时根据信道前后相关性对次用户的发送时间、休眠时间进行了... 相似文献
7.
8.
Recently, many models of reinforcement learning with hierarchical or modular structures have been proposed. They decompose
a task into simpler subtasks and solve them by using multiple agents. However, these models impose certain restrictions on
the topological relations of agents and so on. By relaxing these restrictions, we propose networked reinforcement learning,
where each agent in a network acts autonomously by regarding the other agents as a part of its environment. Although convergence
to an optimal policy is no longer assured, by means of numerical simulations, we show that our model functions appropriately,
at least in certain simple situations.
This work was presented in part at the 13th International Symposium on Artificial Life and Robotics, Oita, Japan, January
31–February 2, 2008 相似文献
9.
10.