期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

分层强化学习研究进展* 总被引：1，自引：0，他引：1

彭志平李绍平《计算机应用研究》2008,25(4):974-978

首先介绍了半马尔可夫决策过程、分层与抽象等分层强化学习的理论基础;其次,较全面地比较HAM、options、MAXQ和HEXQ四种典型的学习方法,从典型学习方法的拓展、学习分层、部分感知马尔可夫决策过程、并发和多agent合作等方面讨论分层强化学习的研究现状;最后指出分层强化学习未来的发展方向。相似文献

2.

基于半马尔可夫链的WLAN/CDMA联合呼叫接入控制

毛旭春潘甦《中国电子科学研究院学报》2010,5(1):69-73

下一代网络（NGN）将融合多种异构无线接入网络。为了在满足QoS限制下,最大化网络收益,在对WLAN／CDMA等效带宽的研究基础上,提出一种基于SMDP（半马尔可夫决策规划）的最优的联合呼叫接入控制（JCAC）方案,方案考虑了WLAN和CDMA网络间的相互影响,并将网络连接的联合呼叫控制问题等效成一个半马尔可夫决策过程,仿真表明方案相对于离散时间的MDP和在MDP基础上的JCAC算法具有明显的优势。相似文献

3.

基于SMDP强化学习的电力信息网络入侵检测研究

李帅王先培王泉德牛胜巍《电力自动化设备》2006,26(12):75-78

介绍了电力信息网络总体防护体系结构及安全现状,阐述了在电力信息网中常用的防火墙、入侵检测系统(IDS)等防护手段,分析了当前入侵检测方法及难以确定正常与异常的阀值、误报率和漏报率高的不足。提出了基于半马尔可夫决策过程(SMDP)强化学习的IDS模型。论述了强化学习的理论、算法及衡量标准,马尔可夫决策过程,SMDP在电力信息网络中的应用。改进后的SMDP学习算法,使系统的误报率降低、检测率提高。相似文献

4.

SMDP基于性能势的M步向前策略迭代

吴玉华唐昊周雷《吉林大学学报(工学版)》2006,36(6):958-0962

运用基于性能势的M步向前(look-ahead)异步策略迭代算法研究了半Markov决策过程(SMDP)优化问题。首先给出了基于性能势理论求解的一种M步向前策略迭代算法。该算法不仅对标准策略迭代算法和一般的异步策略迭代算法都适用,而且对SMDP在折扣和平均准则下的优化也是统一的;另外给出了两种性能准则下基于即时差分学习的M步向前仿真策略迭代。最后通过一个数值算例比较了各种算法的特点。相似文献

5.

分层增强学习在足球机器人比赛中的应用 总被引：4，自引：0，他引：4

李红娜姚分喜黄鸿《计算机仿真》2005,22(6):145-147

足球机器人的研究是一项挑战性的研究领域，为了设计出智能型的球员必须涉及到计算机、人工智能、视觉及机械学等方面的研究。球员的学习能力是体现其智能的主要标志。如何在不断改变的外界环境中选取合适的动作技巧是在机器人足球比赛中的一个关键问题。该文介绍了马尔可夫决策过程，在半马尔可夫决策模型下，利用分层增强学习算法对不同层次的动作学习和选取同时进行学习。在仿真平台上进行实验，结果表明该学习方法是非常有效的。相似文献

6.

Fairness-based joint call admission control for heterogeneous wireless networks: an SMDP approach

GuoQing Liu Min Sheng XiJun Wang Ying Li YuZhou Li 《中国科学:信息科学(英文版)》2014,57(8):1-12

In heterogeneous wireless networks, both terminal heterogeneity and network heterogeneity give rise to the fairness problem of resource allocation. Due to the capability of exploiting the resources of multiple networks, the behavior of multi-mode terminals will have a great effect on single-mode terminals, and this influence becomes more severe when considering the different demands of different traffic. In this article, we propose a novel joint call admission control （JCAC） scheme to address this problem. The JCAC problem is modeled as a semi-Markov decision process （SMDP） with the aim of maximizing the average network revenue under tile constraints of the fairness among different terminals and traffic classes. Based on the SMDP, we design an algorithm to achieve a good tradeoff between revenue and fairness by dynamically adjusting the threshold of fairness constraints imposed on heterogeneous terminals. Simulation results show that the proposed scheme can significantly improve the fairness among heterogeneous terminals and guarantee the priority and fairness among different traffic classes with little loss of network revenue compared with other schemes. 相似文献

7.

基于SMDP的光柴储独立微网能量控制策略优化

周康唐昊江琦吕凯蒋兰海《电力系统自动化》2016,40(21):154-160

考虑含光伏发电装置、储能装置和柴油发电机组的独立微网系统,以提高微网长期运行经济性为目标,研究微网能量管理优化问题。首先对系统的随机动态特性进行建模,即针对光伏发电和负荷变化的随机特性,将微网系统的能量控制建模为半马尔可夫决策过程(SMDP);然后采用随机动态规划算法对最优策略进行求解,得到微网在不同的光伏发电功率、负荷需求、储能荷电状态等级和柴油发电机组运行数量下对柴油发电机组和储能装置的最优控制行动。仿真结果说明了所建随机模型的合理性和优化方法的有效性。相似文献

8.

基于决策理论的CDMA网络中多类业务的准入控制策略

殷志明谢剑英《电子与信息学报》2003,25(9):1250-1254

准入控制是码分多址(CDMA)蜂窝网络中服务质量保证的一个关键技术．该文提出了一个基于半马尔可夫决策过程理论的最优准入控制策略来支持有服务质量要求的多类业务的无线CDMA网络．用线性规划方法求解最优策略，从而在满足服务质量约束要求的同时最大化信道利用率．另外，还使用了加权公平阻塞约束来灵活地实现服务质量要求．数值结果表明此最优策略可以获得比基于阈值的准入控制方案更好的性能．相似文献

9.

Look-ahead control of conveyor-serviced production station by using potential-based online policy iteration

Tang Hao Arai Tamio 《International journal of control》2013,86(10):1917-1928

We consider the look-ahead control of a conveyor-serviced production station (CSPS) in the context of semi-Markov decision process (SMDP) model, and our goal is to find an optimal control policy under either average- or discounted-cost criteria. Policy iteration (PI), combined with the concept of performance potential, can be applied to provide a unified optimisation framework for both criteria. However, a major difficulty arises in the exact solution scheme, that is, it requires not only the full knowledge of model parameters, but also a considerable amount of work to obtain and process the necessary system and performance matrices. To overcome this difficulty, we propose a potential-based online PI algorithm in this article. During implementation, by analysing and utilising the historic information of all the past operation of a practical CSPS system, the potentials and state-action values are learned on line through an effective exploration scheme. We finally illustrate the successful application of this learning-based technique in CSPS systems by an example. 相似文献

10.

基于SMDP的异构无线网络联合接纳控制策略研究

张媛媛肖创柏王坚《北京工业大学学报》2015,(9):1355-1364

为了异构无线网络中不同无线技术的融合协同工作可以为终端接人提供随时随地的高质量的网络服务,联合呼叫接纳控制机制是适用于异构无线网络的判决呼叫准入的机制.提出一种优化的联合呼叫接纳控制机制用于异构无线网络,将新的呼叫和切换呼叫作为触发接纳控制的事件,对影响服务质量的参数和接纳控制开销进行网络效用建模分析,使用改进的值迭代算法来降低计算复杂度,将阈值函数分成多个域,来获得最优决策策略.提出的联合接入控制策略可提供优化服务质量保证,节约整个网络的能耗成本,并且有效降低呼叫阻塞率和切换掉线率.实验结果表明:算法具有较高的求解有效性,而且求解速度快,具有较高的推广应用价值. 相似文献