首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
应用Markov决策过程与性能势相结合的方法,给出了呼叫接入控制的策略优化算法。所得到的最优策略是状态相关的策略,与基于节点已占用带宽决定行动的策略相比,状态相关策略具有更好的性能值,而且该算法具有很快的收敛速度。  相似文献   

2.
不确定环境的时序决策问题是强化学习研究的主要内容之一,agent的目标是最大化其与环境交互过程中获得的累计奖赏值.直接学习方法寻找最优策略的算法收敛效率较差,而采用Dyna结构将学习与规划并行集成,可提高算法的收敛效率.为了进一步提高传统Dyna结构的收敛速度和收敛精度,提出了Dyna-PS算法,并在理论上证明了其收敛性.该算法在Dyna结构规划部分使用优先级扫描算法的思想,对优先级函数值高的状态优先更新,剔除了传统值迭代、策略迭代过程中不相关和无更新意义的状态更新,提升了规划的收敛效率,从而进一步提升了Dyna结构算法的性能.将此算法应用于一系列经典规划问题,实验结果表明,Dyna-PS算法有更快的收敛速度和更高的收敛精度,且对于状态空间的增长具有较强的鲁棒性.  相似文献   

3.
黄永皓  陈曦 《控制与决策》2010,25(6):857-861
研究机会式频谱接入技术中探测与接入策略的优化问题.首先,以与原问题等价的信度马尔可夫决策过程为基本模型,基于性能势的核心概念,从性能灵敏度的角度出发,分析不同策略下系统的性能差异,给出了优化探测与接入策略的迭代算法;然后,通过分析系统的样本路径,结合该问题中连续状态空间可集结的特点,进一步讨论了策略迭代算法的基于样本路径的具体实现.两个仿真示例验证了算法的有效性.  相似文献   

4.
《机器人》2016,(4)
针对复杂场景中多特征融合视觉跟踪算法存在的问题,提出了一种基于改进融合策略的多特征跟踪算法.该算法在粒子滤波跟踪框架下通过改进融合方式,修正融合算法中常见的计算问题和量纲缺陷.在新的融合策略中引入目标状态关系图,可以提高跟踪的定位精度和稳定性.当目标状态存在偏差时,利用稀疏度对特征不确定性进行度量,在线选取最优状态,保证粒子状态空间质量,提高目标跟踪算法性能.实验结果表明,该算法比单特征跟踪、其他多特征融合策略跟踪算法具有更高的跟踪稳定性和更强的鲁棒性,3组实验的均方根误差小于1.2像素.  相似文献   

5.
针对双目标旅行商问题提出了基于Pareto概念的最大最小蚂蚁算法(P--MMAS). 通过重新设计状态转移策略、信息素更新策略及局部搜索策略, 同时引入基于自适应网格的多样性保持策略与信息素平滑机制, 使算法能够快速搜索到在目标空间上均匀分布的近似Pareto前端. 通过在6个标准测试函数上的实验及在热轧批量计划优化中的应用, 表明P--MMAS具有良好的优化性能及实用性.  相似文献   

6.
将函数逼近用于强化学习是目前机器学习领域的一个新的研究热点.针对传统的基于查询表及函数逼近的Q(λ)学习算法在大规模状态空间中收敛速度慢或者无法收敛的问题,提出一种基于线性函数逼近的离策略Q(λ)算法.该算法通过引入重要性关联因子,在迭代次数逐步增长的过程中,使得在策略与离策略相统一,确保算法的收敛性.同时在保证在策略与离策略的样本数据一致性的前提下,对算法的收敛性给予理论证明.将文中提出的算法用于Baird反例、Mountain-Car及Random Walk仿真平台,实验结果表明,该算法与传统的基于函数逼近的离策略算法相比,具有较好的收敛性;与传统的基于查询表的算法相比,具有更快的收敛速度,且对于状态空间的增长具有较强的鲁棒性.  相似文献   

7.
基于分块的相关滤波跟踪算法在处理目标尺度变化和遮挡问题时,对局部子块跟踪状态的评估及局部子块与尺度变化的关系刻画不够准确.针对此问题,文中提出尺度感知的分块协同式相关滤波跟踪算法.首先提出结合时序平滑约束的局部子块遮挡判别方法,改进现有算法的评分策略.设计子块协同运动策略,使被遮挡或形变的子块跟随未被遮挡的子块趋向正确的位置.同时发现跟踪过程中子块聚散变化的分布位置与目标尺度之间的比例关系,实现对目标尺度变化的感知和大小估计.实验表明,文中算法性能较优.  相似文献   

8.
针对无线传感器网络(WSNs)目标跟踪应用中的跟踪精度与能耗问题,提出一种能量均衡消耗的目标跟踪协同算法.该算法以正六边形网格作为分簇模型,能动态地唤醒无线传感器网络中合适的簇对目标状态进行估计.同时引入了虚拟簇头的概念用于优化簇头选举策略.仿真分析表明:所提出的算法与簇内集中式算法相比不仅具有相当的估计性能,并能有效降低对簇头节点的性能要求.除此之外,通过自适应动态簇头选举策略,有效地均衡了各簇中节点能量消耗,提高了系统的健壮性.  相似文献   

9.
对话策略是人机对话系统中的重要组成成分,其性能的优劣直接影响对话系统的性能.在面对完全没有数据的冷启动场景时,收集对话数据进行对话策略学习的过程非常复杂和耗时.为在冷启动场景下能够保持良好性能,提出一种融合马尔科夫决策过程与信息熵的对话算法.利用马尔科夫决策过程快速获得下一步最优对话状态,并结合知识库通过引入属性信息熵方法排除多个状态值函数相同的最优状态,从而获取最优的系统响应动作.在音乐搜索领域数据集上的实验结果表明,与随机策略、基于规则和基于信息熵的算法相比,该算法分别缩短了2.24、0.84和0.03个对话轮次,且能够有效提高对话任务完成率.  相似文献   

10.
对话策略是人机对话系统中的重要组成成分,其性能的优劣直接影响对话系统的性能.在面对完全没有数据的冷启动场景时,收集对话数据进行对话策略学习的过程非常复杂和耗时.为在冷启动场景下能够保持良好性能,提出一种融合马尔科夫决策过程与信息熵的对话算法.利用马尔科夫决策过程快速获得下一步最优对话状态,并结合知识库通过引入属性信息熵方法排除多个状态值函数相同的最优状态,从而获取最优的系统响应动作.在音乐搜索领域数据集上的实验结果表明,与随机策略、基于规则和基于信息熵的算法相比,该算法分别缩短了2.24、0.84和0.03个对话轮次,且能够有效提高对话任务完成率.  相似文献   

11.
Markov控制过程基于单个样本轨道的在线优化算法   总被引:3,自引:1,他引:3  
在Markov性能势理论基础上, 研究了Markov控制过程的性能优化算法. 不同于传统的基于计算的方法, 文中的算法是根据单个样本轨道的仿真来估计性能指标关于策略参数的梯度, 以寻找最优 (或次优 )随机平稳策略. 由于可根据不同实际系统的特征来选择适当的算法参数, 因此它能满足不同实际工程系统在线优化的需要. 最后简要分析了这些算法在一个无限长的样本轨道上以概率 1的收敛性, 并给出了一个三 状态受控Markov过程的数值实例.  相似文献   

12.
一种基于非贪婪策略的网络蜘蛛搜索算法   总被引:4,自引:0,他引:4  
在分析传统网络蜘蛛搜索策略缺点的基础上,提出了一种非贪婪的链接选择策略,进而提出了一种基于非贪婪策略的启发式搜索算法。针对国外四所著名大学计算机系网站中计算机论文资源的搜索实验表明,新算法可以有效提高搜索效率。  相似文献   

13.
在现代处理器中,存储控制器是处理器芯片对片外存储器进行访问的管理者和执行者,其中对访存过程的调度算法会对实际访存性能产生十分重要的影响。针对已有调度算法在不同负载特征下自适应性不足的问题,提出了一种基于强化学习方法的ALHS算法,通过对访存调度中页命中优先时的连续页命中上限次数进行自适应调整,习得最优策略。多种不同典型访存模式的模拟结果显示,相比传统的FR-FCFS,ALHS算法运行速度平均提升了10.98%,并且可以获得近似于最优策略的性能提升,表明该算法能够自主探索环境并自我优化。  相似文献   

14.
分布式系统中一种动态负载均衡策略、相关模型及算法研究   总被引:13,自引:0,他引:13  
随着分布式系统的广泛应用 ,提高系统的性能的动态负载平衡策略也日益为人们所重视 .本文提出了中间应用服务器负载的一种动态均衡策略 ,并在 Java RMI技术的基础上构建了使用该策略的均衡模型 ,最后给出了该模型相应的实现算法  相似文献   

15.
In the theory of event‐based optimization (EBO), the decision making is triggered by events, which is different from the traditional state‐based control in Markov decision processes (MDP). In this paper, we propose a policy gradient approach of EBO. First, an equation of performance gradient in the event‐based policy space is derived based on a fundamental quantity called Q‐factors of EBO. With the performance gradient, we can find the local optimum of EBO using the gradient‐based algorithm. Compared to the policy iteration approach in EBO, this policy gradient approach does not require restrictive conditions and it has a wider application scenario. The policy gradient approach is further implemented based on the online estimation of Q‐factors. This approach does not require the prior information about the system parameters, such as the transition probability. Finally, we use an EBO model to formulate the admission control problem and demonstrate the main idea of this paper. Such online algorithm provides an effective implementation of the EBO theory in practice.  相似文献   

16.
Web-log mining for predictive Web caching   总被引:3,自引:0,他引:3  
Caching is a well-known strategy for improving the performance of Web-based systems. The heart of a caching system is its page replacement policy, which selects the pages to be replaced in a cache when a request arrives. In this paper, we present a Web-log mining method for caching Web objects and use this algorithm to enhance the performance of Web caching systems. In our approach, we develop an n-gram-based prediction algorithm that can predict future Web requests. The prediction model is then used to extend the well-known GDSF caching policy. We empirically show that the system performance is improved using the predictive-caching approach.  相似文献   

17.
Task demonstration is an effective technique for developing robot motion control policies. As tasks become more complex, however, demonstration can become more difficult. In this work, we introduce an algorithm that uses corrective human feedback to build a policy able to perform a novel task, by combining simpler policies learned from demonstration. While some demonstration-based learning approaches do adapt policies with execution experience, few provide corrections within low-level motion control domains or to enable the linking of multiple of demonstrated policies. Here we introduce Feedback for Policy Scaffolding (FPS) as an algorithm that first evaluates and corrects the execution of motion primitive policies learned from demonstration. The algorithm next corrects and enables the execution of a more complex task constructed from these primitives. Key advantages of building a policy from demonstrated primitives is the potential for primitive policy reuse within multiple complex policies and the faster development of these policies, in addition to the development of complex policies for which full demonstration is difficult. Policy reuse under our algorithm is assisted by human teacher feedback, which also contributes to the improvement of policy performance. Within a simulated robot motion control domain we validate that, using FPS, a policy for a novel task is successfully built from motion primitives learned from demonstration. We show feedback to both aid and enable policy development, improving policy performance in success, speed and efficiency.  相似文献   

18.
一种实时异构系统的集成动态调度算法   总被引:10,自引:0,他引:10  
乔颖  邹冰  方亭  王宏安  戴国忠 《软件学报》2002,13(12):2251-2258
提出了一种实时异构系统的集成动态调度算法.该算法通过一个新的任务分配策略以及软实时任务的服务质量QoS(quality of service)降级策略,不仅以统一方式完成了对实时异构系统中硬、软实时任务的集成动态调度,而且提高了算法的调度成功率.同时,还进行了大量的模拟研究.这些模拟以传统的近视算法为基准,将其应用在实时异构系统集成动态调度时的调度成功率与新算法进行比较,模拟结果表明,在多种任务参数取值下,新算法的调度成功率均高于传统的近视算法.  相似文献   

19.
黄浩  唐昊  周雷  程文娟 《计算机应用》2015,35(7):2067-2072
研究了服务率不确定情况下的单站点传送带给料加工站(CSPS)系统的鲁棒优化控制问题。在仅知服务率区间的条件下,以CSPS系统的前视距离作为控制变量,将鲁棒优化控制问题建模成不确定参数的半马尔可夫决策过程(SMDP)的极大极小优化问题,在状态相关的情况下,给出全局优化算法进行鲁棒控制策略求解。首先,运用遗传算法求解固定策略下的最差性能值;其次,根据求解得到的最差性能值,运用模拟退火算法求解最优鲁棒控制策略。仿真结果表明,服务率不确定的CSPS系统的最优鲁棒性能代价与服务率固定为区间中值系统的最优性能代价相差不大,并且随着不确定区间的缩小,两者的差值越小,说明了全局优化算法的有效性。  相似文献   

20.
A multi-agent reinforcement learning algorithm with fuzzy policy is addressed in this paper. This algorithm is used to deal with some control problems in cooperative multi-robot systems. Specifically, a leader-follower robotic system and a flocking system are investigated. In the leader-follower robotic system, the leader robot tries to track a desired trajectory, while the follower robot tries to follow the reader to keep a formation. Two different fuzzy policies are developed for the leader and follower, respectively. In the flocking system, multiple robots adopt the same fuzzy policy to flock. Initial fuzzy policies are manually crafted for these cooperative behaviors. The proposed learning algorithm finely tunes the parameters of the fuzzy policies through the policy gradient approach to improve control performance. Our simulation results demonstrate that the control performance can be improved after the learning.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号