首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
应用Markov决策过程与性能势相结合的方法,给出了呼叫接入控制的策略优化算法.所得到的最优策略是状态相关的策略,与基于节点已占用带宽决定行动的策略相比,状态相关策略具有更好的性能值,而且该算法具有很快的收敛速度.  相似文献   

2.
针对基本捕鱼策略优化算法(FSOA)在优化过程中存在易陷入局部最优、求解高维的复杂优化问题时优化性能不好的不足,对基本捕鱼策略优化算法(FSOA)进行了改进,提出了自调整的捕鱼策略优化算法(ADFSOA):算法采用时变的搜索半径,每个渔夫可根据自己所处的状态自我调整搜索策略。通过与基本FSOA、RFSOA和标准PSO算法的数值实验对比, 表明了所提算法的优化性能具有显著的优势,可用于求解高维的复杂优化问题。  相似文献   

3.
针对智能交通系统的开发,结合交通流特性,应用小波多分辨分析理论的Mallat 分解算法与RBF 神经网络建立交通流状态辨识组合算法。利用多种小波系数与交通流参数之间的相应变化规律进行RBF 网络输入参数设计,进而通过RBF 网络进行交通流状态突变的辨识。交通流状态的突变多与交通事件直接相关,故采用事件和非事件条件下的模拟数据对算法进行了离线测试。与传统算法的性能比较结果表明:组合算法在交通流状态突变辨识方面具有良好的性能。  相似文献   

4.
不确定环境的时序决策问题是强化学习研究的主要内容之一,agent的目标是最大化其与环境交互过程中获得的累计奖赏值.直接学习方法寻找最优策略的算法收敛效率较差,而采用Dyna结构将学习与规划并行集成,可提高算法的收敛效率.为了进一步提高传统Dyna结构的收敛速度和收敛精度,提出了Dyna-PS算法,并在理论上证明了其收敛性.该算法在Dyna结构规划部分使用优先级扫描算法的思想,对优先级函数值高的状态优先更新,剔除了传统值迭代、策略迭代过程中不相关和无更新意义的状态更新,提升了规划的收敛效率,从而进一步提升了Dyna结构算法的性能.将此算法应用于一系列经典规划问题,实验结果表明,Dyna-PS算法有更快的收敛速度和更高的收敛精度,且对于状态空间的增长具有较强的鲁棒性.  相似文献   

5.
随着云技术的发展,分布式应用平台朝着弹性资源和环境动态变迁的方向发展。分布式应用访问控制策略精化计算与资源和环境相关,也需要较强的性能与这种动态性相适应。现有的访问控制策略空间冲突分析方法虽然可以用于分布式访问控制策略精化中的策略冲突分析,但是该类算法以权限赋值单元为单位计算,计算粒度过细导致性能较低。提出了基于集合求交递推算法,以权限赋值单元集合为单位计算策略冲突来提高计算粒度。理论分析与实验结果表明该算法具有较高性能, 适用于云平台策略精化计算的高性能的需求。  相似文献   

6.
随着云技术的发展,分布式应用平台朝着弹性资源和环境动态变迁的方向发展。分布式应用访问控制策略精化计算与资源和环境相关,也需要较强的性能与这种动态性相适应。现有的访问控制策略空间冲突分析方法虽然可以用于分布式访问控制策略精化中的策略冲突分析,但是该类算法以权限赋值单元为单位计算,计算粒度过细导致性能较低。提出了基于集合求交递推算法,以权限赋值单元集合为单位计算策略冲突来提高计算粒度。理论分析与实验结果表明该算法具有较高性能,适用于云平台策略精化计算的高性能的需求。  相似文献   

7.
针对SDN控制器中网络路由的优化问题,基于强化学习中的PPO模型设计了一种路由优化算法。该算法可以针对不同的优化目标调整奖励函数来动态更新路由策略,并且不依赖于任何特定的网络状态,具有较强的泛化性能。由于采用了强化学习中策略方法,该算法对路由策略的控制相比各类基于Q-learning的算法更为精细。基于Omnet++仿真软件通过实验评估了该算法的性能,相比传统最短路径路由算法,路由优化算法在Sprint结构网络上的平均延迟和端到端最大延迟分别降低了29.3%和17.4%,吞吐率提高了31.77%,实验结果说明了基于PPO的SDN路由控制算法不仅具有良好的收敛性,而且相比静态最短路径路由算法与基于Q-learning的QAR路由算法具有更好的性能和稳定性。  相似文献   

8.
为有效监控与评估轴承工作状态,提出一种基于卷积稀疏组合算法评估方案。基于卷积神经网络框架建立轴承性能稀疏表示判别准则,并预测轴承的性能衰减程度;利用轴承衰减自相关函数,预判与轴承谱相关的密度条件,并在分析其他模型数值参量的基础上,验证评估方法的应用平稳性。选取退化指标作为实验对象,并通过分析相关的指标参数值可知,提出算法的评估结果可解释性强,能够较好维护轴承性能的衰减机制,影响系数值被控制在[-1,1]之间;在与传统算法的预测性能对比中,提出算法在两种状态下的偏差值分别为0.02和0.01,优于传统的轴承性能评估算法,同时在评估预测效率方面也具有一定优势。  相似文献   

9.
彭军  陈性元  吴蓓  代向东  王永亮 《计算机应用》2008,28(11):2832-2834
策略监控是完善策略管理系统、提高系统可靠性,并为第三方审计提供依据的有效途径之一。对策略整个生命周期中的状态进行了划分,引入Mealy自动机,对整个状态转换过程进行了建模,明确了监控对象及分析依据,从而实现了对策略状态的宏观监控,即通过合法性判定算法对策略进行的操作进行判定。最后,通过对自动机模型及判定算法的程序实现与性能测试可以看出,该算法能够及时有效地对事件数据进行处理响应。  相似文献   

10.
神经网络增强学习的梯度算法研究   总被引:11,自引:1,他引:11  
徐昕  贺汉根 《计算机学报》2003,26(2):227-233
针对具有连续状态和离散行为空间的Markov决策问题,提出了一种新的采用多层前馈神经网络进行值函数逼近的梯度下降增强学习算法,该算法采用了近似贪心且连续可微的Boltzmann分布行为选择策略,通过极小化具有非平稳行为策略的Bellman残差平方和性能指标,以实现对Markov决策过程最优值函数的逼近,对算法的收敛性和近似最优策略的性能进行了理论分析,通过Mountain-Car学习控制问题的仿真研究进一步验证了算法的学习效率和泛化性能。  相似文献   

11.
黄永皓  陈曦 《控制与决策》2010,25(6):857-861
研究机会式频谱接入技术中探测与接入策略的优化问题.首先,以与原问题等价的信度马尔可夫决策过程为基本模型,基于性能势的核心概念,从性能灵敏度的角度出发,分析不同策略下系统的性能差异,给出了优化探测与接入策略的迭代算法;然后,通过分析系统的样本路径,结合该问题中连续状态空间可集结的特点,进一步讨论了策略迭代算法的基于样本路径的具体实现.两个仿真示例验证了算法的有效性.  相似文献   

12.
《机器人》2016,(4)
针对复杂场景中多特征融合视觉跟踪算法存在的问题,提出了一种基于改进融合策略的多特征跟踪算法.该算法在粒子滤波跟踪框架下通过改进融合方式,修正融合算法中常见的计算问题和量纲缺陷.在新的融合策略中引入目标状态关系图,可以提高跟踪的定位精度和稳定性.当目标状态存在偏差时,利用稀疏度对特征不确定性进行度量,在线选取最优状态,保证粒子状态空间质量,提高目标跟踪算法性能.实验结果表明,该算法比单特征跟踪、其他多特征融合策略跟踪算法具有更高的跟踪稳定性和更强的鲁棒性,3组实验的均方根误差小于1.2像素.  相似文献   

13.
金玉净  朱文文  伏玉琛  刘全 《计算机科学》2014,41(6):239-242,249
Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导致Actor-Critic方法的性能受到一定限制。此外,Actor-Critic方法中需要近似地表示策略以及值函数,其中状态和动作的编码方法以及参数对Actor-Critic方法有重要的影响。Tile Coding编码具有简单易用、计算时间复杂度较低等优点,因此,将Tile Coding编码与基于模型的Actor-Critic方法结合,并将所得算法应用于强化学习仿真实验。实验结果表明,所得算法具有较好的性能。  相似文献   

14.
针对双目标旅行商问题提出了基于Pareto概念的最大最小蚂蚁算法(P--MMAS). 通过重新设计状态转移策略、信息素更新策略及局部搜索策略, 同时引入基于自适应网格的多样性保持策略与信息素平滑机制, 使算法能够快速搜索到在目标空间上均匀分布的近似Pareto前端. 通过在6个标准测试函数上的实验及在热轧批量计划优化中的应用, 表明P--MMAS具有良好的优化性能及实用性.  相似文献   

15.
本文提出了“进程状态矩阵选优算法”与“不抢占处理机的优先调度策略”及相应的通信方式,来满足一类快速响应控制系统的特殊要求。事实表明,这种选优算法与调度策略对提高处理机的快速响应性能有显著效果。  相似文献   

16.
哺乳动物的运动学习机制已得到广泛研究,犬科动物可以根据环境反馈的引导性信息自主地学习运动技能,对其提供更为特定的训练引导可以加快其对相关任务的学习速度.受上述启发,在软演员-评论家算法(SAC)的基础上提出一种基于期望状态奖励引导的强化学习算法(DSG-SAC),利用环境中的状态反馈机制来引导四足机器人进行有效探索,可以提高四足机器人仿生步态学习效果,并提高训练效率.在该算法中,策略网络与评价网络先近似拟合期望状态观测与当前状态的误差,再经过当前状态的正反馈后输出评价函数与动作,使四足机器人朝着期望的方向动作.将所提出算法在四足机器人上进行验证,通过实验结果可知,所提出的算法能够完成四足机器人的仿生步态学习.进一步,设计消融实验来探讨超参数温度系数和折扣因子对算法的影响,实验结果表明,改进后的算法具有比单纯的SAC算法更加优越的性能.  相似文献   

17.
将函数逼近用于强化学习是目前机器学习领域的一个新的研究热点.针对传统的基于查询表及函数逼近的Q(λ)学习算法在大规模状态空间中收敛速度慢或者无法收敛的问题,提出一种基于线性函数逼近的离策略Q(λ)算法.该算法通过引入重要性关联因子,在迭代次数逐步增长的过程中,使得在策略与离策略相统一,确保算法的收敛性.同时在保证在策略与离策略的样本数据一致性的前提下,对算法的收敛性给予理论证明.将文中提出的算法用于Baird反例、Mountain-Car及Random Walk仿真平台,实验结果表明,该算法与传统的基于函数逼近的离策略算法相比,具有较好的收敛性;与传统的基于查询表的算法相比,具有更快的收敛速度,且对于状态空间的增长具有较强的鲁棒性.  相似文献   

18.
一种用于图像匹配的演化算法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
图像匹配在目标检测、目标识别与跟踪等应用中是一项极其重要的技术。图像匹配的方法很多,现有的方法均采用遍历式搜索策略,因而计算量的降低有限,如果不采用新的搜索策略,则难以在计算量的降低上取得实质性的突破,这是现有图像相关匹配算法的共同缺陷。将演化算法引入匹配技术中,利用相关匹配计算简单、抗噪声性能好的特点,提出了一种基于演化算法的图像相关匹配方法。实验结果表明该方法具有运算速度快、正确匹配率高、抗噪声性能好等特点。  相似文献   

19.
信息年龄(AoI)是一种从目的端的角度衡量所捕获数据新鲜度的性能指标。在能量受限的实时感知物联网场景中,为了提高系统的AoI性能,提出了联合采样和混合反向散射通信更新的策略。该策略通过允许源端选择状态采样动作以及更新过程的传输模式来最小化系统的长期平均AoI。具体来说,首先将该优化问题建模为一个平均成本马尔可夫决策过程(MDP);然后在已知环境动态信息的情况下,通过相关值迭代算法获取最优策略;在缺乏环境动态信息的情况下,采用Q学习算法和探索利用方法,通过与环境的试错交互来学习最优策略。仿真结果表明,与两种参考策略相比,所提出的策略明显提高了系统AoI性能,同时发现系统的AoI性能随更新包尺寸的减小或者电池容量的增大而提升。  相似文献   

20.
基于分块的相关滤波跟踪算法在处理目标尺度变化和遮挡问题时,对局部子块跟踪状态的评估及局部子块与尺度变化的关系刻画不够准确.针对此问题,文中提出尺度感知的分块协同式相关滤波跟踪算法.首先提出结合时序平滑约束的局部子块遮挡判别方法,改进现有算法的评分策略.设计子块协同运动策略,使被遮挡或形变的子块跟随未被遮挡的子块趋向正确的位置.同时发现跟踪过程中子块聚散变化的分布位置与目标尺度之间的比例关系,实现对目标尺度变化的感知和大小估计.实验表明,文中算法性能较优.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号