期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

官蕊丁家满《计算机应用与软件》2022,39(3):223-228

推荐算法在一定程度上解决了信息过载问题,但传统推荐模型在挖掘数据特性方面有待改进。为此,结合强化学习方法提出一种融合序列模式评分的策略梯度推荐算法。将推荐过程建模为马尔可夫决策过程;分析推荐基础数据特性模式,设计以序列模式评分为奖励的反馈函数,在算法的每一次迭代过程中学习;通过对累积奖励设计标准化操作来降低策略梯度的方差。将该方法应用到电影推荐中进行验证,结果表明所提方法具有较好的推荐准确性。相似文献

2.

基于强化学习的多样性文档排序算法

官蕊丁家满贾连印游进国姜瑛《计算机工程与科学》2020,42(9):1697-1703

在排序学习方法中,通过直接优化信息检索评价指标来学习排序模型的方法,取得了很好的排序效果,但是其损失函数在利用所有排序位置信息以及融合多样性排序因素方面还有待提高。为此,提出基于强化学习的多样性文档排序算法。首先,将强化学习思想应用于文档排序问题,通过将排序行为建模为马尔可夫决策过程,在每一次迭代过程中利用所有排序位置的信息,不断为每个排序位置选择最优的文档。其次,在排序过程中结合多样性策略,依据相似度阈值,裁剪高度相似的文档,从而保证排序结果的多样性。最后,在公共数据集上的实验结果表明,提出的算法在保证排序准确性的同时,增强了排序结果的多样性。相似文献

3.

策略梯度强化学习中的最优回报基线 总被引：2，自引：0，他引：2

王学宁徐昕吴涛贺汉根《计算机学报》2005,28(6):1021-1026

尽管策略梯度强化学习算法有较好的收敛性,但是在梯度估计的过程中方差过大,却是该方法在理论和应用上的一个主要弱点,为减小梯度强化学习算法的方差,该文提出一种新的算法——Istate-Grbp算法：在策略梯度算法Istate-GPOMDP中加入回报基线,以改进策略梯度算法的学习性能,文中证明了在Istate-GPOMDP算法中引入回报基线,不会改变梯度估计的期望值,并且给出了使方差最小的最优回报基线,实验结果表明,和已有算法相比,该文提出的算法通过减小梯度估计的方差,提高了学习效率,加快了学习过程的收敛。相似文献

4.

基于强化学习的多目标车辆跟随决策算法

邓小豪侯进谭光鸿万斌杨曹婷婷《控制与决策》2021,36(10):2497-2503

为满足自适应巡航系统跟车模式下的舒适性需求并兼顾车辆安全性和行车效率,解决已有算法泛化性和舒适性差的问题,基于深度确定性策略梯度算法(deep deterministic policy gradient,DDPG),提出一种新的多目标车辆跟随决策算法.根据跟随车辆与领航车辆的相互纵向运动学特性,建立车辆跟随过程的马尔可... 相似文献

5.

神经网络增强学习的梯度算法研究 总被引：11，自引：1，他引：11

徐昕贺汉根《计算机学报》2003,26(2):227-233

针对具有连续状态和离散行为空间的Markov决策问题，提出了一种新的采用多层前馈神经网络进行值函数逼近的梯度下降增强学习算法，该算法采用了近似贪心且连续可微的Boltzmann分布行为选择策略，通过极小化具有非平稳行为策略的Bellman残差平方和性能指标，以实现对Markov决策过程最优值函数的逼近，对算法的收敛性和近似最优策略的性能进行了理论分析，通过Mountain-Car学习控制问题的仿真研究进一步验证了算法的学习效率和泛化性能。相似文献

6.

无模型强化学习研究综述

秦智慧李宁刘晓彤刘秀磊佟强刘旭红《计算机科学》2021,48(3):180-187

强化学习(Reinforcement Learning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与环境进行交互来学习,最终将累积收益最大化.常用的强化学习算法分为模型化强化学习(Model-based Reinforcement Lear-ning)和无模型强化学习(Model-free... 相似文献

7.

基于策略梯度强化学习的高铁列车动态调度方法

俞胜平韩忻辰袁志明崔东亮《控制与决策》2022,37(9):2407-2417

高速铁路以其运输能力大、速度快、全天候等优势,取得了飞速蓬勃的发展.而恶劣天气等突发事件会导致列车延误晚点,更甚者延误会沿着路网不断传播扩散,其带来的多米诺效应将造成大面积列车无法按计划运行图运行.目前依靠人工经验的动态调度方式难以满足快速优化调整的实际要求.因此,针对突发事件造成高铁列车延误晚点的动态调度问题,设定所有列车在各站到发时间晚点总和最小为优化目标,构建高铁列车可运行情况下的混合整数非线性规划模型,提出基于策略梯度强化学习的高铁列车动态调度方法,包括交互环境建立、智能体状态及动作集合定义、策略网络结构及动作选择方法和回报函数建立,并结合具体问题对策略梯度强化学习(REINFORCE)算法进行误差放大和阈值设定两种改进.最后对算法收敛性及算法改进后的性能提升进行仿真研究,并与Q-learning算法进行比较,结果表明所提出的方法可以有效地对高铁列车进行动态调度,将突发事件带来的延误影响降至最小,从而提高列车的运行效率. 相似文献

8.

基于深度确定性策略梯度强化学习算法的航迹规划研究

杨友波张目唐俊雷印杰《现代计算机》2023,(5):1-7+27

航迹规划是无人机走向智能化的重要组成部分。目前已有的传统航迹规划算法存在实时规划能力差、无法处理动态场景、航迹不平滑等问题,现有的强化学习算法虽然能够实时规划,但是大多数算法主要应用在二维场景下,且存在容易碰撞障碍物、到达率低、航迹不平滑和航迹质量低等问题。针对上述问题,提出基于改进深度确定性策略梯度的强化学习算法,该算法融合自注意力机制,提取障碍物特征,躲避障碍,解决到达率低、实时规划能力差的问题,重新设计奖励函数,惩罚无人机“后退”行为,引入方向向量夹角引导机制,解决航迹不平滑问题。仿真验证结果表明,提出的改进算法在复杂动态场景下达到93.5%的到达率,平均飞行距离减少7.3%,推理时间减少26.2%,推理时间短,航迹符合无人机的飞行要求。相似文献

9.

基于值函数估计的参数探索策略梯度算法

赵婷婷杨梦楠陈亚瑞王嫄杨巨成《计算机应用研究》2023,40(8)

策略梯度估计方差大是策略梯度算法存在的普遍问题,基于参数探索的策略梯度算法（PGPE）通过使用确定性策略有效缓解了这一问题。然而,PGPE算法基于蒙特卡罗方法进行策略梯度的估计,需要大量学习样本才能保证梯度估计相对稳定,因此,梯度估计方差大阻碍了其在现实问题中的实际应用。为进一步减小PGPE算法策略梯度估计的方差,提出了基于值函数估计的参数探索策略梯度算法（PGPE-FA）,该算法在PGPE算法中引入Actor-Critic框架。具体地,提出的方法使用价值函数估计策略梯度,代替了PGPE方法使用轨迹样本估计策略梯度的方式,从而减小梯度估计方差。最后,通过实验验证了所提算法能够减小梯度估计的方差。相似文献

10.

平均奖赏强化学习算法研究 总被引：7，自引：0，他引：7

高阳周如益王皓曹志新《计算机学报》2007,30(8):1372-1378

顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证明了平均奖赏强化学习的逼近定理.通过逼近相对参考状态的性能势值函数,研究一个新的平均奖赏强化学习算法--G-学习算法.G-学习算法既可以用于MDP,也可以用于SMDP.不同于经典的R-学习算法,G-学习算法采用相对参考状态的性能势值函数替代相对平均奖赏和的相对值函数.在顾客访问控制和生产库存仿真实验中,G-学习算法表现出优于R-学习算法和SMART算法的性能. 相似文献

11.

基于梯度粒子群算法的细菌觅食算法

麦雄发李玲《计算机应用研究》2012,29(11):4131-4133

针对细菌觅食算法在优化过程中环境感知能力较弱且容易陷入局部极值的缺陷,将梯度粒子群算法的基本思想引入细菌觅食算法中,改进原算法的收敛速度和收敛能力,并据此提出了基于梯度粒子群算法的细菌觅食算法GPSO-BFA。该算法既利用了细菌觅食算法出色的全局搜索能力,又借助梯度粒子群算法的快速局部寻优能力,很好地将两者的优势结合在一起。基于六个高维Benchmark函数的实验结果显示,该算法在收敛速度和精度方面都优于其他四种细菌觅食算法。相似文献

12.

基于策略梯度算法的工作量证明中挖矿困境研究

王甜甜于双元徐保民《计算机应用》2019,39(5):1336-1342

针对区块链中工作量证明（PoW）共识机制下区块截留攻击导致的挖矿困境问题，将矿池间的博弈行为视作迭代的囚徒困境（IPD）模型，采用深度强化学习的策略梯度算法研究IPD的策略选择。利用该算法将每个矿池视为独立的智能体（Agent），将矿工的潜入率量化为强化学习中的行为分布，通过策略梯度算法中的策略网络对Agent的行为进行预测和优化，最大化矿工的人均收益，并通过模拟实验验证了策略梯度算法的有效性。实验发现，前期矿池处于相互攻击状态，平均收益小于1，出现了纳什均衡的问题；经过policy gradient算法的自我调整后，矿池由相互攻击转变为相互合作，每个矿池的潜入率趋于0，人均收益趋于1。实验结果表明，policy gradient算法可以解决挖矿困境的纳什均衡问题，最大化矿池人均收益。相似文献

13.

RLAR:基于增强学习的自适应路由算法

郑力明李晓冬李小勇《计算机工程与设计》2011,32(4):1190-1194

针对当前各种路由算法在广域网环境下由于不能适应各种拓扑环境和负载不均衡时所引起的路由性能不高等问题,提出了一种基于梯度上升算法实现的增强学习的自适应路由算法RLAR。增强学习意味着学习一种策略,即基于环境的反馈信息构造从状态到行为的映射,其本质为通过与环境的交互试验对策略集合进行评估。将增强学习策略运用于网络路由优化中,为路由研究提供了一种全新的思路。对比了多种现有的路由算法,实验结果表明,RLAR能有效提高网络路由性能。相似文献

14.

用于连续时间中策略梯度算法的动作稳定更新算法

宋江帆李金龙《计算机应用研究》2023,40(10):2928-2932+2944

在强化学习中,策略梯度法经常需要通过采样将连续时间问题建模为离散时间问题。为了建模更加精确,需要提高采样频率,然而过高的采样频率可能会使动作改变频率过高,从而降低训练效率。针对这个问题,提出了动作稳定更新算法。该方法使用策略函数输出的改变量计算动作重复的概率,并根据该概率随机地重复或改变动作。在理论上分析了算法性能。之后在九个不同的环境中评估算法的性能,并且将它和已有方法进行了比较。该方法在其中六个环境下超过了现有方法。实验结果表明,动作稳定更新算法可以有效提高策略梯度法在连续时间问题中的训练效率。相似文献

15.

CS模型下的IMM算法在目标跟踪中的应用

下载免费PDF全文

杨丽娜袁铸阎保定徐林《计算机工程与应用》2010,46(33):230-232

针对视觉伺服机器人对机动目标的跟踪问题,将当前统计模型（CS）引入IMM算法,与匀速模型（CV）组成模型集。在Matlab上对当前统计IMM算法和基本IMM算法进行仿真比较,结果表明当前统计IMMS算法跟踪机动目标的性能好于基本IMM算法,具有很好的收敛性和稳定性,提高了视觉伺服机器人对目标跟踪的准确性和快速性。相似文献

16.

基于PMC模型的MWOFD算法

下载免费PDF全文

宣恒农赵冬苗春玲张润驰刘田田《计算机工程与应用》2017,53(3):226-230

为了诊断出系统中的故障单元,首次将贝壳漫步优化算法用于解决系统级故障诊断问题,提出一种高效快速的诊断算法--MWOFD诊断（Mussels Wandering Optimization Fault Diagnosis）算法。结合系统级故障诊断的特点,设计了个体化编码及初始化的方法,并根据诊断模型所满足的方程约束重新设计了适应度函数,同时对二进制映射算法进行优化。最后将新算法与AD-FAFD算法,FAFD算法和EAFD算法进行实验对比,结果表明：MWOFD算法有效地提高了诊断正确率和诊断效率。相似文献

17.

基于动作空间划分的MAXQ自动分层方法

王奇秦进《计算机应用》2017,37(5):1357-1362

针对分层强化学习需要人工给出层次结构这一问题,同时考虑到基于状态空间的自动分层方法在环境状态中没有明显子目标时分层效果并不理想的情况,提出一种基于动作空间的自动构造层次结构方法。首先,根据动作影响的状态分量将动作集合划分为多个不相交的子集;然后,分析Agent在不同状态下的可用动作,并识别瓶颈动作;最后,由瓶颈动作与执行次序确定动作子集之间的上下层关系,并构造层次结构。此外,对MAXQ方法中子任务的终止条件进行修改,使所提算法构造的层次结构可以通过MAXQ方法找到最优策略。实验结果表明,所提算法可以自动构造层次结构,而不会受环境变化的干扰。与Q学习、Sarsa算法相比,MAXQ方法根据该结构得到最优策略的时间更短,获得回报更高。验证了所提算法能够有效地自动构造MAXQ层次结构,并使寻找最优策略更加高效。相似文献

18.

基于PMC故障模型的NASD诊断算法

丁元明何涛宣恒农《计算机工程与应用》2013,49(14):66-69

在PMC故障模型下,现有的自适应顺序诊断算法（ASD算法）不能充分利用所有的测试结果。为了有效地减少测试次数,提高诊断效率,提出一种新的自适应顺序诊断算法（NASD算法）。引入相对故障单元的概念,给出并证明了故障单元和无故障单元的判别定理。据此给出系统诊断的策略：（1）边寻求无故障单元边确诊故障单元;（2）已确认的故障单元不再参与任何测试;（3）找到无故障单元或故障单元数接近一半时,系统诊断结束。实例表明,NASD算法优于其他ASD算法。相似文献

19.

基于鸽群的鲁棒强化学习算法

下载免费PDF全文

张明英华冰张宇光李海东郑墨泓《网络与信息安全学报》2022,8(5):66-74

强化学习是一种人工智能算法,具有计算逻辑清晰、模型易扩展的优点,可以在较少甚至没有先验信息的前提下,通过和环境交互并最大化值函数,调优策略性能,有效地降低物理模型引起的复杂性。基于策略梯度的强化学习算法目前已成功应用于图像智能识别、机器人控制、自动驾驶路径规划等领域。然而强化学习高度依赖采样的特性决定了其训练过程需要大量样本来收敛,且决策的准确性易受到与仿真环境中不匹配的轻微干扰造成严重影响。特别是当强化学习应用于控制领域时,由于无法保证算法的收敛性,难以对其稳定性进行证明,为此,需要对强化学习进行改进。考虑到群体智能算法可通过群体协作解决复杂问题,具有自组织性及稳定性强的特征,利用其对强化学习进行优化求解是一个提高强化学习模型稳定性的有效途径。结合群体智能中的鸽群算法,对基于策略梯度的强化学习进行改进：针对求解策略梯度时存在迭代求解可能无法收敛的问题,提出了基于鸽群的强化学习算法,以最大化未来奖励为目的求解策略梯度,将鸽群算法中的适应性函数和强化学习结合估计策略的优劣,避免求解陷入死循环,提高了强化学习算法的稳定性。在具有非线性关系的两轮倒立摆机器人控制系统上进行仿真验证,实验结果表... 相似文献

20.

一种基于改进k-means的RBF神经网络学习方法 总被引：1，自引：0，他引：1

庞振徐蔚鸿《计算机工程与应用》2012,48(11):161-163,184

针对传统RBF神经网络学习算法构造的网络分类精度不高,传统的k-means算法对初始聚类中心的敏感,聚类结果随不同的初始输入而波动。为了解决以上问题,提出一种基于改进k-means的RBF神经网络学习算法。先用减聚类算法优化k-means算法,消除聚类的敏感性,再用优化后的k-means算法构造RBF神经网络。仿真结果表明了该学习算法的实用性和有效性。相似文献