期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李琛李茂军杜佳佳《计算技术与自动化》2019,38(2):141-145

强化学习作为机器学习中的一种无监督式学习，在实际应用中的难点之一便是如何平衡强化学习中探索和利用之间的关系。在Q学习结合ε-greedy的基础上，提出了一种参数动态调整的策略。该策略是以学习者在学习过程中各状态下的学习状况为依据，实现参数的自适应，从而更好地平衡探索和利用之间的关系。同时，引入一种结合了试错法的动作删减机制，对备选动作集合进行"删减"，来提高学习者的探索效率。最后通过迷宫问题的实验仿真，验证了所提方法的有效性。相似文献

2.

基于动作概率的强化学习动作探索策略

《计算机应用与软件》2023,40(5)

相似文献

3.

基于强化学习的特征选择算法

朱振国赵凯旋刘民康《计算机系统应用》2018,27(10):214-218

针对在数据挖掘过程中存在的维度灾难和特征冗余问题,本文在传统特征选择方法的基础上结合强化学习中Q学习方法,提出基于强化学习的特征选择算法,智能体Agent通过训练学习后自主决策得到特征子集.实验结果表明,本文提出的算法能有效的减少特征数量并有较高的分类性能. 相似文献

4.

一种基于强化学习的UAV目标搜索算法*

张晶晶周德云张堃《计算机应用研究》2011,28(10):3659-3662

针对未知环境中无人机（unmanned aerial vehicles, UAV）目标搜索问题进行研究。建立UAV目标搜索模型,将强化学习理论应用于目标搜索问题中。提出一种未知环境中基于Q学习的UAV目标搜索算法,并将其与基于D-S证据理论的UAV搜索方法进行仿真比较。仿真结果显示此算法收敛且UAV快速搜索到了目标,此结果表明,通过对UAV在设定条件下的强化学习训练,可以使其具备一定的环境适应能力,UAV在没有任何目标信息的战场环境中能够有效执行搜索任务。相似文献

5.

基于深度强化学习的移动机器人路径规划

下载免费PDF全文

董瑶葛莹莹郭鸿湧董永峰杨琛《计算机工程与应用》2019,55(13):15-19

为解决传统的深度[Q]网络模型下机器人探索复杂未知环境时收敛速度慢的问题,提出了基于竞争网络结构的改进深度双[Q]网络方法（Improved Dueling Deep Double [Q]-Network,IDDDQN）。移动机器人通过改进的DDQN网络结构对其三个动作的值函数进行估计,并更新网络参数,通过训练网络得到相应的[Q]值。移动机器人采用玻尔兹曼分布与[ε]-greedy相结合的探索策略,选择一个最优动作,到达下一个观察。机器人将通过学习收集到的数据采用改进的重采样优选机制存储到缓存记忆单元中,并利用小批量数据训练网络。实验结果显示,与基本DDQN算法比,IDDDQN训练的机器人能够更快地适应未知环境,网络的收敛速度也得到提高,到达目标点的成功率增加了3倍多,在未知的复杂环境中可以更好地获取最优路径。相似文献

6.

一种多步Q强化学习方法 总被引：1，自引：0，他引：1

陈圣磊吴慧中韩祥兰肖亮《计算机科学》2006,33(3):147-150

Q 学习是一种重要的强化学习算法。本文针对 Q 学习和 Q(λ)算法的不足.提出了一种具有多步预见能力的Q学习方法:MQ 方法。首先给出了 MDP 模型.在分析 Q 学习和Q(λ)算法的基础上给出了 MQ 算法的推导过程,并分析了算法的更新策略和 k 值的确定原则。通过悬崖步行仿真试验验证了该算法的有效性。理论分析和数值试验均表明.该算法具有较强的预见能力.同时能降低计算复杂度,是一种有效平衡更新速度和复杂度的强化学习方法。相似文献

7.

基于注意力机制的深度强化学习交通信号控制

任安妮周大可冯锦浩唐慕尧李涛《计算机应用研究》2023,40(2)

深度强化学习（DRL）广泛应用于具有高度不确定性的城市交通信号控制问题中,但现有的DRL交通信号控制方法中,仅仅使用传统的深度神经网络,复杂交通场景下其感知能力有限。此外,状态作为强化学习的三要素之一,现有方法中的交通状态也需要人工精心的设计。因此,提出了一种基于注意力机制（attention mechanism）的DRL交通信号控制算法。通过引入注意力机制,使得神经网络自动地关注重要的状态分量以增强网络的感知能力,提升了信号控制效果,并减少了状态向量设计的难度。在SUMO（simulation of urban mobility）仿真平台上的实验结果表明,在单交叉口、多交叉口中,在低、高交通流量条件下,仅仅使用简单的交通状态,与三种基准信号控制算法相比,所提算法在平均等待时间、行驶时间等指标上都具有最好的性能。相似文献

8.

一种新的连续动作集学习自动机

刘晓毛宁《数据采集与处理》2015,30(6):1310-1317

学习自动机（Learning automation,LA）是一种自适应决策器。其通过与一个随机环境不断交互学习从一个允许的动作集里选择最优的动作。在大多数传统的LA模型中,动作集总是被取作有限的。因此,对于连续参数学习问题,需要将动作空间离散化,并且学习的精度取决于离散化的粒度。本文提出一种新的连续动作集学习自动机（Continuous action set learning automaton,CALA）,其动作集为一个可变区间,同时按照均匀分布方式选择输出动作。学习算法利用来自环境的二值反馈信号对动作区间的端点进行自适应更新。通过一个多模态学习问题的仿真实验,演示了新算法相对于3种现有CALA算法的优越性。相似文献

9.

一种基于强化学习的学习Agent 总被引：22，自引：2，他引：22

李宁高阳陆鑫陈世福《计算机研究与发展》2001,38(9):1051-1056

强化学习通过感知环境状态和从环境中获得不确定奖赏值来学习动态系统的最优行为策略,是构造智能Agent的核心技术之一,在面向Agent的开发环境AODE中扩充BDI模型,引入策略和能力心智成分,采用强化学习技术实现策略构造函数,从而提出一种基于强化学习技术的学习Agent,研究AODE中自适应Agent物结构和运行方式,使智能Agent具有动态环境的在线学习能力,有效期能够有效地满足Agent各种心智要求。相似文献

10.

一种多动机强化学习框架 总被引：1，自引：0，他引：1

赵凤飞覃征《计算机研究与发展》2013,50(2):240-247

以Q学习为代表的传统强化学习方法都是维持一个状态与动作的映射表.这种状态-动作的二层映射结构缺乏灵活性,同时不能有效地使用先验知识引导学习过程.为了解决这一问题,提出了一种基于多动机强化学习(MMRL)的框架.MMRL框架在状态与动作间引入动机层,将原有的状态-动作二层结构扩展为状态-动机-动作三层结构,可根据经验设置多个动机.通过动机的设定实现了先验知识的利用,进而加快了强化学习的进程,提高了强化学习的灵活性.实验表明,通过合理的动机设定,多动机强化学习的学习速度较传统强化学习有明显提升. 相似文献

11.

结构化状态空间中的递阶再励学习方法

孟江华朱纪洪孙增圻《控制与决策》2007,22(2):233-237

在状态空间满足结构化条件的前提下,通过状态空间的维度划分直接将复杂的原始MDP问题递阶分解为一组简单的MDP或SMDP子问题,并在线对递阶结构进行完善.递阶结构中嵌入不同的再励学习方法可以形成不同的递阶学习.所提出的方法在具备递阶再励学习速度快、易于共享等优点的同时,降低了对先验知识的依赖程度,缓解了学习初期回报值稀少的问题. 相似文献

12.

A learning architecture based on reinforcement learning for adaptive control of the walking machine LAURON

Winfried Ilg Karsten Berns 《Robotics and Autonomous Systems》1995,15(4):321-334

The learning of complex control behaviour of autonomous mobile robots is one of the actual research topics. In this article an intelligent control architecture is presented which integrates learning methods and available domain knowledge. This control architecture is based on Reinforcement Learning and allows continuous input and output parameters, hierarchical learning, multiple goals, self-organized topology of the used networks and online learning. As a testbed this architecture is applied to the six-legged walking machine LAURON to learn leg control and leg coordination. 相似文献

13.

Adaptive evolutionary programming based on reinforcement learning

Huaxiang Zhang Jing Lu 《Information Sciences》2008,178(4):971-984

This paper studies evolutionary programming and adopts reinforcement learning theory to learn individual mutation operators. A novel algorithm named RLEP (Evolutionary Programming based on Reinforcement Learning) is proposed. In this algorithm, each individual learns its optimal mutation operator based on the immediate and delayed performance of mutation operators. Mutation operator selection is mapped into a reinforcement learning problem. Reinforcement learning methods are used to learn optimal policies by maximizing the accumulated rewards. According to the calculated Q function value of each candidate mutation operator, an optimal mutation operator can be selected to maximize the learned Q function value. Four different mutation operators have been employed as the basic candidate operators in RLEP and one is selected for each individual in different generations. Our simulation shows the performance of RLEP is the same as or better than the best of the four basic mutation operators. 相似文献

14.

基于分数阶网络和强化学习的图像实例分割模型

李学明吴国豪周尚波林晓然谢洪斌《计算机应用》2022,42(2):574-583

针对目前的分数阶非线性模型图像特征提取能力不足导致分割精度较低的问题,提出一种基于分数阶网络和强化学习(RL)的图像实例分割模型,用来分割出图像中目标实例的高质量轮廓曲线.该模型共包含两层模块:1)第一层为二维分数阶非线性网络,主要采用混沌同步方法来获取图像中像素点的基础特征,并通过根据像素点间的相似性进行耦合连接的方... 相似文献

15.

基于复合神经网络的学习风格动态分析与研究

下载免费PDF全文

李超周泓《计算机工程与应用》2018,54(6):150-155

近年随着慕课（MOOC）等新兴教育教学手段的快速发展,大量的学习者学习行为可以被系统所记录和分析,从而为个性化教学奠定了重要基础。在Felder-Silverman学习风格模型的理论基础上,通过引入智能分析算法动态地分析和识别学习者学习风格,构建了一套融合了卷积神经网络和循环神经网络的“识别-推理”复合模型,通过学习者的线上学习行为、社区交互行为、学习内容浏览行为、点击拖动行为等学习过程识别其学习行为特征,并使用基于门控循环单元（Gated Recurrent Unit,GRU）的循环神经网络处理和预测其可能的学习风格及对学习内容形式的偏好,以更高效地为学习者提供适应于其学习风格的学习内容和路径,优化学习体验,为大规模、个性化和高质量的下一代学习平台提供技术支撑。相似文献

16.

基于强化学习的渗透路径推荐模型

赵海妮焦健《计算机应用》2022,42(6):1689-1694

渗透测试的核心问题是渗透测试路径的规划,手动规划依赖测试人员的经验,而自动生成渗透路径主要基于网络安全的先验知识和特定的漏洞或网络场景,所需成本高且缺乏灵活性。针对这些问题,提出一种基于强化学习的渗透路径推荐模型QLPT,通过多回合的漏洞选择和奖励反馈,最终给出针对渗透对象的最佳渗透路径。在开源靶场的渗透实验结果表明,与手动测试的渗透路径相比,所提模型推荐的路径具有较高一致性,验证了该模型的可行性与准确性;与自动化渗透测试框架Metasploit相比,该模型在适应所有渗透场景方面也更具灵活性。相似文献

17.

基于强化学习的适应性微粒群算法 总被引：1，自引：0，他引：1

邢长明刘方爱《控制与决策》2011,26(1):54-58

惯性权重足微粒群算法(PSO)的重要参数,它可以甲衡算法的全局和局部搜索能力的关系,改善算法的性能.对此,提出一种基于强化学习的适应性微粒群算法(RPSO).首先将不同惯性权重调整策略视为粒子的行动集合;然后通过计算Q函数值.考察粒子多步进化的效果;进而选择粒_了最优进化策略,动态调整惯性权重,以增强算法寻找全局最优的... 相似文献

18.

强化学习的自动驾驶控制技术研究进展

下载免费PDF全文

潘峰鲍泓《中国图象图形学报》2021,26(1):28-35

自动驾驶车辆的本质是轮式移动机器人,是一个集模式识别、环境感知、规划决策和智能控制等功能于一体的综合系统。人工智能和机器学习领域的进步极大推动了自动驾驶技术的发展。当前主流的机器学习方法分为：监督学习、非监督学习和强化学习3种。强化学习方法更适用于复杂交通场景下自动驾驶系统决策和控制的智能处理,有利于提高自动驾驶的舒适性和安全性。深度学习和强化学习相结合产生的深度强化学习方法成为机器学习领域中的热门研究方向。首先对自动驾驶技术、强化学习方法以及自动驾驶控制架构进行简要介绍,并阐述了强化学习方法的基本原理和研究现状。随后重点阐述了强化学习方法在自动驾驶控制领域的研究历史和现状,并结合北京联合大学智能车研究团队的研究和测试工作介绍了典型的基于强化学习的自动驾驶控制技术应用,讨论了深度强化学习的潜力。最后提出了强化学习方法在自动驾驶控制领域研究和应用时遇到的困难和挑战,包括真实环境下自动驾驶安全性、多智能体强化学习和符合人类驾驶特性的奖励函数设计等。研究有助于深入了解强化学习方法在自动驾驶控制方面的优势和局限性,在应用中也可作为自动驾驶控制系统的设计参考。相似文献

19.

一类非线性动态系统基于强化学习的最优控制制

陈学松刘富春《控制与决策》2013,28(12):1889-1893

提出一类非线性不确定动态系统基于强化学习的最优控制方法. 该方法利用欧拉强化学习算法估计对象的未知非线性函数, 给出了强化学习中回报函数和策略函数迭代的在线学习规则. 通过采用向前欧拉差分迭代公式对学习过程中的时序误差进行离散化, 实现了对值函数的估计和控制策略的改进. 基于值函数的梯度值和时序误差指标值, 给出了该算法的步骤和误差估计定理. 小车爬山问题的仿真结果表明了所提出方法的有效性.

相似文献