期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《软件》2016,(2):134-138

传统强化学习中,函数近似方法用于同一任务中不同状态之间的知识泛化。提出基于函数近似的知识迁移方法 KTBFA,实现不同任务之间的知识泛化与迁移。KTBFA方法在对状态-动作空间进行特征编码的基础上,使用线性函数逼近器近似表示Agent在源任务中学习到的V*值。近似函数作为知识迁移的表达形式,实现知识从源任务到目标任务的迁移。格子世界平台的实验结果表明,在相似任务中,基于KTBFA方法的Transfer-Q-learning算法的学习效率有非常大的提高。相似文献

2.

基于状态-动作图测地高斯基的策略迭代强化学习 总被引：3，自引：2，他引：1

程玉虎冯涣婷王雪松《自动化学报》2011,37(1):44-51

在策略迭代强化学习中,基函数构造是影响动作值函数逼近精度的一个重要因素.为了给动作值函数逼近提供合适的基函数,提出一种基于状态-动作图测地高斯基的策略迭代强化学习方法.首先,根据离策略方法建立马尔可夫决策过程的状态-动作图论描述;然后,在状态-动作图上定义测地高斯核函数,利用基于近似线性相关的核稀疏方法自动选择测地高斯... 相似文献

3.

基于径向基神经网络的多步Sarsa控制算法

司彦娜普杰信于晓升司鹏举孙力帆《控制与决策》2023,38(4):944-950

针对具有连续状态空间的无模型非线性系统,提出一种基于径向基(radial basis function, RBF)神经网络的多步强化学习控制算法.首先,将神经网络引入强化学习系统,利用RBF神经网络的函数逼近功能近似表示状态-动作值函数,解决连续状态空间表达问题;然后,结合资格迹机制形成多步Sarsa算法,通过记录经历过的状态提高系统的学习效率;最后,采用温度参数衰减的方式改进softmax策略,优化动作的选择概率,达到平衡探索和利用关系的目的. MountainCar任务的仿真实验表明:所提出算法经过少量训练能够有效实现无模型情况下的连续非线性系统控制;与单步算法相比,该算法完成任务所用的平均收敛步数更少,效果更稳定,表明非线性值函数近似与多步算法结合在控制任务中同样可以具有良好的性能. 相似文献

4.

双Q网络学习的迁移强化学习算法

曾睿周建刘满禄张俊俊陈卓《计算机应用研究》2021,38(6):1699-1703

深度强化学习在训练过程中会探索大量环境样本,造成算法收敛时间过长,而重用或传输来自先前任务(源任务)学习的知识,对算法在新任务(目标任务)的学习具有提高算法收敛速度的潜力.为了提高算法学习效率,提出一种双Q网络学习的迁移强化学习算法,其基于actor-critic框架迁移源任务最优值函数的知识,使目标任务中值函数网络对策略作出更准确的评价,引导策略快速向最优策略方向更新.将该算法用于Open AI Gym以及在三维空间机械臂到达目标物位置的实验中,相比于常规深度强化学习算法取得了更好的效果,实验证明提出的双Q网络学习的迁移强化学习算法具有较快的收敛速度,并且在训练过程中算法探索更加稳定. 相似文献

5.

基于奇异值分解及PRESS 统计的模型结构优化方法

李德才韩敏《控制与决策》2012,27(8):1273-1276

针对线性参数模型的基函数选择问题,结合奇异值分解和PRESS统计提出一种模型结构优化算法.通过预先对候选基函数矩阵进行分块操作,减少非最优列间的重复比较.在此基础上,对各子块采用奇异值分解与PRESS统计相结合的方法进行选择,直接以模型的泛化能力作为目标,自适应地选择基函数.通过奇异值分解,在降低候选基函数数量的同时,使其彼此之间相互正交,有效地简化了PRESS统计的计算复杂度.仿真结果表明,所提出的方法能够有效简化模型结构,并保持较高的预测精度. 相似文献

6.

一种基于进化泛函网络的建模与函数逼近方法

罗淇方周永权谢竹诚《计算机科学》2010,37(7):200-204

提出了一种进化泛函网络的建模与函数逼近方法,该方法把泛函网络建模过程转变为结构和泛函参数的优化搜索过程,利用遗传规划设计泛函网络神经元函数,对网络结构和参数共存且相互影响的复杂解空间进行全局最优搜索,实现泛函网络结构和参数的共同学习,并用混合基函数实现目标函数的逼近,改变了人们通常用同类型基函数来实现目标函数逼近的方式.数值仿真结果表明,提出的网络建模与逼近方法具有较高的逼近精度. 相似文献

7.

基于确定学习的机器人任务空间自适应神经网络控制 总被引：3，自引：0，他引：3

吴玉香王聪《自动化学报》2013,39(6):806-815

针对产生回归轨迹的连续非线性动态系统, 确定学习可实现未知闭环系统动态的局部准确逼近. 基于确定学习理论, 本文使用径向基函数(Radial basis function, RBF)神经网络为机器人任务空间跟踪控制设计了一种新的自适应神经网络控制算法, 不仅实现了闭环系统所有信号的最终一致有界, 而且在稳定的控制过程中, 沿着回归跟踪轨迹实现了部分神经网络权值收敛到最优值以及未知闭环系统动态的局部准确逼近. 学过的知识以时不变且空间分布的方式表达、以常值神经网络权值的方式存储, 可以用来改进系统的控制性能, 也可以应用到后续相同或相似的控制任务中, 节约时间和能量. 最后, 用仿真说明了所设计控制算法的正确性和有效性. 相似文献

8.

基于最小最大逼近强化学习的误差分析

吴沧浦刘念泉《控制与决策》2000,15(2):193-196

在基于动态规划的强化学习中,利用状态集结方法可以减小状态空间的大小,从而在一定程度上克服了维数灾的困难,同时还可以加快学习速度。但状态集结是一种逼近方法,由此产生的问题是,状态集结后的Ｑ－ｈａｔ强化学习收敛所得的最优Ｑ值函数与集结前相应的最优Ｑ值函数会有多大的误差。为此提出了基于最小最大逼近强化学习的误差估计。相似文献

9.

神经网络增强学习的梯度算法研究 总被引：11，自引：1，他引：11

徐昕贺汉根《计算机学报》2003,26(2):227-233

针对具有连续状态和离散行为空间的Markov决策问题，提出了一种新的采用多层前馈神经网络进行值函数逼近的梯度下降增强学习算法，该算法采用了近似贪心且连续可微的Boltzmann分布行为选择策略，通过极小化具有非平稳行为策略的Bellman残差平方和性能指标，以实现对Markov决策过程最优值函数的逼近，对算法的收敛性和近似最优策略的性能进行了理论分析，通过Mountain-Car学习控制问题的仿真研究进一步验证了算法的学习效率和泛化性能。相似文献

10.

连铸-轧制混流生产模式下轧批调度问题的分支-定价算法

汪恭书刘静宜唐立新《自动化学报》2017,43(7):1178-1189

研究了连铸——轧制在热装、温装和冷装混流生产模式下的一类新型轧批调度问题.以最小化温装钢坯（热钢锭）缓冷（等待）导致的热能损失和连轧机架切换带来的产能损失为目标,建立了整数规划模型.由于商业优化软件难以在有限时间内直接求得模型的最优解甚至可行解,提出利用Dantzig-Wolfe分解技术将原模型分解为主问题和子问题,采用列生成算法对主问题和子问题进行迭代求解得到原问题的紧下界,最后以列生成算法作为定界机制嵌入分支——定界框架中形成分支——定价算法,执行分支搜索过程以获得整数最优解.本文还从影响分支——定价算法性能的要素出发提出改进策略.针对主问题,提出列生成和拉格朗日松弛混合求解策略来抑制单一列生成算法的尾效应.针对价格子问题,在动态规划算法中提出了基于占优规则和标号下界计算方法来及早消除无效状态空间,加速求解过程.以钢铁企业的实际生产数据和扩展的随机算例进行了数值实验,结果显示所提出改进策略能够突破求解能力的限制,使分支——定价算法在可接受计算时间内求得工业规模问题的最优解. 相似文献

11.

Transfer in variable-reward hierarchical reinforcement learning 总被引：2，自引：1，他引：1

Neville Mehta Sriraam Natarajan Prasad Tadepalli Alan Fern 《Machine Learning》2008,73(3):289-312

Transfer learning seeks to leverage previously learned tasks to achieve faster learning in a new task. In this paper, we consider transfer learning in the context of related but distinct Reinforcement Learning (RL) problems. In particular, our RL problems are derived from Semi-Markov Decision Processes (SMDPs) that share the same transition dynamics but have different reward functions that are linear in a set of reward features. We formally define the transfer learning problem in the context of RL as learning an efficient algorithm to solve any SMDP drawn from a fixed distribution after experiencing a finite number of them. Furthermore, we introduce an online algorithm to solve this problem, Variable-Reward Reinforcement Learning (VRRL), that compactly stores the optimal value functions for several SMDPs, and uses them to optimally initialize the value function for a new SMDP. We generalize our method to a hierarchical RL setting where the different SMDPs share the same task hierarchy. Our experimental results in a simplified real-time strategy domain show that significant transfer learning occurs in both flat and hierarchical settings. Transfer is especially effective in the hierarchical setting where the overall value functions are decomposed into subtask value functions which are more widely amenable to transfer across different SMDPs. 相似文献

12.

ZD-PDM中面向目标的项目管理模型的设计 总被引：7，自引：0，他引：7

刘乃若董金祥李善平陈刚《计算机研究与发展》1999,36(10):1274-1279

随着制造业竞争的日益激烈,传统的组织管理方法已不能适应市场的要求．ＰＤＭ系统中的项目管理功能日益得到重视,但大多数现有ＰＤＭ系统的项目管理功能很弱,甚至没有．文中针对这些情况,提出了一种面向目标的项目管理方法,主要对项目管理中的资源约束、项目子任务的分解设计、项目子任务的规划排序、项目子任务的运行调度进行,分别给出了面向子任务分解的层次分解方法、强分支搜索算法的任务流程图自动生成算法、受资源约束的动态关键路径法,并在ＺＤ－ＰＤＭ系统中予以实现相似文献

13.

模块化神经网络的系统结构和学习算法 总被引：7，自引：1，他引：6

凌卫新郑启伦陈琼《计算机工程与应用》2001,37(19):13-15,72

提出了一种基于模块化的神经网络的系统结构和学习算法,它通过用分解判定子模块对输入向量的适当分区域、由合成子网将各区域的结果合成,实现了复杂任务的自动分解判定和模块化训练策略。一般函数逼近和三维墨西哥草帽等2个实现表明,该文提出的结构和算法是可行的、有效的;与非模块化神经网络技术相比,提高了训练速度、改善了网络性能,它具有并行性高、通用性强、对新增样本易于学习、便于硬件实现等特点。相似文献

14.

Combining linear discriminant functions with neural networks for supervised learning

Ke Chen Xiang Yu Huisheng Chi 《Neural computing & applications》1997,6(1):19-41

A novel supervised learning method is proposed by combining linear discriminant functions with neural networks. The proposed method results in a tree-structured hybrid architecture. Due to constructive learning, the binary tree hierarchical architecture is automatically generated by a controlled growing process for a specific supervised learning task. Unlike the classic decision tree, the linear discriminant functions are merely employed in the intermediate level of the tree for heuristically partitioning a large and complicated task into several smaller and simpler subtasks in the proposed method. These subtasks are dealt with by component neural networks at the leaves of the tree accordingly. For constructive learning, growing and credit-assignment algorithms are developed to serve for the hybrid architecture. The proposed architecture provides an efficient way to apply existing neural networks (e.g. multi-layered perceptron) for solving a large scale problem. We have already applied the proposed method to a universal approximation problem and several benchmark classification problems in order to evaluate its performance. Simulation results have shown that the proposed method yields better results and faster training in comparison with the multilayered perceptron. 相似文献

15.

层级潜变量空间中的三维人手跟踪方法 总被引：1，自引：0，他引：1

韩磊梁玮贾云得《计算机辅助设计与图形学学报》2009,21(5)

针对人手状态空间维数过高的问题,提出一种基于层级流形学习的三维人手跟踪方法.将人手状态空间划分成多个人手部分状态空间,采用层级高斯过程潜变量模型得到更能反映人手运动本质的树状低维流形空间,降低了粒子滤波器有效跟踪人手所需的粒子数量;使用径向基函数插值方法构建低维流形空间到图像空间的非线性映射,将低维粒子直接映射到图像空间中观测.实验结果表明,该方法可以鲁棒地跟踪关节人手. 相似文献

16.

分层强化学习中的并行自动分层方法研究

沈晶顾国昌刘海波《计算机工程与设计》2007,28(2):422-424

为加快分层强化学习中任务层次结构的自动生成速度,提出了一种基于多智能体系统的并行自动分层方法,该方法以Sutton提出的Option分层强化学习方法为理论框架,首先由多智能体合作对状态空间进行并行探测并集中聚类产生状态子空间,然后多智能体并行学习生成各子空间上内部策略,最终生成Option.以二维有障碍栅格空间内两点间最短路径规划为任务背景给出了算法并进行了仿真实验和分析,结果表明,并行自动分层方法生成任务层次结构的速度明显快于以往的串行自动分层方法.本文的方法适用于空间探测、路径规划、追逃等类问题领域. 相似文献

17.

基于动作空间划分的MAXQ自动分层方法

王奇秦进《计算机应用》2017,37(5):1357-1362

针对分层强化学习需要人工给出层次结构这一问题,同时考虑到基于状态空间的自动分层方法在环境状态中没有明显子目标时分层效果并不理想的情况,提出一种基于动作空间的自动构造层次结构方法。首先,根据动作影响的状态分量将动作集合划分为多个不相交的子集;然后,分析Agent在不同状态下的可用动作,并识别瓶颈动作;最后,由瓶颈动作与执行次序确定动作子集之间的上下层关系,并构造层次结构。此外,对MAXQ方法中子任务的终止条件进行修改,使所提算法构造的层次结构可以通过MAXQ方法找到最优策略。实验结果表明,所提算法可以自动构造层次结构,而不会受环境变化的干扰。与Q学习、Sarsa算法相比,MAXQ方法根据该结构得到最优策略的时间更短,获得回报更高。验证了所提算法能够有效地自动构造MAXQ层次结构,并使寻找最优策略更加高效。相似文献

18.

Approximate planning for bayesian hierarchical reinforcement learning

Ngo Anh Vien Hung Ngo Sungyoung Lee TaeChoong Chung 《Applied Intelligence》2014,41(3):808-819

In this paper, we propose to use hierarchical action decomposition to make Bayesian model-based reinforcement learning more efficient and feasible for larger problems. We formulate Bayesian hierarchical reinforcement learning as a partially observable semi-Markov decision process (POSMDP). The main POSMDP task is partitioned into a hierarchy of POSMDP subtasks. Each subtask might consist of only primitive actions or hierarchically call other subtasks’ policies, since the policies of lower-level subtasks are considered as macro actions in higher-level subtasks. A solution for this hierarchical action decomposition is to solve lower-level subtasks first, then higher-level ones. Because each formulated POSMDP has a continuous state space, we sample from a prior belief to build an approximate model for them, then solve by using a recently introduced Monte Carlo Value Iteration with Macro-Actions solver. We name this method Monte Carlo Bayesian Hierarchical Reinforcement Learning. Simulation results show that our algorithm exploiting the action hierarchy performs significantly better than that of flat Bayesian reinforcement learning in terms of both reward, and especially solving time, in at least one order of magnitude. 相似文献