共查询到19条相似文献,搜索用时 62 毫秒
1.
强化学习算法通常要处理连续状态及连续动作空间问题以实现精确控制.就此文中结合Actor-Critic方法在处理连续动作空间的优点及核方法在处理连续状态空间的优势,提出一种基于核方法的连续动作Actor-Critic学习算法(KCACL).该算法中,Actor根据奖赏不作为原则更新动作概率,Critic采用基于核方法的在线选择时间差分算法学习状态值函数.对比实验验证该算法的有效性. 相似文献
2.
连续状态自适应离散化基于K-均值聚类的强化学习方法 总被引:5,自引:1,他引:5
使用聚类算法对连续状态空间进行自适应离散化.得到了基于K-均值聚类的强化学习方法.该方法的学习过程分为两部分:对连续状态空间进行自适应离散化的状态空间学习,使用K-均值聚类算法;寻找最优策略的策略学习.使用替代合适迹Sarsa学习算法.对连续状态的强化学习基准问题进行仿真实验,结果表明该方法能实现对连续状态空间的自适应离散化,并最终学习到最优策略.与基于CMAC网络的强化学习方法进行比较.结果表明该方法具有节省存储空间和缩短计算时间的优点. 相似文献
3.
4.
基于节点生长k-均值聚类算法的强化学习方法 总被引:3,自引:0,他引:3
处理连续状态强化学习问题,主要方法有两类:参数化的函数逼近和自适应离散划分.在分析了现有对连续状态空间进行自适应划分方法的优缺点的基础上,提出了一种基于节点生长k均值聚类算法的划分方法,分别给出了在离散动作和连续动作两种情况下该强化学习方法的算法步骤.在离散动作的MountainCar问题和连续动作的双积分问题上进行仿真实验.实验结果表明,该方法能够根据状态在连续空间的分布,自动调整划分的精度,实现对于连续状态空间的自适应划分,并学习到最佳策略. 相似文献
5.
6.
在院前急救领域中,急救反应时间是指患者拨打急救电话后,急救车到达现场的时间。传统急救车调度算法未全面考虑急救环境的动态性和复杂性因素,导致模型优化的急救反应时间与实际情况存在偏差。将急救车调度问题建模成马尔科夫决策过程,构建基于深度强化学习的急救车调度算法。以多层感知机作为评分网络结构,通过将急救站的动态信息映射为各个急救站的得分,确定急救车被调往各急救站的概率。同时,结合急救车调度的动态决策特点,利用强化学习中演员-评论家框架下的近端策略优化算法改进评分网络参数。在深圳市急救中心真实急救数据集上的实验结果表明,相比Fixed、DSM、MEXCLP等算法,该算法在每个急救事件中的急救反应时间平均缩短约80 s,并且在10 min内急救车的平均到达比例为36.5%,能够实时地将急救车调度到合适的急救站。 相似文献
7.
针对发生故障的飞行控制系统,在强化学习算法的基础上,提出了一种基于增量式策略的强化学习容错方法.本方法利用传感器获取的系统状态值,根据系统预先设定的奖励函数对当前控制系统状况做出最优的决策并不断更新价值网络,将系统的容错控制过程转换为强化学习Agent的贯序决策过程,并使用一种改进型的增量式策略实现对当前故障的正确补偿策略的逐渐逼近.同时,针对连续控制系统,提出一种状态转移预测网络来得到下一步状态值.最后,通过南京航空航天大学"先进飞行器导航、控制与健康管理"工信部重点实验室的飞行器故障诊断实验平台验证了该方法的有效性. 相似文献
8.
分层强化学习中自动分层问题目前仍未得到有效的解决,本文针对Option方法,研究了基于核密度估计的Option自动生成算法,该算法根据分层强化学习的特点并结合改进后的核密度估计层次聚类方法,实现分层强化学习的自动分层,生成子目标,并在此基础上构建出Options。实验结果表明这种算法可以大大加快学习的效率。 相似文献
9.
《计算机科学与探索》2018,(5):785-793
大规模核方法是大规模数据分析与挖掘的基本机器学习方法。核方法在再生核希尔伯特空间中训练线性学习器求解样本空间中的非线性问题,求解时间复杂度关于数据规模是平方级的,预测也依赖于整个训练数据,因而不适用于大规模学习问题。针对这些问题,提出了大规模核方法的有效随机假设空间方法。首先,在关于样本维度对数时间复杂度内,应用循环随机特征映射显式构造假设空间,该空间称之为循环随机假设空间。然后,在循环随机假设空间中应用线性或亚线性学习算法训练线性模型。理论上,给出了循环随机假设空间的一致泛化误差上界及其相对于最优泛化误差的收敛性。实验结果表明,大规模核方法的随机假设空间方法不仅能够显著地提高非线性核方法的训练与预测效率,而且能够保持与非线性核方法相当的预测精度。该方法有理论保障,计算复杂度低,运行效率高,是当前最高效的大规模核方法实现方法。 相似文献
10.
针对移动边缘计算(Mobile Edge Computing,MEC)的计算卸载决策的问题,基于强化学习方法提出了一个在多用户的MEC 系统中的计算卸载决策算法(Offloading Decision algorithm based on Reinforcement Learning,ODRL).ODRL算法根据任务模... 相似文献
11.
针对流形学习算法——局部保持映射存在的参数选择及不能进行非线性特征提取的问题,提出一种基于核的监督流形学习算法.该算法作为局部保持映射算法的改进算法用样本类标识信息指导建立局部最近邻图,并在建立局部最近邻图使用无参数的相似度量.利用核方法来解决局部保持映射算法在处理线性不可分问题上的局限性问题.在两个常用数据库上验证本文算法的可行性和有效性. 相似文献
12.
基于多核学习的双稀疏关系学习算法 总被引:1,自引:1,他引:1
在关系学习中样本无法在R n空间中表示.与其他机器学习问题有很大不同,因为无法利用R n空间的几何结构使得其解决异常困难.将多核学习方法用于关系学习中. 首先,可以证明当用逻辑规则生成的核矩阵进行多核学习时,其他核都可以等价转化为线性核.在此基础上,通过用修正FOIL算法迭代生成规则,构造相应的线性核然后进行多核优化,由此实现了由规则诱导出的特征空间上的线性分类器.算法具有"双稀疏"特性,即:可以同时得到支持向量和支持规则.此外,可以证明在规则诱导出的特征空间上的多核学习可以转化为平方l1 SVM,这是首次提出的新型SVM算法.在6个生物化学和化学信息数据集上与其他算法进行了对比实验.结果表明不仅预测准确率有明显提高,而且得到的规则集数目更小,解释更为直接. 相似文献
13.
由于Internet的不断发展,现有的路由算法为适应不同的网络要求,从一开始的RIP、OSPF、BGP等几种,衍生出很多新的适用于特殊网络的路由协议。本文提出一种基于增强学习算法的路由模型。将每个路由节点看作一个Agent,利用增强学习算法的思想使得每个节点在不了解网络拓扑结构的情况下从向邻居转发的概率获得网络的信息,这样路由节点可以选择一个较优的转发方向。同时,节点能对网络的拥塞等情况作出调整。该模型为一些具体网络的路由协议,特别是QoS类路由算法提出了一个新的路由思想。 相似文献
14.
文章推导了递归最小二乘瞬时差分法,较通常的瞬时差分法有样本使用效率高,收敛速度快,计算量少等特点。并将基于递归最小二乘的强化学习应用于船舶航向控制,克服了通常智能算法的学习需要一定数量样本数据的缺陷,对控制器的参数进行在线学习与调整,可以在一定程度上解决船舶运动中的不确定性问题,仿真结果表明,在有各种分浪流干扰的条件下,船舶航向的控制仍能取得令人满意的效果,说明该算法是有效可行的。 相似文献
15.
本文提出了一种新的分层强化学习Option自动生成算法,以Agent在学习初始阶段探测到的状态空间为输入,采用模糊逻辑神经元的网络进行聚类,在聚类后的各状态子集上通过经验回放学习产生内部策略集,生成Option,仿真实验结果表明了该算法的有效性。 相似文献
16.
17.
Isomap算法嵌入向量求解依赖于所有的初始样本,在增加新数据时需要较长时间重新计算所有数据样本间的测地距离.为了提高运算速度,提出一种基于核函数的增量学习Isomap算法,将测地距离矩阵当作一个核矩阵,并通过常数增加的方法保证测地距离矩阵满足Mercer条件,算法只需要计算新增点与原有数据点间的测地距离.与核主成分算法一样,新增点的投影值计算变为核矩阵上的特征分解.在Swiss,Helix和多姿态人脸数据中的实验结果表明,算法大大降低了计算复杂度,有利于快速发现隐藏在高维空间的低维流形分布. 相似文献
18.
结合强化学习技术讨论了单移动Agent学习的过程,然后扩展到多移动Agent学习领域,提出一个多移动Agent学习算法MMAL(MultiMobileAgentLearning)。算法充分考虑了移动Agent学习的特点,使得移动Agent能够在不确定和有冲突目标的上下文中进行决策,解决在学习过程中Agent对移动时机的选择,并且能够大大降低计算代价。目的是使Agent能在随机动态的环境中进行自主、协作的学习。最后,通过仿真试验表明这种学习算法是一种高效、快速的学习方法。 相似文献