共查询到18条相似文献,搜索用时 109 毫秒
1.
强化学习算法通常要处理连续状态及连续动作空间问题以实现精确控制.就此文中结合Actor-Critic方法在处理连续动作空间的优点及核方法在处理连续状态空间的优势,提出一种基于核方法的连续动作Actor-Critic学习算法(KCACL).该算法中,Actor根据奖赏不作为原则更新动作概率,Critic采用基于核方法的在线选择时间差分算法学习状态值函数.对比实验验证该算法的有效性. 相似文献
2.
连续状态自适应离散化基于K-均值聚类的强化学习方法 总被引:6,自引:1,他引:5
使用聚类算法对连续状态空间进行自适应离散化.得到了基于K-均值聚类的强化学习方法.该方法的学习过程分为两部分:对连续状态空间进行自适应离散化的状态空间学习,使用K-均值聚类算法;寻找最优策略的策略学习.使用替代合适迹Sarsa学习算法.对连续状态的强化学习基准问题进行仿真实验,结果表明该方法能实现对连续状态空间的自适应离散化,并最终学习到最优策略.与基于CMAC网络的强化学习方法进行比较.结果表明该方法具有节省存储空间和缩短计算时间的优点. 相似文献
3.
4.
基于节点生长k-均值聚类算法的强化学习方法 总被引:3,自引:0,他引:3
处理连续状态强化学习问题,主要方法有两类:参数化的函数逼近和自适应离散划分.在分析了现有对连续状态空间进行自适应划分方法的优缺点的基础上,提出了一种基于节点生长k均值聚类算法的划分方法,分别给出了在离散动作和连续动作两种情况下该强化学习方法的算法步骤.在离散动作的MountainCar问题和连续动作的双积分问题上进行仿真实验.实验结果表明,该方法能够根据状态在连续空间的分布,自动调整划分的精度,实现对于连续状态空间的自适应划分,并学习到最佳策略. 相似文献
5.
6.
在院前急救领域中,急救反应时间是指患者拨打急救电话后,急救车到达现场的时间。传统急救车调度算法未全面考虑急救环境的动态性和复杂性因素,导致模型优化的急救反应时间与实际情况存在偏差。将急救车调度问题建模成马尔科夫决策过程,构建基于深度强化学习的急救车调度算法。以多层感知机作为评分网络结构,通过将急救站的动态信息映射为各个急救站的得分,确定急救车被调往各急救站的概率。同时,结合急救车调度的动态决策特点,利用强化学习中演员-评论家框架下的近端策略优化算法改进评分网络参数。在深圳市急救中心真实急救数据集上的实验结果表明,相比Fixed、DSM、MEXCLP等算法,该算法在每个急救事件中的急救反应时间平均缩短约80 s,并且在10 min内急救车的平均到达比例为36.5%,能够实时地将急救车调度到合适的急救站。 相似文献
7.
8.
《计算机科学与探索》2018,(5):785-793
大规模核方法是大规模数据分析与挖掘的基本机器学习方法。核方法在再生核希尔伯特空间中训练线性学习器求解样本空间中的非线性问题,求解时间复杂度关于数据规模是平方级的,预测也依赖于整个训练数据,因而不适用于大规模学习问题。针对这些问题,提出了大规模核方法的有效随机假设空间方法。首先,在关于样本维度对数时间复杂度内,应用循环随机特征映射显式构造假设空间,该空间称之为循环随机假设空间。然后,在循环随机假设空间中应用线性或亚线性学习算法训练线性模型。理论上,给出了循环随机假设空间的一致泛化误差上界及其相对于最优泛化误差的收敛性。实验结果表明,大规模核方法的随机假设空间方法不仅能够显著地提高非线性核方法的训练与预测效率,而且能够保持与非线性核方法相当的预测精度。该方法有理论保障,计算复杂度低,运行效率高,是当前最高效的大规模核方法实现方法。 相似文献
9.
分层强化学习中自动分层问题目前仍未得到有效的解决,本文针对Option方法,研究了基于核密度估计的Option自动生成算法,该算法根据分层强化学习的特点并结合改进后的核密度估计层次聚类方法,实现分层强化学习的自动分层,生成子目标,并在此基础上构建出Options。实验结果表明这种算法可以大大加快学习的效率。 相似文献
10.
针对移动边缘计算(Mobile Edge Computing,MEC)的计算卸载决策的问题,基于强化学习方法提出了一个在多用户的MEC 系统中的计算卸载决策算法(Offloading Decision algorithm based on Reinforcement Learning,ODRL).ODRL算法根据任务模... 相似文献
11.
基于多核学习的双稀疏关系学习算法 总被引:1,自引:1,他引:1
在关系学习中样本无法在R n空间中表示.与其他机器学习问题有很大不同,因为无法利用R n空间的几何结构使得其解决异常困难.将多核学习方法用于关系学习中. 首先,可以证明当用逻辑规则生成的核矩阵进行多核学习时,其他核都可以等价转化为线性核.在此基础上,通过用修正FOIL算法迭代生成规则,构造相应的线性核然后进行多核优化,由此实现了由规则诱导出的特征空间上的线性分类器.算法具有"双稀疏"特性,即:可以同时得到支持向量和支持规则.此外,可以证明在规则诱导出的特征空间上的多核学习可以转化为平方l1 SVM,这是首次提出的新型SVM算法.在6个生物化学和化学信息数据集上与其他算法进行了对比实验.结果表明不仅预测准确率有明显提高,而且得到的规则集数目更小,解释更为直接. 相似文献
12.
Isomap算法嵌入向量求解依赖于所有的初始样本,在增加新数据时需要较长时间重新计算所有数据样本间的测地距离.为了提高运算速度,提出一种基于核函数的增量学习Isomap算法,将测地距离矩阵当作一个核矩阵,并通过常数增加的方法保证测地距离矩阵满足Mercer条件,算法只需要计算新增点与原有数据点间的测地距离.与核主成分算法一样,新增点的投影值计算变为核矩阵上的特征分解.在Swiss,Helix和多姿态人脸数据中的实验结果表明,算法大大降低了计算复杂度,有利于快速发现隐藏在高维空间的低维流形分布. 相似文献
13.
14.
文章推导了递归最小二乘瞬时差分法,较通常的瞬时差分法有样本使用效率高,收敛速度快,计算量少等特点。并将基于递归最小二乘的强化学习应用于船舶航向控制,克服了通常智能算法的学习需要一定数量样本数据的缺陷,对控制器的参数进行在线学习与调整,可以在一定程度上解决船舶运动中的不确定性问题,仿真结果表明,在有各种分浪流干扰的条件下,船舶航向的控制仍能取得令人满意的效果,说明该算法是有效可行的。 相似文献
15.
结合强化学习技术讨论了单移动Agent学习的过程,然后扩展到多移动Agent学习领域,提出一个多移动Agent学习算法MMAL(MultiMobileAgentLearning)。算法充分考虑了移动Agent学习的特点,使得移动Agent能够在不确定和有冲突目标的上下文中进行决策,解决在学习过程中Agent对移动时机的选择,并且能够大大降低计算代价。目的是使Agent能在随机动态的环境中进行自主、协作的学习。最后,通过仿真试验表明这种学习算法是一种高效、快速的学习方法。 相似文献
16.
强化学习(Reinforcement Learning)是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回报的最大化:值迭代、策略迭代、策略搜索。该文介绍了强化学习的原理、算法,并对有环境模型和无环境模型的离散空间值迭代算法进行研究,并且把该算法用于固定起点和随机起点的格子世界问题。实验结果表明,相比策略迭代算法,该算法收敛速度快,实验精度好。 相似文献
17.
提出了一个新的效用聚类激励学习算法U-Clustering。该算法完全不用像U-Tree算法那样进行边缘节点的生成和测试,它首先根据实例链的观测动作值对实例进行聚类,然后对每个聚类进行特征选择,最后再进行特征压缩,经过压缩后的新特征就成为新的状态空间树节点。通过对NewYorkDriving[2,13]的仿真和算法的实验分析,表明U-Clustering算法对解决大型部分可观测环境问题是比较有效的算法。 相似文献