期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈兴国高阳范顺国俞亚君《模式识别与人工智能》2014,(2):103-110

强化学习算法通常要处理连续状态及连续动作空间问题以实现精确控制.就此文中结合Actor-Critic方法在处理连续动作空间的优点及核方法在处理连续状态空间的优势,提出一种基于核方法的连续动作Actor-Critic学习算法(KCACL).该算法中,Actor根据奖赏不作为原则更新动作概率,Critic采用基于核方法的在线选择时间差分算法学习状态值函数.对比实验验证该算法的有效性. 相似文献

2.

连续状态自适应离散化基于K-均值聚类的强化学习方法 总被引：6，自引：1，他引：5

文锋陈宗海卓睿周光明《控制与决策》2006,21(2):143-0148

使用聚类算法对连续状态空间进行自适应离散化．得到了基于K-均值聚类的强化学习方法．该方法的学习过程分为两部分：对连续状态空间进行自适应离散化的状态空间学习,使用K-均值聚类算法;寻找最优策略的策略学习．使用替代合适迹Sarsa学习算法．对连续状态的强化学习基准问题进行仿真实验,结果表明该方法能实现对连续状态空间的自适应离散化,并最终学习到最优策略．与基于CMAC网络的强化学习方法进行比较．结果表明该方法具有节省存储空间和缩短计算时间的优点．相似文献

3.

基于改进强化学习算法的移动机器人路径规划研究

《计算机应用与软件》2022,39(7)

相似文献

4.

基于节点生长k-均值聚类算法的强化学习方法 总被引：3，自引：0，他引：3

陈宗海文锋聂建斌吴晓曙《计算机研究与发展》2006,43(4):661-666

处理连续状态强化学习问题,主要方法有两类:参数化的函数逼近和自适应离散划分.在分析了现有对连续状态空间进行自适应划分方法的优缺点的基础上,提出了一种基于节点生长k均值聚类算法的划分方法,分别给出了在离散动作和连续动作两种情况下该强化学习方法的算法步骤.在离散动作的MountainCar问题和连续动作的双积分问题上进行仿真实验.实验结果表明,该方法能够根据状态在连续空间的分布,自动调整划分的精度,实现对于连续状态空间的自适应划分,并学习到最佳策略. 相似文献

5.

Q-learning算法优化的SVDPP推荐算法

周运腾张雪英李凤莲刘书昌焦江丽田豆《计算机工程》2021,47(2):46-51

为进一步改善个性化推荐系统的推荐效果,通过使用强化学习方法对SVDPP算法进行优化,提出一种新的协同过滤推荐算法.考虑用户评分的时间效应,将推荐问题转化为马尔科夫决策过程.在此基础上,利用Q-learning算法构建融合时间戳信息的用户评分优化模型,同时通过预测评分取整填充和优化边界补全方法预测缺失值,以解决数据稀疏性... 相似文献

6.

基于深度强化学习的深圳市急救车调度算法

吴仍裕周强于海龙王亚沙《计算机工程》2022,48(9):298-304

在院前急救领域中,急救反应时间是指患者拨打急救电话后,急救车到达现场的时间。传统急救车调度算法未全面考虑急救环境的动态性和复杂性因素,导致模型优化的急救反应时间与实际情况存在偏差。将急救车调度问题建模成马尔科夫决策过程,构建基于深度强化学习的急救车调度算法。以多层感知机作为评分网络结构,通过将急救站的动态信息映射为各个急救站的得分,确定急救车被调往各急救站的概率。同时,结合急救车调度的动态决策特点,利用强化学习中演员-评论家框架下的近端策略优化算法改进评分网络参数。在深圳市急救中心真实急救数据集上的实验结果表明,相比Fixed、DSM、MEXCLP等算法,该算法在每个急救事件中的急救反应时间平均缩短约80 s,并且在10 min内急救车的平均到达比例为36.5%,能够实时地将急救车调度到合适的急救站。相似文献

7.

基于增量式策略强化学习算法的飞行控制系统的容错跟踪控制

下载免费PDF全文

任坚刘剑慰杨蒲《控制理论与应用》2020,37(7):1429-1438

针对发生故障的飞行控制系统,在强化学习算法的基础上,提出了一种基于增量式策略的强化学习容错方法.本方法利用传感器获取的系统状态值,根据系统预先设定的奖励函数对当前控制系统状况做出最优的决策并不断更新价值网络,将系统的容错控制过程转换为强化学习Agent的贯序决策过程,并使用一种改进型的增量式策略实现对当前故障的正确补偿... 相似文献

8.

大规模核方法的随机假设空间方法

《计算机科学与探索》2018,(5):785-793

大规模核方法是大规模数据分析与挖掘的基本机器学习方法。核方法在再生核希尔伯特空间中训练线性学习器求解样本空间中的非线性问题,求解时间复杂度关于数据规模是平方级的,预测也依赖于整个训练数据,因而不适用于大规模学习问题。针对这些问题,提出了大规模核方法的有效随机假设空间方法。首先,在关于样本维度对数时间复杂度内,应用循环随机特征映射显式构造假设空间,该空间称之为循环随机假设空间。然后,在循环随机假设空间中应用线性或亚线性学习算法训练线性模型。理论上,给出了循环随机假设空间的一致泛化误差上界及其相对于最优泛化误差的收敛性。实验结果表明,大规模核方法的随机假设空间方法不仅能够显著地提高非线性核方法的训练与预测效率,而且能够保持与非线性核方法相当的预测精度。该方法有理论保障,计算复杂度低,运行效率高,是当前最高效的大规模核方法实现方法。相似文献

9.

基于核密度估计的分层强化学习自动分层算法

陆军付成伟《自动化技术与应用》2008,27(5):6-10

分层强化学习中自动分层问题目前仍未得到有效的解决,本文针对Option方法,研究了基于核密度估计的Option自动生成算法,该算法根据分层强化学习的特点并结合改进后的核密度估计层次聚类方法,实现分层强化学习的自动分层,生成子目标,并在此基础上构建出Options。实验结果表明这种算法可以大大加快学习的效率。相似文献

10.

面向移动边缘计算基于强化学习的计算卸载算法

杨戈张衡《电子技术应用》2021,47(2):36-40,48

针对移动边缘计算(Mobile Edge Computing,MEC)的计算卸载决策的问题,基于强化学习方法提出了一个在多用户的MEC 系统中的计算卸载决策算法(Offloading Decision algorithm based on Reinforcement Learning,ODRL).ODRL算法根据任务模... 相似文献

11.

基于多核学习的双稀疏关系学习算法 总被引：1，自引：1，他引：1

韩彦军王珏《计算机研究与发展》2010,47(8)

在关系学习中样本无法在R n空间中表示.与其他机器学习问题有很大不同,因为无法利用R n空间的几何结构使得其解决异常困难.将多核学习方法用于关系学习中. 首先,可以证明当用逻辑规则生成的核矩阵进行多核学习时,其他核都可以等价转化为线性核.在此基础上,通过用修正FOIL算法迭代生成规则,构造相应的线性核然后进行多核优化,由此实现了由规则诱导出的特征空间上的线性分类器.算法具有"双稀疏"特性,即:可以同时得到支持向量和支持规则.此外,可以证明在规则诱导出的特征空间上的多核学习可以转化为平方l1 SVM,这是首次提出的新型SVM算法.在6个生物化学和化学信息数据集上与其他算法进行了对比实验.结果表明不仅预测准确率有明显提高,而且得到的规则集数目更小,解释更为直接. 相似文献

12.

基于核矩阵的Isomap增量学习算法研究

王耀南张莹李春生《计算机研究与发展》2009,46(9):1515-1522

Isomap算法嵌入向量求解依赖于所有的初始样本,在增加新数据时需要较长时间重新计算所有数据样本间的测地距离.为了提高运算速度,提出一种基于核函数的增量学习Isomap算法,将测地距离矩阵当作一个核矩阵,并通过常数增加的方法保证测地距离矩阵满足Mercer条件,算法只需要计算新增点与原有数据点间的测地距离.与核主成分算法一样,新增点的投影值计算变为核矩阵上的特征分解.在Swiss,Helix和多姿态人脸数据中的实验结果表明,算法大大降低了计算复杂度,有利于快速发现隐藏在高维空间的低维流形分布. 相似文献

13.

基于强化学习的股票预测系统的研究与设计

叶德谦金大兵杨樱《微计算机信息》2006,22(6):149-151

股票市场是金融分析领域中重要而困难的问题。股票数据的分析和预测具有重大的理论意义和诱人的应用价值。BP神经网络在目前的股票预测系统中应用广泛,但是作为有导师的学习系统,BP神经网络必须要求提供相关的经验数据才能正常运行。对此本文提出了一种基于强化学习BP算法应用于股票预测系统,通过强化学习体系来实现体统的自学习,通过网络集成来达到初始数据的预处理,提高系统的泛化能力,在实际应用中取的较好的效果。相似文献

14.

一种基于递归最小二乘法的强化学习算法及其应用研究

沈智鹏郭晨《计算机工程与应用》2005,41(8):213-216

文章推导了递归最小二乘瞬时差分法,较通常的瞬时差分法有样本使用效率高,收敛速度快,计算量少等特点。并将基于递归最小二乘的强化学习应用于船舶航向控制,克服了通常智能算法的学习需要一定数量样本数据的缺陷,对控制器的参数进行在线学习与调整,可以在一定程度上解决船舶运动中的不确定性问题,仿真结果表明,在有各种分浪流干扰的条件下,船舶航向的控制仍能取得令人满意的效果,说明该算法是有效可行的。相似文献

15.

基于强化学习的多移动Agent学习算法

刘菲曾广周《计算机工程与应用》2006,42(5):50-53

结合强化学习技术讨论了单移动Agent学习的过程,然后扩展到多移动Agent学习领域,提出一个多移动Agent学习算法MMAL(MultiMobileAgentLearning)。算法充分考虑了移动Agent学习的特点,使得移动Agent能够在不确定和有冲突目标的上下文中进行决策,解决在学习过程中Agent对移动时机的选择,并且能够大大降低计算代价。目的是使Agent能在随机动态的环境中进行自主、协作的学习。最后,通过仿真试验表明这种学习算法是一种高效、快速的学习方法。相似文献

16.

基于强化学习的值迭代算法

崔军晓朱蒙婷王海燕章鹏王辉《数字社区&智能家居》2014,(11):7348-7350

强化学习（Reinforcement Learning）是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回报的最大化：值迭代、策略迭代、策略搜索。该文介绍了强化学习的原理、算法,并对有环境模型和无环境模型的离散空间值迭代算法进行研究,并且把该算法用于固定起点和随机起点的格子世界问题。实验结果表明,相比策略迭代算法,该算法收敛速度快,实验精度好。相似文献

17.

U-Clustering:基于效用聚类的激励学习算法

陈焕文殷苌茗谢丽娟《计算机工程与应用》2005,41(26):37-42,74

提出了一个新的效用聚类激励学习算法U-Clustering。该算法完全不用像U-Tree算法那样进行边缘节点的生成和测试,它首先根据实例链的观测动作值对实例进行聚类,然后对每个聚类进行特征选择,最后再进行特征压缩,经过压缩后的新特征就成为新的状态空间树节点。通过对NewYorkDriving[2,13]的仿真和算法的实验分析,表明U-Clustering算法对解决大型部分可观测环境问题是比较有效的算法。相似文献

18.

一类基于启发式搜索的激励学习算法

唐中勇付强卓佳陈焕文《微机发展》2006,16(8):41-43

激励学习已被证明是在控制领域中一种可行的新方法。相比其他的方法,它能较好地处理未知环境问题,但它仍然不是一种有效的方法。幸运的是,在现实世界中,智能体总是会有一些环境的先验知识,这些能形成启发式信息。启发式搜索是一种常用的搜索方法,有很快的搜索速度,但需要精确的启发式信息,这在有些时候难以得到。文中分析比较了启发式搜索和激励学习的各自特点,提出一类新的基于启发式搜索的激励学习算法,初步的实验结果显示了较好的性能。相似文献