期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	7篇
免费	2篇
国内免费	4篇

专业分类

综合类	1篇
自动化技术	12篇

出版年

2023年	1篇
2021年	4篇
2019年	1篇
2016年	1篇
2014年	1篇
2011年	1篇
2008年	1篇
2007年	2篇
2006年	1篇

排序方式： 共有13条查询结果，搜索用时 25 毫秒

[首页] « 上一页 [1] 2

11.

基于Tile Coding编码和模型学习的Actor-Critic算法

金玉净朱文文伏玉琛刘全《计算机科学》2014,41(6):239-242,249

Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导致Actor-Critic方法的性能受到一定限制。此外,Actor-Critic方法中需要近似地表示策略以及值函数,其中状态和动作的编码方法以及参数对Actor-Critic方法有重要的影响。Tile Coding编码具有简单易用、计算时间复杂度较低等优点,因此,将Tile Coding编码与基于模型的Actor-Critic方法结合,并将所得算法应用于强化学习仿真实验。实验结果表明,所得算法具有较好的性能。相似文献

12.

一种自适应模糊Actor-Critic 学习 总被引：1，自引：0，他引：1

王雪松程玉虎易建强《控制与决策》2006,21(9):1068-1072

提出一种基于模糊RBF网络的自适应模糊Actor—Critic学习．采用一个模糊RBF神经网络同时逼近Actor的动作函数和Critic的值函数，解决状态空间泛化中易出现的“维数灾”问题．模糊RBF网络能够根据环境状态和被控对象特性的变化进行网络结构和参数的自适应学习，使得网络结构更加紧凑，整个模糊Actor—Critic学习具有泛化性能好、控制结构简单和学习效率高的特点．MountainCar的仿真结果验证了所提方法的有效性．相似文献

13.

基于PPO的机械臂控制研究方法

郭坤武曲张义《数字社区&智能家居》2021,(4)

目前应用于机械臂控制中有许多不同的算法,如传统的自适应PD控制、模糊自适应控制等,这些大多需要基于数学模型。也有基于强化学习的控制方法,如:DQN(Deep Q Network)、Sarsa等。但这些强化学习算法在连续高维的动作空间中存在学习效率不高、回报奖励设置困难、控制效果不佳等问题。论文对基于PPO(Proximal Policy Optimization近端策略优化)算法实现任意位置的机械臂抓取应用进行研究,并将实验数据与Actor-Critic(演员-评论家)算法的进行对比,验证了使用PPO算法的控制效果良好,学习效率较高且稳定。相似文献

[首页] « 上一页 [1] 2