首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   7篇
  免费   2篇
  国内免费   4篇
综合类   1篇
自动化技术   12篇
  2023年   1篇
  2021年   4篇
  2019年   1篇
  2016年   1篇
  2014年   1篇
  2011年   1篇
  2008年   1篇
  2007年   2篇
  2006年   1篇
排序方式: 共有13条查询结果,搜索用时 25 毫秒
11.
金玉净  朱文文  伏玉琛  刘全 《计算机科学》2014,41(6):239-242,249
Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导致Actor-Critic方法的性能受到一定限制。此外,Actor-Critic方法中需要近似地表示策略以及值函数,其中状态和动作的编码方法以及参数对Actor-Critic方法有重要的影响。Tile Coding编码具有简单易用、计算时间复杂度较低等优点,因此,将Tile Coding编码与基于模型的Actor-Critic方法结合,并将所得算法应用于强化学习仿真实验。实验结果表明,所得算法具有较好的性能。  相似文献   
12.
一种自适应模糊Actor-Critic 学习   总被引:1,自引:0,他引:1  
提出一种基于模糊RBF网络的自适应模糊Actor—Critic学习.采用一个模糊RBF神经网络同时逼近Actor的动作函数和Critic的值函数,解决状态空间泛化中易出现的“维数灾”问题.模糊RBF网络能够根据环境状态和被控对象特性的变化进行网络结构和参数的自适应学习,使得网络结构更加紧凑,整个模糊Actor—Critic学习具有泛化性能好、控制结构简单和学习效率高的特点.MountainCar的仿真结果验证了所提方法的有效性.  相似文献   
13.
目前应用于机械臂控制中有许多不同的算法,如传统的自适应PD控制、模糊自适应控制等,这些大多需要基于数学模型。也有基于强化学习的控制方法,如:DQN(Deep Q Network)、Sarsa等。但这些强化学习算法在连续高维的动作空间中存在学习效率不高、回报奖励设置困难、控制效果不佳等问题。论文对基于PPO(Proximal Policy Optimization近端策略优化)算法实现任意位置的机械臂抓取应用进行研究,并将实验数据与Actor-Critic(演员-评论家)算法的进行对比,验证了使用PPO算法的控制效果良好,学习效率较高且稳定。  相似文献   
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号