排序方式: 共有14条查询结果,搜索用时 0 毫秒
11.
12.
13.
14.
介绍一种新的在线自适应的动态模糊Q强化学习算法.系统根据从环境中得到的反馈评估已进行的决策,给予奖励和惩罚,更新系统的Q值,在线自动调整模糊控制的结构与参数.根据系统当前的环境状态以及模糊控制强化学习的Q值来决定当前规则的动作输出,并由模糊推理产生连续输出的动作.扩展贪心搜索策略,确保控制规则的各个输出动作在学习初期都被搜索过,避免陷入局部最优解.将有效跟踪算法和后设学习规则相结合,有效提高系统学习速率.在嵌入式平台中实时控制的实现以及和相关研究结论的对比验证该算法的优越性. 相似文献