提出一类非线性不确定动态系统基于强化学习的最优控制方法. 该方法利用欧拉强化学习算法估计对象的未知非线性函数, 给出了强化学习中回报函数和策略函数迭代的在线学习规则. 通过采用向前欧拉差分迭代公式对学习过程中的时序误差进行离散化, 实现了对值函数的估计和控制策略的改进. 基于值函数的梯度值和时序误差指标值, 给出了该算法的步骤和误差估计定理. 小车爬山问题的仿真结果表明了所提出方法的有效性.
相似文献针对一类含有状态时变时滞的不确定非完整系统, 提出一种输出反馈镇定控制算法. 通过应用不连续的输入-状态变换和缩放变换, 将原始研究系统转换为更利于反馈控制器设计的新系统. 基于此系统设计状态反馈控制律, 通过构造状态观测器、利用必然等价原理给出理想的输出反馈镇定控制器. 分析表明, 所设计的控制器能够使得闭环系统的状态渐近趋于零. 最后通过仿真实例表明了所提出控制策略的有效性.
相似文献在基于目标的强化学习任务中, 欧氏距离常作为启发式函数用于策略选择, 其用于状态空间在欧氏空间内不连续的任务效果不理想. 针对此问题, 引入流形学习中计算复杂度较低的拉普拉斯特征映射法, 提出一种基于谱图理论的启发式策略选择方法. 所提出的方法适用于状态空间在某个内在维数易于估计的流形上连续, 且相邻状态间的连接关系为无向图的任务. 格子世界的仿真结果验证了所提出方法的有效性.
相似文献针对具有预负载非线性特性的双率系统, 提出一种新的辨识方法. 借助切换函数简化系统模型, 通过损失数据模型估计系统损失的输出数据, 进而利用系统所有输入和输出数据, 提出相应双率系统递推最小二乘算法. 与多项式转换方法相比, 该方法能够直接辨识出系统参数. 仿真结果验证了所提出方法的有效性.
相似文献针对带有海浪干扰和参数不确定的SWATH船运动控制问题, 提出基于干扰观测器的SWATH船运动非线性预测控制. 首先对SWATH船运动进行建模、参数求解和海浪干扰仿真; 然后根据运动模型设计非线性预测控制律, 对SWATH 船升沉和纵摇进行控制, 同时利用干扰观测器对海浪干扰进行观测, 并从理论上证明了所设计的控制器可以保证SWATH 船运动的稳定性. 仿真结果表明, 所设计的控制器提高了SWATH船运动控制效果, 且能对海浪干扰进行抑制.
相似文献针对一类非线性离散时间系统给出最优预见控制器设计方法. 首先运用非线性控制系统直接控制方法的思想, 将非线性反馈部分作为形式输入, 使得系统成为“形式上”的线性系统; 然后, 针对该线性系统, 利用最优预见控制的基本方法设计最优预见控制器; 最后, 利用形式输入与实际输入的关系得到非线性离散时间系统的最优预见控制器. 证明了如果形式线性系统满足一定的可镇定和可检测条件, 则闭环系统是渐近稳定的. 数值仿真结果表明了控制器的有效性.
相似文献研究带有未知参数的非完整移动机器人的镇定问题. 基于已有不确定非完整链式模型, 运用辅助变量法和控制输入法分别设计控制器, 使系统状态指数收敛. 所提出的两种控制器不仅克服了对系统初始状态的限制, 而且具有高度的统一性. 仿真结果验证了两种控制方法的有效性.
相似文献基于滞环函数提出一种参数可调的多涡卷混沌系统构造方法. 针对复杂不确定性系统, 综合利用自适应神经网络和重复学习控制方法设计一种自适应重复学习同步控制器; 利用自适应重复学习控制方法对周期时变参数化不确定性进行处理; 对函数型不确定性利用神经网络逼近技术进行补偿; 设计鲁棒学习项对神经网络逼近误差和扰动上界进行估计; 通过构造类Lyapunov 复合能量函数证明了同步误差学习的收敛性. 仿真结果验证了所提出方法的有效性.
相似文献针对一类非正则分布参数系统的迭代学习控制问题进行讨论, 该类分布参数系统由抛物型偏微分方程构成. 基于非正则系统的特点, 使用D型学习律构建得到迭代学习控制律, 并基于压缩映射原理, 证明得到输出跟踪误差在??2 范数意义下沿迭代轴方向的收敛性结论. 仿真算例表明了所提出结论的有效性.
相似文献针对集成学习中的准确性和差异性平衡问题, 提出一种基于信息论的选择性集成核极端学习机. 采用具有结构简单、训练简便、泛化性能好的核极端学习作为基学习器. 引入相关性准则描述准确性, 冗余性准则描述差异性,将选择性集成问题转化为变量选择问题. 利用基于互信息的最大相关最小冗余准则对生成的核极端学习机进行选择, 从而实现准确性和差异性的平衡. 基于UCI 基准回归和分类数据的仿真结果验证了所提出算法的优越性.
相似文献针对回归问题中存在的变量选择和网络结构设计问题, 提出一种基于互信息的极端学习机(ELM) 训练算法, 同时实现输入变量的选择和隐含层的结构优化. 该算法将互信息输入变量选择嵌入到ELM网络的学习过程之中, 以网络的学习性能作为衡量输入变量与输出变量相关与否的指标, 并以增量式的方法确定隐含层节点的规模.在Lorenz、Gas Furnace 和10 组标杆数据上的仿真结果表明了所提出算法的有效性. 该算法不仅可以简化网络结构, 还可以提高网络的泛化性能.
相似文献