提出一类非线性不确定动态系统基于强化学习的最优控制方法. 该方法利用欧拉强化学习算法估计对象的未知非线性函数, 给出了强化学习中回报函数和策略函数迭代的在线学习规则. 通过采用向前欧拉差分迭代公式对学习过程中的时序误差进行离散化, 实现了对值函数的估计和控制策略的改进. 基于值函数的梯度值和时序误差指标值, 给出了该算法的步骤和误差估计定理. 小车爬山问题的仿真结果表明了所提出方法的有效性.
相似文献针对差分进化算法开发能力较差的问题, 提出一种具有快速收敛的新型差分进化算法. 首先, 利用最优高斯随机游走策略提高算法的开发能力; 然后, 采用基于个体优化性能的简化交叉变异策略实现种群的进化操作以加强其局部搜索能力; 最后, 通过个体筛选策略进一步提高算法的探索能力以避免陷入局部最优. 12 个标准测试函 数和两种带约束的工程优化问题的实验结果表明, 所提出的算法在收敛速度、算法可靠性及收敛精度方面均优于EPSDE、SaDE、JADE、BSA、CoBiDE、GSA和ABC等算法, 在加强算法探索能力的同时能够有效地提高算法的开发能力.
相似文献针对多模态优化问题, 提出一种动态小生境半径两阶段多模态差分进化算法. 基于构象空间退火思想, 设计一种两阶段退火策略来动态调整小生境半径, 并根据退火过程将整个优化过程分为两个阶段. 在第1 阶段, 通过差分限制变异策略生成高质量的新个体来维持种群的多样性, 促进多模收敛; 在第2 阶段, 利用种子邻近变异策略对已探测到的生境高度搜索, 加快算法的收敛速度. 实验结果表明, 所提出算法能够有效实现从全局探测到局部增强的自适应平滑过渡, 是一种有效的多模态优化算法.
相似文献研究机会式频谱接入技术中次用户对可利用频谱进行探测和接入策略的优化问题. 通过引入事件的概念, 将含有可数无限状态的原问题转化为包含有限个事件的决策问题. 从性能灵敏度的角度出发, 分析不同策略下平均传输率的差异, 给出了基于事件策略的性能差分公式. 以此为基础, 通过合理的近似, 设计了基于事件的策略迭代算法. 仿真示例验证了所提出算法的有效性和近似处理的合理性.
相似文献针对多处理器系统任务调度复杂问题, 在自适应差分进化算法基础上增加惯性速度分项, 提出一种称为惯性速度差分进化(IVDE) 的改进算法, 以避免陷入局部最优解. 结合启发式任务列表, 对算法的状态编码提出了处理器列表(PL)、部分偏序任务列表(PTL) 和全部任务列表(CTL) 等3 种形式. 通过求解随机生成的任务调度标准图和真实求解任务问题, 进行了数值仿真验证, 其中PTL-IVDE 算法相比蚁群优化(ACO) 算法、混合遗传算法(TLPLC-GA), 能快速求得更好的任务调度方案.
相似文献针对新颖全局和声搜索(NGHS) 算法过早收敛的问题, 提出自适应全局和声搜索(AGHS) 算法. 引入差分向量范数定义和声记忆库多样性, 给出新的位置更新策略, 排除变异操作. 以和声记忆库多样性信息为指导动态产生新和声, 提高算法对解空间信息开发的能力, 避免算法因过早收敛、易陷入局部最优的不足. AGHS算法操作更简单,需要设置的参数更少, 将其与目前文献中较优的几种改进HS 算法、PSO 算法和GA算法进行性能测试, 测试结果表明AGHS算法具有较高的寻优精度和较快的收敛速度.
相似文献研究以最小化完工时间为目标的模糊加工时间零等待多产品厂间歇调度问题, 提出一种基于差分进化粒子群优化(DEPSO) 的间歇调度算法. 以基本粒子群算法为整体进化框架, 采用基于反向学习的方法初始化种群, 引入群体极值保持代数作为阈值, 利用基于排序的差分进化算法优化粒子个体极值位置, 改变粒子的搜索范围, 防止粒子陷入局部极值. 仿真实验验证了所提算法在解决模糊加工时间零等待多产品厂间歇调度问题上的有效性和优越性.
相似文献针对传统Actor-critic (AC) 方法在求解连续空间序贯决策问题时收敛速度较慢、收敛质量不高的问题, 提出一种基于对称扰动采样的AC算法框架. 首先, 框架采用高斯分布作为策略分布, 在每一时间步对当前动作均值对称扰动, 从而生成两个动作与环境并行交互; 然后, 基于两者的最大时域差分(TD) 误差选取Agent 的行为动作, 并对值函数参数进行更新; 最后, 基于两者的平均常规梯度或增量自然梯度对策略参数进行更新. 理论分析和仿真结果表明, 所提框架具有较好的收敛性和计算效率.
相似文献针对模型参数部分未知的随机线性连续时间系统, 通过策略迭代算法求解无限时间随机线性二次(LQ) 最优控制问题. 求解随机LQ最优控制问题等价于求随机代数Riccati 方程(SARE) 的解. 首先利用伊藤公式将随机微分方程转化为确定性方程, 通过策略迭代算法给出SARE 的解序列; 然后证明SARE 的解序列收敛到SARE 的解, 而且在迭代过程中系统是均方可镇定的; 最后通过仿真例子表明策略迭代算法的可行性.
相似文献在样本规模有限的情况下, 为了提高算法的鲁棒优化性能, 提出一种基于时变(随迭代次数变化) Sigmoid 函数的鲁棒粒子群优化算法. 采用拟蒙特卡罗积分方法近似估计有效目标函数, 以时变Sigmoid 函数为基础, 设计各代各样本规模的选取概率. 迭代前期, 样本规模期望值较小, 加快了算法探索速度; 迭代后期, 样本规模期望值较大, 提高了算法的开发精度. 标准测试函数仿真结果显示, 所提出方法具有较优的鲁棒优化性能.
相似文献考虑智能电网多种类型业务需求的接入控制, 通过利用响应时间的弹性来平缓业务负荷的波动, 使得电网运行的长期平均代价最小. 针对业务需求和用户行为的随机分布特性, 建立连续时间Markov 控制过程的系统分析模型; 结合性能势基于样本轨道的估计, 提出一种基于仿真的策略迭代优化算法, 有效缓解了系统大状态空间导致的维数灾问题, 具有较快的收敛速度和良好的应用效果. 仿真实验结果验证了所提出方法的有效性.
相似文献为了提高粒子群算法的优化能力, 提出一种新的量子衍生粒子群优化算法. 该方法采用多比特量子系统的基态概率幅对粒子编码, 基于自身最优粒子和全局最优粒子确定旋转角度, 采用基于张量积构造的多比特量子旋转门实施粒子的更新. 在每步迭代中, 只需更新粒子的一个量子比特相位, 即可更新该粒子上的所有概率幅. 标准函数极值优化的实验结果表明, 所提出算法的单步迭代时间较长, 但优化能力较同类算法有大幅度提高.
相似文献针对元件可靠性为区间值的系统可靠性优化问题, 提出一种区间多目标粒子群优化方法. 首先, 建立问题的区间多目标优化模型; 然后, 利用粒子群算法优化该模型, 定义一种不精确Pareto 支配关系, 并给出编码、约束处理、外部存储器更新、领导粒子选择等关键问题的解决方法; 最后, 将该方法应用于可靠性优化问题实例, 验证了方法的有效性.
相似文献