首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
给出了求解多目标优化问题的一个新算法。首先利用极大熵函数,将多目标优化问题转换为一个单目标优化问题;然后利用和声搜索算法对其进行求解,进而得到多目标优化问题的有效解。该算法对目标函数的解析性质没有要求且容易实现,数值结果表明了该方法是有效的。  相似文献   

2.
求解互补问题的极大熵差分进化算法*   总被引:3,自引:2,他引:1  
针对传统算法无法获得互补问题多个最优解的困难, 提出了求解互补问题的差分进化算法。首先利用NCP函数, 将互补问题转换为一个非光滑方程组问题, 然后用凝聚函数对其进行光滑化, 进而把互补问题的求解转换为无约束优化问题, 利用差分进化算法对其进行求解。该算法对目标函数的解析性质没有要求且容易实现, 数值结果表明了该方法在求解互补问题中的有效性。  相似文献   

3.
几何约束求解是CAD建模中的关键技术。针对求解质量不高和求解速度慢的问题,进行了研究。提出了一种鱼群算法和混沌算法相结合的几何约束求解方法。首先,将CAD模型中的几何约束关系表示为一组代数方程组;然后,利用代数方程组来构造目标函数。将几何约束求解问题转换为目标函数的优化问题。最后,使用混沌算法来改进鱼群算法以寻找目标函数的最优解。实验结果表明:该方法可以有效地解决几何约束问题。  相似文献   

4.
贾寒飞  霍军周 《微计算机信息》2007,23(28):308-309,287
飞剪机是连续式轧钢机组中重要而复杂的辅助设备,其结构参数设计的好坏直接影响剪切质量。飞剪机结构参数优化设计问题属非线性的多目标优化问题,以模拟退火算法为代表的计算智能方法在求解此类优化问题中体现了一定了优势,本文利用改进的模拟退火算法(Improved Simulated Annealing,ISA)对曲柄连杆式飞剪机结构参数进行优化设计,将整个优化过程分成若干个阶段,根据各个子目标函数优化的状态,采用不同的退火系数和归一化系数,综合考虑多个目标函数和约束条件,通过实例计算表明,该方法可以稳定、有效的获取到满意的优化设计结果。  相似文献   

5.
热轧带钢轧制批量计划优化模型及算法   总被引:2,自引:1,他引:1  
基于奖金收集车辆路径问题模型建立了热轧带钢生产批量计划多目标优化模型.模型综合考虑了生产工艺约束、用户合同需求以及综合生产指标优化等因素.利用加权函数法将多目标优化模型转换为单目标优化模型,针对模型特点设计了蚁群优化求解算法,算法中嵌入了单向插入和2-opt局部搜索过程.引用某钢铁企业热轧生产轧制批量计划编制的实际问题对模型和算法进行了验证,结果表明模型和算法的优化效果和时间效率是令人满意的.  相似文献   

6.
针对传统逆强化学习算法在缺少足够专家演示样本以及状态转移概率未知的情况下,求解奖赏函数速度慢、精度低甚至无法求解的问题,提出一种基于相对熵的元逆强化学习方法.利用元学习方法,结合与目标任务同分布的一组元训练集,构建目标任务学习先验,在无模型强化学习问题中,采用相对熵概率模型对奖赏函数进行建模,并结合所构建的先验,实现利用目标任务少量样本快速求解目标任务奖赏函数的目的.将所提算法与REIRL算法应用于经典的Gridworld和Obj ect World问题,实验表明,在目标任务缺少足够数目的专家演示样本和状态转移概率信息的情况下,所提算法仍能较好地求解奖赏函数.  相似文献   

7.
针对传统算法无法获得互补问题的多个最优解的困难, 提出了求解互补问题的和声搜索算法。利用NCP函数, 将互补问题转换为一个非光滑方程组问题,用极大熵函数对其进行光滑换处理,进而把互补问题的求解转化为无约束优化,利用和声搜索算法对其进行求解。该算法对目标函数的解析性质没有要求且容易实现,数值结果表明了该方法在求解互补问题中的有效性。  相似文献   

8.
求解互补问题的极大熵社会认知算法   总被引:3,自引:0,他引:3  
针对传统算法无法获得互补问题的多个最优解的困难,提出了求解互补问题的社会认知优化算法.通过利用NCP函数,将互补问题的求解转化为一个非光滑方程组问题,然后用凝聚函数对其进行光滑化,进而把互补问题的求解转化为无约束优化问题,利用社会认知算法对其进行求解.该算法是基于社会认知理论,通过一系列的学习代理来模拟人类的社会性以及智能性从而完成对目标的优化.该算法对目标函数的解析性质没有要求且容易实现,数值实验结果表明了该方法是有效的.  相似文献   

9.
基于极大熵差分进化混合算法求解非线性方程组*   总被引:3,自引:1,他引:2  
针对非线性方程组,给出了一种新的算法——极大熵差分进化混合算法。首先把非线性方程组转换为一个不可微优化问题;然后用一个称之为凝聚函数的光滑函数直接代替不可微的极大值函数,从而可把非线性方程组的求解转换为无约束优化问题,利用差分进化算法对其进行求解。计算结果表明,该算法在求解的准确性和有效性均优于其他算法。  相似文献   

10.
组合优化问题的研究在各个领域中有着广泛的应用意义。阿基米德优化算法是一种新型的元启发式算法,在求解连续空间的优化问题上应用广泛,但不能直接用于求解离散空间的组合优化问题。因此,提出了二进制阿基米德优化算法用以解决组合优化问题。首先,借鉴部分二进制优化算法,选用转换函数,并以位置距离差作为参数进行空间映射。其次,根据问题对编码的要求,在阿基米德优化算法的基础上选取不同的转换函数和sigmoid函数进行位置更新,同时提出了一种对应S型转换函数的sigmoid函数,以提高最优解的搜索效率与质量。最后,引入北极熊算法的出生与死亡规则,以更好地进行全局搜索,减少陷入局部最优解的次数。通过模拟求解0-1背包问题的仿真实验和在热力管道保温结构优化项目中的应用,验证了二进制阿基米德优化算法具有良好的收敛性、稳定性和搜索速度快等特点,且在对编码有要求时使用S型转换函数较V型转换函数具有更好的效果。  相似文献   

11.
样本有限关联值递归Q学习算法及其收敛性证明   总被引:5,自引:0,他引:5  
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决问题,求解最优决策一般有两种途径:一种是求最大奖赏方法,另一种最求最优费用方法,利用求解最优费用函数的方法给出了一种新的Q学习算法,Q学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法。Watkins提出了Q学习的基本算法,尽管他证明了在满足一定条件下Q值学习的迭代公式的收敛性,但是在他给出的算法中,没有考虑到在迭代过程中初始状态与初始动作的选取对后继学习的影响,因此提出的关联值递归Q学习算法改进了原来的Q学习算法,并且这种算法有比较好的收敛性质,从求解最优费用函数的方法出发,给出了Q学习的关联值递归算法,这种方法的建立可以使得动态规划(DP)算法中的许多结论直接应用到Q学习的研究中来。  相似文献   

12.
基于每阶段平均费用最优的激励学习算法   总被引:4,自引:0,他引:4  
文中利用求解最优费用函数的方法给出了一种新的激励学习算法,即基于每阶段平均费用最优的激励学习算法。这种学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法,它从求解分阶段最优平均费用函数的方法出发,分析了最优解的存在性,分阶段最优平均费用函数与初始状态的关系以及与之相关的Bellman方程。这种方法的建立,可以使得动态规划(DP)算法中的许多结论直接应用到激励学习的研究中来。  相似文献   

13.
基于有限样本的最优费用关联值递归Q学习算法   总被引:4,自引:2,他引:4  
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来求解决策问题。求解最优决策一般有两种途径,一种是求最大奖赏方法,另一种是求最优费用方法。该文利用求解最优费用函数的方法给出了一种新的Q学习算法。Q学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法。文章从求解最优费用函数的方法出发,给出了Q学习的关联值递归算法,这种方法的建立,可以使得动态规划(DP)算法中的许多结论直接应用到Q学习的研究中来。  相似文献   

14.
针对作业车间中自动引导运输车(automated guided vehicle, AGV)与机器联合调度问题,以完工时间最小化为目标,提出一种基于卷积神经网络和深度强化学习的集成算法框架.首先,对含AGV的作业车间调度析取图进行分析,将问题转化为一个序列决策问题,并将其表述为马尔可夫决策过程.接着,针对问题的求解特点,设计一种基于析取图的空间状态与5个直接状态特征;在动作空间的设置上,设计包含工序选择和AGV指派的二维动作空间;根据作业车间中加工时间与有效运输时间为定值这一特点,构造奖励函数来引导智能体进行学习.最后,设计针对二维动作空间的2D-PPO算法进行训练和学习,以快速响应AGV与机器的联合调度决策.通过实例验证,基于2D-PPO算法的调度算法具有较好的学习性能和可扩展性效果.  相似文献   

15.
This research treats a bargaining process as a Markov decision process, in which a bargaining agent’s goal is to learn the optimal policy that maximizes the total rewards it receives over the process. Reinforcement learning is an effective method for agents to learn how to determine actions for any time steps in a Markov decision process. Temporal-difference (TD) learning is a fundamental method for solving the reinforcement learning problem, and it can tackle the temporal credit assignment problem. This research designs agents that apply TD-based reinforcement learning to deal with online bilateral bargaining with incomplete information. This research further evaluates the agents’ bargaining performance in terms of the average payoff and settlement rate. The results show that agents using TD-based reinforcement learning are able to achieve good bargaining performance. This learning approach is sufficiently robust and convenient, hence it is suitable for online automated bargaining in electronic commerce.  相似文献   

16.
连续状态自适应离散化基于K-均值聚类的强化学习方法   总被引:6,自引:1,他引:5  
文锋  陈宗海  卓睿  周光明 《控制与决策》2006,21(2):143-0148
使用聚类算法对连续状态空间进行自适应离散化.得到了基于K-均值聚类的强化学习方法.该方法的学习过程分为两部分:对连续状态空间进行自适应离散化的状态空间学习,使用K-均值聚类算法;寻找最优策略的策略学习.使用替代合适迹Sarsa学习算法.对连续状态的强化学习基准问题进行仿真实验,结果表明该方法能实现对连续状态空间的自适应离散化,并最终学习到最优策略.与基于CMAC网络的强化学习方法进行比较.结果表明该方法具有节省存储空间和缩短计算时间的优点.  相似文献   

17.
针对具有外部系统扰动的线性离散时间系统的输出调节问题,提出了可保证收敛速率的数据驱动最优输出调节方法,包括状态可在线测量系统的基于状态反馈的算法,与状态不可在线测量系统的基于输出反馈的算法.首先,该问题被分解为输出调节方程求解问题与反馈控制律设计问题,基于输出调节方程的解,通过引入收敛速率参数,建立了可保证收敛速率的最...  相似文献   

18.
This paper discusses the state estimation and optimal control problem of a class of partially‐observable stochastic hybrid systems (POSHS). The POSHS has interacting continuous and discrete dynamics with uncertainties. The continuous dynamics are given by a Markov‐jump linear system and the discrete dynamics are defined by a Markov chain whose transition probabilities are dependent on the continuous state via guard conditions. The only information available to the controller are noisy measurements of the continuous state. To solve the optimal control problem, a separable control scheme is applied: the controller estimates the continuous and discrete states of the POSHS using noisy measurements and computes the optimal control input from the state estimates. Since computing both optimal state estimates and optimal control inputs are intractable, this paper proposes computationally efficient algorithms to solve this problem numerically. The proposed hybrid estimation algorithm is able to handle state‐dependent Markov transitions and compute Gaussian‐ mixture distributions as the state estimates. With the computed state estimates, a reinforcement learning algorithm defined on a function space is proposed. This approach is based on Monte Carlo sampling and integration on a function space containing all the probability distributions of the hybrid state estimates. Finally, the proposed algorithm is tested via numerical simulations.  相似文献   

19.
探索与利用的均衡是强化学习研究的重点之一。探索帮助智能体进一步了解环境来做出更优决策;而利用帮助智能体根据其自身当前对于环境的认知来做出当前最优决策。目前大多数探索算法只与值函数相关联,不考虑当前智能体对于环境的认知程度,探索效率极低。针对此问题,提出了一种基于状态空间自适应离散化的RMAX-KNN强化学习算法,算法根据当前智能体对于环境状态空间的离散化程度改写值函数形式,然后基于此值函数对环境进行合理的探索,逐步实现对于环境状态空间的自适应离散化划分。RMAXKNN算法通过将探索与环境状态空间离散化相结合,逐渐加深智能体对于环境的认知程度,进而提高探索效率,同时在理论上证明该算法是一种概率近似正确(PAC)最优探索算法。在Benchmark环境上的仿真实验结果表明,RMAX-KNN算法可以在探索环境的同时实现对于环境状态空间的自适应离散化,并学习到最优策略。  相似文献   

20.
多配送中心车辆路径规划(multi-depot vehicle routing problem, MDVRP)是现阶段供应链应用较为广泛的问题模型,现有算法多采用启发式方法,其求解速度慢且无法保证解的质量,因此研究快速且有效的求解算法具有重要的学术意义和应用价值.以最小化总车辆路径距离为目标,提出一种基于多智能体深度强化学习的求解模型.首先,定义多配送中心车辆路径问题的多智能体强化学习形式,包括状态、动作、回报以及状态转移函数,使模型能够利用多智能体强化学习训练;然后通过对MDVRP的节点邻居及遮掩机制的定义,基于注意力机制设计由多个智能体网络构成的策略网络模型,并利用策略梯度算法进行训练以获得能够快速求解的模型;接着,利用2-opt局部搜索策略和采样搜索策略改进解的质量;最后,通过对不同规模问题仿真实验以及与其他算法进行对比,验证所提出的多智能体深度强化学习模型及其与搜索策略的结合能够快速获得高质量的解.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号