首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
针对DDPG(deep deterministic policy gradient)在线训练过程中陷入局部极小值及产生大量试错动作和无效数据的问题,提出一种基于离线模型预训练学习的改进DDPG算法。利用已有数据离线训练对象状态模型和价值奖励模型,提前对DDPG中动作网络和价值网络进行预训练学习,减少DDPG前期工作量并提升在线学习的品质。加入DDQN(double deep Q-Learning network)结构解决Q值估计偏高问题。仿真结果中获取平均累积奖励值提升了9.15%,表明改进算法有效提高了DDPG算法效果。  相似文献   

2.
针对传统煤矸石分拣机械臂控制算法如抓取函数法、基于费拉里法的动态目标抓取算法等依赖于精确的环境模型、且控制过程缺乏自适应性,传统深度确定性策略梯度(DDPG)等智能控制算法存在输出动作过大及稀疏奖励容易被淹没等问题,对传统DDPG算法中的神经网络结构和奖励函数进行了改进,提出了一种适合处理六自由度煤矸石分拣机械臂的基于强化学习的改进DDPG算法。煤矸石进入机械臂工作空间后,改进DDPG算法可根据相应传感器返回的煤矸石位置及机械臂状态进行决策,并向相应运动控制器输出一组关节角状态控制量,根据煤矸石位置及关节角状态控制量控制机械臂运动,使机械臂运动到煤矸石附近,实现煤矸石分拣。仿真实验结果表明:改进DDPG算法相较于传统DDPG算法具有无模型通用性强及在与环境交互中可自适应学习抓取姿态的优势,可率先收敛于探索过程中所遇的最大奖励值,利用改进DDPG算法控制的机械臂所学策略泛化性更好、输出的关节角状态控制量更小、煤矸石分拣效率更高。  相似文献   

3.
利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的全连接层替换为LSTM记忆单元,控制样本信息的记忆和遗忘程度,优先学习奖励值高的样本,从而更快地累积奖励优化模型。在此基础上,加入虚拟目标点,通过雷达传感器收集的环境信息判断机器人陷入死锁区域时弃用目标点给予机器人的引导,使机器人走出陷阱区域并趋向目标点,减少在死锁区域不必要的训练。分别在特殊障碍物场景和混合障碍物场景中对LSTM-PPO算法进行仿真验证,结果表明,与传统PPO算法和改进算法SDAS-PPO相比,该算法在两种场景训练中均能最快到达奖励峰值,可加快模型收敛速度,减少冗余路段,优化路径平滑度并缩短路径长度。  相似文献   

4.
张晓平  李凯  王力  闫佳庆  何忠贺 《控制与决策》2023,38(10):2850-2858
情感作为人类的高级认知,在环境学习和环境理解方面具有重要意义.将情感引入机器人搜索任务,同时结合记忆机理,提出一种具有情感和记忆机制的认知模型,由内部状态、感受器、环境状态系统、情感系统、动态知识库、行为决策系统以及执行器7部分组成.情感系统包含情感生成、情感状态以及情感记忆3个模块,其中,情感记忆用于提供内部奖励.记忆功能在动态知识库中实现.基于强化学习理论框架,将情感内部奖励与记忆进行融合,形成新的奖励机制,并设计相关认知学习算法.以需要“能量补给”的迷宫机器人搜索任务对所提出认知模型进行验证,结果发现,当面对不同情境时,机器人会产生不同的情感.结合前期记忆,机器人所作决策更“拟人”,表明情感和记忆机制设计的有效性.将所提出认知模型、无情感决策认知模型、基于ε-greedy策略的Q学习算法进行对比,结果表明,情感和记忆的引入,能够提高机器人的学习效率,同时学习过程更稳定.  相似文献   

5.
对互联电网中自动发电控制AGC中控制策略进行改进,设计了人工智能中的人工心理学和人工智能中的机器学习结合的控制策略.分别对Q学习算法和Q(λ)学习算法进行改进,设计了具有人工情感的智能体.提出了人工情感Q学习算法和人工情感Q(λ)学习算法.且将人工情感分别作用于Q学习算法和Q(λ)学习算法中的输出动作、学习率和奖励函数.最后在IEEE标准两区域和南方电网四区域的互联电网Simulink模型中进行数值仿真.绘制并统计了控制性能指标、区域控制误差和频率偏差的值.从仿真结果看,所提人工情感Q学习算法和人工情感Q(λ)学习算法控制效果优于原有Q学习算法、Q(λ)学习算法、R(λ)算法、Sarsa算法、Sarsa(λ)算法和PID控制算法,该数值仿真结果验证了所提算法的可行性和有效性.  相似文献   

6.
在强化学习中,当处于奖励分布稀疏的环境时,由于无法获得有效经验,智能体收敛速度和效率都会大幅下降.针对此类稀疏奖励,文中提出基于情感的异构多智能体强化学习方法.首先,建立基于个性的智能体情感模型,为异构多智能体提供激励机制,作为外部奖励的有效补充.然后,基于上述激励机制,融合深度确定性策略,提出稀疏奖励下基于内在情感激...  相似文献   

7.
针对在多智能体环境中强化学习面临的稀疏奖励问题,借鉴情绪在人类学习和决策中的作用,文中提出基于个体落差情绪的多智能体协作算法.对近似联合动作值函数进行端到端优化以训练个体策略,将每个智能体的个体动作值函数作为对事件的评估.预测评价与实际情况的差距产生落差情绪,以该落差情绪模型作为内在动机机制,为每个智能体产生一个内在情绪奖励,作为外在奖励的有效补充,以此缓解外在奖励稀疏的问题.同时内在情绪奖励与具体任务无关,因此具有一定的通用性.在不同稀疏程度的多智能体追捕场景中验证文中算法的有效性和鲁棒性.  相似文献   

8.
针对多无人机博弈对抗过程中无人机数量动态衰减问题和传统深度强化学习算法中的稀疏奖励问题及无效经验抽取频率过高问题,本文以攻防能力及通信范围受限条件下的多无人机博弈对抗任务为研究背景,构建了红、蓝两方无人机群的博弈对抗模型,在多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient, MADDPG)算法的Actor-Critic框架下,根据博弈环境的特点对原始的MADDPG算法进行改进。为了进一步提升算法对有效经验的探索和利用,本文构建了规则耦合模块以在无人机的决策过程中对Actor网络进行辅助。仿真实验表明,本文设计的算法在收敛速度、学习效率和稳定性方面都取了一定的提升,异构子网络的引入使算法更适用于无人机数量动态衰减的博弈场景;奖励势函数和重要性权重耦合的优先经验回放方法提升了经验差异的细化程度及优势经验利用率;规则耦合模块的引入实现了无人机决策网络对先验知识的有效利用。  相似文献   

9.
一种基于改进码本模型的快速运动检测算法   总被引:3,自引:0,他引:3  
从视频序列中分割出运动目标是计算机视觉应用领域中一个基础和关键的任务.针对现有码本模型(codebook model)在RGB颜色空间下不能很好地契合其计算特性,且无法兼顾抗扰动能力和分割质量的问题,提出一种基于改进码本模型的快速运动检测算法.首先将像素从RGB空间转换到YUV空间来建立码本模型;然后单独对每个码字中的亮度分量进行单高斯建模,使得整个码本具有高斯混合模型(Gaussian mixture model)的特性.典型测试序列和扰动检测率(perturbation detection rate)曲线的对比实验表明,该算法是高效和实用的.  相似文献   

10.
《计算机科学与探索》2017,(11):1733-1746
为了在庞大空间中搜索软件体系结构(software architecture,SA)层最优性能改进方案,当前已涌现出一些以NSGA-Ⅱ为代表的性能优化算法。然而这些算法大多未充分考虑性能改进空间的离散特性和性能评估的高计算代价特点,导致了解质量不高和优化时间过长的问题。针对这一问题,提出一种代理模型帮助的SA层性能差分演化优化算法SMDE4PO(surrogate model assisted differential evolution algorithm for performance optimization)。该算法采用多种交叉和变异策略以增大搜索空间和提高收敛速度,并运用随机森林作为代理模型以大幅减少实际性能评估的次数。在4个不同规模案例上的实验结果表明:(1)在贡献度、世代距离和超体积3个指标上SMDE4PO显著优于NSGA-Ⅱ算法;(2)通过使用随机森林代理模型,在最好情况下SMDE4PO较NSGA-Ⅱ算法的运行时间可降低48%。  相似文献   

11.
动态模糊机器学习模型及验证   总被引:1,自引:1,他引:0  
张静  李凡长 《计算机应用》2006,26(9):2044-2046
根据学习系统中存在的动态模糊性,提出了动态模糊机器学习模型,给出了动态模糊机器学习算法和它的几何模型描述,并进行了算法的稳定性分析,最后给出了实例验证。实例结果与BP算法产生结果相比较,优于BP算法的结果。  相似文献   

12.
提出了一种传感器动态模型辩识新方法,给出了相应的辩识过程及学习算法.该方法采用支持向量机模型,与常规模型辩识方法比较,其优点是明显的.其采用了结构风险最小化准则,在最小化样本误差的同时减小模型泛化误差的上界,提高了模型的泛化能力;而且将学习算法转换为求解二次规划问题,使得整个模型参数辩识过程中有且仅有一个全局极值点,确定了结果的唯一性.最后,仿真和实际试验结果均表明应用支持向量机对传感器动态模型进行辩识有效.  相似文献   

13.
赵学华  杨博  陈贺昌 《软件学报》2016,27(9):2248-2264
由于随机块模型能够有效处理不具有先验知识的网络,对其研究成为了机器学习、网络数据挖掘和社会网络分析等领域的研究热点.如何设计出具有模型选择能力的快速随机块模型学习算法,是目前随机块模型研究面临的一个主要挑战.提出一种精细随机块模型及其快速学习算法.该学习方法基于提出的模型与最小消息长度推导出一个新成本函数,利用期望最大化参数估计方法,实现了边评价模型边估计参数的并行学习策略,以此方式显著降低随机块模型学习的时间复杂性.分别采用人工网络与真实网络,从学习时间和学习精度两方面对提出的学习算法进行了验证,并与现有的代表性随机块模型学习方法进行了对比.实验结果表明:提出的算法能够在保持学习精度的情况下显著降低时间复杂性,在学习精度和时间之间取得很好的折衷;在无任何先验知识的情况下,可处理的网络规模从几百节点提高至几万节点.另外,通过网络链接预测的实验,其结果也表明了提出的模型及学习算法相比现有随机块模型和学习方法具有更好的泛化能力.  相似文献   

14.
迭代学习在网络控制中的应用*   总被引:1,自引:0,他引:1  
针对网络拥塞控制中网络拥塞本身无法建立精确的数学模型的问题,基于迭代学习控制具有结构简单及对系统精确模型不依赖等优点,首次提出了用迭代学习控制算法来解决网络拥塞,其主要目的是提高网络资源的利用率并提供给信源公平的资源分配份额。在提出算法前,首先通过分析网络模型建立了网络拥塞被控系统;然后提出了针对该被控系统的开闭环PID型迭代学习控制算法并证明了其收敛性;最后运用此算法建立了网络拥塞控制模型。通过实验和仿真表明,该算法对解决网络拥塞问题有很好的效果。  相似文献   

15.
对电网供电系统短期电力负荷预测模型进行优化,能提升预测结果的准确性和鲁棒性.虽然现有预测模型可以满足预测速度的要求,但预测结果的精确性和稳定性却无法保证.为了得到更加准确和稳定的预测结果,提出了细菌觅食算法优化极限学习机预测模型.首先在电力负荷样本数据中形成训练样本和预测样本集,利用细菌觅食优化算法对极限学习机预测模型中的不确定参数进行优化,然后利用改进后的模型进行电力负荷预测.新模型的优化仿真结果显示,利用细菌觅食算法优化极限学习机预测模型的预测精度和稳定性均优于传统预测模型的预测结果,该算法具有很好地实用性.  相似文献   

16.
支持向量机最优模型选择的研究   总被引:18,自引:0,他引:18  
通过对核矩阵的研究,利用核矩阵的对称正定性,采用核校准的方法提出了一种SVM最优模型选择的算法——OMSA算法.利用训练样本不通过SVM标准训练和测试过程而寻求最优的核参数和相应的最优学习模型,弥补了传统SVM在模型选择上经验性强和计算量大的不足.采用该算法在UCI标准数据集和FERET标准人脸库上进行了实验,结果表明,通过该算法找到的核参数以及相应的核矩阵是最优的,得到的SVM分类器的错误率最小.该算法为SVM最优模型选择提供了一种可行的方法,同时对其他基于核的学习方法也具有一定的参考价值.  相似文献   

17.
多Agent协作的强化学习模型和算法   总被引:2,自引:0,他引:2  
结合强化学习技术讨论了多Agent协作学习的过程,构造了一个新的多Agent协作学习模型。在这个模型的基础上,提出一个多Agent协作学习算法。算法充分考虑了多Agent共同学习的特点,使得Agent基于对动作长期利益的估计来预测其动作策略,并做出相应的决策,进而达成最优的联合动作策略。最后,通过对猎人。猎物追逐问题的仿真试验验证了该算法的收敛性,表明这种学习算法是一种高效、快速的学习方法。  相似文献   

18.
用遗传算法优化Boltzmann机   总被引:3,自引:0,他引:3       下载免费PDF全文
Boltzmann机是一种应用广泛的随机神经网络。它通过模拟退火算法进行网络学习,能取得一个全局或接近全局最优的最优值;通过期望网络模式和实际学习得到的网络模式比较来调节网络的权值,使网络能尽可能地达到或逼近期望的网络模式。将遗传算法运用到Boltzmann机的网络学习中,在对BM机编码后,通过选择、交叉和变异等遗传操作算子对网络进行训练,调整网络的权值,使适应度函数值大的网络保留下来,最终使网络达到期望的模式。通过实例验证,这是一种简单可行的调节网络权值的方法。  相似文献   

19.
研发一个实现机器学习算法的英语词汇自适应学习模型,该模型记录了学习者对学习内容自我选择的情况,进而反映出学习者的个性差异.同时,作为一种动态建模学习工具,其关键参数是条件概率,用于测量学习者某个认知特征对某种学习内容的适应性关系,因此将该参数称为适应度.学习者每次对一个单词完成学习内容的自我选择,适应度随之更新一次,视为一次训练;通过训练,不断调整适应度,修改和维护模型自身.模型将所要解决的问题抽象为一系列数学公式,公式参考了AdaBoost算法公式;模型的求解流程参照了基于项目反应理论的自适应测验过程.本模型能够持续迭代适应度直至稳定,最终推送出与他相适应的学习内容.文章首先介绍国内外相关研究及选题价值,接着阐述模型的理论依据,继而重点论述模型的构建,最后给予例证.  相似文献   

20.
In Gaussian mixture modeling, it is crucial to select the number of Gaussians or mixture model for a sample data set. Under regularization theory, we aim to solve this kind of model selection problem through implementing entropy regularized likelihood (ERL) learning on Gaussian mixture via a batch gradient learning algorithm. It is demonstrated by the simulation experiments that this gradient ERL learning algorithm can select an appropriate number of Gaussians automatically during the parameter learning on a sample data set and lead to a good estimation of the parameters in the actual Gaussian mixture, even in the cases of two or more actual Gaussians overlapped strongly. We further give an adaptive gradient implementation of the ERL learning on Gaussian mixture followed with theoretic analysis, and find a mechanism of generalized competitive learning implied in the ERL learning.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号