排序方式: 共有43条查询结果,搜索用时 15 毫秒
21.
针对多智能体深度确定性策略梯度算法(MADDPG)学习训练效率低、收敛速度慢的问题,研究MADDPG算法经验优先抽取机制,提出PES-MADDPG算法.首先,分析MADDPG算法的模型和训练方法;然后,改进多智能体经验缓存池,以策略评估函数误差和经验抽取训练频率为依据,设计优先级评估函数,以优先级作为抽取概率获取学习样本训练神经网络;最后,在合作导航和竞争对抗2类环境中进行6组对比实验,实验结果表明,经验优先抽取机制可提高MADDPG算法的训练速度,学习后的智能体具有更好的表现,同时对深度确定性策略梯度算法(DDPG)控制的多智能体训练具有一定的适用性. 相似文献
22.
23.
将博弈理论与多智能体强化学习结合形成博弈强化学习逐渐受到关注,但是也存在算法的计算复杂度高和无法保证纯策略纳什均衡的问题。Meta equilibrium Q-learning算法通过反应函数将原始博弈转换为元博弈,而元博弈推导出的元均衡是纯策略纳什均衡。该算法在保证纯策略纳什均衡的前提下能够使得每个智能体的回报不低于某特定阈值。同时,基于分形的均衡程度评估模型能够通过计算任意状态的分形维数来判断其稳态,并评估任意状态与均衡状态之间的距离,该模型可以检验元均衡的科学性与合理性,上述算法和模型的相关结论在福利博弈和夺控战中都得到具体验证。 相似文献
24.
强化学习在游戏对弈、机器人控制等领域内已取得良好成效。为进一步提高训练效率,将元学习拓展至强化学习中,由此所产生的元强化学习已成为当前强化学习领域中的研究热点。元知识质量是决定元强化学习效果的关键因素,基于梯度的元强化学习以模型初始参数为元知识指导后续学习。为提高元知识质量,提出了一种通用元强化学习方法,通过加权机制显式表现训练过程中子任务对训练效果的贡献。该方法利用不同子任务所得的梯度更新向量与任务集内所有梯度更新向量的相似性作为更新权重,完善梯度更新过程,提高以模型初始参数为元知识的质量,使训练好的模型在一个良好的起点上解决新任务。该方法可通用在基于梯度的强化学习中,达到使用少量样本快速解决新任务的目标。在二维导航任务和仿真机器人运动控制任务的对比实验中,该方法优于其他基准算法,证明了加权机制的合理性。 相似文献
25.
针对水下移动无线传感器网络(MUWSN, mobile underwater wireless sensor networks)拓扑随洋流动态演化对其网络性能会产生很大影响,提出了一种基于拓扑重构的水下移动无线传感器网络拓扑优化方法,首先通过模拟鱼群行为对传感器节点位置进行调整,优化网络覆盖度;其次,利用冗余节点修复网络中不连通位置,消除关键节点,优化网络连通性,最后,通过仿真对比实验验证了该方法的合理性和有效性。实验结果表明,所提算法能在较低能耗下,保证网络覆盖度长期维持在97%左右,连通率达到89%以上。 相似文献
26.
整个中国正在迎来一个经济、信息、科技、文化高度发展的兴旺时期,社会的物质和精神生活都会提到一个新高度,相应地人们对自身所处的生活、生产活动环境的质量,也提出更高的要求.中国的现代室内装饰设计在改革开放的大好形势下,近几年取得了飞跃发展,度过了模仿西方传统室内设计和西方现代室内设计的时期,逐步走上了创新之路. 相似文献
27.
在不同浓度丝氨酸(Ser),天冬氨酸(Asp)和谷氨酸(Glu)的组合下制备氨基酸/羟基磷灰石(AA/HAP)复合材料。通过红外光谱仪、X射线衍射仪和透射电镜对复合材料进行表征,评估复合材料对酸蚀牛牙釉质体外再矿化的效果。结果表明:氨基酸(AA)会干扰羟基磷灰石(HAP)晶面的生长,使HAP的溶解度增加和晶体结构有序性降低。X射线衍射图及透射电镜图的结果显示,AA对HAP的[100]晶向具有显著的抑制作用,且与不含AA的HAP相比,AA修饰的HAP复合材料具有细化的晶粒尺寸。通过CCK-8法评估了材料的细胞毒性,结果表明AA/HAP复合材料的相对细胞活性优于HAP。场发射扫描电镜图表明不含AA的HAP材料和两组不同浓度AA改性HAP材料均可修复酸蚀牛牙釉质的表面龋损。而在Ser,Asp和Glu均为10 mmol·L-1条件下制备的AA/HAP可在牛牙釉质的深层再矿化中生成厚度约为22μm的致密再矿化层,并获得了最佳的表面显微硬度恢复效果。 相似文献
28.
本文基于低影响开发理念及海绵城市建设,以河南省扶沟县城南新区作为研究区域,采用SWMM模型,研究分析了雨水涵养池在不同上下游区域、不同布设密度和不同降雨重现期的情况下,其对雨水径流的调控效果和污染物的削减作用,并通过对比分析后确定空间布局最优方案。结果表明相同降雨重现期和布设密度时,雨水涵养池布设在上游区域对污染物削减效果明显,排放口洪峰削减大;并且相同降雨重现期,涵养池布设在上游区域时,其分布越分散,污染物和洪峰的削减效果越好。 相似文献
29.
采用彩色金相与能谱对半连续浇铸的AZ61镁合金进行了组织和成分上的观察,发现冷却速率较快的铸锭边部的二次枝晶间距比冷却速率较慢的铸锭心部的二次枝晶间距大,与普通模铸的显微组织呈现的规律不同,并对这一现象进行了理论上的分析讨论。分析认为边部二次枝晶间距的异常增大与二次枝晶臂表面溶质的微观偏析密切相关,粗枝晶臂表面溶质浓度与细枝晶臂表面溶质浓度差值越大,粗枝晶臂的粗化驱动能越大,枝晶的二次枝晶间距就越大。 相似文献
30.
神经网络优化是机器学习领域的一个基础性前沿课题。相较于神经网络的纯梯度优化算法,非梯度算法在解决收敛速度慢、易陷入局部最优、无法解决不可微等问题上表现出更大的优势。在剖析基于梯度的神经网络方法优缺点的基础上,重点对部分非梯度优化方法进行了综述,包括前馈神经网络优化和随机搜索优化;从基本理论、训练神经网络的步骤以及收敛性等方面对非梯度优化方法的优缺点和应用情况进行了分析;总结了基于非梯度的训练神经网络的算法在理论和应用方面面临的挑战并且展望了未来的发展方向。 相似文献