期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

郝禹哲王振雷《计算机应用研究》2023,40(6):1692-1696+1701

合作马尔可夫博弈中,每个智能体不仅要实现共同的目标,还需要保证联合动作能够满足设定的约束条件。为此提出了安全约束下的合作型多智能体TD3算法MACTD3 (multi-agent constrainted twin delayed deep deterministic policy gradient)。首先,结合注意力机制对各个智能体采取的动作与决策过程约束条件进行了协调。然后利用拉格朗日乘子构造了修正的代价函数。进而为保证算法的收敛性,保证每一个智能体能够满足预先设定的约束条件,设计了不同时间尺度分学习策略：在短时间尺度上执行Actor-Critic网络的梯度下降,在长时间尺度上对拉格朗日参数进行迭代。最后在异质和同质的合作型多智能体环境下进行实验。实验结果表明,与其他算法相比,提出的MACTD3算法始终能够获得最小的惩罚成本;通过数量的扩展性实验表明了MACTD3在不同数量智能体的情况下仍然能够满足约束条件,证明了算法的有效性与扩展性。相似文献

2.

基于事件驱动的多智能体强化学习研究

下载免费PDF全文

张文旭马磊王晓东《智能系统学报》2017,12(1):82-87

本文针对多智能体强化学习中存在的通信和计算资源消耗大等问题,提出了一种基于事件驱动的多智能体强化学习算法,侧重于事件驱动在多智能体学习策略层方面的研究。在智能体与环境的交互过程中,算法基于事件驱动的思想,根据智能体观测信息的变化率设计触发函数,使学习过程中的通信和学习时机无需实时或按周期地进行,故在相同时间内可以降低数据传输和计算次数。另外,分析了该算法的计算资源消耗,以及对算法收敛性进行了论证。最后,仿真实验说明了该算法可以在学习过程中减少一定的通信次数和策略遍历次数,进而缓解了通信和计算资源消耗。相似文献

3.

多智能体系统中基于局部测量信息的目标定位

林澈颜钢锋《控制与决策》2017,32(7):1229-1234

针对多智能体系统中的定位问题,设计一种在变拓扑网络条件下的分布式目标定位算法,使所有智能体实现目标的相对定位.假设智能体只能获取局部的测量信息并进行局部信息交换.算法包括成对智能体之间相互定位算法和基于一致性的目标定位融合算法,对算法的成立条件和收敛误差进行分析,并通过仿真实验验证所提出算法的有效性. 相似文献

4.

基于加权值函数分解的多智能体分层强化学习技能发现方法

邹启杰李文雪高兵赵锡玲张汝波《计算机应用研究》2023,(9):2743-2748+2754

针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题，提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先，该算法将集中训练分散执行的架构与分层强化学习相结合，在上层采用加权值函数分解的方法解决智能体在训练过程中容易忽略最优策略而选择次优策略的问题；其次，在下层采用独立Q学习算法使其能够在多智能体环境中分散式地处理高维复杂的任务；最后，在底层独立Q学习的基础上引入技能发现策略，使智能体之间相互学习互补的技能。分别在简易团队运动和星际争霸Ⅱ两个仿真实验平台上对该算法与多智能体强化学习算法和分层强化学习算法进行对比，实验表明，该算法在奖励回报以及双方对抗胜率等性能指标上都有所提高，提升了整个多智能体系统的决策能力和收敛速度，验证了算法的可行性。相似文献

5.

多代理强化学习在智能教学系统中的应用

李洋《计算机与数字工程》2010,38(5):78-80,174

教学的个性化和智能化是智能教学系统研究的重点和难点。文章采用智能代理技术模拟系统中学生的智能和行为方式,将强化学习理论应用于多代理体,设计了结合资格迹理论的强化学习算法,并用以生成和调整适合于每个学生个体的教学内容和教学策略。多代理体技术实现了教学的个性化,强化学习算法使得教学策略具有智能化。实验结果表明,新的算法较原有算法更为有效。相似文献

6.

基于联合强化学习的RoboCup-2D传球策略

下载免费PDF全文

常晓军《计算机工程与应用》2011,47(23):212-216

在传统Q学习算法基础上引入多智能体系统,提出了多智能体联合Q学习算法。该算法是在同一评价函数下进行多智能体的学习,并且学习过程考虑了参与协作的所有智能体的学习结果。在RoboCup-2D足球仿真比赛中通过引入球场状态分解法减少了状态分量,采用联合学习得到的最优状态作为多智能体协作的最优动作组,有效解决了仿真中各智能体之间的传球策略及其协作问题,仿真和实验结果证明了算法的有效性和可靠性。相似文献

7.

部分可观测下基于RGMAAC算法的多智能体协同

王子豪张严心黄志清殷辰堃《控制与决策》2023,38(5):1267-1277

多智能体深度强化学习(MADRL)将深度强化学习的思想和算法应用到多智能体系统的学习和控制中,是开发具有群智能体的多智能体系统的重要方法.现有的MADRL研究主要基于环境完全可观测或通信资源不受限的假设展开算法设计,然而部分可观测性是多智能体系统实际应用中客观存在的问题,例如智能体的观测范围通常是有限的,可观测的范围外不包括完整的环境信息,从而对多智能体间协同造成困难.鉴于此,针对实际场景中的部分可观测问题,基于集中式训练分布式执行的范式,将深度强化学习算法Actor-Critic扩展到多智能体系统,并增加智能体间的通信信道和门控机制,提出recurrent gated multi-agent Actor-Critic算法(RGMAAC).智能体可以基于历史动作观测记忆序列进行高效的通信交流,最终利用局部观测、历史观测记忆序列以及通过通信信道显式地由其他智能体共享的观察进行行为决策;同时,基于多智能体粒子环境设计多智能体同步且快速到达目标点任务,并分别设计2种奖励值函数和任务场景.实验结果表明,当任务场景中明确出现部分可观测问题时,RGMAAC算法训练后的智能体具有很好的表现,在稳定性... 相似文献

8.

多智能体粒子群算法在配电网络重构中的应用 总被引：1，自引：1，他引：0

下载免费PDF全文

肖鲲黄挚雄《计算机工程与应用》2010,46(8):221-224

结合多智能体的学习、协调策略及粒子群算法,提出了一种基于多智能体粒子群优化的配电网络重构方法。该方法采用粒子群算法的拓扑结构来构建多智能体的体系结构,在多智能体系统中,每一个粒子作为一个智能体,通过与邻域的智能体竞争、合作,能够更快、更精确地收敛到全局最优解。粒子的更新规则减少了算法不可行解的产生,提高了算法效率。实验结果表明,该方法具有很高的搜索效率和寻优性能。相似文献

9.

多智能体的增强学习及其在RoboCup中的应用

刘国栋杨宝庆《计算机工程与应用》2008,44(23):46-48

针对非确定马尔可夫环境下的多智能体系统,提出了多智能体Q学习模型和算法。算法中通过对联合动作的统计来学习其它智能体的行为策略,并利用智能体策略向量的全概率分布保证了对联合最优动作的选择。在实验中,成功实现了智能体的决策,提高了AFU队的整体的对抗能力,证明了算法的有效性和可行性。相似文献

10.

MADDPG算法经验优先抽取机制

何明张斌柳强陈希亮杨铖《控制与决策》2021,36(1):68-74

针对多智能体深度确定性策略梯度算法(MADDPG)学习训练效率低、收敛速度慢的问题,研究MADDPG算法经验优先抽取机制,提出PES-MADDPG算法.首先,分析MADDPG算法的模型和训练方法;然后,改进多智能体经验缓存池,以策略评估函数误差和经验抽取训练频率为依据,设计优先级评估函数,以优先级作为抽取概率获取学习样本训练神经网络;最后,在合作导航和竞争对抗2类环境中进行6组对比实验,实验结果表明,经验优先抽取机制可提高MADDPG算法的训练速度,学习后的智能体具有更好的表现,同时对深度确定性策略梯度算法(DDPG)控制的多智能体训练具有一定的适用性. 相似文献

11.

高超声速飞行器输入受限反演鲁棒控制

王鹏飞王洁罗畅谭诗利《控制与决策》2017,32(2):232-238

针对执行机构受限条件下高超声速飞行器的控制问题,提出一种鲁棒反演控制设计方法.设计一种新的辅助系统对跟踪误差和控制律进行补偿,保证执行器受限时跟踪误差的有界性.为了避免传统反演方法中虚拟导数计算量膨胀问题,引入滑模微分器对虚拟导数进行求解.为了增强系统的鲁棒性,基于改进反正切跟踪微分器(MATD)设计一种新型干扰观测器,对系统的不确定项进行估计和补偿.最后,通过实例仿真验证了所提出控制器的有效性. 相似文献

12.

All‐Stabilizing Proportional Controllers for First‐Order Bi‐Proper Systems with Time Delay: An Analytical Derivation

下载免费PDF全文

Baris Samim Nesimioglu Mehmet Turan Soylemez 《Asian journal of control》2016,18(6):2203-2220

In this paper, a simple derivation for an all‐stabilizing proportional controller set for first‐order bi‐proper systems with time delay is proposed. In contrast to proper systems, an extremely limited number of studies are available in the literature for such bi‐proper systems. To fill this gap in the literature, broader aspects of the stabilizing set are taken into consideration. The effect of zero on the stabilizing set is clearly discussed and we also prove that, when their zeros are placed symmetrically to the origin, the stabilizing set of non‐minimum phase plant is always smaller than that of the minimum phase one. Moreover, for an open‐loop unstable plant, maximum allowable time delay (MATD) is explicitly expressed as a function of the locations of the pole and zero. From that function, it is shown that for a minimum phase plant, the supremum of the MATD is two times that of the time constant of the plant and the infimum of the MATD is the time constant of the plant. We also prove that the supremum is the time constant and the infimum is zero for a non‐minimum phase plant. 相似文献

13.

大场景三维重建中多核并行捆集调整算法

佟国峰蒋昭炎叶柠徐心和《控制与决策》2013,28(9):1403-1408

将三维重建中捆集调整算法用于优化重建结果,是非常关键的步骤,然而传统单核串行算法耗时量大不太适合大场景重建。对此,首先对捆集调整算法本身进行了改进;然后在此基础上提出了多核并行捆集调整算法并采用图像处理器(GPU)实现该算法。实验表明,所提出的多核并行捆集调整算法提高了算法优化参数的精度和处理速度。相似文献

14.

ID3算法的一种改进算法 总被引：33，自引：5，他引：33

曲开社成文丽王俊红《计算机工程与应用》2003,39(25):104-107

决策树是归纳学习和数据挖掘的重要方法,通常用来形成分类器和预测模型。ID3算法是决策树中的核心算法,文章针对ID3算法倾向于取值较多的属性的缺点,引进用户兴趣度对ID3算法作了改进,并通过实验对改进前后的算法进行了比较,实验表明,改进后的算法是有效的。相似文献

15.

基于用户兴趣度和MID3决策树改进方法 总被引：1，自引：0，他引：1

下载免费PDF全文

王永梅胡学钢《计算机工程与应用》2011,47(27):155-157

决策树是数据挖掘的重要方法,通常用来形成分类器和预测模型。分析ID3算法和现有的ID3改进算法所存在的问题。提出一种合理且可靠的MID3的改进算法,即针对MID3算法倾向于取值较多属性的缺点,引入了用户兴趣度对算法进行改进,改进后的MID3算法既可以在一定程度上解决多值偏向问题,也可以考虑决策树的两层节点。并通过实验与其他ID3改进算法进行比较,实验结果表明,改进后的MID3算法是有效的。相似文献

16.

基于自适应邻域的固有形状特征算法

石志良蔡旺月汪国强熊林杰《计算机应用》2020,40(4):1151-1156

针对三维点云特征点检测算法中固定尺度的确定需要经验知识的参与,自适应尺度的计算需消耗较多时间成本的问题,提出一种自适应邻域的固有形状特征（ANISS）改进算法。首先利用局部特征计算每一点的自适应邻域k值;然后将k值作为ANISS算法中的邻域大小,通过比较连续特征值的比率与阈值的大小来得到近似特征点;最后以近似特征点的k值作为非极大值抑制（NMS）的邻域大小,执行NMS算法,得到最终的特征点。旋转平移不变性实验和噪声敏感性实验的结果表明,ANISS算法检测出的特征点的可重复性均高于固有形状特征（ISS）算法,它不仅降低了ISS算法中邻域参数输入造成的不准确性,还具有较高的计算效率。相似文献

17.

一种成象跟踪系统的设计

王国营张红旗汤光明王昌胜《计算机工程》2000,26(2):32-33,,41,

在分析了国内外成象跟踪系统存在的优缺点的基础上,提出了一种新的成象系统的设计方案,并完成了实验系统报调试。系统中采用的跟踪算法能够很好地解决三维空间中物体一拉移旋转和尺度不变性问题,这是过去许多跟踪算法中没有解决的问题。在硬件设计中采用了高速数字信号２芯片ＴＭＳ３２０Ｃ３０来协助完成图象处理任务以满足实时跟踪的需要。相似文献

18.

Memetic算法在板坯排序中的应用 总被引：1，自引：1，他引：0

下载免费PDF全文

高知新李铁克苏志雄《计算机工程与应用》2009,45(19):192-194

热轧带钢生产中的板坯排序是一种复杂的组合优化问题,可以归结为一个PCTSP问题。Memetic算法(种群全局搜索和启发式局部搜索的结合),被用来求解热轧板坯排序。考虑到热轧生产约束的特点,提出了一种初始解构造策略,并利用缩减3-opt邻域搜索算法进行局部优化。仿真结果表明了该算法的优化效果和时间效率都是令人满意的。相似文献

19.

基于GPU编程的真实感水面模拟绘制

杨延张建中何晓曦《数字社区&智能家居》2009,5(5):3483-3485

提出基于GPU编程的真实感水面的优化实时渲染算法。介绍了各种水面渲染需要使用到的图形,数学处理技术。通过固定的顶点流实现了水波建模,凹凸映射贴图和纹理混合,水面的反射和折射等多种特效,并使用可编程流水线的补色渲染完成最后的水面绘制。实验证明该方法可以很好地模拟真实水面的渲染要求,可以满足3D游戏和动画中对水面渲染的需要。相似文献

20.

基于三维全卷积网络的肝脏和肝癌分割算法研究

下载免费PDF全文

徐宝泉凌彤辉《计算机测量与控制》2019,27(9):199-203

为了解决计算机断层扫描(computed tomography,CT)影像中肝脏和肝癌的准确分割问题,提出了基于三维全卷积网络的肝脏分割算法和肝癌分割算法。肝脏分割算法和肝癌分割算法都采用Vnet网络进行分割。在肝脏分割算法中,采用了形态学方法进行后处理,提高了肝脏分割准确率。在肝癌分割算法中,采用了组合损失函数训练Vnet网络,使得Vnet网络更好地收敛,并加入后处理提高了肝癌分割准确率。为了验证算法的性能,采用MICCAI 2017 Liver Tumor Segmentation Challenge(LiTS)数据集进行了肝脏分割和肝癌分割的5折交叉验证实验。肝脏分割算法在测试集的平均分割准确率为0.9510,高于Unet网络和3D Unet网络;肝癌分割算法的平均分割准确率为0.712。实验结果表明,肝脏分割算法可以准确地对肝脏进行分割,肝癌分割算法也达到了较高的准确率。相似文献