期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘国栋杨宝庆《计算机工程与应用》2008,44(23):46-48

针对非确定马尔可夫环境下的多智能体系统,提出了多智能体Q学习模型和算法。算法中通过对联合动作的统计来学习其它智能体的行为策略,并利用智能体策略向量的全概率分布保证了对联合最优动作的选择。在实验中,成功实现了智能体的决策,提高了AFU队的整体的对抗能力,证明了算法的有效性和可行性。相似文献

2.

基于加权值函数分解的多智能体分层强化学习技能发现方法

邹启杰李文雪高兵赵锡玲张汝波《计算机应用研究》2023,(9):2743-2748+2754

针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题，提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先，该算法将集中训练分散执行的架构与分层强化学习相结合，在上层采用加权值函数分解的方法解决智能体在训练过程中容易忽略最优策略而选择次优策略的问题；其次，在下层采用独立Q学习算法使其能够在多智能体环境中分散式地处理高维复杂的任务；最后，在底层独立Q学习的基础上引入技能发现策略，使智能体之间相互学习互补的技能。分别在简易团队运动和星际争霸Ⅱ两个仿真实验平台上对该算法与多智能体强化学习算法和分层强化学习算法进行对比，实验表明，该算法在奖励回报以及双方对抗胜率等性能指标上都有所提高，提升了整个多智能体系统的决策能力和收敛速度，验证了算法的可行性。相似文献

3.

基于双深度Q网络的智能决策系统研究

况立群冯利韩燮贾炅昊郭广行《计算机技术与发展》2022,(2)

目前智能决策系统中的经典算法智能化程度较低,而更为先进的强化学习算法应用于复杂决策任务又会导致存储上的维度灾难问题。针对该问题,提出了一种基于双深度Q网络的智能决策算法,改进了目标Q值计算方法,并将动作选择和策略评估分开进行,从而获得更加稳定有效的策略。智能体对输入状态进行训练,输出一个较优的动作来驱动智能体行为,包括环境感知、动作感知及任务协同等,继而在复杂度较高的决策环境中顺利完成给定任务。基于Unity3D游戏引擎开发了虚拟智能对抗演练的验证系统,对演练实时状态和智能体训练结果进行可视化,验证了双深度Q网络模型的正确性和稳定性,有效解决了强化学习算法存在的灾难问题。该智能决策算法有望在策略游戏、对抗演练、任务方案评估等领域发挥作用。相似文献

4.

一种新的多智能体Q学习算法 总被引：2，自引：0，他引：2

郭锐吴敏彭军彭姣曹卫华《自动化学报》2007,33(4):367-372

针对非确定马尔可夫环境下的多智能体系统,提出了一种新的多智能体Q学习算法.算法中通过对联合动作的统计来学习其它智能体的行为策略,并利用智能体策略向量的全概率分布保证了对联合最优动作的选择. 同时对算法的收敛性和学习性能进行了分析.该算法在多智能体系统RoboCup中的应用进一步表明了算法的有效性与泛化能力. 相似文献

5.

双Q网络学习的迁移强化学习算法

曾睿周建刘满禄张俊俊陈卓《计算机应用研究》2021,38(6):1699-1703

深度强化学习在训练过程中会探索大量环境样本,造成算法收敛时间过长,而重用或传输来自先前任务(源任务)学习的知识,对算法在新任务(目标任务)的学习具有提高算法收敛速度的潜力.为了提高算法学习效率,提出一种双Q网络学习的迁移强化学习算法,其基于actor-critic框架迁移源任务最优值函数的知识,使目标任务中值函数网络对策略作出更准确的评价,引导策略快速向最优策略方向更新.将该算法用于Open AI Gym以及在三维空间机械臂到达目标物位置的实验中,相比于常规深度强化学习算法取得了更好的效果,实验证明提出的双Q网络学习的迁移强化学习算法具有较快的收敛速度,并且在训练过程中算法探索更加稳定. 相似文献

6.

基于强化学习的多智能体泛化性研究

郭鑫王微青伟李剑何召锋《计算机技术与发展》2023,(4):114-119

在多智能体强化学习算法的研究中,由于训练与测试环境具有差异,如何让智能体有效地应对环境中其他智能体策略变化的情况受到研究人员的广泛关注。针对这一泛化性问题,提出基于人类偏好的多智能体角色策略集成算法,该算法同时考虑了长期回报和即时回报。这一改进使得智能体从一些具有良好长期累积回报的候选行动中选择具有最大即时回报的行动,从而让算法确定了策略更新的方向,避免过度探索和无效训练,能快速找到最优策略。此外,智能体被动态地划分为不同的角色,同角色智能体共享参数,不仅提高了效率,而且实现了多智能体算法的可扩展性。在多智能体粒子环境中与现有算法的比较表明,该算法的智能体能更好地泛化到未知环境,且收敛速度更快,能够更高效地训练出最优策略。相似文献

7.

融合认知行为模型的深度强化学习框架及算法

陈浩李嘉祥黄健王菖刘权张中杰《控制与决策》2023,38(11):3209-3218

面对高维连续状态空间或稀疏奖励等复杂任务时,仅依靠深度强化学习算法从零学习最优策略十分困难,如何将已有知识表示为人与学习型智能体之间相互可理解的形式,并有效地加速策略收敛仍是一个难题.对此,提出一种融合认知行为模型的深度强化学习框架,将领域内先验知识建模为基于信念-愿望-意图(belief- desire-intention, BDI)的认知行为模型,用于引导智能体策略学习.基于此框架,分别提出融合认知行为模型的深度Q学习算法和近端策略优化算法,并定量化设计认知行为模型对智能体策略更新的引导方式.最后,通过典型gym环境和空战机动决策对抗环境,验证所提出算法可以高效利用认知行为模型加速策略学习,有效缓解状态空间巨大和环境奖励稀疏的影响. 相似文献

8.

基于联合强化学习的RoboCup-2D传球策略

下载免费PDF全文

常晓军《计算机工程与应用》2011,47(23):212-216

在传统Q学习算法基础上引入多智能体系统,提出了多智能体联合Q学习算法。该算法是在同一评价函数下进行多智能体的学习,并且学习过程考虑了参与协作的所有智能体的学习结果。在RoboCup-2D足球仿真比赛中通过引入球场状态分解法减少了状态分量,采用联合学习得到的最优状态作为多智能体协作的最优动作组,有效解决了仿真中各智能体之间的传球策略及其协作问题,仿真和实验结果证明了算法的有效性和可靠性。相似文献

9.

基于多智能体强化学习的乳腺癌致病基因预测

刘健顾扬程玉虎王雪松《自动化学报》2022,48(5):1246-1258

通过分析基因突变过程, 提出利用强化学习对癌症患者由正常状态至患病状态的过程进行推断, 发现导致患者死亡的关键基因突变. 首先, 将基因视为智能体, 基于乳腺癌突变数据设计多智能体强化学习环境; 其次, 为保证智能体探索到与专家策略相同的策略和满足更多智能体快速学习, 根据演示学习理论, 分别提出两种多智能体深度Q网络: 基于行为克隆的多智能体深度Q网络和基于预训练记忆的多智能体深度Q网络; 最后, 根据训练得到的多智能体深度Q网络进行基因排序, 实现致病基因预测. 实验结果表明, 提出的多智能体强化学习方法能够挖掘出与乳腺癌发生、发展过程密切相关的致病基因. 相似文献

10.

基于多智能体Q学习的异构车载网络选择方法

聂雷刘博李鹏何亨《计算机工程与科学》2021,43(5):836-844

异构车载网络环境下如何选择接入网络对于车载终端用户的服务体验而言至关重要,目前基于Q学习的网络选择方法利用智能体与环境的交互来迭代学习网络选择策略,从而实现较优的网络资源分配.然而该类方法通常存在状态空间过大引起迭代效率低下和收敛速度较慢的问题,同时由于Q值表更新产生的过高估计现象容易导致网络资源利用不均衡.针对上述问题,基于多智能体Q学习提出一种适用于融合5G通信异构车载网络的选择方法M QSM.该方法采用多智能体协作学习的思想,利用双Q值表交替更新的方式来获得动作选择的总回报值,最终实现异构车载网络环境下长期有效的最优网络切换决策集合.实验结果表明,与同类型方法相比较,M QSM在系统总切换次数、平均总折扣值和网络容量利用率方面表现出更好的性能. 相似文献

11.

基于深度双Q网络的多用户蜂窝网络功率分配算法研究

王伟《计算机应用研究》2021,38(5):1498-1502

针对现有蜂窝网络功率分配算法存在泛化能力弱、效率低等问题进行了研究,提出基于深度双Q网络(deep double Q network,DDQN)的功率分配算法。采用双神经网络结构,解决强化学习过程中易出现的维度灾难及值函数过估计问题;对状态信息进行设计并输入神经网络,输出智能体的动作行为,并设计奖赏函数反馈给神经网络,使智能体可以有效地自主学习,多次迭代得到最优的功率分配策略。仿真结果表明,所提的模型可获得的平均速率为1.89,平均运行时间为0.0013 s,在不同用户密度及小区数量下均可达到最高的平均速率,验证了算法的有效性,为蜂窝网络资源分配问题提供了新的思路。相似文献

12.

基于条件互信息和概率突跳机制的贝叶斯网络结构学习算法

魏中强徐宏喆李文桂小林《计算机科学》2015,42(3):214-217

贝叶斯网络分类器的精确构造是NP难问题,使用K2算法可以有效地缩减搜索空间,提高学习效率。然而K2算法需要初始的节点次序作为输入,这在缺少先验信息的情况下很难确定;另一方面,K2算法采用贪婪的搜索策略,容易陷入局部最优解。提出了一种基于条件互信息和概率突跳机制的贝叶斯网络结构学习算法(CMI-PK2算法),该算法首先利用条件互信息生成有效的节点次序作为K2算法的输入,然后利用概率突跳机制改进K2算法的搜索过程来提高算法的全局寻优能力,学习较为理想的网络结构。在两个基准网络Asia和Alarm上进行了实验验证,结果表明CMI-PK2算法具有更高的分类精度和数据拟合程度。相似文献

13.

融合攻击图和博弈模型的网络防御策略生成方法

金志刚王新建李根岳顺民《信息网络安全》2021,(1):1-9

近些年威胁网络安全的事件日趋频繁,黑客的攻击手段越来越复杂,网络安全防护的难度不断增加.针对实际攻防环境中攻击策略复杂多变和攻击者不理性的问题,文章将攻击图融入攻防博弈模型,并引入强化学习算法,设计了一种网络主动防御策略生成方法.该方法首先基于改进攻击图的网络脆弱性评估模型,成功压缩策略空间并有效降低建模难度,然后对网... 相似文献

14.

指针网络改进遗传算法求解旅行商问题

下载免费PDF全文

陈思远林丕源黄沛杰《计算机工程与应用》2020,56(19):231-236

针对遗传算法在求解旅行商问题时,受限于初始种群质量而存在收敛速度慢、易陷入局部最优等问题,提出一种基于指针网络改进遗传算法种群模型。通过经改进指针网络生成初始种群取代原种群,并结合基于汉明距离轮盘赌策略对种群个体进行择优,形成个体质量和种群多样性高的新种群。实验在TSPLIB标准库上多组实例进行测试,并和研究进展种群改进算法和多种主流启发式算法进行多项系数对比。结果表明,经过优化后算法的收敛速度和寻优能力有显著提高,能够有效用于改善遗传算法在旅行商问题上的应用。相似文献

15.

结合小波变换与改进SSA优化小波神经网络的电力负荷预测

向东赵文博王玖斌邓岳辉张伟石灿陈柄宏《计算机测量与控制》2024,32(5):46-52

电力负荷预测是输电网络扩展和规划及合理电力调度的关键手段。针对电力负荷时间序列的非线性和复杂性特征,提出结合小波变换与改进麻雀搜索算法优化小波神经网络的电力负荷预测模型ISSA-WNN。设计改进麻雀搜索算法ISSA对小波神经网络的关键参数初值寻优,有效解决梯度调参易陷入局部最优及对参数初值敏感的不足,提升模型学习能力。对标准麻雀搜索算法SSA改进,引入Logistic-Tent混合混沌种群初始化、发现者/警戒者自适应更新、跟随者可变对数螺旋更新和高斯-柯西混合变异策略提升算法寻优能力。利用小波变换对电力负荷样本分解与重构,降低负荷时序的无序性和波动性,在此基础上构建新的电力负荷预测模型ISSA-WNN。实验结果表明,与标准小波神经网络模型WNN和标准麻雀搜索算法优化小波神经网络模型SSA-WNN相比,预测模型ISSA-WNN的平均绝对百分比误差和均方根误差指标值平均可以降低18.42%和21.21%,其拟合能力更强,预测性能更加稳定。相似文献

16.

基于自适应模糊神经网络的功放预失真新方法

南敬昌周丹高明明《计算机工程与应用》2016,52(7):96-100

针对无线通信系统中记忆非线性功率放大器预失真结构不足和精度不高等问题,提出了一种基于模糊神经网络模型识别的双环学习结构自适应预失真方法。该方法以实数延时模糊神经网络模型为基础,采用改进的简化粒子群优化（Simplified Particle Swarm Optimization,SPSO）算法进行间接学习结构离线训练模糊神经网络来确定模型参数,作为预失真器的初值,再利用最小均方（Least Mean Square,LMS）算法进行直接学习结构在线微调整预失真器参数,拟合功放的非线性和记忆效应。该方法结构简单,收敛速度快且精度高,避免了局部最优。实验结果表明,该方案邻信道功率比经典的双环结构预失真方法约改善7 dB,功放的线性化性能明显提高,由此验证了其可行性。相似文献

17.

非零和微分博弈系统的事件触发最优跟踪控制（英文）

石义博王朝立《控制理论与应用》2023,40(2):220-230

近年来,对于具有未知动态的非零和微分博弈系统的跟踪问题,已经得到了讨论,然而这些方法是时间触发的,在传输带宽和计算资源有限的环境下并不适用.针对具有未知动态的连续时间非线性非零和微分博弈系统,本文提出了一种基于积分强化学习的事件触发自适应动态规划方法.该策略受梯度下降法和经验重放技术的启发,利用历史和当前数据更新神经网络权值.该方法提高了神经网络权值的收敛速度,消除了一般文献设计中常用的初始容许控制假设.同时,该算法提出了一种易于在线检查的持续激励条件(通常称为PE),避免了传统的不容易检查的持续激励条件.基于李亚普诺夫理论,证明了跟踪误差和评价神经网络估计误差的一致最终有界性.最后,通过一个数值仿真实例验证了该方法的可行性. 相似文献

18.

基于分层和强化学习的改进路径搜索算法

王海红刘莉《计算机与现代化》2020,(11):77-82

复杂网络下的路径搜索问题是网络寻优中的一个难点。现有算法主要存在以下问题：一是往往只能侧重于求解效率和求解精度中的一点;二是对动态变化的复杂网络适应性不强,求解效果不佳。因此,本文提出一种基于双分层和优化Q-Learning的改进路径搜索算法。对于求解时间随规模增加而急剧增长的问题,提出k-core和模块度结合的双分层划分网络的策略,以合理有效地减小网络规模。在子网络求解中,引入强化学习机制对网络进行动态感知,针对算法收敛较慢问题,加入自适应学习因子和记忆因子,优化更新公式,提高收敛速度。最后,在不同幂律指数（2~3）和不同规模的复杂网络下,将所提算法与Dijkstra算法、A*算法和Qrouting算法进行实验对比,结果表明该算法在保证较好求解精度的情况下,能有效地改善求解效率。相似文献

19.

改进的Web文本自适应过滤策略 总被引：1，自引：0，他引：1

沈凤仙朱巧明刘粉香《计算机与现代化》2010,(9):48-52

面对实时网络信息过滤的新挑战,自适应信息过滤基本上能够解决问题。针对现有自适应系统的不足,本文提出提高模板准确性的学习和过滤阈值优化的新方法。改进的过滤策略过滤初期采用SVM算法,中后期采用改进的自适应模板过滤法。模板的更新采用改进的模板系数调整策略,并引入特征衰减因子来提高过滤的准确率。该系统运行于一个校园网关上,取得了较好的结果。相似文献

20.

基于密集残差注意力网络的图像超分辨率算法

程玉郑华陈晓文林烁烁张明伟《计算机系统应用》2021,30(1):135-140

近年来,随着科学技术的高速发展,深度学习的蓬勃兴起,实现图像超分辨率重建成为计算机视觉领域一大热门研究课题.然而网络深度增加容易引起训练困难,并且网络无法获取准确的高频信息,导致图像重建效果差.本文提出基于密集残差注意力网络的图像超分辨率算法来解决这些问题.该算法主要采用密集残差网络,在加快模型收敛速度的同时,减轻了梯度消失问题.注意力机制的加入,使网络高频有效信息较大的权重,减少模型计算成本.实验证明,基于密集残差注意力网络的图像超分辨率算法在模型收敛速度上极大地提升,图像细节恢复效果令人满意. 相似文献