期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张炎刘博文《电子世界》2014,(15):189

强化学习是Agent学习中广泛使用的方法,在智能机器人、经济学、工业制造和博弈等领域得到了广泛的应用,但学习速度慢是强化学习的主要不足。迁移学习可从源任务中获得与目标任务相关的知识,利用这些知识去提高学习效率与效果。本文提出Agent地图迁移算法,实现了Agent在不同状态空间下的经验迁移。实现将Agent在简单环境中的学习经验迁移到复杂环境中,实验中验证了算法可加快Agent路径规划速度。相似文献

2.

基于知识的Agent强化学习算法分析与研究

殷锋社《电子设计工程》2011,19(11):115-117

强化学习具有与环境交互的优势,笔者提出的基于知识的Q-学习算法(KBQL)就是利用Q-学习算法的这个特点,利用Agent的先验知识来缩小Agent学习的状态空间,以加速强化学习的收敛性,同时采用Agent的学习机制克服其知识的不精确性,从而提高学习算法的鲁棒性和适应性。相似文献

3.

基于多智能体强化学习的焦炉集气管压力多级协调控制 总被引：1，自引：0，他引：1

下载免费PDF全文

秦斌吴敏王欣阳春华《电子学报》2006,34(10):1847-1851

针对焦炉集气管压力这类多变量强扰动非线性耦合系统,提出了一种基于Multi-Agent system(MAS)的焦炉集气管压力智能多级协调控制系统方案.采用基于Agent单元系统梯级协调体系和基于任务分解的实时Agent的组织与演化机制,通过Agent模态变迁进行模式切换,以适应快速突变环境.在控制Agent中采用Actor-critic强化学习方法,运用TS回归模糊神经网络实现行动和评判模块,使用分布式学习算法对多个Agent协调优化.工程应用表明,提出的控制策略有效地解决了高压氨水大干扰对集气管压力的冲击控制问题. 相似文献

4.

一种基于蚁群算法的多任务联盟串行生成算法 总被引：15，自引：3，他引：15

蒋建国夏娜齐美彬木春梅《电子学报》2005,33(12):2178-2182

联盟生成是多Agent系统的一个关键问题,主要研究如何在多Agent系统中动态生成面向任务的最优Agent联盟.引入蚁群算法解决多任务联盟问题.提出了一种基于蚁群算法的多任务联盟串行生成算法,对于任务序列可依次生成全局最优联盟,避免了联盟死锁和资源浪费,同时算法基于蚁群系统的学习能力可以有效减少联盟生成的搜索时间和计算量,可实现性好. 相似文献

5.

Agent协商优化问题的快速混沌遗传算法 总被引：1，自引：0，他引：1

高坚《微电子学与计算机》2003,20(4):1-2,49

随着Internet的日益完善和电子商务的普及，如何快速、高效地进行Agent协商是我们必须面对和解决的一个重要问题。文章在Bazaar协商模型下，给出了一种快速混沌遗传算法，该算法首先将混沌机制引入遗传算法，并在搜索中，以具有一定保证的当前最优解为中心不断压缩优化变量的搜索区间，对算法进行加速。这样即克服了遗传算法过早收敛的缺点，又解决了引入混沌后遗传算法收敛慢的问题。仿真实验表明，它是解决Agent协商优化问题的一种快速有效算法。相似文献

6.

基于离散粒子群算法求解复杂联盟生成问题 总被引：16，自引：1，他引：16

下载免费PDF全文

张国富蒋建国夏娜苏兆品《电子学报》2007,35(2):323-327

针对联盟生成问题现有解决方案的不足,提出复杂联盟和虚拟Agent的概念,设计一种基于多粒子群协同优化的复杂联盟串行生成算法,实现一个Agent可以加入多个联盟和一个联盟可以承担多个任务,在一定程度上解决了Agent资源和能力的浪费问题.实验结果证明了算法的有效性. 相似文献

7.

基于多Agent强化学习的危险车辆预警算法

王泽学万启东秦杨梅樊森清肖泽仪《电子科技》2020,33(9):44-49

针对目前行人易受到车辆撞击,且缺乏主动保护手段的问题,文中设计了一个包括雷达等模块的智能可穿戴设备来保护行人免受车辆的冲击。在此基础上,提出了基于模糊综合评价的安全智能算法,从行人的角度出发,综合考虑将雷达探测的车辆数据、当地道路交通状况、天气、行人状态等多种影响因素作为评价指标。为提高算法的准确性和适应性,提出了基于BP神经网络和多Agent强化学习的方法赋予模糊综合评价的各指标动态权重。仿真验证结果显示,相较于AHP等取权重方法,该预警算法的警报准确率提高了55%以上;相较单Agent强化学习,该方法学习效率提高了近28倍,说明该智能穿戴设备可以对车辆撞击行人进行有效地预测和警告。相似文献

8.

存在危险区域的路径规划问题研究

张震臧兆祥郭鸿村田佩《长江信息通信》2022,(4):14-19

为解决标准强化学习算法无法直接应用于存在危险区域的兵棋推演路径规划这一问题,文章提出了一种特殊的奖励机制,用来引导强化学习算法解决该问题。在此基础上,设计了一种探索率递减变化的方法,并在不同难度的实验环境中对Q学习算法的ε-greedy、轮盘赌、玻尔兹曼探索三种动作选择策略进行了测试。实验结果表明,按照本文设计的探索率递减变化方法设置探索率时,算法的性能优于其他三种动作选择策略,收敛时间至少缩短了38.4%,实时性和准确性基本满足兵棋推演的要求,可用于解决兵棋推演路径规划问题。相似文献

9.

基于高斯过程分类器的连续空间强化学习 总被引：2，自引：1，他引：1

下载免费PDF全文

王雪松张依阳程玉虎《电子学报》2009,37(6):1153-1158

如何将强化学习方法推广到大规模或连续空间,是决定强化学习方法能否得到广泛应用的关键.不同于已有的值函数逼近法,把强化学习构建为一个简单的二分类问题,利用分类算法来得到强化学习中的策略,提出一种基于高斯过程分类器的连续状态和连续动作空间强化学习方法.首先将连续动作空间离散化为确定数目的离散动作,然后利用高斯分类器对系统的连续状态-离散动作对进行正负分类,对判定为正类的离散动作按其概率值进行加权求和,进而得到实际作用于系统的连续动作.小船靠岸问题的仿真结果表明所提方法能够有效解决强化学习的连续空间表示问题. 相似文献

10.

分布式强化学习在RoboCup中的应用 总被引：1，自引：0，他引：1

张振文程显毅李明《现代电子技术》2007,30(4):44-46

强化学习理论由于其自学习性和自适应性的优点而得到了广泛关注。基于主Agent的概念改进了传统的群体强化学习算法,应用于机器人足球(Robocup)仿真实验中,取得了初步结果。相似文献

11.

基于多智能体深度强化学习的D2D通信资源联合分配方法

邓炳光徐成义张泰孙远欣张蔺裴二荣《电子与信息学报》2023,45(4):1173-1182

设备对设备(D2D)通信作为一种短距离通信技术,能够极大地减轻蜂窝基站的负载压力和提高频谱利用率。然而将D2D直接部署在授权频段或者免授权频段必然导致与现有用户的严重干扰。当前联合部署在授权和免授权频段的D2D通信的资源分配通常被建模为混合整数非线性约束的组合优化问题,传统优化方法难以解决。针对这个挑战性问题,该文提出一种基于多智能体深度强化学习的D2D通信资源联合分配方法。在该算法中,将蜂窝网络中的每个D2D发射端作为智能体,智能体能够通过深度强化学习方法智能地选择接入免授权信道或者最优的授权信道并发射功率。通过选择使用免授权信道的D2D对(基于“先听后说”机制)向蜂窝基站的信息反馈,蜂窝基站能够在非协作的情况下获得WiFi网络吞吐量信息,使得算法能够在异构环境中执行并能够确保WiFi用户的QoS。与多智能体深度Q网络(MADQN)、多智能体Q学习(MAQL)和随机算法相比,所提算法在保证WiFi用户和蜂窝用户的QoS的情况下能够获得最大的吞吐量。相似文献

12.

Agent任务调度与迁移策略研究

殷锋社《电子设计工程》2012,20(16):17-20,24

对移动Agent技术进行了较详细的论述,重点阐述了Multi-Agent系统组织结构、Agent资源队列分配与任务调度及Agent迁移策略,动态迁移机制和迁移路径的算法。本研究旨在于探讨一种新的电子商务模式,试图解决电子商务的效率、成本和业务智能问题,实现智能业务处理。相似文献

13.

基于深度强化学习的云边协同计算迁移研究

下载免费PDF全文

陈思光陈佳民赵传信《电子学报》2021,49(1):157-166

基于单一边缘节点计算、存储资源的有限性及大数据场景对高效计算服务的需求,本文提出了一种基于深度强化学习的云边协同计算迁移机制.具体地,基于计算资源、带宽和迁移决策的综合性考量,构建了一个最小化所有用户任务执行延迟与能耗权重和的优化问题.基于该优化问题提出了一个异步云边协同的深度强化学习算法,该算法充分利用了云边双方的计算能力,可有效满足大数据场景对高效计算服务的需求;同时,面向边缘云中边缘节点所处环境的多样及动态变化性,该算法能自适应地调整迁移策略以实现系统总成本的最小化.最后,大量的仿真结果表明本文所提出的算法具有收敛速度快、鲁棒性高等特点,并能够以最低的计算成本获得近似贪心算法的最优迁移决策. 相似文献

14.

认知无线电网络中基于强化学习的智能信道选择算法

下载免费PDF全文

刘洋崔颖李鸥《信号处理》2014,30(3):253-260

认知无线电系统不仅要具有自适应性,更应具备一定的智能性。该文将强化学习理论引入到认知无线电系统中,用于解决次用户在频谱感知过程中的信道选择问题,提出了一种基于强化学习的信道选择算法。该算法在未知主用户占用规律和动态特性的前提下,仅通过不断与环境进行交互学习,便能够引导次用户选择“较好”信道优先进行感知,使次用户吞吐量得到提高。仿真结果表明,相对于现有信道选择算法,所提算法可有效提高次用户的吞吐量,并且在主用户使用规律发生变化时,能够自动实现二次收敛,可作为认知无线电系统迈向智能化的一种尝试。相似文献

15.

基于深度强化学习的蜂窝无人机网络中的轨迹设计

吴凡毅王凯赵頔徐开明吴建军《无线电通信技术》2020,(2):210-215

设计了一个蜂窝无人机网络,其中无人机采集到的感知数据可以通过直通通信的方式直接传输到移动设备端,或者通过传统的蜂窝方式传输到移动设备端。由于无人机的传输模式会影响到它们的轨迹,在考虑了传输模式的情况下,研究了无人机轨迹设计问题,以最大化系统的总效用。该问题是一个状态行动空间非常大的马尔科夫决策问题,基于此问题提出了一种基于深度强化学习的多无人机轨迹设计算法。仿真结果表明所提出的算法比单智能体算法性能更好。相似文献

16.

一种不稳定环境下的策略搜索及迁移方法

下载免费PDF全文

朱斐刘全傅启明陈冬火王辉伏玉琛《电子学报》2017,45(2):257-266

强化学习是一种Agent在与环境交互过程中,通过累计奖赏最大化来寻求最优策略的在线学习方法.由于在不稳定环境中,某一时刻的MDP模型在与Agent交互之后就发生了变化,导致基于稳定MDP模型传统的强化学习方法无法完成不稳定环境下的最优策略求解问题.针对不稳定环境下的策略求解问题,利用MDP分布对不稳定环境进行建模,提出一种基于公式集的策略搜索算法--FSPS.FSPS算法在学习过程中搜集所获得的历史样本信息,并对其进行特征信息的提取,利用这些特征信息来构造不同的用于动作选择的公式,采取策略搜索算法求解最优公式.在此基础之上,给出所求解策略的最优性边界,并从理论上证明了迁移到新MDP分布中策略的最优性主要依赖于MDP分布之间的距离以及所求解策略在原始MDP分布中的性能.最后,将FSPS算法用于经典的Markov Chain问题,实验结果表明,所求解的策略具有较好的性能. 相似文献

17.

基于强化学习的IEEE 802.15.4网络区分服务策略

钱亮钱志鸿李天平全薇《通信学报》2015,36(8):171-181

为了弥补IEEE 802.15.4协议原有区分服务机制的不足,提出了一种基于BCS(backoff counter scheme)与强化学习的区分服务策略。从终端节点出发,在原优先级区分服务策略的基础上增加BCS退避策略以解决流量较大场合业务区分问题;针对协调器节点,提出了基于强化学习的占空比调整策略,该策略能根据不同应用需求和环境变化自适应调整占空比。仿真结果表明,提出算法能针对不同环境满足高优先级业务性能需求,并能根据流量变化进行占空比调整,具有极强环境适应性。相似文献