期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

程超滕俊杰赵艳领宋梅《北京邮电大学学报》2019,42(6):43-48,57

传统的流量工程策略的研究大多集中在构建和求解数学模型方面,其计算复杂度过高,为此,提出了一种经验驱动的基于多智能体强化学习的流量分配算法.该算法无需求解复杂数学模型即可在预计算的路径上进行有效的流量分配,从而高效且充分地利用网络资源.算法在软件定义网络控制器上进行集中训练,且在训练完成后再接入交换机或者路由器上分布式执行,同时也避免和控制器的频繁交互.实验结果表明,相对于最短路径和等价多路径算法,新算法有效减少了网络的端到端时延,并且增大了网络吞吐量. 相似文献

2.

Cooperative Multi-Agent Reinforcement Learning with Constraint-Reduced DCOP

Yi Xie Zhongyi Liu Zhao Liu Yijun Gu 《北京理工大学学报(英文版)》2017,26(4):525-533

Cooperative multi-agent reinforcement learning (MARL) is an important topic in the field of artificial intelligence,in which distributed constraint optimization (DCOP) algorithms have been widely used to coordinate the actions of multiple agents.However,dense communication among agents affects the practicability of DCOP algorithms.In this paper,we propose a novel DCOP algorithm dealing with the previous DCOP algorithms' communication problem by reducing constraints.The contributions of this paper are primarily threefold:① It is proved that removing constraints can effectively reduce the communication burden of DCOP algorithms.② An criterion is provided to identify insignificant constraints whose elimination doesn't have a great impact on the performance of the whole system.③ A constraint-reduced DCOP algorithm is proposed by adopting a variant of spectral clustering algorithm to detect and eliminate the insignificant constraints.Our algorithm reduces the communication burdern of the benchmark DCOP algorithm while keeping its overall performance unaffected.The performance of constraint-reduced DCOP algorithm is evaluated on four configurations of cooperative sensor networks.The effectiveness of communication reduction is also verified by comparisons between the constraint-reduced DCOP and the benchmark DCOP. 相似文献

3.

基于多智能体强化学习的区块链赋能车联网中的安全数据共享 总被引：2，自引：0，他引：2

下载免费PDF全文

李明磊章阳康嘉文徐敏锐 Dusit Niyato 《广东工业大学学报》2021,38(6):62-69

针对基于委托权益证明(Delegated Proof-of-Stake, DPoS) 共识算法的区块链赋能车联网系统中区块验证的安全性与可靠性问题, 矿工通过引入轻节点(如智能手机等边缘节点)共同参与区块验证,提高区块验证的安全性和可靠性。为了激励矿工主动引入轻节点, 采用了斯坦伯格(Stackelberg)博弈模型对区块链用户与矿工进行建模, 实现区块链用户的效用和矿工的个人利润最大化。作为博弈主方的区块链用户设定最优的区块验证的交易费, 而作为博弈从方的矿工决定最优的招募验证者(即轻节点)的数量。为了找到所设计Stackelberg博弈的纳什均衡, 设计了一种基于多智能体强化学习算法来搜索接近最优的策略。最后对本文方案进行验证, 结果表明该方案既能实现区块链用户和矿工效益最大化, 也能保证区块验证的安全性与可靠性。相似文献

4.

一种基于划分和集成思想的多智能体强化学习

王云韩伟《南京师范大学学报》2008,8(4):59-62

针对Q学习状态空间非常大,导致收敛速度非常慢的问题,利用智能体在不同样本上分类性能不同,提出了基于样本的学习误差对样本空间进行划分,充分发掘了样本和智能体的匹配关系.以带障碍物的格子世界作为仿真环境,表明该算法提高了在线学习性能. 相似文献

5.

Q学习角色值法在机器人足球比赛中的应用

向中凡《电子科技大学学报(自然科学版)》2007,36(4):809-812

提出了基于Q学习的角色值方法,避免了在比赛中由于机器人之间的频繁角色转换而造成的系统效率损失及系统不稳定。该方法完善了多智能体系统的整体调整方法,有效地解决了在实际系统设计和实现过程中遇到的问题。经FIRA仿真比赛检验,该方法是有效的,降低了机器人丢球、漏球、不作为的可能性,弥补了按区域分配固定角色的不足,有较好的实用性。相似文献

6.

基于多智能体团队强化学习的交通信号控制

李春贵周坚和孙自广王萌张增芳《广西工学院学报》2011,22(2):1-5,15,6

城市的区域交通信号协调系统是一个十分复杂的系统,难以建立准确的数学模型,通过引入主-从式团队强化学习方法于区域交通信号协调控制,就可以根据实时的交通状态信息动态来进行决策,自动地适应环境以便取得更好的控制效果.由于问题状态空间太大且难以直接存储和表示,采用径向基函数神经网络进行值函数近似.通过训练自适应非线性处理单元,达到较好的近似表示效果,解决了多个交叉路口的交通信号协调控制问题.通过仿真实验,结果表明该方法的控制效果明显优于单点控制策略. 相似文献

7.

连续动作强化学习及其在机器人中的应用研究

张健沛王醒策张岩张汝波温丽华《哈尔滨工程大学学报》2000,21(3):78-81

讨论了连续动作的强化学习系统实现及学习方法。首先介绍了连续动作的强化学习系统的组成原理,讨论了采用神经网络实现强化学习系统的方法,然后,介绍了强化学习机制在智能机器人避碰行为学习系统中的应用,并给出了系统的仿真结果。仿真结果表明机器人具有较好的避碰能力。相似文献

8.

基于学习自动机与萤火虫算法的链路预测

舒坚李睿瑞熊涛刘琳岚孙利民《四川大学学报(工程科学版)》2021,53(2):133-140

为了探索便携交换网络的演化规律,研究其网络行为预测中的链路预测问题.便携交换网络具有节点移动性、节点间间歇性连接、高延迟等特点,其链路预测面临的挑战是节点相遇的机会性和拓扑的时变性,获得其高质量链路预测的关键是如何较全面地获取节点的属性.作者提出基于学习自动机和萤火虫算法的链路预测方法(link prediction ... 相似文献

9.

基于深度强化学习的移动机器人轨迹跟踪和动态避障 总被引：1，自引：2，他引：1

下载免费PDF全文

吴运雄曾碧《广东工业大学学报》2019,36(1):42-50

针对移动机器人在局部可观测的非线性动态环境下,实现轨迹跟踪和动态避障时容易出错和不稳定的问题,提出了基于深度强化学习的视觉感知与决策方法.该方法以一种通用的形式将卷积神经网络的感知能力与强化学习的决策能力结合在一起,通过端对端的学习方式实现从环境的视觉感知输入到动作的直接输出控制,将系统环境感知与决策控制直接形成闭环,其中最优决策策略是通过最大化机器人与动力学环境交互的累计奖回报中学习获得.仿真实验结果证明,该方法可以满足多任务智能感知与决策要求,较好地解决了传统算法存在的容易陷入局部最优、在相近的障碍物群中震荡且不能识别路径、在狭窄通道中摆动以及障碍物附近目标不可达等问题,并且大大提高了机器人轨迹跟踪和动态避障的实时性和适应性. 相似文献

10.

基于Elman网络的非线性系统增强式学习控制 总被引：1，自引：0，他引：1

王雪松程玉虎易建强王炜强《中国矿业大学学报》2006,35(5):653-657

针对具有连续状态和未知系统模型的非线性系统控制问题，提出一种基于Elman神经网络的Q学习控制策略．利用Elman网络良好的动态特性及泛化能力，对状态一动作对的Q值进行在线估计，解决状态空间泛化中易出现的“维数灾”问题．借鉴TD（λ）算法中状态的资格迹机制，通过对权值向量定义对应的资格迹来加速神经网络的学习过程．将所提方法应用于具有连续状态的小车爬山控制问题，学习系统在经过大约60多次学习后即能获得小车爬山控制策略，仿真结果表明所提方法能够有效解决具有连续状态的非线性系统的无模型增强学习控制．相似文献

11.

基于DRL的6G多租户网络切片智能资源分配算法

管婉青张海君路兆铭《北京邮电大学学报》2020,43(6):132-139

未来第6代移动通信系统（6G）网络服务支持虚实结合、实时交互,亟需快速匹配多租户个性化服务需求,对此,提出了一种两层递阶的网络切片智能管理方案,上层部署全局资源管理器,下层部署面向不同租户的本地资源管理器.首先,考虑不同租户多类型切片请求的差异性,基于端到端切片的实时状态描述建立服务质量评估模型.结合服务质量反馈,利用深度强化学习（DRL）算法,优化上层全局资源分配和下层局部资源调整,提升不同域多维资源的使用效益,并使能租户资源定制化.仿真结果表明,所提方案能够在优化资源供应商长期收益的同时,保障服务质量. 相似文献

12.

基于DRL的MEC任务卸载与资源调度算法

薛宁霍如曾诗钦汪硕黄韬《北京邮电大学学报》2019,42(6):64-69,104

为提高多接入边缘计算（MEC）任务卸载效率,提出了一个任务卸载和异构资源调度的联合优化模型.考虑异构的通信资源和计算资源,联合最小化用户的设备能耗、任务执行时延和付费,并利用深度强化学习（DRL）算法对该模型求最优的任务卸载算法.仿真结果表明,该优化算法比银行家算法的设备能耗、时延和付费的综合指标提升了27.6%. 相似文献

13.

基于多智能体的城市道路交通控制系统及其协调优化 总被引：4，自引：1，他引：4

于德新杨兆升王媛孙建平《吉林大学学报(工学版)》2006,36(1):113-118

在分析多智能体特性的基础上,提出了基于多智能体的城市道路交通控制系统,并采用遗传再励学习和博弈论方法进行优化控制和区域协调,最后通过仿真分析说明了算法的有效性。相似文献

14.

A Proposal of Adaptive PID Controller Based on Reinforcement Learning

WANG Xue-song CHENG Yu-hu SUN Wei 《中国矿业大学学报(英文版)》2007,17(1):40-44

Aimed at the lack of self-tuning PID parameters in conventional PID controllers, the structure and learning algorithm of an adaptive PID controller based on reinforcement learning were proposed. Actor-Critic learning was used to tune PID parameters in an adaptive way by taking advantage of the model-free and on-line learning properties of reinforcement learning effectively. In order to reduce the demand of storage space and to improve the learning efficiency, a single RBF neural network was used to approximate the policy function of Actor and the value function of Critic simultaneously. The inputs of RBF network are the system error, as well as the first and the second-order differences of error. The Actor can realize the mapping from the system state to PID parameters, while the Critic evaluates the outputs of the Actor and produces TD error. Based on TD error performance index and gradient descent method, the updating rules of RBF kernel function and network weights were given. Simulation results show that the proposed controller is efficient for complex nonlinear systems and it is perfectly adaptable and strongly robust, which is better than that of a conventional PID controller. 相似文献

15.

Adaptive Neighboring Selection Algorithm Based on Curvature Prediction in Manifold Learning

Lin M Cai-Fa Zhou Xi Liu Yu-Bin Xu 《哈尔滨工业大学学报(英文版)》2013,20(3):119-123

Recently manifold learning algorithm for dimensionality reduction attracts more and more interests, and various linear and nonlinear, global and local algorithms are proposed. The key step of manifold learning algorithm is the neighboring region selection. However, so far for the references we know, few of which propose a generally accepted algorithm to well select the neighboring region. So in this paper, we propose an adaptive neighboring selection algorithm, which successfully applies the LLE and ISOMAP algorithms in the test. It is an algorithm that can find the optimal K nearest neighbors of the data points on the manifold. And the theoretical basis of the algorithm is the approximated curvature of the data point on the manifold. Based on Riemann Geometry, Jacob matrix is a proper mathematical concept to predict the approximated curvature. By verifying the proposed algorithm on embedding Swiss roll from R3 to R2 based on LLE and ISOMAP algorithm, the simulation results show that the proposed adaptive neighboring selection algorithm is feasible and able to find the optimal value of K, making the residual variance relatively small and better visualization of the results. By quantitative analysis, the embedding quality measured by residual variance is increased 45.45％ after using the proposed algorithm in LLE. 相似文献

16.

基于交替方向乘子法与深度强化学习算法的资源分配

郭兴康孙君《北京邮电大学学报》2022,45(6):126-130

为了研究在有限信道状态信息下,密集型网络的资源分配问题,提出了交替方向乘子法结合深度强化学习算法的模型驱动学习框架。该框架区别于数据驱动框架,能够根据具体问题进行一对一建模。针对资源分配的问题建模内容包括：将基站选择、功率和子载波分配用交替方向乘子法进行交替优化;用深度强化学习算法优化权重,求解目标函数,提高算法性能;框架利用有效信道状态信息而非多余信息,降低了通信开销;加强对最低用户服务质量要求参数的约束,可以在保证用户的体验下最大化小区频谱效率。仿真结果表明,该模型驱动学习框架在较少的迭代次数下即可收敛。相似文献

17.

回归模型中基于机器学习的流量预测算法

于振洋《淮海工学院学报》2012,(1):34-38

在基于机器学习的流量预测算法中,详细研究了基于回归模型的预测算法,将机器学习算法引入到网络流量预测中,提出了不同的弱回归算予用来描述网络流量中的非线性特性。针对网络流量中的自相似特性,提出两种不同的机制,即用主成分分析作为预处理和为每一维特征保留一组权重分布;同时,针对实验中发现的过匹配现象提出一种自适应的权重更新准则。相似文献

18.

基于强化学习的云计算资源调度策略研究

李天宇《上海电力学院学报》2019,35(4):399-403

提出了一种基于强化学习的云计算虚拟机资源调度问题的解决方案和策略。构建了虚拟机的动态负载调度模型,将虚拟机资源调度问题描述为马尔可夫决策过程。根据虚拟机系统调度模型构建状态空间和虚拟机数量增减空间,并设计了动作的奖励函数。采用Q值强化学习机制,实现了虚拟机资源调度策略。在云平台的虚拟机模型中,对按需增减虚拟机数量和虚拟机动态迁移两种场景下的学习调度策略进行了仿真,验证了该方法的有效性。相似文献

19.

基于强化学习的微电网能源调度策略及优化

刘金华柯钟鸣周文辉《北京邮电大学学报》2020,43(1):28-34

针对微电网中能源调度的经济效益、充电效率优化、系统负荷波动以及碳排放问题,提出将强化学习运用到微电网调度中,通过建立一个完整的微电网模型,使强化学习在不断迭代过程中得到最优策略,同时达到经济效益趋向最大化、充电功率相对稳定、系统负荷波动减少、碳排放量达到最小化这4个联合优化目标.仿真结果表明,采用的控制策略既能很好地实现经济效益最大化收敛、碳排放量最小化收敛,同时又能使得充电功率相对稳定,微电网的负荷也能减少,极大地提高了系统的稳定性. 相似文献

20.

基于强化学习的集装箱码头卡车调度策略研究 总被引：2，自引：1，他引：1

尚晶徐长生《武汉理工大学学报》2011,(3):72-76

研究同时服务于装船和卸船作业的集卡全场调度策略,调度优化目标包括减少岸桥等待集卡的时间以及减少集卡的空载行程。提出了基于Q学习算法的集卡调度强化学习模型,对其系统状态、动作策略、报酬函数进行分析,并结合小脑模型关节控制器(CMAC)神经网络对Q函数进行泛化和逼近。仿真结果表明,与其他集卡调度策略相比,Q学习算法的优化效果比较明显,其在保证岸桥连续作业的同时,还能有效减少集卡的空载行程。相似文献