首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   8篇
  免费   7篇
综合类   3篇
无线电   1篇
自动化技术   11篇
  2023年   4篇
  2022年   2篇
  2021年   4篇
  2020年   2篇
  2019年   1篇
  2010年   1篇
  2007年   1篇
排序方式: 共有15条查询结果,搜索用时 25 毫秒
1.
传统的流量工程策略的研究大多集中在构建和求解数学模型方面,其计算复杂度过高,为此,提出了一种经验驱动的基于多智能体强化学习的流量分配算法.该算法无需求解复杂数学模型即可在预计算的路径上进行有效的流量分配,从而高效且充分地利用网络资源.算法在软件定义网络控制器上进行集中训练,且在训练完成后再接入交换机或者路由器上分布式执行,同时也避免和控制器的频繁交互.实验结果表明,相对于最短路径和等价多路径算法,新算法有效减少了网络的端到端时延,并且增大了网络吞吐量.  相似文献   
2.
移动边缘计算(MEC)中的分布式基站部署、有限的服务器资源和动态变化的终端用户使得计算卸载方案的设计极具挑战。鉴于深度强化学习在处理动态复杂问题方面的优势,设计了最优的计算卸载和资源分配策略,目的是最小化系统能耗。首先考虑了云边端协同的网络框架;然后将联合计算卸载和资源分配问题定义为一个马尔可夫决策过程,提出一种基于多智能体深度确定性策略梯度的学习算法,以最小化系统能耗。仿真结果表明,该算法在降低系统能耗方面的表现明显优于深度确定性策略梯度算法和全部卸载策略。  相似文献   
3.
研究多站点传送带给料生产加工站(Conveyor-serviced production station, CSPS)系统的最优控制问题, 其优化目标是通过合理选择每个CSPS的Look-ahead控制策略, 实现整个系统的工件处理率最大.本文首先根据多Agent系统的反应扩散思想, 对每个Agent的原始性能函数进行改进, 引入了具有扩散功能的局域信息交互项(原始项看作具有反应功能); 并运用性能势理论, 构建一种适用于平均和折扣两种性能准则的Wolf-PHC多Agent学习算法, 以求解决策时刻不同步的多站点的协作Look-ahead控制策略. 最后,论文通过仿真实验验证了该算法的有效性,学习结果表明, 通过性能函数的改进,各工作站的负载平衡性得到改善, 整个系统的工件处理率也明显提高.  相似文献   
4.
A multi-agent reinforcement learning algorithm with fuzzy policy is addressed in this paper. This algorithm is used to deal with some control problems in cooperative multi-robot systems. Specifically, a leader-follower robotic system and a flocking system are investigated. In the leader-follower robotic system, the leader robot tries to track a desired trajectory, while the follower robot tries to follow the reader to keep a formation. Two different fuzzy policies are developed for the leader and follower, respectively. In the flocking system, multiple robots adopt the same fuzzy policy to flock. Initial fuzzy policies are manually crafted for these cooperative behaviors. The proposed learning algorithm finely tunes the parameters of the fuzzy policies through the policy gradient approach to improve control performance. Our simulation results demonstrate that the control performance can be improved after the learning.  相似文献   
5.
针对基于委托权益证明(Delegated Proof-of-Stake, DPoS) 共识算法的区块链赋能车联网系统中区块验证的安全性与可靠性问题, 矿工通过引入轻节点(如智能手机等边缘节点)共同参与区块验证,提高区块验证的安全性和可靠性。为了激励矿工主动引入轻节点, 采用了斯坦伯格(Stackelberg)博弈模型对区块链用户与矿工进行建模, 实现区块链用户的效用和矿工的个人利润最大化。作为博弈主方的区块链用户设定最优的区块验证的交易费, 而作为博弈从方的矿工决定最优的招募验证者(即轻节点)的数量。为了找到所设计Stackelberg博弈的纳什均衡, 设计了一种基于多智能体强化学习算法来搜索接近最优的策略。最后对本文方案进行验证, 结果表明该方案既能实现区块链用户和矿工效益最大化, 也能保证区块验证的安全性与可靠性。  相似文献   
6.
Dynamic area coverage with small unmanned aerial vehicle (UAV) systems is one of the major research topics due to limited payloads and the difficulty of decentralized decision-making process. Collaborative behavior of a group of UAVs in an unknown environment is another hard problem to be solved. In this paper, we propose a method for decentralized execution of multi-UAVs for dynamic area coverage problems. The proposed decentralized decision-making dynamic area coverage (DDMDAC) method utilizes reinforcement learning (RL) where each UAV is represented by an intelligent agent that learns policies to create collaborative behaviors in partially observable environment. Intelligent agents increase their global observations by gathering information about the environment by connecting with other agents. The connectivity provides a consensus for the decision-making process, while each agent takes decisions. At each step, agents acquire all reachable agents’ states, determine the optimum location for maximal area coverage and receive reward using the covered rate on the target area, respectively. The method was tested in a multi-agent actor-critic simulation platform. In the study, it has been considered that each UAV has a certain communication distance as in real applications. The results show that UAVs with limited communication distance can act jointly in the target area and can successfully cover the area without guidance from the central command unit.  相似文献   
7.
提出一种具备全局供需动态感知能力、基于均值场多智能体强化学习的网约车平台订单分配算法。该算法通过将多智能体强化学习与均值场理论相结合,提升了智能体在局部空间上相互之间的协作性;通过注入全局空间上供需的动态分布信息,提升了智能体对全局供需分布的感知和优化能力。本文构建了真实历史数据驱动的模拟器,用于算法的训练和评估。实验表明,在全天时段和高峰期时段两个不同场景下,本文提出的算法在网约车司机累计收益及订单应答率两个重要指标上均显著优于现有的订单分配算法。实验结果充分验证了本文提出算法的有效性。  相似文献   
8.
车联网边缘计算是实现车联网系统低时延和高可靠性的关键技术,但现有方法普遍存在场景趋同和系统建模局限的问题,同时包含复杂的训练过程并面临维灾风险。通过结合云计算技术,提出一种基于多智能体强化学习的边云协同卸载方案。依据随机几何理论计算卸载节点覆盖概率,对车辆节点与卸载对象进行预配对。利用线性Q函数分解方法反映每个智能体多效用因子与任务决策间的映射关系,通过云端协同机制将智能体决策记录作为经验上传到云端,并在云端将训练更完备的神经网络反馈到边缘节点。仿真结果表明,该方案在功耗和延时方面性能优于单一固定边缘的计算策略,且算法复杂度较低,能够有效提升边云协同卸载能力,实现低时延、高可靠的任务卸载。  相似文献   
9.
强化学习是机器学习领域的研究热点, 是考察智能体与环境的相互作用, 做出序列决策、优化策略并最大化累积回报的过程. 强化学习具有巨大的研究价值和应用潜力, 是实现通用人工智能的关键步骤. 本文综述了强化学习算法与应用的研究进展和发展动态, 首先介绍强化学习的基本原理, 包括马尔可夫决策过程、价值函数、探索-利用问题. 其次, 回顾强化学习经典算法, 包括基于价值函数的强化学习算法、基于策略搜索的强化学习算法、结合价值函数和策略搜索的强化学习算法, 以及综述强化学习前沿研究, 主要介绍多智能体强化学习和元强化学习方向. 最后综述强化学习在游戏对抗、机器人控制、城市交通和商业等领域的成功应用, 以及总结与展望.  相似文献   
10.
多智能体强化学习方法在仿真模拟、游戏对抗、推荐系统等许多方面取得了突出的进展。然而,现实世界的复杂问题使得强化学习方法存在无效探索多、训练速度慢、学习能力难以持续提升等问题。该研究嵌入规则的多智能体强化学习技术,提出基于组合训练的规则与学习结合的方式,分别设计融合规则的多智能体强化学习模型与规则选择模型,通过组合训练将两者有机结合,能够根据当前态势决定使用强化学习决策还是使用规则决策,有效解决在学习中使用哪些规则以及规则使用时机的问题。依托中国电子科技集团发布的多智能体对抗平台,对提出的方法进行实验分析和验证。通过与内置对手对抗,嵌入规则的方法经过约1.4万局训练就收敛到60%的胜率,而没有嵌入规则的算法需要约1.7万局的时候收敛到50%的胜率,结果表明嵌入规则的方法能够有效提升学习的收敛速度和最终效果。  相似文献   
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号