期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	25篇
免费	14篇
国内免费	3篇

专业分类

电工技术	1篇
化学工业	1篇
金属工艺	1篇
建筑科学	2篇
水利工程	1篇
武器工业	1篇
无线电	2篇
一般工业技术	6篇
自动化技术	27篇

出版年

2024年	2篇
2023年	2篇
2022年	6篇
2021年	4篇
2020年	4篇
2019年	4篇
2018年	6篇
2017年	1篇
2015年	2篇
2014年	5篇
2013年	3篇
2012年	1篇
2009年	1篇
2008年	1篇

排序方式： 共有42条查询结果，搜索用时 15 毫秒

1 [2] [3] [4] [5] 下一页 » 末页»

多智能体博弈强化学习研究综述

下载免费PDF全文

王军曹雷陈希亮赖俊章乐贵《计算机工程与应用》2021,57(21):1-13

使用深度强化学习解决单智能体任务已经取得了突破性的进展。由于多智能体系统的复杂性,普通算法无法解决其主要难点。同时,由于智能体数量增加,将最大化单个智能体的累积回报的期望值作为学习目标往往无法收敛,某些特殊的收敛点也不满足策略的合理性。对于不存在最优解的实际问题,强化学习算法更是束手无策,将博弈理论引入强化学习可以很好地解决智能体的相互关系,可以解释收敛点对应策略的合理性,更重要的是可以用均衡解来替代最优解以求得相对有效的策略。因此,从博弈论的角度梳理近年来出现的强化学习算法,总结当前博弈强化学习算法的重难点,并给出可能解决上述重难点的几个突破方向。相似文献

面向海洋监测的水声传感器网络节点定位算法

陈秋丽何明王琰陈希亮王立辉《计算机科学》2015,42(2):29-32

为解决面向海洋监测应用的大规模水声传感器网络的节点定位问题,首先,采用整数线性规划理论,提出了多目标约束的水面网关优化部署策略;其次,针对水声传感器网络不同节点的特点,设计不同的定位方案,提出了有预测性的水声传感器网络节点部署算法。仿真实验验证了该方法的可行性与有效性,结果表明,该算法能明显提升节点的定位范围,降低通信能耗,减小定位误差,为水声传感器网络的海洋大规模部署提供相应技术指导。相似文献

作战智能体分队攻击目标分配模型研究

曹雷陈希亮《计算机技术与发展》2009,19(12):150-153

为解决智能体分队的目标攻击选择问题,文中对作战模型中的多武器目标分配（WTA）问题进行了研究,介绍了WTA问题的基本概念、基本模型、数学性质以及WTA问题研究的基本内容。在模型研究方面,对动态武器目标分配问题建立了迭代规划模型,该模型的优点在于克服了静态WTA模型中部分武器因为时间因素的限制,在作战中不能参与分配的缺点。在算法研究方面,以匈牙利算法对指派问题求解为基础,对动态迭代规划模型进行了求解。最后,通过案例的分析,验证了模型和算法在求解WTA问题的有效性。相似文献

信息栅格通信服务系统结构及工作原理研究

吕宗行曹雷陈希亮《微机发展》2013,(12):92-95,99

信息栅格解决了现有各种网络资源之间存在的异构性问题。通过提供统一的栅格通信服务,屏蔽底层网络资源的差异,并通过网络管理服务掌握其网络状态,对其进行更加有效的管理和调度,提高网络的利用率。同时,接纳控制服务可以更加高效地对用户需求进行接纳控制,满足用户的QoS要求。文中以当下研究的热点问题栅格技术为切入点,针对信息栅格中的通信服务系统进行了深入研究。详细分析了信息栅格的具体层次结构,阐述了信息栅格中通信服务系统的组成,并研究设想了信息栅格通信服务系统的工作原理。相似文献

信息栅格通信服务系统结构及工作原理研究

吕宗行曹雷陈希亮《微机发展》2013,(11)

基于重抽样优选缓存经验回放机制的深度强化学习方法

陈希亮曹雷李晨溪徐志雄何明《控制与决策》2018,33(4):600-606

针对深度强化学习算法中经验缓存机制构建问题,提出一种基于TD误差的重抽样优选缓存机制;针对该机制存在的训练集坍塌现象,提出基于排行的分层抽样算法进行改进,并结合该机制对已有的几种典型基于DQN的深度强化学习算法进行改进.通过对Open AI Gym平台上Cart Port学习控制问题的仿真实验对比分析表明,优选机制能够提升训练样本的质量,实现对值函数的有效逼近,具有良好的学习效率和泛化性能,收敛速度和训练性能均有明显提升. 相似文献

基于值分解的多智能体深度强化学习综述

熊丽琴曹雷赖俊陈希亮《计算机科学》2022,(9):172-182

基于值分解的多智能体深度强化学习是众多多智能体深度强化学习算法中的一类,也是多智能体深度强化学习领域的一个研究热点。它利用某种约束将多智能体系统的联合动作值函数分解为个体动作值函数的某种特定组合,能够有效解决多智能体系统中的环境非稳定性和动作空间指数爆炸等问题。文中首先说明了进行值函数分解的原因;其次,介绍了多智能体深度强化学习的基本理论;接着根据是否引入其他机制以及引入机制的不同将基于值分解的多智能体深度强化学习算法分为3类：简单因子分解型、基于IGM(个体-全局-最大)原则型以及基于注意力机制型;然后按分类重点介绍了几种典型算法并对算法的优缺点进行对比分析;最后简要阐述了所提算法的应用和发展前景。相似文献

强化学习算法在超视距空战辅助决策上的应用研究

吴宜珈赖俊陈希亮曹雷徐鹏《航空兵器》2021,28(2):55-61

针对近端策略优化算法在空战智能决策过程中面临的动作空间过大、难收敛等问题,提出基于option的近端策略分层优化算法,构建了基于强化学习的空战智能决策模型框架,并在超视距空战仿真模型中进行了对抗性实验并可视化.实验结果表明,近端策略分层优化算法能够驱动智能体在对抗过程中产生迂回攻击等战术行为,达到提升传统算法性能和提... 相似文献

深度逆向强化学习研究综述

下载免费PDF全文

陈希亮曹雷何明李晨溪徐志雄《计算机工程与应用》2018,54(5):24-35

深度逆向强化学习是机器学习领域的一个新的研究热点,它针对深度强化学习的回报函数难以获取问题,提出了通过专家示例轨迹重构回报函数的方法。首先介绍了3类深度强化学习方法的经典算法;接着阐述了经典的逆向强化学习算法,包括基于学徒学习、最大边际规划、结构化分类和概率模型形式化的方法;然后对深度逆向强化学习的一些前沿方向进行了综述,包括基于最大边际法的深度逆向强化学习、基于深度Q网络的深度逆向强化学习和基于最大熵模型的深度逆向强化学习和示例轨迹非专家情况下的逆向强化学习方法等。最后总结了深度逆向强化学习在算法、理论和应用方面存在的问题和发展方向。相似文献

10.

多智能体路径规划综述

下载免费PDF全文

刘志飞曹雷赖俊陈希亮陈英《计算机工程与应用》2022,58(20):43-64

多智能体路径规划（multi-agent path finding,MAPF）是为多个智能体规划路径的问题,关键约束是多个智能体同时沿着规划路径行进而不会发生冲突。MAPF在物流、军事、安防等领域有着大量应用。对国内外关于MAPF的主要研究成果进行系统整理和分类,按照规划方式不同,MAPF算法分为集中式规划算法和分布式执行算法。集中式规划算法是最经典和最常用的MAPF算法,主要分为基于[A*]搜索、基于冲突搜索、基于代价增长树和基于规约四种算法。分布式执行算法是人工智能领域兴起的基于强化学习的MAPF算法,按照改进技术不同,分布式执行算法分为专家演示型、改进通信型和任务分解型三种算法。基于上述分类,比较MAPF各种算法的特点和适用性,分析现有算法的优点和不足,指出现有算法面临的挑战并对未来工作进行了展望。相似文献

1 [2] [3] [4] [5] 下一页 » 末页»