期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	20篇
免费	14篇
国内免费	2篇

专业分类

电工技术	1篇
化学工业	1篇
金属工艺	1篇
建筑科学	2篇
水利工程	1篇
无线电	1篇
一般工业技术	6篇
自动化技术	23篇

出版年

2023年	2篇
2022年	4篇
2021年	3篇
2020年	4篇
2019年	4篇
2018年	5篇
2017年	1篇
2015年	2篇
2014年	5篇
2013年	3篇
2012年	1篇
2009年	1篇
2008年	1篇

排序方式： 共有36条查询结果，搜索用时 15 毫秒

1 [2] [3] [4] 下一页 » 末页»

基于重抽样优选缓存经验回放机制的深度强化学习方法

陈希亮曹雷李晨溪徐志雄何明《控制与决策》2018,33(4):600-606

针对深度强化学习算法中经验缓存机制构建问题,提出一种基于TD误差的重抽样优选缓存机制;针对该机制存在的训练集坍塌现象,提出基于排行的分层抽样算法进行改进,并结合该机制对已有的几种典型基于DQN的深度强化学习算法进行改进.通过对Open AI Gym平台上Cart Port学习控制问题的仿真实验对比分析表明,优选机制能够提升训练样本的质量,实现对值函数的有效逼近,具有良好的学习效率和泛化性能,收敛速度和训练性能均有明显提升. 相似文献

多智能体博弈强化学习研究综述

下载免费PDF全文

王军曹雷陈希亮赖俊章乐贵《计算机工程与应用》2021,57(21):1-13

使用深度强化学习解决单智能体任务已经取得了突破性的进展。由于多智能体系统的复杂性,普通算法无法解决其主要难点。同时,由于智能体数量增加,将最大化单个智能体的累积回报的期望值作为学习目标往往无法收敛,某些特殊的收敛点也不满足策略的合理性。对于不存在最优解的实际问题,强化学习算法更是束手无策,将博弈理论引入强化学习可以很好地解决智能体的相互关系,可以解释收敛点对应策略的合理性,更重要的是可以用均衡解来替代最优解以求得相对有效的策略。因此,从博弈论的角度梳理近年来出现的强化学习算法,总结当前博弈强化学习算法的重难点,并给出可能解决上述重难点的几个突破方向。相似文献

信息栅格通信服务系统结构及工作原理研究

吕宗行曹雷陈希亮《微机发展》2013,(12):92-95,99

信息栅格解决了现有各种网络资源之间存在的异构性问题。通过提供统一的栅格通信服务,屏蔽底层网络资源的差异,并通过网络管理服务掌握其网络状态,对其进行更加有效的管理和调度,提高网络的利用率。同时,接纳控制服务可以更加高效地对用户需求进行接纳控制,满足用户的QoS要求。文中以当下研究的热点问题栅格技术为切入点,针对信息栅格中的通信服务系统进行了深入研究。详细分析了信息栅格的具体层次结构,阐述了信息栅格中通信服务系统的组成,并研究设想了信息栅格通信服务系统的工作原理。相似文献

信息栅格通信服务系统结构及工作原理研究

吕宗行曹雷陈希亮《微机发展》2013,(11)

作战智能体分队攻击目标分配模型研究

曹雷陈希亮《计算机技术与发展》2009,19(12):150-153

为解决智能体分队的目标攻击选择问题,文中对作战模型中的多武器目标分配（WTA）问题进行了研究,介绍了WTA问题的基本概念、基本模型、数学性质以及WTA问题研究的基本内容。在模型研究方面,对动态武器目标分配问题建立了迭代规划模型,该模型的优点在于克服了静态WTA模型中部分武器因为时间因素的限制,在作战中不能参与分配的缺点。在算法研究方面,以匈牙利算法对指派问题求解为基础,对动态迭代规划模型进行了求解。最后,通过案例的分析,验证了模型和算法在求解WTA问题的有效性。相似文献

深度逆向强化学习研究综述

下载免费PDF全文

陈希亮曹雷何明李晨溪徐志雄《计算机工程与应用》2018,54(5):24-35

深度逆向强化学习是机器学习领域的一个新的研究热点,它针对深度强化学习的回报函数难以获取问题,提出了通过专家示例轨迹重构回报函数的方法。首先介绍了3类深度强化学习方法的经典算法;接着阐述了经典的逆向强化学习算法,包括基于学徒学习、最大边际规划、结构化分类和概率模型形式化的方法;然后对深度逆向强化学习的一些前沿方向进行了综述,包括基于最大边际法的深度逆向强化学习、基于深度Q网络的深度逆向强化学习和基于最大熵模型的深度逆向强化学习和示例轨迹非专家情况下的逆向强化学习方法等。最后总结了深度逆向强化学习在算法、理论和应用方面存在的问题和发展方向。相似文献

面向海洋监测的水声传感器网络节点定位算法

陈秋丽何明王琰陈希亮王立辉《计算机科学》2015,42(2):29-32

为解决面向海洋监测应用的大规模水声传感器网络的节点定位问题,首先,采用整数线性规划理论,提出了多目标约束的水面网关优化部署策略;其次,针对水声传感器网络不同节点的特点,设计不同的定位方案,提出了有预测性的水声传感器网络节点部署算法。仿真实验验证了该方法的可行性与有效性,结果表明,该算法能明显提升节点的定位范围,降低通信能耗,减小定位误差,为水声传感器网络的海洋大规模部署提供相应技术指导。相似文献

多智能体路径规划综述

下载免费PDF全文

刘志飞曹雷赖俊陈希亮陈英《计算机工程与应用》2022,58(20):43-64

多智能体路径规划（multi-agent path finding,MAPF）是为多个智能体规划路径的问题,关键约束是多个智能体同时沿着规划路径行进而不会发生冲突。MAPF在物流、军事、安防等领域有着大量应用。对国内外关于MAPF的主要研究成果进行系统整理和分类,按照规划方式不同,MAPF算法分为集中式规划算法和分布式执行算法。集中式规划算法是最经典和最常用的MAPF算法,主要分为基于[A*]搜索、基于冲突搜索、基于代价增长树和基于规约四种算法。分布式执行算法是人工智能领域兴起的基于强化学习的MAPF算法,按照改进技术不同,分布式执行算法分为专家演示型、改进通信型和任务分解型三种算法。基于上述分类,比较MAPF各种算法的特点和适用性,分析现有算法的优点和不足,指出现有算法面临的挑战并对未来工作进行了展望。相似文献

模糊综合评价在战术训练模拟系统中的运用

杨楠曹雷陈希亮周云《计算机技术与发展》2012,22(6)

在分队战术训练模拟系统中,对参训者的操作质量进行评判是很有必要的.这有利于检验参训者的不足,提升参训者的作战能力,在之后的训练中更有针对性,大大提高了训练频度和训练效果.文中将模糊综合评价方法应用到分队战术训练模拟系统中,评价模型采用改进的指数标度的层次分析法确定各因素的权重,使得判断矩阵的一致性指标得到改善,并根据实际采用三角形式构造隶属函数.最后用一个实例对该方法进行验证,验证了该方法的有效性和实用性. 相似文献

10.

基于强化学习的无人坦克对战仿真研究

下载免费PDF全文

徐志雄曹雷陈希亮《计算机工程与应用》2018,54(8):166-171

对标准的强化学习进行改进,通过引入动机层,来引入先验知识,加快学习速度。策略迭代选择上,通过采用“同策略”迭代的Sarsa学习算法,代替传统的“异策略”Q学习算法。提出了基于多动机引导的Sarsa学习（MMSarsa）算法,分别和Q学习算法、Sarsa学习算法在坦克对战仿真问题上进行了三种算法的对比实验。实验结果表明,基于多动机引导的Sarsa学习算法收敛速度快且学习效率高。相似文献

1 [2] [3] [4] 下一页 » 末页»