期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

肖正马胜祥张世永《小型微型计算机系统》2010,31(4)

近来实时动态任务分配机制得到越来越多的研究.考虑多任务流并存时的任务分配问题,提出基于Q学习的分布式多任务流调度算法,不仅能适应自身任务流的到达过程,还充分兼顾其他任务流的到达及分配的影响,从而使得整个系统长期期望回报最大.分布式特性使得算法适用于开放的,局部可见的多Agent系统;强化学习的采用使得任务分配决策自适应系统环境隐藏的不确定性.实验表明此算法具有较高的任务吞吐量和任务完成效率. 相似文献

2.

基于Q学习的多任务多目标粒子群优化算法

韩红桂徐子昂王晶晶《控制与决策》2023,38(11):3039-3047

多任务粒子群优化算法(multi-task particle swarm ptimization, MTPSO)通过知识迁移学习,具有快速收敛能力,广泛应用于求解多任务多目标优化问题.然而, MTPSO难以根据种群进化状态自适应调整优化过程,容易陷入局部最优,收敛性能较差.针对此问题,利用强化学习的自我进化与预测能力,提出一种基于Q学习的多任务多目标粒子群优化算法(QM2PSO).首先,设计粒子群参数动态更新方法,利用Q学习方法在线更新粒子群算法的惯性权重和加速度参数,提高当前粒子收敛到Pareto前沿的能力;其次,提出基于柯西分布的突变搜索策略,通过全局和局部交替搜索多任务最优解,避免算法陷入局部最优;最后,设计基于正向迁移准则的知识迁移方法,采用Q学习方法更新知识迁移率,改善知识负迁移现象.与已有经典算法的对比实验结果表明所提出的QM2PSO算法具有更优越的收敛性. 相似文献

3.

基于奖励高速路网络的多智能体强化学习中的全局信用分配算法

姚兴虎谭晓阳《计算机应用》2021,41(1):1-7

针对多智能体系统中联合动作空间随智能体数量的增加而产生的指数爆炸的问题,采用"中心训练-分散执行"的框架来避免联合动作空间的维数灾难并降低算法的优化代价.针对在众多的多智能体强化学习场景下,环境仅给出所有智能体的联合行为所对应的全局奖励这一问题,提出一种新的全局信用分配机制——奖励高速路网络(RHWNet).通过在原有... 相似文献

4.

基于参数逼近的多智能体强化学习算法

赵高长刘豪苏军《计算机工程与设计》2020,41(3):862-866

相似文献

5.

基于奖励滤波信用分配的多智能体深度强化学习算法

徐诚殷楠段世红何昊王然《计算机学报》2022,(11):2306-2320

近年来,强化学习方法在游戏博弈、机器人导航等多种应用领域取得了令人瞩目的成果.随着越来越多的现实场景需要多个智能体完成复杂任务,强化学习的研究领域已逐渐从单一智能体转向多智能体.而在多智能体强化学习问题的研究中,让智能体学会协作成为当前的一大研究热点.在这一过程中,多智能体信用分配问题亟待解决.这是因为部分可观测环境会针对智能体产生的联合动作产生奖励强化信号,并将其用于强化学习网络参数的更新.也就是说,当所有智能体共享一个相同的全局奖励时,难以确定系统中的每一个智能体对整体所做出的贡献.除此之外,当某个智能体提前学习好策略并获得较高的回报时,其他智能体可能停止探索,使得整个系统陷入局部最优.针对这些问题,本文提出了一种简单有效的方法,即基于奖励滤波的信用分配算法.将其他智能体引起的非平稳环境影响建模为噪声,获取集中训练过程中的全局奖励信号,经过滤波后得到每个智能体的局部奖励,用于协调多智能体的行为,更好地实现奖励最大化.我们还提出了基于奖励滤波的多智能体深度强化学习(RF-MADRL)框架,并在Open AI提供的合作导航环境中成功地进行了验证.实验结果表明,和基线算法相比,使用基于奖... 相似文献

6.

基于多Agent的混合智能学习算法及 总被引：4，自引：0，他引：4

张淑军孟庆春宋长虹李占斌张文《机器人》2003,25(6):526-530

本文提出了基于多Agent的混合智能学习算法，将个体学习和群体学习有效地结合起来，并给出了该算法在RoboCup足球机器人仿真系统中的具体应用．实验结果表明了算法的可行性与有效性．相似文献

7.

一种协商在线增量学习算法及其在基于智能体的电子商务中的应用 总被引：1，自引：1，他引：0

景博李剑钱越英《计算机工程与应用》2005,41(2):136-137,160

随着多智能体系统MAS的迅猛发展,常常需要进行在线的协商。然而由于协商中不完全信息的存在,常常会大大影响协商的效果。该文提出一种多智能体协商中的动态在线增量学习算法,采用Q-学习机制来学习agent协商中的不完全信息。该文将这种学习算法应用基于智能体agent的电子商务中。实验证明算法可以加速协商的过程,提高协商的效果。相似文献

8.

双Q网络学习的迁移强化学习算法

曾睿周建刘满禄张俊俊陈卓《计算机应用研究》2021,38(6):1699-1703

深度强化学习在训练过程中会探索大量环境样本,造成算法收敛时间过长,而重用或传输来自先前任务(源任务)学习的知识,对算法在新任务(目标任务)的学习具有提高算法收敛速度的潜力.为了提高算法学习效率,提出一种双Q网络学习的迁移强化学习算法,其基于actor-critic框架迁移源任务最优值函数的知识,使目标任务中值函数网络对策略作出更准确的评价,引导策略快速向最优策略方向更新.将该算法用于Open AI Gym以及在三维空间机械臂到达目标物位置的实验中,相比于常规深度强化学习算法取得了更好的效果,实验证明提出的双Q网络学习的迁移强化学习算法具有较快的收敛速度,并且在训练过程中算法探索更加稳定. 相似文献

9.

基于相似度学习的多源迁移算法 总被引：1，自引：0，他引：1

卞则康王士同《控制与决策》2017,32(11):1941-1948

针对与测试数据分布相同的训练数据不足,相关领域中存在大量的、与测试数据分布相近的训练数据的场景,提出一种基于相似度学习的多源迁移学习算法(SL-MSTL).该算法在经典SVM分类模型的基础上提出一种新的迁移分类模型,增加对多源域与目标域之间的相似度学习,可以有效地利用各源域中的有用信息,提高目标域的分类效果.实验的结果表明了SL-MSTL 算法的有效性和实用性. 相似文献

10.

基于自注意力机制和策略映射重组的多智能体强化学习算法

李静晨史豪斌黄国胜《计算机学报》2022,(9):1842-1858

多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)在群体控制领域中被广泛应用,但由于单个智能体的马尔可夫决策模型被破坏,现有的MARL算法难以学习到最优策略,且训练中智能体的随机性会导致策略不稳定.本文从状态空间到行为空间的映射出发,研究同构多智能体系统的耦合转换,以提高策略的先进性及稳定性.首先,我们调查了同构智能体行为空间的重组,打破智能体与策略对应的固定思维,通过构建抽象智能体将智能体之间的耦合转换为不同智能体行为空间同一维度的耦合,以提高策略网络的训练效率和稳定.随后,在重组策略映射的基础上,我们从序列决策的角度出发,为抽象智能体的策略网络和评估网络分别设计自注意力模块,编码并稀疏化智能体的状态信息.重组后的状态信息经过自注意力编码后,能显示地解释智能体的决策行为.本文在三个常用的多智能体任务上对所提出方法的有效性进行了全面的验证和分析,实验结果表明,在集中奖励的情况下,本文所提出的方法能够学到比基线方法更为先进的策略,平均回报提高了20%,且训练过程与训练结果的稳定性提高了50%以上.多个对应的消融实验也分别验证了抽象智能体与自... 相似文献

11.

Multitask Learning 总被引：10，自引：0，他引：10

Caruana Rich 《Machine Learning》1997,28(1):41-75

Multitask Learning is an approach to inductive transfer that improves generalization by using the domain information contained in the training signals of related tasks as an inductive bias. It does this by learning tasks in parallel while using a shared representation; what is learned for each task can help other tasks be learned better. This paper reviews prior work on MTL, presents new evidence that MTL in backprop nets discovers task relatedness without the need of supervisory signals, and presents new results for MTL with k-nearest neighbor and kernel regression. In this paper we demonstrate multitask learning in three domains. We explain how multitask learning works, and show that there are many opportunities for multitask learning in real domains. We present an algorithm and results for multitask learning with case-based methods like k-nearest neighbor and kernel regression, and sketch an algorithm for multitask learning in decision trees. Because multitask learning works, can be applied to many different kinds of domains, and can be used with different learning algorithms, we conjecture there will be many opportunities for its use on real-world problems. 相似文献

12.

Reinforcement Learning Transfer Based on Subgoal Discovery and Subtask Similarity

下载免费PDF全文

Hao Wang Shunguo Fan Jinhua Song Yang Gao Xingguo Chen 《IEEE/CAA Journal of Automatica Sinica》2014,1(3):257-266

This paper studies the problem of transfer learning in the context of reinforcement learning. We propose a novel transfer learning method that can speed up reinforcement learning with the aid of previously learnt tasks. Before performing extensive learning episodes, our method attempts to analyze the learning task via some exploration in the environment, and then attempts to reuse previous learning experience whenever it is possible and appropriate. In particular, our proposed method consists of four stages: 1) subgoal discovery, 2) option construction, 3) similarity searching, and 4) option reusing. Especially, in order to fulfill the task of identifying similar options, we propose a novel similarity measure between options, which is built upon the intuition that similar options have similar stateaction probabilities. We examine our algorithm using extensive experiments, comparing it with existing methods. The results show that our method outperforms conventional non-transfer reinforcement learning algorithms, as well as existing transfer learning methods, by a wide margin. 相似文献

13.

基于联合分布的多标记迁移学习

下载免费PDF全文

桑江徽姜海燕《计算机工程与应用》2021,57(9):154-161

针对现有的多标记迁移学习忽略条件分布而导致泛化能力不足的问题,设计了一种基于联合分布的多标记迁移学习(Multi-label Transfer Learning via Joint Distribution Alignment,J-MLTL).分解原始特征生成特征子空间,在子空间中计算条件分布的权重系数,最小化跨领域数... 相似文献

14.

一种异构直推式迁移学习算法

杨柳景丽萍于剑《软件学报》2015,26(11):2762-2780

目标领域已有类别标注的数据较少时会影响学习性能,而与之相关的其他源领域中存在一些已标注数据.迁移学习针对这一情况,提出将与目标领域不同但相关的源领域上学习到的知识应用到目标领域.在实际应用中,例如文本-图像、跨语言迁移学习等,源领域和目标领域的特征空间是不相同的,这就是异构迁移学习.关注的重点是利用源领域中已标注的数据来提高目标领域中未标注数据的学习性能,这种情况是异构直推式迁移学习.因为源领域和目标领域的特征空间不同,异构迁移学习的一个关键问题是学习从源领域到目标领域的映射函数.提出采用无监督匹配源领域和目标领域的特征空间的方法来学习映射函数.学到的映射函数可以把源领域中的数据在目标领域中重新表示.这样,重表示之后的已标注源领域数据可以被迁移到目标领域中.因此,可以采用标准的机器学习方法(例如支持向量机方法)来训练分类器,以对目标领域中未标注的数据进行类别预测.给出一个概率解释以说明其对数据中的一些噪声是具有鲁棒性的.同时还推导了一个样本复杂度的边界,也就是寻找映射函数时需要的样本数.在4个实际的数据库上的实验结果,展示了该方法的有效性. 相似文献

15.

基于社会关系的工作流任务分派策略研究

余阳王颍刘醒梅陈健《软件学报》2015,26(3):562-573

在工作流管理系统中,任务分派策略对工作流系统的性能影响较大,而人力资源社会属性的不稳定也给任务分派带来了挑战.一般的任务分派策略还存在以下问题:分派时只考虑候选资源的个体属性,忽略了流程中其他资源对候选资源的影响;需要为候选资源预先设置能力指标,但预设指标很难与候选资源的实际情况吻合,错误的能力指标会导致将任务分派给不合适的资源,降低工作流系统的性能.为克服上述问题,基于不同的状态转移视角和奖励函数,提出了4种基于Q学习的任务分派算法.通过对比实验,论证了基于Q学习的任务分派算法在未预设资源能力的情况下仍能取得较好效果,且支持在任务分派过程中考虑社会关系的影响,使得平均案例完成时间进一步降低. 相似文献

16.

基于强化学习的特征选择算法

朱振国赵凯旋刘民康《计算机系统应用》2018,27(10):214-218

针对在数据挖掘过程中存在的维度灾难和特征冗余问题,本文在传统特征选择方法的基础上结合强化学习中Q学习方法,提出基于强化学习的特征选择算法,智能体Agent通过训练学习后自主决策得到特征子集.实验结果表明,本文提出的算法能有效的减少特征数量并有较高的分类性能. 相似文献

17.

一类基于谱方法的强化学习混合迁移算法 总被引：1，自引：0，他引：1

朱美强程玉虎李明王雪松冯涣婷《自动化学报》2012,38(11):1765-1776

在状态空间比例放大的迁移任务中, 原型值函数方法只能有效迁移较小特征值对应的基函数, 用于目标任务的值函数逼近时会使部分状态的值函数出现错误. 针对该问题, 利用拉普拉斯特征映射能保持状态空间局部拓扑结构不变的特点, 对基于谱图理论的层次分解技术进行了改进, 提出一种基函数与子任务最优策略相结合的混合迁移方法. 首先, 在源任务中利用谱方法求取基函数, 再采用线性插值技术将其扩展为目标任务的基函数; 然后, 用插值得到的次级基函数(目标任务的近似Fiedler特征向量)实现任务分解, 并借助改进的层次分解技术求取相关子任务的最优策略; 最后, 将扩展的基函数和获取的子任务策略一起用于目标任务学习中. 所提的混合迁移方法可直接确定目标任务部分状态空间的最优策略, 减少了值函数逼近所需的最少基函数数目, 降低了策略迭代次数, 适用于状态空间比例放大且具有层次结构的迁移任务. 格子世界的仿真结果验证了新方法的有效性. 相似文献

18.

基于迁移学习的蛋白质交互关系抽取

李丽双郭瑞黄德根周惠巍《中文信息学报》2016,30(2):160-167

作为生物医学信息抽取领域的重要分支,蛋白质交互关系(Protein-Protein Interaction,PPI)抽取具有重要的研究意义。目前的研究大多采用统计机器学习方法,需要大规模标注语料进行训练。训练语料过少,会降低关系抽取系统的性能,而人工标注语料需要耗费巨大的成本。该文采用迁移学习的方法,用大量已标注的源领域(其它领域)语料来辅助少量标注的目标领域语料(本领域)进行蛋白质交互关系抽取。但是,不同领域的数据分布存在差异,容易导致负迁移,该文借助实例的相对分布来调整权重,避免了负迁移的发生。在公共语料库AIMed上实验,两种迁移学习方法获得了明显优于基准算法的性能;同样方法在语料库IEPA上实验时,TrAdaboost算法发生了负迁移,而改进的DisTrAdaboost算法仍保持良好迁移效果。相似文献

19.

Learning Intelligent Behavior in a Non-stationary and Partially Observable Environment

SelÇuk şenkul Faruk Polat 《Artificial Intelligence Review》2002,18(2):97-115

Individual learning in an environment where more than one agent exist is a chal-lengingtask. In this paper, a single learning agent situated in an environment where multipleagents exist is modeled based on reinforcement learning. The environment is non-stationaryand partially accessible from an agents' point of view. Therefore, learning activities of anagent is influenced by actions of other cooperative or competitive agents in the environment.A prey-hunter capture game that has the above characteristics is defined and experimentedto simulate the learning process of individual agents. Experimental results show that thereare no strict rules for reinforcement learning. We suggest two new methods to improve theperformance of agents. These methods decrease the number of states while keeping as muchstate as necessary. 相似文献