首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
模仿学习是强化学习与监督学习的结合,目标是通过观察专家演示,学习专家策略,从而加速强化学习。通过引入任务相关的额外信息,模仿学习相较于强化学习,可以更快地实现策略优化,为缓解低样本效率问题提供了解决方案。模仿学习已成为解决强化学习问题的一种流行框架,涌现出多种提高学习性能的算法和技术。通过与图形图像学的最新研究成果相结合,模仿学习已经在游戏人工智能(artificial intelligence,AI)、机器人控制和自动驾驶等领域发挥了重要作用。本文围绕模仿学习的年度发展,从行为克隆、逆强化学习、对抗式模仿学习、基于观察量的模仿学习和跨领域模仿学习等多个角度进行深入探讨,介绍了模仿学习在实际应用上的最新情况,比较了国内外研究现状,并展望了该领域未来的发展方向。旨在为研究人员和从业人员提供模仿学习的最新进展,从而为开展工作提供参考与便利。  相似文献   

2.
模仿学习一直是人工智能领域的研究热点。模仿学习是一种基于专家示教重建期望策略的方法。近年来,在理论研究中,此方法和强化学习等方法结合,已经取得了重要成果;在实际应用中,尤其是在机器人和其他智能体的复杂环境中,模仿学习取得了很好的效果。主要阐述了模仿学习在机器人学领域的研究与运用。介绍了和模仿学习相关的理论知识;研究了模仿学习的两类主要方法:行为克隆学习方法和逆强化学习方法;对模仿学习的成功应用进行总结;最后,给出当前面对的问题和挑战并且展望未来发展趋势。  相似文献   

3.
最近,强化学习序列推荐系统受到研究者们的广泛关注,这得益于它能更好地联合建模用户感兴趣的内动态和外倾向。然而,现有方法面临同策略评估方法数据利用率低导致模型依赖大量的专家标注数据和启发式价值激励函数设计依赖反复人工调试两个主要挑战。因此,提出了一种新颖的异策略模仿-强化学习的序列推荐算法COG4Rec,以提高数据利用效率和实现可学习的价值函数。首先,它通过异策略方式更新分布匹配目标函数,来避免同策略更新密集在线交互限制;其次,COG4Rec采用可学习的价值函数设计,通过对数衰减状态分布比模仿用户外倾向的价值激励函数;最后,为了避免模仿学习分布漂移问题,COG4Rec通过累积衰减分布比强化用户行为记录中高价值轨迹片段重组推荐策略。一系列基准数据集上的性能对比实验和消融实验结果表明:COG4Rec比自回归模型提升了17.60%,它比启发式强化学习方法提升了3.25%。这证明了所提模型结构和优化算法的有效性。这也证明可学习的价值函数是可行的,并且异策略方式能有效提高数据利用效率。  相似文献   

4.
传统模仿学习需满足专家样本均为质量极高的最优专家样本,这一限制条件既提高数据的采集难度也限制算法的应用场景.由此,文中提出基于噪声对比估计的权重自适应对抗生成式模仿学习算法(Weight Adaptive Generative Adversarial Imitation Learning Based on Noise Contrastive Estimation, GLANCE),在专家样本质量不一致的任务场景下可保持较高性能.首先,使用噪声对比估计训练特征提取器,改善次优专家样本特征分布.然后,为专家样本设定可学习权重系数,并对基于权重系数重分布后的样本执行对抗生成式模仿学习.最后,基于已知相对排序的评估数据计算排序损失,通过梯度下降法优化权重系数,改善数据分布.在多个连续控制型任务上的实验表明,专家样本质量不一致时,GLANCE仅需要获取专家样本数据集上5%数据作为评估数据集,就可以达到较优的性能表现.  相似文献   

5.
赵逸凡  郝丹 《软件学报》2023,34(6):2708-2726
在软件交付越来越强调迅速、可靠的当下,持续集成成为一项备受关注的技术.开发人员不断将工作副本集成到代码主干完成软件演化,每次集成会通过自动构建测试来验证代码更新是否引入错误.但随着软件规模的增大,测试用例集包含的测试用例越来越多,测试用例的覆盖范围、检错效果等特征也随着集成周期的延长而变化,传统的测试用例排序技术难以适用.基于强化学习的测试排序技术可以根据测试反馈动态调整排序策略,但现有的相关技术不能综合考虑测试用例集中的信息进行排序,这限制了它们的性能.提出一种新的基于强化学习的持续集成环境中测试用例排序方法——指针排序方法:方法使用测试用例的历史信息等特征作为输入,在每个集成周期中,智能体利用指针注意力机制获得对所有备选测试用例的关注程度,由此得到排序结果,并从测试执行的反馈得到策略更新的方向,在“排序-运行测试-反馈”的过程中不断调整排序策略,最终达到良好的排序性能.在5个规模较大的数据集上验证了所提方法的效果,并探究了使用的历史信息长度对方法性能的影响,方法在仅含回归测试用例的数据集上的排序效果,以及方法的执行效率.最后,得到如下结论:(1)与现有方法相比,指针排序方法能够随着软件版本的演化调整排序策略,在持续集成环境下有效地提升测试序列的检错能力.(2)指针排序方法对输入的历史信息长度有较好的鲁棒性,少量的历史信息即可使其达到最优效果.(3)指针排序方法能够很好地处理回归测试用例和新增测试用例.(4)指针排序方法的时间开销不大,结合其更好、更稳定的排序性能,可以认为指针排序方法是一个非常有竞争力的方法.  相似文献   

6.
Job-shop排序问题的遗传强化学习算法   总被引:1,自引:0,他引:1       下载免费PDF全文
潘燕春  周泓 《计算机工程》2009,35(16):25-28
针对Job-shop排序问题的复杂性,提出一种遗传强化学习算法对其求解。通过引入多个随机变量,把Job-shop排序问题转换成多阶段决策问题,通过仿真手段构建作业排序问题模型环境,求取系统性能指标并保证解的可行性。设计一个多智能体Q-Learning算法和遗传算法相结合的算法用于解决Job-shop排序问题。仿真优化实验结果验证了该算法的有效性。  相似文献   

7.
在排序学习方法中,通过直接优化信息检索评价指标来学习排序模型的方法,取得了很好的排序效果,但是其损失函数在利用所有排序位置信息以及融合多样性排序因素方面还有待提高。为此,提出基于强化学习的多样性文档排序算法。首先,将强化学习思想应用于文档排序问题,通过将排序行为建模为马尔可夫决策过程,在每一次迭代过程中利用所有排序位置的信息,不断为每个排序位置选择最优的文档。其次,在排序过程中结合多样性策略,依据相似度阈值,裁剪高度相似的文档,从而保证排序结果的多样性。最后,在公共数据集上的实验结果表明,提出的算法在保证排序准确性的同时,增强了排序结果的多样性。  相似文献   

8.
基于生成对抗网络的模仿学习综述   总被引:1,自引:0,他引:1  
模仿学习研究如何从专家的决策数据中进行学习,以得到接近专家水准的决策模型.同样学习如何决策的强化学习往往只根据环境的评价式反馈进行学习,与之相比,模仿学习能从决策数据中获得更为直接的反馈.它可以分为行为克隆、基于逆向强化学习的模仿学习两类方法.基于逆向强化学习的模仿学习把模仿学习的过程分解成逆向强化学习和强化学习两个子过程,并反复迭代.逆向强化学习用于推导符合专家决策数据的奖赏函数,而强化学习基于该奖赏函数来学习策略.基于生成对抗网络的模仿学习方法从基于逆向强化学习的模仿学习发展而来,其中最早出现且最具代表性的是生成对抗模仿学习方法(Generative Adversarial Imitation Learning,简称GAIL).生成对抗网络由两个相对抗的神经网络构成,分别为判别器和生成器.GAIL的特点是用生成对抗网络框架求解模仿学习问题,其中,判别器的训练过程可类比奖赏函数的学习过程,生成器的训练过程可类比策略的学习过程.与传统模仿学习方法相比,GAIL具有更好的鲁棒性、表征能力和计算效率.因此,它能够处理复杂的大规模问题,并可拓展到实际应用中.然而,GAIL存在着模态崩塌、环境交互样本利用效率低等问题.最近,新的研究工作利用生成对抗网络技术和强化学习技术等分别对这些问题进行改进,并在观察机制、多智能体系统等方面对GAIL进行了拓展.本文先介绍了GAIL的主要思想及其优缺点,然后对GAIL的改进算法进行了归类、分析和对比,最后总结全文并探讨了可能的未来趋势.  相似文献   

9.
图像搜索中重要的问题之一是如何有效地对搜索结果进行排序.现有图像搜索引擎的排序模型一般都基于相关文本而没有考虑图像的视觉特征.由于文本特征有时并不能很好地匹配图像的内容,所以搜索结果中会包含被错误排序的图像.针对该问题已经提出了视觉重排序方法,通过视觉信息来精炼基于文本的搜索结果.然而视觉重排序带来的性能提升有限,主要原因是基于文本的搜索结果中的错误会传播到视觉重排序阶段.本文基于排序学习的框架提出一个联合文本和视觉特征的图像排序学习模型,同时考虑了视觉和文本特征来进行排序学习,避免了视觉重排序中的错误传播.实验结果表明本文提出的排序模型显著地好于现有的重排序方法.  相似文献   

10.
生成对抗模仿学习(generative adversarial imitation learning, GAIL)是一种基于生成对抗框架的逆向强化学习(inverse reinforcement learning, IRL)方法,旨在从专家样本中模仿专家策略.在实际任务中,专家样本往往由多模态策略产生.然而,现有的GAIL方法大部分假设专家样本产自于单一模态策略,导致生成对抗模仿学习只能学习到部分模态策略,即出现模式塌缩问题,这极大地限制了模仿学习方法在多模态任务中的应用.针对模式塌缩问题,提出了基于余弦相似度的多模态模仿学习方法 (multi-modal imitation learning method with cosine similarity,MCS-GAIL).该方法引入编码器和策略组,通过编码器提取专家样本的模态特征,计算采样样本与专家样本之间特征的余弦相似度,并将其加入策略组的损失函数中,引导策略组学习对应模态的专家策略.此外,MCS-GAIL使用新的极小极大博弈公式指导策略组以互补的方式学习不同模态策略.在假设条件成立的情况下,通过理论分析证明了MCS-GAIL的收敛...  相似文献   

11.
该文在分析总结影响微博用户推荐的四大类信息,包括用户的内容信息、个人信息、交互信息和社交拓扑信息的基础上,提出一个基于排序学习的微博用户推荐框架,排序学习的本质是用机器学习中的分类或回归方法解决排序问题,该框架可以综合各类信息特征进行用户推荐。实验结果表明 (1)融合多个特征综合推荐通常可以取得更好的推荐效果;(2)基于用户个人信息、交互信息、社交拓扑信息的推荐效果均好于基于用户内容的推荐效果。  相似文献   

12.
随着强化学习在自动机器人控制、复杂决策问题上的广泛应用,强化学习逐渐成为机器学习领域中的一大研究热点.传统强化学习算法是一种通过不断与所处环境进行自主交互并从中得到策略的学习方式.然而,大多数多步决策问题难以给出传统强化学习所需要的反馈信号.这逐渐成为强化学习在更多复杂问题中实现应用的瓶颈.逆强化学习是基于专家决策轨迹最优的假设,在马尔可夫决策过程中逆向求解反馈函数的一类算法.目前,通过将逆强化学习和传统正向强化学习相结合设计的一类示教学习算法已经在机器人控制等领域取得了一系列成果.对强化学习、逆强化学习以及示教学习方法做一定介绍,此外还介绍了逆强化学习在应用过程中所需要解决的问题以及基于逆强化学习的示教学习方法.  相似文献   

13.
排序学习是当前信息检索领域研究热点之一。为了避免训练集中噪音的影响,当前排序学习算法较多关注鲁棒性。已有的工作发现相同的排序学习方法的性能在不同的数据集上会有截然不同的噪音敏感度。模型改变是导致性能下降的直接原因,而模型又是从训练集学习到的,因此根源在于训练数据的某些特性。该文根据具体排序学习场景分析得出影响噪音敏感度的根本原因在于训练集中文档对分布的结论,并在LETOR3.0上的实验验证了这一结论。  相似文献   

14.
基于PRank算法的主动排序学习算法   总被引:1,自引:0,他引:1       下载免费PDF全文
王扬  黄亚楼  刘杰  李栋  蒯宇豪 《计算机工程》2008,34(21):38-39,4
针对排序学习中如何选择最值得标注的样本和通过尽可能少的已标注样本训练出较好的排序模型的问题,将主动学习的思想引入排序学习中,提出一种基于排序感知机的主动排序学习算法——Active PRank。基于真实数据集的实验结果表明,该算法在保证排序模型性能的前提下,减少样本的标注量,在同等标注量的条件下,提高排序结果的正确率。  相似文献   

15.
近年来微博检索已经成为信息检索领域的研究热点。相关的研究表明,微博检索具有时间敏感性。已有工作根据不同的时间敏感性假设,例如,时间越新文档越相关,或者时间越接近热点时刻文档越相关,得到多种不同的检索模型,都在一定程度上提高了检索效果。但是这些假设主要来自于观察,是一种直观简化的假设,仅能从某个方面反映时间因素影响微博排序的规律。该文验证了微博检索具有复杂的时间敏感特性,直观的简化假设并不能准确地描述这种特性。在此基础上提出了一个利用微博的时间特征和文本特征,通过机器学习的方式来构建一个针对时间敏感的微博检索的排序学习模型(TLTR)。在时间特征上,考察了查询相关的全局时间特征以及查询-文档对的局部时间特征。在TREC Microblog Track 20112012数据集上的实验结果表明,TLTR模型优于现有的其他时间敏感的微博排序方法。  相似文献   

16.
排序问题在信息检索领域是一个非常重要的课题。虽然排序学习模型的算法早已被深入研究,但针对排序学习算法中的特征选择的研究却很少。现实的情况是,许多用于分类的特征选择方法被直接应用到排序学习中。但由于排序和分类有着显著的差异,应研究出针对排序的特征选择算法。文中在介绍常用的排序学习的特征选择方法的基础上,提出了一种全新的、适用于QA问题的排序学习的特征选择方法一锦标赛排序特征选择方法。实验结果显示,这种新的特征选择方法在提高特征提取效率和降低特征向量维数方面都有显著改善。  相似文献   

17.
在文本搜索领域,用自学习排序的方法构建排序模型越来越普遍。排序模型的性能很大程度上依赖训练集。每个训练样本需要人工标注文档与给定查询的相关程度。对于文本搜索而言,查询几乎是无穷的,而人工标注耗时费力,所以选择部分有信息量的查询来标注很有意义。提出一种同时考虑查询的难度、密度和多样性的贪心算法从海量的查询中选择有信息量的查询进行标注。在LETOR和从Web搜索引擎数据库上的实验结果,证明利用本文提出的方法能构造一个规模较小且有效的训练集。  相似文献   

18.
查询扩展作为一门重要的信息检索技术,是以用户查询为基础,通过一定策略在原始查询中加入一些相关的扩展词,从而使得查询能够更加准确地描述用户信息需求。排序学习方法利用机器学习的知识构造排序模型对数据进行排序,是当前机器学习与信息检索交叉领域的研究热点。该文尝试利用伪相关反馈技术,在查询扩展中引入排序学习算法,从文档集合中提取与扩展词相关的特征,训练针对于扩展词的排序模型,并利用排序模型对新查询的扩展词集合进行重新排序,将排序后的扩展词根据排序得分赋予相应的权重,加入到原始查询中进行二次检索,从而提高信息检索的准确率。在TREC数据集合上的实验结果表明,引入排序学习算法有助于提高伪相关反馈的检索性能。  相似文献   

19.
陈妤  秦威 《计算机系统应用》2022,31(11):387-392
随着网络规模的增大,节点接近中心性的精确算法效率越来越低.本文提出一种基于RankNet排序学习算法的模型以快速逼近复杂网络节点接近中心性排序.首先通过相关性分析得到与接近中心性呈正相关的节点重要度指标作为模型的输入特征,然后在给定网络中随机选取节点子集用于模型的训练样本数据.在一个真实航空网络数据集和典型的复杂网络模型上对提出的模型进行了验证,实验结果表明基于RankNet排序学习算法的模型能够在一定程度上降低计算时间复杂度,而且保持了较高的近似准确性,所提出的模型排序效果明显优于采用回归学习的基准模型.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号