首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
基于网络流量的系统入侵会带来严重破坏,因此寻找能够准确识别和分类异常流量的方法具有重要的研究价值。数据作为基于机器学习模型的检测算法的唯一依据,训练过程对于外界是一个黑盒过程,整个模型在训练和使用过程中缺乏用户交互。这导致在网络运维场景中,专业运维人员不能根据当前模型检测结果,实时将指导信息反馈到系统中,进而削弱了系统的场景适应能力和检测纠错能力。本文基于强化学习过程,设计了一种基于动态贝叶斯博弈的交互引导式的网络流量异常检测方法。通过检测模型和运维人员交互的方式,在训练过程中让运维人员提供专业反馈使得模型获得外界针对当前检测效果的奖惩信号,从而对自身特征聚焦方向和收敛过程起到引导的作用。将运维人员和检测模型视为博弈的双方,建立博弈模型,使双方之间的交互引导行为达到动态平衡状态。通过博弈对于模型交互频次和内容反馈给出指导,从而使得模型具有动态适应当前场景的能力,有效控制了人机交互反馈所带来的系统开销。实验部分验证了交互式博弈的流量检测方法中,双方博弈指导交互行为的可行性与有效性,证明了该方法在动态场景中具有良好的适应能力。相较于传统的机器学习方法,交互引导式模型提高了模型整体的检测性能。性能对比测试结果表明交互频次每增加0.02%,系统整体检测性能随之提升0.01%。  相似文献   

2.
随机博弈框架下的多agent强化学习方法综述   总被引:4,自引:0,他引:4  
宋梅萍  顾国昌  张国印 《控制与决策》2005,20(10):1081-1090
多agent学习是在随机博弈的框架下,研究多个智能体间通过自学习掌握交互技巧的问题.单agent强化学习方法研究的成功,对策论本身牢固的数学基础以及在复杂任务环境中广阔的应用前景,使得多agent强化学习成为目前机器学习研究领域的一个重要课题.首先介绍了多agent系统随机博弈中基本概念的形式定义;然后介绍了随机博弈和重复博弈中学习算法的研究以及其他相关工作;最后结合近年来的发展,综述了多agent学习在电子商务、机器人以及军事等方面的应用研究,并介绍了仍存在的问题和未来的研究方向.  相似文献   

3.
一个基于博弈学习的多主体竞价模型   总被引:3,自引:0,他引:3  
根据多主体撮合交易模型,把整个撮合交易看成各交易主体的动态交互过程,设计了基于Multi-Agent的电子商务交易市场中交易主体动态竞价策略,提出了博弈学习的概念,并建立了基于博弈学习的动态竞价模型,根据撮合密度的定义,分析了所建立模型的性能和效率,试验表明,基于博弈学习的多主体动态竞价模型使多主体撮合交易系统具有一定的自均衡和自学习能力和良好的交易性能。  相似文献   

4.
基于随机博弈的Agent协同强化学习方法   总被引:3,自引:0,他引:3       下载免费PDF全文
本文针对一类追求系统得益最大化的协作团队的学习问题,基于随机博弈的思想,提出了一种新的多Agent协同强化学习方法。协作团队中的每个Agent通过观察协作相识者的历史行为,依照随机博弈模型预测其行为策略,进而得出最优的联合行为策略。  相似文献   

5.
基于群体环境中个体agent局部感知和交互的生物原型,提出一种随机对策框架下的多agent局部学习算法.算法在与局部环境交互中采用贪婪策略最大化自身利益.分别在零和、一般和的单个平衡点和多个平衡点情形下改进了Nash-Q学习算法;提出了行为修正方法,并证明了算法收敛、计算复杂度降低.  相似文献   

6.
针对传统分布式自适应交通信号控制协调效率受限,并且存在维数灾难问题,建立了城市区域交通信号控制系统模型,将其优化问题建模为局部交叉口交通信号博弈协调控制,提出基于交叉口交通信号控制agent局部信息博弈交互的学习算法。在学习过程中交叉口交通信号控制agent进行局部信息博弈交互,自主调整交通信号控制策略使其逐步学习到最优策略。通过设计不同的交通需求情景,对路网平均延误和平均停车次数进行加权构建性能评价指标,相对于遗传算法和感应控制方法,博弈学习取得更好的交通信号控制效果,其能收敛到最优性能评价指标,其具有更好的交通需求管控能力。  相似文献   

7.
多行为推荐(MBR)通常利用多种类型的用户交互行为(例如,浏览、添加购物车和购买)来学习用户对目标行为(即购买)的偏好。受到稀疏监督信号的影响,现有的MBR方法推荐性能欠佳。最近,对比学习从原始数据本身挖掘辅助监督信号取得成功,受此启发提出了一种双视图对比学习引导的方法来增强MBR。首先,利用多行为交互数据来构造2个能同时捕获局部和高阶结构的信息视图;然后,设计2个不同的视图编码器在上述互补视图上学习用户和项目的嵌入表示;最后,通过跨视图协同对比学习与相互监督从而学习到更好的嵌入表示。在2个真实数据集上的实验结果表明,本文方法明显优于基线方法。  相似文献   

8.
为解决多行为推荐研究存在的未能全面捕获多行为交互特征,忽略点击等隐式反馈数据存在的大量噪声标签等问题,提出了联合自监督学习强化的多行为多任务推荐算法。首先,从行为影响权重和行为隐含语义两方面感知多行为交互特征,并将特征融合到嵌入传播过程,增强节点嵌入的表达能力;然后,构建自监督学习辅助任务,通过多视图对比学习避免模型对噪声标签过拟合;最后,联合有监督的多行为推荐任务和自监督学习辅助任务,采用多目标损失优化策略进行多任务学习,获取更加准确的用户、项目嵌入。通过实验分析表明,该算法在HR和NDCG指标上较对比算法均有一定提升,证明了算法的有效性和优越性。  相似文献   

9.
机器学习在多Agent系统的协作和行为决策中得到广泛关注和深入研究.分析基于均衡解和最佳响应的学习算法,提出了两个混合多Agent环境下动态策略的强化学习算法.该算法不仅能适应系统中其他Agent的行为策略和变化,而且能利用过去的行为历史制定更为准确的时间相关的行为策略.基于两个知名零和博弈,验证了该算法的收敛性和理性,在与最佳响应Agent的重复博弈中能获得更高的收益.  相似文献   

10.
基于后悔值的多Agent冲突博弈强化学习模型   总被引:1,自引:0,他引:1  
肖正  张世永 《软件学报》2008,19(11):2957-2967
对于冲突博弈,研究了一种理性保守的行为选择方法,即最小化最坏情况下Agent的后悔值.在该方法下,Agent当前的行为策略在未来可能造成的损失最小,并且在没有任何其他Agent信息的条件下,能够得到Nash均衡混合策略.基于后悔值提出了多Agent复杂环境下冲突博弈的强化学习模型以及算法实现.该模型中通过引入交叉熵距离建立信念更新过程,进一步优化了冲突博弈时的行为选择策略.基于Markov重复博弈模型验证了算法的收敛性,分析了信念与最优策略的关系.此外,与MMDP(multi-agent markov decision process)下Q学习扩展算法相比,该算法在很大程度上减少了冲突发生的次数,增强了Agent行为的协调性,并且提高了系统的性能,有利于维持系统的稳定.  相似文献   

11.
冯霞  杜佳浩  段仪浓  刘才华 《计算机应用研究》2020,37(11):3220-3226,3240
随着深度学习的发展,研究人员开始探索将深度学习应用于行人重识别任务并提出了大量方法,随之也迎来了新的挑战。为系统地了解这一领域的研究现状和发展趋势,首先对行人重识别任务以及存在的问题进行简单介绍;其次,根据训练方式的不同,分别探讨监督学习、半监督学习/弱监督学习以及无监督学习上行人重识别任务的研究进展,并根据现有研究热度介绍生成对抗网络和注意力机制在行人重识别上的应用;之后,列举了该领域中常用的经典数据集,并对比了深度模型在这些经典数据集(Market-1501、CUHK03等)上的表现;最后,对行人重识别领域的未来方向进行了展望。  相似文献   

12.
移动学习作为一种新型的学习方式正成为研究热点,而基于移动学习的学科主题学习资源相对缺乏。本文阐述了移动学习的概念及特点、主题学习、学科主题学习资源的理论基础,分析了基于移动学习的学科主题学习资源设计的基本原则,最后构建了基于移动学习的学科主题学习资源的设计框架。  相似文献   

13.
基于小样本学习的图像分类技术综述   总被引:2,自引:0,他引:2  
图像分类的应用场景非常广泛,很多场景下难以收集到足够多的数据来训练模型,利用小样本学习进行图像分类可解决训练数据量小的问题.本文对近年来的小样本图像分类算法进行了详细综述,根据不同的建模方式,将现有算法分为卷积神经网络模型和图神经网络模型两大类,其中基于卷积神经网络模型的算法包括四种学习范式:迁移学习、元学习、对偶学习...  相似文献   

14.
强化学习在游戏对弈、系统控制等领域内表现出良好的性能,如何使用少量样本快速学习新任务是强化学习中亟需解决的问题。目前的有效解决方法是将元学习应用在强化学习中,由此所产生的元强化学习日益成为强化学习领域中的研究热点。为了帮助后续研究人员快速并全面了解元强化学习领域,根据近年来的元强化学习文献对研究方法进行梳理,将其归纳成基于循环网络的元强化学习、基于上下文的元强化学习、基于梯度的元强化学习、基于分层的元强化学习和离线元强化学习,对五种类型的研究方法进行对比分析,简要阐述了元强化学习的基本理论和面临的挑战,最后基于当前研究现状讨论了元强化学习的未来发展前景。  相似文献   

15.
为了解决机器学习在样本量较少的情况下所面临的巨大挑战,研究人员提出了小样本学习的概念.在现有的小样本学习研究工作中,嵌入学习方法取得了不错的效果,引发了大量关注.根据训练特征嵌入函数时结合任务特征信息的方式,将嵌入学习方法划分为单一嵌入模型和混合嵌入模型两大类.依据划分的类别,对现有的嵌入学习方法的研究工作展开进行研究...  相似文献   

16.
图像超分辨率重建是用于提高图像质量的一项重要技术, 得益于深度学习在计算机视觉领域的成功应用和快速发展, 单图像超分辨率重建的效果得到了显著提升. 因此, 本文针对基于深度学习的单图像超分辨率重建方法展开深入研究, 首先综合介绍了用于该领域的基准数据集、性能评价指标、损失函数等相关知识, 然后对有监督学习和无监督学习下单图像超分辨率重建技术的最新算法进行分类讨论, 并且比较分析了不同模型之间的异同点与优缺点, 最后对该领域面临的问题和未来的发展方向进行了总结与展望.  相似文献   

17.
结合强化学习技术讨论了单移动Agent学习的过程,然后扩展到多移动Agent学习领域,提出一个多移动Agent学习算法MMAL(MultiMobileAgentLearning)。算法充分考虑了移动Agent学习的特点,使得移动Agent能够在不确定和有冲突目标的上下文中进行决策,解决在学习过程中Agent对移动时机的选择,并且能够大大降低计算代价。目的是使Agent能在随机动态的环境中进行自主、协作的学习。最后,通过仿真试验表明这种学习算法是一种高效、快速的学习方法。  相似文献   

18.
基于自编码算法的深度学习综述   总被引:2,自引:0,他引:2  
深度学习是机器学习的一个分支,开创了神经网络发展的新纪元.自编码算法作为深度学习结构的重要组成部分,在无监督学习及非线性特征提取过程中起到了至关重要的作用.首先介绍自编码算法的基本概念及原理,然后介绍基于自编码算法的改进算法,最后列举了自编码算法在若干领域应用的知名案例和发展趋势.  相似文献   

19.
自动词语简化是用简单、同等意义的词语替代句子中复杂词的过程,是文本简化中的一个重要研究方向。随着自然语言处理技术的快速发展,词语简化方法也在不断更新与变化。该文对词语简化方法的相关研究进行了梳理,先对词语简化的整体框架进行解释,然后将词语简化方法总结为语言数据库、自动规则、词嵌入模型、混合模型和预处理语言模型。接着对汉语词语简化研究所面临的难点进行论述。最后,对词语简化方法的发展方向进行了展望和总结。  相似文献   

20.
郭一村  陈华辉 《计算机应用》2021,41(4):1106-1112
在当前大规模数据检索任务中,学习型哈希方法能够学习紧凑的二进制编码,在节省存储空间的同时能快速地计算海明空间内的相似度,因此近似最近邻检索常使用哈希的方式来完善快速最近邻检索机制。对于目前大多数哈希方法都采用离线学习模型进行批处理训练,在大规模流数据的环境下无法适应可能出现的数据变化而使得检索效率降低的问题,提出在线哈希方法并学习适应性的哈希函数,从而在输入数据的过程中连续学习,并且能实时地应用于相似性检索。首先,阐释了学习型哈希的基本原理和实现在线哈希的内在要求;接着,从在线条件下流数据的读取模式、学习模式以及模型更新模式等角度介绍在线哈希不同的学习方式;而后,将在线学习算法分为六类:基于主-被动算法、基于矩阵分解技术、基于无监督聚类、基于相似性监督、基于互信息度量和基于码本监督,并且分析这些算法的优缺点及特点;最后,总结和讨论了在线哈希的发展方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号