共查询到20条相似文献,搜索用时 78 毫秒
1.
平均奖赏强化学习算法研究 总被引:7,自引:0,他引:7
顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证明了平均奖赏强化学习的逼近定理.通过逼近相对参考状态的性能势值函数,研究一个新的平均奖赏强化学习算法--G-学习算法.G-学习算法既可以用于MDP,也可以用于SMDP.不同于经典的R-学习算法,G-学习算法采用相对参考状态的性能势值函数替代相对平均奖赏和的相对值函数.在顾客访问控制和生产库存仿真实验中,G-学习算法表现出优于R-学习算法和SMART算法的性能. 相似文献
2.
深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于:根据分层思想构建具有多层结构的强化学习策略,运用时序抽象表达方法组合时间细粒度的下层动作,学习时间粗粒度的、有语义的上层动作,将复杂问题分解为数个简单问题进行求解.近年来,随着研究的深入,深度分层强化学习方法已经取得了实质性的突破,且被应用于视觉导航、自然语言处理、推荐系统和视频描述生成等生活领域.首先介绍了分层强化学习的理论基础;然后描述了深度分层强化学习的核心技术,包括分层抽象技术和常用实验环境;详细分析了基于技能的深度分层强化学习框架和基于子目标的深度分层强化学习框架,对比了各类算法的研究现状和发展趋势;接下来介绍了深度分层强化学习在多个现实生活领域中的应用;最后,对深度分层强化学习进行了展望和总结. 相似文献
3.
分层强化学习研究进展 总被引:1,自引:0,他引:1
首先介绍了半马尔可夫决策过程、分层与抽象等分层强化学习的理论基础;其次,较全面地比较HAM、options、MAXQ和HEXQ四种典型的学习方法,从典型学习方法的拓展、学习分层、部分感知马尔可夫决策过程、并发和多agent合作等方面讨论分层强化学习的研究现状;最后指出分层强化学习未来的发展方向。 相似文献
4.
在排序学习方法中,通过直接优化信息检索评价指标来学习排序模型的方法,取得了很好的排序效果,但是其损失函数在利用所有排序位置信息以及融合多样性排序因素方面还有待提高。为此,提出基于强化学习的多样性文档排序算法。首先,将强化学习思想应用于文档排序问题,通过将排序行为建模为马尔可夫决策过程,在每一次迭代过程中利用所有排序位置的信息,不断为每个排序位置选择最优的文档。其次,在排序过程中结合多样性策略,依据相似度阈值,裁剪高度相似的文档,从而保证排序结果的多样性。最后,在公共数据集上的实验结果表明,提出的算法在保证排序准确性的同时,增强了排序结果的多样性。 相似文献
5.
传统U-Tree算法对于部分观测马尔可夫决策过程POMDP问题的解决已取得较为显著的成效,但是由于边缘节点生长过于随意,所以仍存在树的规模庞大、内存需求比较大、计算复杂度过高的问题。在原U-Tree算法的基础上,通过得到下一步观测值,来划分同一个叶子节点中做相同动作的实例,提出了一种基于有效实例来扩展边缘节点的EIU-Tree算法,大大缩减了计算规模,以此来帮助智能体更好更快地学习,并且在4×3经典栅格问题中做了仿真实验,对比于原有的U-Tree算法,该算法运行效果更好。 相似文献
6.
针对分层强化学习需要人工给出层次结构这一问题,同时考虑到基于状态空间的自动分层方法在环境状态中没有明显子目标时分层效果并不理想的情况,提出一种基于动作空间的自动构造层次结构方法。首先,根据动作影响的状态分量将动作集合划分为多个不相交的子集;然后,分析Agent在不同状态下的可用动作,并识别瓶颈动作;最后,由瓶颈动作与执行次序确定动作子集之间的上下层关系,并构造层次结构。此外,对MAXQ方法中子任务的终止条件进行修改,使所提算法构造的层次结构可以通过MAXQ方法找到最优策略。实验结果表明,所提算法可以自动构造层次结构,而不会受环境变化的干扰。与Q学习、Sarsa算法相比,MAXQ方法根据该结构得到最优策略的时间更短,获得回报更高。验证了所提算法能够有效地自动构造MAXQ层次结构,并使寻找最优策略更加高效。 相似文献
7.
强化学习(reinforcement learning)是机器学习和人工智能领域的重要分支,近年来受到社会各界和企业的广泛关注。强化学习算法要解决的主要问题是,智能体如何直接与环境进行交互来学习策略。但是当状态空间维度增加时,传统的强化学习方法往往面临着维度灾难,难以取得好的学习效果。分层强化学习(hierarchical reinforcement learning)致力于将一个复杂的强化学习问题分解成几个子问题并分别解决,可以取得比直接解决整个问题更好的效果。分层强化学习是解决大规模强化学习问题的潜在途径,然而其受到的关注不高。本文将介绍和回顾分层强化学习的几大类方法。 相似文献
8.
9.
10.
为了提高MPOMDP模型的知识表示能力和推理效率,提出一种基于Agent内部结构的MPOMDP模型。该模型能表示Agent的内部结构及其时间演化,并通过将系统联合概率分布表示成每个Agent内部变量集的局部因式形式,以提高模型的推理效率。将GPI-POMDP算法扩展到基于内部结构的MPOMDP模型中,给出基于内部状态的多Agent策略梯度算法(MIS-GPOMDP),来求解基于内部结构的MPOMDP。实验结果表明MIS-GPOMDP算法具有较高的推理效率,且算法是收敛的。 相似文献
11.
针对边缘服务器的负载过重问题,可以将路边空闲车辆以及移动车辆应用虚拟化技术整合成资源池,为时延敏感类任务提供弹性服务;由此建立了一个分组传输的通信系统模型,为降低二进制指数退避算法中的信道碰撞概率,采用基于网络车辆节点的数量来适当调整最小竞争窗口的方法;结合分配资源的时序决策特点,提出车载边缘计算系统中基于改进的半马尔科夫决策过程的计算卸载策略,在制定系统动作的最优策略时,引入带有余弦项的非线性权重因子,对立即收益和未来期望收益进行动态加权,根据贝尔曼方程进行价值迭代,实现系统长期收益的最大化;仿真结果表明,所提策略能有效降低卸载时延,提高系统吞吐量,同时系统的长期收益也有显著的提升。 相似文献
12.
基于Bayes算法的Web网页识别 总被引:2,自引:0,他引:2
Internet的飞速发展在带给人们很多方便的同时,也出现了一个新问题,即如何从大 信息中快速而方便地找到所需要的信息。Web网页识别是其关键技术问题之一。使用了两种机器学习算法-Bayes算法,改进Bayes算法实现了网页识别,并对两种机器学习算法的效果进行了实验分析。 相似文献
13.
14.
15.
基于图像识别的电视广告监播系统 总被引:1,自引:0,他引:1
本文认为,在利用计算机技术进行广告监测的过程中,为克服原有语音系统的不足,应利用图像识别技术。本文在分析现有的视频图像特征抽取和图像识别方法的基础上,针对视频电视广告的识别特点和要求以及广告监测的需求,设计和实现了一整套的、包括软硬件在内的广告监播系统。 相似文献
16.
该文分析了现有基于分类策略的文本蕴涵识别方法的问题,并提出了一种基于知识话题模型的文本蕴涵分类识别方法。 其假设是: 文本可看作是语义关系的组合,这些语义关系构成若干话题;若即若文本T蕴涵假设H,说明 T 和 H 具有相似的话题分布,反之说明T 和 H 不具有相似的话题分布。基于此,我们将 T 和 H 的蕴涵识别问题转化为相关话题的生成过程,同时将文本推理知识融入到抽样过程,由此建立一个面向文本蕴涵识别的话题模型。实验结果表明基于知识话题模型在一定程度上改进了文本蕴涵识别系统的性能。 相似文献
17.
针对目前垃圾邮件制造者不断利用新技术和新方法,使垃圾邮件的内容和发送手段等都发生了明显的变化,对传统基于内容的反垃圾邮件技术提出了严峻挑战的问题,对第三代反垃圾邮件技术——行为识别技术进行了研究,在此基础上对行为识别模型提出了一种改进方法.实验表明,该方法有较高的垃圾邮件的识别精度和处理速度,对图片等其他新型的垃圾邮件... 相似文献
18.
基于混合模型的中国人名自动识别 总被引:3,自引:0,他引:3
本文提出了一种支持向量机(SVM)和概率统计模型相结合的中国人名自动识别方法。该方法首先按字抽取特征向量的属性得到训练集,采用多项式核函数建立SVM人名识别模型,然后在特征空间中计算测试样本到SVM最优超平面的距离,当该距离大于给定的阈值时使用SVM对测试样本进行分类,否则使用概率统计方法。实验表明,采用混合模型,对样本在空间的不同分布使用不同的方法可以取得比单独使用SVM或概率统计更好的分类效果,系统开式综合指标F-值比单纯使用支持向量机方法提高了1.51%。 相似文献
19.
为了更简单、有效地进行平面曲线的识别,首次给出了一种新的NRLCTI码的定义,并设计了一种新的算法用来匹配目标和模型轮廓曲线上的每段子曲线,同时还提出了一种从单幅图形和图像来识别平面曲线的方法。该识别方法首先利用NRLCTI码初步匹配了目标和模型轮廓曲线上的关键特征点,从而解决了用穷尽搜索法寻求特征点所对应的高费率和低效率的问题;然后在NRLCTI码匹配的前提下,再通过匹配目标和模型轮廓曲线上的每小段,从而解决了用多边形或圆锥曲线来近似曲线的不准确性问题。实验结果表明,该算法简单、有效。 相似文献
20.