首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
对话策略是人机对话系统中的重要组成成分,其性能的优劣直接影响对话系统的性能.在面对完全没有数据的冷启动场景时,收集对话数据进行对话策略学习的过程非常复杂和耗时.为在冷启动场景下能够保持良好性能,提出一种融合马尔科夫决策过程与信息熵的对话算法.利用马尔科夫决策过程快速获得下一步最优对话状态,并结合知识库通过引入属性信息熵方法排除多个状态值函数相同的最优状态,从而获取最优的系统响应动作.在音乐搜索领域数据集上的实验结果表明,与随机策略、基于规则和基于信息熵的算法相比,该算法分别缩短了2.24、0.84和0.03个对话轮次,且能够有效提高对话任务完成率.  相似文献   

2.
许多实际系统具有事件驱动的特性,即系统状态的动态演化由一系列离散事件触发,这类系统称为离散事件动态系统(discrete event dynamic system,DEDS).针对这类系统的性能优化,本文介绍一种基于事件的优化模型(event-based optimization,EBO).该模型的典型特征是基于事件采取决策,与马尔科夫决策过程(Markov decision process,MDP)基于状态的决策方法相比具有如下几个方面的优点:一是一个事件通常对应一组具有相同特征的状态转移的集合,系统的事件数目往往远小于状态数,因此可利用系统的事件特征实现性能势集结,缓解问题的维数灾难题;二是许多实际系统只要求在特定事件发生时采取行动,对于这类系统,马尔科夫决策过程难以有效利用系统的结构信息.具体而言,马尔科夫决策过程要求不同状态下的决策独立,而系统的同一个事件通常对应着多种不同状态,难以利用相同事件可采取相同决策的结构特点.本文以马尔科夫决策过程为基础,重点围绕3个方面展开:一是介绍基于事件优化模型的基本概念及其理论和应用发展;二是介绍事件优化模型中基于性能势或事件Q因子的策略迭代算法;三是以建筑微电网中分布式风力发电供给电动汽车充电的协调优化问题为例,探讨基于事件的优化模型在能源互联网系统(energy internet)中的应用前景.  相似文献   

3.
考虑无人机群体行为决策与状态变化的内在驱动, 从信息处理角度提出基于决策知识学习的多无人机航迹协同规划方法. 首先, 基于马尔科夫决策过程对无人机的行为状态进行知识表示, 形成关于连续动作空间的决策知识; 然后, 提出基于知识决策学习的深度确定性策略梯度算法, 实现无人机在决策知识层次上的协同规划. 实验结果表明: 在研发设计演示系统的基础上, 所提方法通过强化学习能够得到一个最优航迹规划策略, 同时使航迹综合评价和平均奖励收敛稳定, 为无人机任务执行提供了决策支持.  相似文献   

4.
针对多无人作战飞机动态任务分配问题,以马尔科夫决策过程理论为基础,建立基于多智能体马尔科夫决策过程MMDP(Multi-Agent Markov Decision Process)的动态任务分配模型;系统中状态信息、目标的出现和收益值等均服从概率分布;改进的MM-DP寻优算法以多UCAV在有限时间内执行任务收益值最大为评价函数,并应用遗传算法在所有可选决策集中确定最优任务分配策略;数值仿真验证了算法的有效性。  相似文献   

5.
本文基于马尔科夫决策过程提出一种燃料电池汽车最优等效氢燃料消耗控制策略.控制策略以部分观测量为基础,以马尔科夫转移概率矩阵为条件,采用基于蒙特卡洛马尔科夫(MCMC)算法的Metropolis-Hastings采样方法,获得平均奖励输出,进而通过最优氢燃料消耗代价函数的优化以控制在氢燃料电池系统和动力电池系统间进行能量分配.该策略避免了目前燃料电池汽车控制策略过度依赖未来需求功率的预测以及预测模型的准确性.在建立燃料电池汽车动力模型,燃料电池系统和动力电池系统模型的基础上,进行了包含自学习系统、基于MH采样的平均奖励过滤系统以及控制选择输出系统的控制策略设计.通过仿真和实验结果表明基于马尔科夫决策控制策略的有效性.  相似文献   

6.
口语对话系统的POMDP模型及求解   总被引:3,自引:0,他引:3  
许多口语对话系统已进入实用阶段,但一直没有很好的对话管理模型,把对话管理看做随机优化问题,用马尔科夫决策过程(MDP)来建模是最近出现的方向,但是对话状态的不确定性使MDP不能很好地反映对话模型,提出了一种新的基于部分可观察MDP(POMDP)的口语对话系统模型,用部分可观察特性来处理不确定问题,由于精确求解算法的局限性,考察了许多启发式近似算法在该模型中的话用性,并改进了部分算法,如对于格点近似算法,提出了两种基于模拟点的格点选择方法。  相似文献   

7.
王彬  唐昊  戴飞  谭琦 《控制理论与应用》2021,38(9):1351-1360
研究打印参数可变模式下3D打印批调度问题,旨在对打印任务随机到达的3D打印服务系统进行优化建模.考虑到工作台尺寸的限制以及打印参数层高对打印质量的影响,论文以各个任务队列长度作为系统联合状态,以任务组合以及打印参数层高作为系统的联合控制变量,以提高生产率、减少打印质量损失、节约电能为综合目标,将优化问题描述为半马尔科夫决策过程(SMDP),以便采用策略迭代算法、Q学习等算法求解系统最优调度策略.仿真结果表明,与层高参数固定模式以及先到先服务(FCFS)模式相比,本文求解的批调度策略能够有效提高生产性能.  相似文献   

8.
基于管道的方法是目前任务型对话系统的主要构建方式,在工业界具有广泛应用,而对话状态跟踪(dialogue state tracking,DST)是任务型对话系统中的核心任务。面对传统的方法在多领域场景下表现较差的问题,该文结合语言模型预训练的最新研究成果,该文提出了一种基于BERT的对话状态跟踪算法Q2SM(query to state model)。该模型的上游使用了基于BERT的句子表征与相似度交互的槽判定模块,下游使用了一种面向对话状态跟踪任务的自定义RNN: DST-RNN。在WOZ 2.0和MultiWOZ 2.0两个数据集上的实验表明,Q2SM相比于之前的最好模型,分别在联合准确率和状态F1值两个评价指标上提升了1.09%和2.38%。此外,模型消融实验验证了,DST-RNN相比于传统的RNN或LSTM,不仅可以提升评价指标值,还可以加快模型的收敛速度。  相似文献   

9.
应用Markov决策过程与性能势相结合的方法,给出了呼叫接入控制的策略优化算法.所得到的最优策略是状态相关的策略,与基于节点已占用带宽决定行动的策略相比,状态相关策略具有更好的性能值,而且该算法具有很快的收敛速度.  相似文献   

10.
蔡凌  王兴伟  汪晋宽  黄敏 《软件学报》2019,30(12):3765-3781
针对如何提高信息中心网络的网内缓存性能,提出了一种基于概念漂移学习(concept drift learning,简称CDL)的自适应缓存策略.考虑到节点数据和内容数据的相互感知对缓存性能的影响,将节点和内容的状态数据流作为网络资源,对提取的多维状态属性数据和缓存匹配数据进行分析挖掘,利用学习到的状态属性与缓存匹配之间的函数映射关系,即概念,对未来时期内的节点与内容间的匹配关系进行预测.为提高匹配算法的准确度,在学习过程中,提出了一种基于信息熵的概念漂移识别算法,当根据状态属性的信息熵变识别出漂移后,利用提出的基于概念重现的缓存算法,重新定义函数映射关系.仿真实验结果表明,该策略与CEE,LCD,prob和OPP策略相比,降低了网络运行成本,提高了用户体验质量.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号