首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
由基于TLA(Temporal Logic of Action)的使用控制策略规范所表达的授权策略得出的决策结果仅能表达简单的"允许"或"拒绝",这在服务网格中难以实现决策组件与执行组件的合理分工,也不利于独立授权过程的并发执行.因此,本文首先提出了委托凭证作为决策结果的细粒度表达方式,然后对基于条件谓词决策的策略规范进行了改进与扩充,将原来简单的访问状态改进与扩充为委托凭证处理过程的状态组合.决策组件能根据访问请求时的系统状态输出合理的委托凭证,也能根据随后的系统状态变化进行再决策,以转换委托凭证的处理状态.最后对新的策略规范的完备性和正确性进行了证明,并通过实例展示了策略规范的表达能力和访问请求的决策过程.  相似文献   

2.

针对消费者市场需求不确定性大的特征, 采用延迟定价策略应对需求波动和实现产品售罄. 基于供应商和零售商的两级供应链, 探讨最优零售价格的确立, 分别建立分散决策下的零售商利润函数模型和集中决策下的供应链系统利润函数模型, 通过函数单峰性分析证明最优订货量的存在性和唯一性, 并求得最优解. 比较和数值分析表明, 在分散决策下, 采用延迟定价策略虽然未必能达到集中决策时的供应链系统最优, 但相比固定售价, 可以显著提高供应链的总利润.

  相似文献   

3.
考虑无人机群体行为决策与状态变化的内在驱动,从信息处理角度提出基于决策知识学习的多无人机航迹协同规划方法.首先,基于马尔科夫决策过程对无人机的行为状态进行知识表示,形成关于连续动作空间的决策知识;然后,提出基于知识决策学习的深度确定性策略梯度算法,实现无人机在决策知识层次上的协同规划.实验结果表明:在研发设计演示系统的基础上,所提方法通过强化学习能够得到一个最优航迹规划策略,同时使航迹综合评价和平均奖励收敛稳定,为无人机任务执行提供了决策支持.  相似文献   

4.
马尔可夫决策过程两种抽象模式   总被引:2,自引:1,他引:1  
抽象层次上马尔可夫决策过程的引入,使得人们可简洁地、陈述地表达复杂的马尔可夫决策过程,解决常规马尔可夫决策过程(MDPs)在实际中所遇到的大型状态空间的表达问题.介绍了结构型和概括型两种不同类型抽象马尔可夫决策过程基本概念以及在各种典型抽象MDPs中的最优策略的精确或近似算法,其中包括与常规MDPs根本不同的一个算法:把Bellman方程推广到抽象状态空间的方法,并且对它们的研究历史进行总结和对它们的发展做一些展望,使得人们对它们有一个透彻的、全面而又重点的理解.  相似文献   

5.
针对基于职责行动的授权策略规范表达能力弱的缺陷,为了在服务网格中实现决策组件与执行组件的合理分工,促进独立授权过程的并发执行,提出一种基于改进UCONB的授权策略规范.用委托凭证处理过程的状态组合替换原来简单的访问状态,决策组件根据请求时系统状态输出合理的委托凭证,根据系统状态的变化再决策可转换委托凭证的处理状态.该规范有效避免了相同访问请求重复产生委托凭证,委托凭证能真实反映授权的实际需求.  相似文献   

6.
逻辑马尔可夫决策过程和关系马尔可夫决策过程的引入,使得人们可能简洁地、陈述地表达复杂的马尔可夫决策过程。本文首先介绍有关逻辑马尔可夫决策过程和关系马尔可夫决策过程的概念,然后重点介绍它们与普通的马尔可夫决策过程根本不同的一些算法:①依赖于基本状态空间RL的转换法;②把Bellman方程推广到抽象状态空间的方法;③利用策略偏置空间寻求近似最优策略方法。最后对它们的研究现状进行总结及其对它们发展的一些展望。  相似文献   

7.
针对Web服务存在的业务逻辑与服务质量的不确定性,以及时序、时间窗约束,本文提出了利用马尔可夫决策理论来解决Web服务组合中最优策略规划问题的方法。该方法首先将Web服务组合描述为有向无环图表示的任务网络,网络中每个节点代表一个任务。任务是由相应的Web服务来实现,任务之间的弧线代表任务间时序的约束,任务执行应满足时间窗的约束。在此基础上,建立Web服务组合的马尔可夫决策模型,从而获得Web服务组合的最优策略。  相似文献   

8.
平均奖赏强化学习算法研究   总被引:7,自引:0,他引:7  
高阳  周如益  王皓  曹志新 《计算机学报》2007,30(8):1372-1378
顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证明了平均奖赏强化学习的逼近定理.通过逼近相对参考状态的性能势值函数,研究一个新的平均奖赏强化学习算法--G-学习算法.G-学习算法既可以用于MDP,也可以用于SMDP.不同于经典的R-学习算法,G-学习算法采用相对参考状态的性能势值函数替代相对平均奖赏和的相对值函数.在顾客访问控制和生产库存仿真实验中,G-学习算法表现出优于R-学习算法和SMART算法的性能.  相似文献   

9.
智能决策支持的掘进多行为协同控制是煤矿掘进工作面智能化的核心之一,掘进多行为协同控制的最优时序规划是智能决策的关键。针对煤矿掘进多行为控制模式单一、固化、协同作业能力差等问题,设计了一种煤矿掘进多行为协同控制智能决策模型,实现了掘进多行为在最优时序下的协同作业。首先,提出了掘进多行为协同控制智能决策方法,确定了掘进多行为可行时序规划集和多目标最优时序规划策略;其次,根据掘进现场的规定和工艺要求,确定了掘进动作事件集,通过对事件集中两两动作事件之间时间关系的分析,求出掘进多行为时间关系约束矩阵;然后,根据时间点关系约束矩阵转换方法,将掘进多行为时间关系约束矩阵转换为时间点关系约束矩阵,再求出掘进多行为可行时序规划集;最后,定义不同掘进目标下的求解函数,求得不同掘进目标的最优时序。实验结果表明,在不同掘进目标下,按照模型决策出的掘进动作最优时序规划结果,掘进机器人可无干涉协同作业,且掘进作业1个工作循环的执行时间与决策模型计算的时间基本一致。  相似文献   

10.
动态多目标优化问题(DMOPs)需要进化算法跟踪不断变化的Pareto最优前沿,从而在检测到环境变化时能够及时有效地做出响应.为了解决上述问题,提出一种基于决策变量关系的动态多目标优化算法.首先,通过决策变量对收敛性和多样性贡献大小的检测机制将决策变量分为收敛性相关决策变量(CV)和多样性相关决策变量(DV),对不同类型决策变量采用不同的优化策略;其次,提出一种局部搜索多样性维护机制,使个体在Pareto前沿分布更加均匀;最后,对两部分产生的组合个体进行非支配排序构成新环境下的种群.为了验证DVR的性能,将DVR与3种动态多目标优化算法在15个基准测试问题上进行比较,实验结果表明, DVR算法相较于其他3种算法表现出更优的收敛性和多样性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号