排序方式: 共有26条查询结果,搜索用时 15 毫秒
1.
2.
刘虹 《河北工程大学学报(自然科学版)》2006,23(3):109-112
MDP自适应决策是求解信息不完全马尔可夫决策问题的方法.本文采用一种强化学习算法-在线Q(λ)算法来进行MDP自适应决策,并用神经网络实现该算法来有效地求解了一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该算法所求解的控制策略与用值迭代法在模型已知的情况下,所求得的最优策略非常逼近,且该算法使得策略的收敛速度大大地加快了. 相似文献
3.
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型未知的工程控制问题中的应用潜力. 相似文献
4.
直觉模糊集理论和可能性理论的融合是不确定问题领域的一个研究热点。文中提出了一种基于直觉模糊可能性分布的直觉模糊可能性测度(Intuitionistic Fuzzy Probability Measurement,IFPM),并在此基础上构建了三支决策模型。首先,定义了直觉模糊决策空间及该空间上的直觉模糊可能性分布,并对其性质进行了证明,给出了论域对象的隶属度和非隶属度可能性均值的计算方法。然后,讨论了论域对象的隶属度和非隶属度可能性均值与决策阈值的关系,分析了它们之间的概率分布情况。根据概率分布-可能性分布的转换关系,给出决策规则和三支决策模型,提出了一种基于直觉模糊可能性分布的IFPM决策风险计算方法。最后,考虑论域中对象的增减变化引起的IFPM变化,给出对应公式并对动态决策过程进行分析,同时通过实例验证了该模型的有效性。 相似文献
5.
马峻 《计算机辅助设计与图形学学报》2006,18(10):1569-1573
利用粗糙集理论中的粗度概念,在对获取产品设计知识进行扩展性粒度描述的基础上,通过引入知识依赖关系图,构造了n维知识粒度决策空间以及基于多决策类的同构映射决策空间,提出了基于知识依赖关系图和决策空间的决策算法,并结合产品设计中滚动轴承选择决策说明其实用性. 相似文献
6.
7.
8.
Q学习算法在库存控制中的应用 总被引:9,自引:0,他引:9
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习
方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的
有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法
在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型
未知的工程控制问题中的应用潜力. 相似文献
9.
刘虹 《河北建筑科技学院学报》2006,23(3):109-112
MDP自适应决策是求解信息不完全马尔可夫决策问题的方法。本文采用一种强化学习算法一在线Q(λ)算法来进行MDP自适应决策,并用神经网络实现该算法来有效地求解了一类典型的有连续状态和决策空间的库存控制问题。仿真表明,该算法所求解的控制策略与用值迭代法在模型已知的情况下,所求得的最优策略非常逼近,且该算法使得策略的收敛速度大大地加快了。 相似文献