首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
已有的动作模型学习方法针对确定的或不确定的瞬时动作,而未考虑动作模型中的时态关系。提出了在部分观测环境下自动学习时态动作模型的方法。设计了学习动作持续时间表达式一般形式的两阶段线性回归方法。通过分析命题时间戳设计了动作前提、效果与动作之间时态关系算子的构建算法。在“国际智能规划竞赛”的规划问题集上进行了实验,结果表明了该方法的有效性。  相似文献   

2.
刘法旺  贾云得 《软件学报》2008,19(Z1):69-77
提出了一种基于流形学习与隐条件随机场(hidden conditional random fields,简称HCRF)的动作识别方法.算法提取人体剪影作为输入特征,采用有监督的保持邻域嵌入(neighborhood preserving embedding,简称NPE)的子空间学习算法获得高维运动特征的低维流形表示,基于HCRF建模运动特征与动作语义之间的映射关系.在降维过程中,通过保持数据的局部邻接关系,NPE可以获取动作特征在低维流形空间上的本质分布特性.与HMM(hidden Markov model)等产生式模型相比,HCRF侧重从样本数据中抽取共有特征以获取正确的分类边界,不需要假定观测过程条件独立,可以更加自然地对动作的时空邻域关系进行建模.实验结果表明,即便对于特征差异较大或存在噪声干扰的动作序列,算法也能取得较好的识别效果.  相似文献   

3.
从WSBPEL程序中学习Web服务的不确定动作模型   总被引:7,自引:0,他引:7  
智能规划是一种比较有前途的Web服务组合(WSC)方法.用规划进行WSC需要Web服务(WS)的动作模型,而让工程师来写它却很困难.考虑到现存WSC解决方案多用Web服务业务流程语言(WSBPEL)手工编写,可从现存方案中提取动作模型.由于WS本身有不确定性,且现存方案中蕴含对WS的语义要求,所以学习的应是体现流程语义且包含条件效果的不确定动作模型.为此,先将WSBPEL程序转成保留流程语义的标签转换系统(LTS);然后将动作模型学习技术扩展到包括条件效果的不确定规划(NDP),并从LTS中学习动作模型.实现了ARMS-WS系统,它可从WSBPEL程序中学习WS的不确定动作模型.  相似文献   

4.
刘振  张志政 《计算机科学》2015,42(1):220-226
动作模型学习可以使Agent主动适应动态环境中的变化,从而提高Agent的自治性,同时也可为动态域建模提供一个初步模型,为后期的模型完善和修改提供了基础.通过结合归纳逻辑程序设计(Inductive Logic Program-ming,ILP)和回答集程序设计(Answer Set Programming,ASP),设计了一个学习B语言描述的动作模型算法,该算法可以在混合规模的动态域中进行学习,并采用经典规划实例验证了该学习算法的有效性.  相似文献   

5.
对智能规划中的常用工具——放松式规划图(relaxed planning graph,简称RPG)的图论性质进行了深入研究.将RPG中的命题层抽取出来,得到一个不包含任何动作的命题关系图(proposition relation graph,简称PRG),发现PRG仍具有RPG的主要规划性质.初步研究结果包括以下4个方面:初始命题集(initial proposition set,简称IPS)的闭出邻集(close out-neighborhoods,简称CON)是放松式规划可达命题集(relaxed reachable proposition set,简称R-RPS);初始状态命题到目标状态命题的最大距离是规划解长度的合理估计;无圈序指出了对应命题被实现的顺序要求;出度或入度为1的结点收缩对应规划中构造的宏动作.上述结果中,前两者说明PRG保留RPG的主要规划性质,后两者可用于建立目标议程或宏动作提取等领域.还提出与上述结论相关的3种算法:从RPG中得到PRG的算法(复杂性为O(mn2),其中,n为RPG的命题数,m为RPG的动作数);约简无圈序算法(复杂性为O(n+m),其中,n为PRG的结点数,m为PRG的边数);宏动作建议算法(复杂性为O(n2),n为PRG的结点数).  相似文献   

6.
智能规划中基于遗传算法的动作模型学习   总被引:4,自引:0,他引:4  
在动作间的状态未知条件下,利用遗传算法,从不完整的领域描述和规划实例中学习动作模型,并且设计了AMLS-GA(Action Model Learning System Based on Genetic Algorithm)系统来具体实现这一思想.作者为每一个动作构建一个可能谓词集,这个谓词集覆盖了动作前提表、增加表和删除表中的所有谓词.采用二进制编码的方式,把动作模型编码成GA搜索空间中的一个假设,学习过程是在标准的遗传算法框架下进行的.把学习结果的正确性定义为尽可能多的解释规划实例,并且通过实验的方法对比学习到的模型与专家预定义模型之间的差别.实验结果表明,算法能在较短的时间内,学习到一个逼近专家描述的动作模型.  相似文献   

7.
多智能体深度强化学习(MADRL)将深度强化学习的思想和算法应用到多智能体系统的学习和控制中,是开发具有群智能体的多智能体系统的重要方法.现有的MADRL研究主要基于环境完全可观测或通信资源不受限的假设展开算法设计,然而部分可观测性是多智能体系统实际应用中客观存在的问题,例如智能体的观测范围通常是有限的,可观测的范围外不包括完整的环境信息,从而对多智能体间协同造成困难.鉴于此,针对实际场景中的部分可观测问题,基于集中式训练分布式执行的范式,将深度强化学习算法Actor-Critic扩展到多智能体系统,并增加智能体间的通信信道和门控机制,提出recurrent gated multi-agent Actor-Critic算法(RGMAAC).智能体可以基于历史动作观测记忆序列进行高效的通信交流,最终利用局部观测、历史观测记忆序列以及通过通信信道显式地由其他智能体共享的观察进行行为决策;同时,基于多智能体粒子环境设计多智能体同步且快速到达目标点任务,并分别设计2种奖励值函数和任务场景.实验结果表明,当任务场景中明确出现部分可观测问题时,RGMAAC算法训练后的智能体具有很好的表现,在稳定性...  相似文献   

8.
在智能规划问题上,寻找规划解都是NP甚至NP完全问题,如果动作的执行效果带有不确定性,如在Markov决策过程的规划问题中,规划的求解将会更加困难,现有的Markov决策过程的规划算法往往用一个整体状态节点来描述某个动作的实际执行效果,试图回避状态内部的复杂性,而现实中的大量动作往往都会产生多个命题效果,对应多个命题节点。为了能够处理和解决这个问题,提出了映像动作,映像路节和映像规划图等概念,并在其基础上提出了Markov决策过程的蚁群规划算法,从而解决了这一问题。并且证明了算法得到的解,即使在不确定的执行环境下,也具有不低于一定概率的可靠性。  相似文献   

9.
Q-learning作为一种经典的强化学习算法,其在离散状态下存在计算量高、收敛速度慢等问题。Speedy Q-learning是Q-learning的变种,目的是解决Q-learning算法收敛速度慢问题。为解决多智能体强化学习中“维数灾”问题,在Speedy Q-learning算法的基础上提出了一种基于动作采样的(action sampling based on Speedy Q-learning, ASSQ)算法。该算法采用集中训练-分散执行(centralized training with decentralized execution, CTDE)的框架,将上一迭代步更新后的Q值作为下一状态的最大Q值,有效降低了Q值的比较次数,整体上提升了算法的收敛速度。为减少学习阶段计算量,算法在集中训练阶段求取下一状态最大Q值时,并没有遍历所有联合动作Q值,而只在联合动作空间上进行部分采样。在动作选择和执行阶段,每个智能体又根据学习到的策略独立选择动作,从而有效提高了算法的学习效率。通过在目标运输任务上验证,ASSQ算法能够以100%的成功率学习到最优联合策略,且计算量明显少于Q-l...  相似文献   

10.
如何快速、方便、有效地分析不确定数据库中大量的不确定数据以发现潜在的、有价值的和人们感兴趣的信息变得越来越重要.空间co-location模式挖掘寻找给定空间对象之间的关联关系,是空间数据挖掘的重要研究方向.首先,定义了在不确定数据上挖掘空间co-location模式的可能世界模型,在此基础上定义了在可能世界模型下,空间co-location模式频繁度的测度:概率参与率.然后,设计了基于可能世界的U-Order-Clique-Based不确定空间co-location模式挖掘算法,并针对算法的指数级复杂度,讨论了优化策略.最后是实验评估,首先在模拟数据上验证了优化策略的效果,然后在真实数据上验证了研究存在不确定性co-location模式挖掘的现实意义.  相似文献   

11.
动态描述逻辑的Tableau判定算法   总被引:7,自引:1,他引:7  
动态描述逻辑在描述逻辑的基础上引入了动态维,用于描述和推理动态领域的知识,但目前缺少有效的判定算法作为支撑.文中以描述逻辑ALCO的动态扩展为例,构建出动态描述逻辑D-ALCO.以D-ALCO的构建过程为基础,将ALCO的Tableau算法、命题动态逻辑的Tableau算法以及对可能模型途径的处理有机地结合起来,给出了D-ALCO的Tableau判定算法,证明了算法的可终止性、可靠性和完备性.应用该算法,可以在采用开世界假设的情况下对D-ALCO中公式的可满足性进行判定.对于D-ALCQO、D-ALCQIO等具有更强描述能力的动态描述逻辑,可以对该算法扩展后得到相应的Tableau判定算法.  相似文献   

12.
13.
深度学习在人物动作识别方面已取得较好的成效,但当前仍然需要充分利用视频中人物的外形信息和运动信息。为利用视频中的空间信息和时间信息来识别人物行为动作,提出一种时空双流视频人物动作识别模型。该模型首先利用两个卷积神经网络分别抽取视频动作片段空间和时间特征,接着融合这两个卷积神经网络并提取中层时空特征,最后将提取的中层特征输入到3D卷积神经网络来完成视频中人物动作的识别。在数据集UCF101和HMDB51上,进行视频人物动作识别实验。实验结果表明,所提出的基于时空双流的3D卷积神经网络模型能够有效地识别视频人物动作。  相似文献   

14.
15.
基于多学习器协同训练模型的人体行为识别方法   总被引:1,自引:0,他引:1  
唐超  王文剑  李伟  李国斌  曹峰 《软件学报》2015,26(11):2939-2950
人体行为识别是计算机视觉研究的热点问题,现有的行为识别方法都是基于监督学习框架.为了取得较好的识别效果,通常需要大量的有标记样本来建模.然而,获取有标记样本是一个费时又费力的工作.为了解决这个问题,对半监督学习中的协同训练算法进行改进,提出了一种基于多学习器协同训练模型的人体行为识别方法.这是一种基于半监督学习框架的识别算法.该方法首先通过基于Q统计量的学习器差异性度量选择算法来挑取出协同训练中基学习器集,在协同训练过程中,这些基学习器集对未标记样本进行标记;然后,采用了基于分类器成员委员会的标记近邻置信度计算公式来评估未标记样本的置信度,选取一定比例置信度较高的未标记样本加入到已标记的训练样本集并更新学习器来提升模型的泛化能力.为了评估算法的有效性,采用混合特征来表征人体行为,从而可以快速完成识别过程.实验结果表明,所提出的基于半监督学习的行为识别系统可以有效地辨识视频中的人体动作.  相似文献   

16.
17.
18.
自动构造抽象动作一直是分层强化学习研究中的关键技术之一。抽象动作链接算法是目前连续任务中自主发现抽象动作的典型算法,但是抽象动作链接算法需要进行很多次的迭代计算,收敛速度较慢。本文提出一种基于示例轨迹的抽象动作树构造算法(ACADT),通过使用一种变点侦测方法,ACADT把每一个轨迹分割成一个抽象动作链。这些从轨迹中分割得到的抽象动作链随后被合并成一棵抽象动作树。实验表明ACADT可以构造成一棵抽象动作树并能够更快收敛。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号