首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   56篇
  免费   10篇
  国内免费   11篇
电工技术   2篇
综合类   3篇
机械仪表   2篇
武器工业   1篇
无线电   19篇
一般工业技术   1篇
自动化技术   49篇
  2023年   3篇
  2022年   2篇
  2021年   2篇
  2020年   1篇
  2019年   1篇
  2018年   5篇
  2017年   3篇
  2016年   6篇
  2015年   5篇
  2014年   5篇
  2013年   4篇
  2012年   9篇
  2011年   4篇
  2010年   4篇
  2009年   3篇
  2008年   5篇
  2007年   5篇
  2006年   3篇
  2005年   2篇
  2004年   2篇
  2002年   2篇
  2001年   1篇
排序方式: 共有77条查询结果,搜索用时 15 毫秒
61.
将交通自适应控制看成是POMDP(Partially Observable Markov Decision Process)问题,建立交叉口POMDP环境模型,结合值函数法的优点设计解决此问题的策略梯度学习算法。仿真实验与传统方法比较表明,在局部交通较少及高度饱和交通条件下此学习方法具有一定的收敛性和有效性,并对解决自适应交通控制问题具有一定的适用性。  相似文献   
62.
基于试探(trial-based)的值迭代算法是求解部分可观察Markov决策过程(partially observable Markov decision process,POMDP)模型的一类有效算法,其中FSVI算法是目前最快的算法之一.然而对于较大规模的POMDP问题,FSVI计算MDP值函数的时间是不容忽视的.提出一种基于最短哈密顿通路(shortest Hamiltonian path)的值迭代算法(shortest Hamiltonian path-based value iteration,SHP-VI).该方法用求解最短哈密顿通路问题的蚁群算法计算一条最优信念状态轨迹,然后在这些信念状态上反向更新值函数.通过与FSVI算法的实验比较,结果表明SHP-VI算法很大程度地提高了基于试探的算法计算信念状态轨迹的效率.  相似文献   
63.
Reinforcement techniques have been successfully used to maximise the expected cumulative reward of statistical dialogue systems. Typically, reinforcement learning is used to estimate the parameters of a dialogue policy which selects the system's responses based on the inferred dialogue state. However, the inference of the dialogue state itself depends on a dialogue model which describes the expected behaviour of a user when interacting with the system. Ideally the parameters of this dialogue model should be also optimised to maximise the expected cumulative reward.This article presents two novel reinforcement algorithms for learning the parameters of a dialogue model. First, the Natural Belief Critic algorithm is designed to optimise the model parameters while the policy is kept fixed. This algorithm is suitable, for example, in systems using a handcrafted policy, perhaps prescribed by other design considerations. Second, the Natural Actor and Belief Critic algorithm jointly optimises both the model and the policy parameters. The algorithms are evaluated on a statistical dialogue system modelled as a Partially Observable Markov Decision Process in a tourist information domain. The evaluation is performed with a user simulator and with real users. The experiments indicate that model parameters estimated to maximise the expected reward function provide improved performance compared to the baseline handcrafted parameters.  相似文献   
64.

针对5G云化接入网场景下物理网络拓扑变化引起的高时延问题,读文提出一种基于部分观察马尔可夫决策过程(POMDP)部分感知拓扑的接入网服务功能链(SFC)部署方案。该方案考虑在5G接入网C-RAN架构下,通过心跳包观测机制感知底层物理网络拓扑变化,由于存在观测误差无法获得全部真实的拓扑情况,因此采用基于POMDP的部分感知和随机学习而自适应动态调整接入网切片的SFC的部署,优化SFC在接入网侧的时延。为了解决维度灾问题,采用基于点的混合启发式值迭代算法求解。仿真结果表明,该模型可以优化部署接入网侧的SFC,并提高接入网吞吐量和资源利用率。

  相似文献   
65.
针对密集组网场景中业务不确定性引起的基站休眠周期难以确定的问题,该文提出一种基于部分可测马尔可夫决策过程(Partially Observed Markov Decision Process, POMDP)业务感知的微基站休眠时长确定策略。该策略将周期分为长周期和短周期,每个周期由轻度和深度两个阶段构成。通过POMDP感知到达基站的业务状态,动态调整周期时长,进而选取适合当前周期的时长。仿真结果表明,该策略可以根据业务感知提前确定微基站关断时长,与基于业务门限值的基站关断机制相比节能效果更好。  相似文献   
66.
陈辉  贺忠良  连峰  李晨 《电子与信息学报》2018,40(12):2861-2867
该文基于随机有限集的多目标滤波器提出一种基于目标威胁度评估的传感器控制策略。首先,在部分可观测马尔科夫决策过程(POMDP)的理论框架下,给出基于信息论的传感器控制一般方法。其次,结合目标运动态势对影响目标威胁度的因素进行分析。然后,基于粒子多目标滤波器估计多目标状态,依据多目标运动态势的评估研究建立多目标威胁水平,并从多目标分布特性中深入分析并提取出当前时刻最大威胁度目标的分布特性。最后,利用Rényi散度作为传感器控制的评价指标,以最大威胁度目标的信息增益最大化为准则进行最终控制方案的求解。仿真实验验证了该方法的实用性和有效性。  相似文献   
67.
卞爱华  王崇骏  陈世福 《软件学报》2008,19(6):1309-1316
基于点的算法是部分可观察马尔可夫决策过程(partially observable Markov decision processes,简称POMDP)的一类近似算法.它们只在一个信念点集上进行Backup操作,避免了线性规划并使用了更少的中间变量,从而将计算瓶颈由选择向量转向了生成向量.但这类算法在生成向量时含有大量重复和无意义计算,针对于此,提出了基于点的POMDP算法的预处理方法(preprocessing method for point-based algorithms,简称PPBA).该方法对每个样本信念点作预处理,并且在生成α-向量之前首先计算出该选取哪个动作和哪些α-向量,从而消除了重复计算.PPBA还提出了基向量的概念,利用问题的稀疏性避免了无意义计算.通过在Perseus上的实验,表明PPBA很大地提高了算法的执行速度.  相似文献   
68.
仵博  吴敏 《控制与决策》2007,22(12):1417-1420
针对求解部分可观察马尔可夫决策过程(POMDP)信念状态空间是NP难问题.提出一种信念状态空间压缩(BSSC)算法.将信念状态空间的高维压缩到低维,利用动态贝叶斯网络对状态转移函数、观察函数和报酬函数进行压缩。降低求解规模,达到实时决策的目的.对比实验表明,所提出的算法可以快速求解最优策略和最优值函数.  相似文献   
69.
基于点的值迭代算法是一类解决POMDP问题的有效算法,PBVI是基于点集的经典算法,但是其算法效率较为低下。FSVI使用内在的MDP最优策略来降低算法复杂度,但求解大规模问题的效果较差。为解决上述问题,提出了基于环境状态分布优化的前向搜索值迭代算法(PBVI-OSD),通过基于权重值的QMDP选出最佳的动作,基于信念状态和转换函数选取最大可能的状态,基于动作和状态从观察中随机选取一个观察概率大于阈值的观察,由此获得更具探索价值的后继信念点集,提升值迭代收敛的质量。在四个基准问题上的实验表明,相比于FSVI和PBVI,PBVI-OSD能保证收敛效率,特别是在大规模问题上能收敛到更好的全局最优解。  相似文献   
70.
为了减少多智能体机器人系统协调所需通信的数量,提出了一种新的方法.利用有向无环图表示团队的可能联合信度,并基于此以分散式的方式制定通信决策,仅当智能体自身的观察信息显示共享信息将导致期望回报升高时才选择通信.通过维持以及推理团队的可能联合信度将集中式单智能体策略应用于分散式多智能体POM-DP问题.通过实验以及一个详细的实例表明,本文方法能够有效地减少通信资源的使用,同时提高分散执行的性能.  相似文献   
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号