期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	56篇
免费	10篇
国内免费	11篇

专业分类

电工技术	2篇
综合类	3篇
机械仪表	2篇
武器工业	1篇
无线电	19篇
一般工业技术	1篇
自动化技术	49篇

出版年

2023年	3篇
2022年	2篇
2021年	2篇
2020年	1篇
2019年	1篇
2018年	5篇
2017年	3篇
2016年	6篇
2015年	5篇
2014年	5篇
2013年	4篇
2012年	9篇
2011年	4篇
2010年	4篇
2009年	3篇
2008年	5篇
2007年	5篇
2006年	3篇
2005年	2篇
2004年	2篇
2002年	2篇
2001年	1篇

排序方式： 共有77条查询结果，搜索用时 15 毫秒

[首页] « 上一页 [1] [2] [3] [4] [5] [6] 7 [8] 下一页 » 末页»

61.

POMDP环境下交通信号自适应控制的策略梯度学习方法

夏新海《武汉理工大学学报》2012,34(7):51-56

将交通自适应控制看成是POMDP(Partially Observable Markov Decision Process)问题,建立交叉口POMDP环境模型,结合值函数法的优点设计解决此问题的策略梯度学习算法。仿真实验与传统方法比较表明,在局部交通较少及高度饱和交通条件下此学习方法具有一定的收敛性和有效性,并对解决自适应交通控制问题具有一定的适用性。相似文献

62.

SHP-VI:一种基于最短哈密顿通路的POMDP值迭代算法

冯奇周雪忠黄厚宽张小平《计算机研究与发展》2011,(12)

基于试探(trial-based)的值迭代算法是求解部分可观察Markov决策过程(partially observable Markov decision process,POMDP)模型的一类有效算法,其中FSVI算法是目前最快的算法之一.然而对于较大规模的POMDP问题,FSVI计算MDP值函数的时间是不容忽视的.提出一种基于最短哈密顿通路(shortest Hamiltonian path)的值迭代算法(shortest Hamiltonian path-based value iteration,SHP-VI).该方法用求解最短哈密顿通路问题的蚁群算法计算一条最优信念状态轨迹,然后在这些信念状态上反向更新值函数.通过与FSVI算法的实验比较,结果表明SHP-VI算法很大程度地提高了基于试探的算法计算信念状态轨迹的效率. 相似文献

63.

Reinforcement learning for parameter estimation in statistical spoken dialogue systems

Filip Jur?í?ek Blaise Thomson Steve Young 《Computer Speech and Language》2012,26(3):168-192

Reinforcement techniques have been successfully used to maximise the expected cumulative reward of statistical dialogue systems. Typically, reinforcement learning is used to estimate the parameters of a dialogue policy which selects the system's responses based on the inferred dialogue state. However, the inference of the dialogue state itself depends on a dialogue model which describes the expected behaviour of a user when interacting with the system. Ideally the parameters of this dialogue model should be also optimised to maximise the expected cumulative reward.This article presents two novel reinforcement algorithms for learning the parameters of a dialogue model. First, the Natural Belief Critic algorithm is designed to optimise the model parameters while the policy is kept fixed. This algorithm is suitable, for example, in systems using a handcrafted policy, perhaps prescribed by other design considerations. Second, the Natural Actor and Belief Critic algorithm jointly optimises both the model and the policy parameters. The algorithms are evaluated on a statistical dialogue system modelled as a Partially Observable Markov Decision Process in a tourist information domain. The evaluation is performed with a user simulator and with real users. The experiments indicate that model parameters estimated to maximise the expected reward function provide improved performance compared to the baseline handcrafted parameters. 相似文献

64.

基于随机学习的接入网服务功能链部署算法

陈前斌杨友超周钰赵国繁唐伦《电子与信息学报》2019,41(2):417-423

针对5G云化接入网场景下物理网络拓扑变化引起的高时延问题,读文提出一种基于部分观察马尔可夫决策过程(POMDP)部分感知拓扑的接入网服务功能链(SFC)部署方案。该方案考虑在5G接入网C-RAN架构下,通过心跳包观测机制感知底层物理网络拓扑变化,由于存在观测误差无法获得全部真实的拓扑情况,因此采用基于POMDP的部分感知和随机学习而自适应动态调整接入网切片的SFC的部署,优化SFC在接入网侧的时延。为了解决维度灾问题,采用基于点的混合启发式值迭代算法求解。仿真结果表明,该模型可以优化部署接入网侧的SFC,并提高接入网吞吐量和资源利用率。

相似文献

65.

基于部分可测马尔科夫决策过程业务感知的微基站休眠时长确定策略

陈前斌何小强吴攀唐伦《电子与信息学报》2018,40(1):130-136

针对密集组网场景中业务不确定性引起的基站休眠周期难以确定的问题,该文提出一种基于部分可测马尔可夫决策过程(Partially Observed Markov Decision Process, POMDP)业务感知的微基站休眠时长确定策略。该策略将周期分为长周期和短周期,每个周期由轻度和深度两个阶段构成。通过POMDP感知到达基站的业务状态,动态调整周期时长,进而选取适合当前周期的时长。仿真结果表明,该策略可以根据业务感知提前确定微基站关断时长,与基于业务门限值的基站关断机制相比节能效果更好。相似文献

66.

多目标跟踪中基于目标威胁度评估的传感器控制方法

陈辉贺忠良连峰李晨《电子与信息学报》2018,40(12):2861-2867

该文基于随机有限集的多目标滤波器提出一种基于目标威胁度评估的传感器控制策略。首先,在部分可观测马尔科夫决策过程(POMDP)的理论框架下,给出基于信息论的传感器控制一般方法。其次,结合目标运动态势对影响目标威胁度的因素进行分析。然后,基于粒子多目标滤波器估计多目标状态,依据多目标运动态势的评估研究建立多目标威胁水平,并从多目标分布特性中深入分析并提取出当前时刻最大威胁度目标的分布特性。最后,利用Rényi散度作为传感器控制的评价指标,以最大威胁度目标的信息增益最大化为准则进行最终控制方案的求解。仿真实验验证了该方法的实用性和有效性。相似文献

67.

基于点的POMDP算法的预处理方法

卞爱华王崇骏陈世福《软件学报》2008,19(6):1309-1316

基于点的算法是部分可观察马尔可夫决策过程(partially observable Markov decision processes,简称POMDP)的一类近似算法.它们只在一个信念点集上进行Backup操作,避免了线性规划并使用了更少的中间变量,从而将计算瓶颈由选择向量转向了生成向量.但这类算法在生成向量时含有大量重复和无意义计算,针对于此,提出了基于点的POMDP算法的预处理方法(preprocessing method for point-based algorithms,简称PPBA).该方法对每个样本信念点作预处理,并且在生成α-向量之前首先计算出该选取哪个动作和哪些α-向量,从而消除了重复计算.PPBA还提出了基向量的概念,利用问题的稀疏性避免了无意义计算.通过在Perseus上的实验,表明PPBA很大地提高了算法的执行速度. 相似文献

68.

一种基于信念状态压缩的实时POMDP算法

仵博吴敏《控制与决策》2007,22(12):1417-1420

针对求解部分可观察马尔可夫决策过程（POMDP）信念状态空间是NP难问题．提出一种信念状态空间压缩（BSSC）算法．将信念状态空间的高维压缩到低维,利用动态贝叶斯网络对状态转移函数、观察函数和报酬函数进行压缩。降低求解规模,达到实时决策的目的．对比实验表明,所提出的算法可以快速求解最优策略和最优值函数．相似文献

69.

基于环境状态分布优化的POMDP值迭代求解算法

朱荣鑫《计算机应用研究》2022,39(2):374-378

基于点的值迭代算法是一类解决POMDP问题的有效算法,PBVI是基于点集的经典算法,但是其算法效率较为低下。FSVI使用内在的MDP最优策略来降低算法复杂度,但求解大规模问题的效果较差。为解决上述问题,提出了基于环境状态分布优化的前向搜索值迭代算法（PBVI-OSD）,通过基于权重值的Q^MDP选出最佳的动作,基于信念状态和转换函数选取最大可能的状态,基于动作和状态从观察中随机选取一个观察概率大于阈值的观察,由此获得更具探索价值的后继信念点集,提升值迭代收敛的质量。在四个基准问题上的实验表明,相比于FSVI和PBVI,PBVI-OSD能保证收敛效率,特别是在大规模问题上能收敛到更好的全局最优解。相似文献

70.

多智能体机器人系统分散式通信决策研究

刘海涛洪炳镕乔立民朴松昊《机器人》2007,29(6):540-545

为了减少多智能体机器人系统协调所需通信的数量,提出了一种新的方法.利用有向无环图表示团队的可能联合信度,并基于此以分散式的方式制定通信决策,仅当智能体自身的观察信息显示共享信息将导致期望回报升高时才选择通信.通过维持以及推理团队的可能联合信度将集中式单智能体策略应用于分散式多智能体POM-DP问题.通过实验以及一个详细的实例表明,本文方法能够有效地减少通信资源的使用,同时提高分散执行的性能. 相似文献

[首页] « 上一页 [1] [2] [3] [4] [5] [6] 7 [8] 下一页 » 末页»