排序方式: 共有46条查询结果,搜索用时 0 毫秒
21.
22.
23.
模仿学习提供了一种能够使智能体从专家示范中学习如何决策的框架。在学习过程中,智能体无需与专家进行交互,也不依赖于环境的奖励信号,而只需要大量的专家示范。经典的模仿学习方法需要使用第一人称的专家示范,该示范由一个状态序列以及对应的专家动作序列组成。但是,在现实生活中,专家示范通常以第三人称视频的形式存在。相比第一人称专家示范,第三人称示范的观察视角与智能体的存在差异,导致两者之间缺乏一一对应关系,因此第三人称示范无法被直接用于模仿学习中。针对此问题,文中提出了一种数据高效的第三人称模仿学习方法。首先,该方法在生成对抗模仿学习的基础上引入了图像差分方法,利用马尔可夫决策过程的马尔可夫性质以及其状态的时间连续性,去除环境背景、颜色等领域特征,以得到观察图像中与行为策略最相关的部分,并将其用于模仿学习;其次,该方法引入了一个变分判别器瓶颈,以对判别器进行限制,进一步削弱了领域特征对策略学习的影响。为了验证所提算法的性能,通过MuJoCo平台中的3个实验环境对其进行了测试,并与已有算法进行了比较。实验结果表明,与已有的模仿学习方法相比,该方法在第三人称模仿学习任务中具有更好的性能表现,并且不需要... 相似文献
24.
常规硅(锂)探测器必须工作和保存在液氮温度下,很大程度上限制了它的应用范围。温差制冷法利用多级半导体温差制冷器(冷堆)使硅(锂)探测器工作在-90℃左右,以达到较好的能量分辨率。 俄罗斯、乌克兰、美国等已从事此研究十多年,取得了较好的结果。我院最近两年正式 相似文献
25.
26.
因子分析在区域化探数据解释中的应用 总被引:1,自引:0,他引:1
在找矿实践中,地球化学数据是重要的信息源,它通常有39~42种分析数据,如何从中挖掘出元素间的依存组合关系,揭示其中的地质本质,提取地球化学找矿信息,是成矿预测工作的主要内容之一。重点分析了法郎组和个旧组的CU-PB-SW-ZN组合的共生关系。 相似文献
27.
28.
29.
在串列升级工程中,放射性核束束流强度很弱,一般强度为10^4-10^10s^-1,束流参数和束流品质无法用常规的电子学方法测量,需要特别的方法测量。为了解决这个问题进行顺利的调束工作,设计了一种利用闪烁晶体受激发射荧光获取束流信息的剖面仪(BPM),其工作原理示于图1。 相似文献
30.