排序方式: 共有39条查询结果,搜索用时 15 毫秒
1.
给出了一种新的激励学习(RL)方法,它能够有效地解决一个状态与动作空间为连续的非线性控制问题.在实际的应用中,离散的RL方法能把许多非线性控制问题分解成几个局部线性控制作业.提供了一种由简单的线性控制器和Q-学习构成的层次性RL算法.连续状态-动作空间被形象地分成为一些格子,并且每个格子都有它自己的局部线性控制器.状态空间的隔离是处理维数问题的一种相当简单的方法,但是经常会引起非Markov效果,而局部线性控制器能弥补这个缺陷. 相似文献
2.
智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)模型是求解激励学习问题的一般框架,瞬时差分TD(λ)是在MDP模型下与策略相关的学习值函数的一种算法.一般情况下,智能体必须记住其所有的值函数的值,当状态空间非常大时,这种记忆的量是大得惊人的.为了解决这个问题,给出了一种遗忘算法,这种算法把心理学的遗忘准则引入到了激励学习之中.利用遗忘算法,可以解决智能体在大状态空间中的激励学习问题. 相似文献
3.
讨论了多媒体数据库的结构 ,对多媒体数据库的实时传输与分布式特性问题分别进行了研究 ,并具体给出了 1个实际的应用实例 . 相似文献
4.
设A是一个复交换Banach代数.本文在G·Corach等人给出的“可约”概念基础上,证明了A中可约元(α,α)的几个有趣的等价条件.主要结果是:若A是一个复交换Banach代数,(α,α)∈U_(n+1)(A).则(α,α)在A中可约的充分必要条件是存在f_m∈U_n(C(σ(A))),使得‖f_m-α‖Zα→0.这里‖f_m‖Zα=sup{‖f_m(h)h∈Z_α}.(m∈N). 相似文献
5.
6.
随着各种高级图像处理算法以及相应图像处理软硬件的出现,即使非专业人士也很容易篡改图像,并使人肉眼很难甚至无法识别。针对一种常见的图像篡改--复制粘贴伪造,提出了一个能自动检测并标识数字图像中复制区域的方法。将图像分成多个重叠块,每块的特征用由模糊不变矩计算得到的模糊不变量表示,按照预定的相似标准来确定图像篡改区域。实验结果表明:相对于基于PCA的方法,该方法在抗模糊处理方面具有明显的优势。 相似文献
7.
在开发发电厂分布式实时监控与数据库管理系统时,常常遇到这样的两个问题:一是在作发电机组的实时监控与实时数据库管理系统的开发过程中,各系统的开发是分批进行的,也就是说如果某发电厂有四台发电机组,可能由于投资方面的原因,需要2~4年才能完成,而且每台发电机组的系统开发组织不是同一个;另外一个问题是当所有的独立系统开发完成之后,由于各个系统所使用的网络技术和网络体系结构各不相同,各系统所开发的数据库也各不相同,因此需要将它们进行集成,形成全盘的实时分布式监控与数据库管理系统.本文对以上遇到的问题进行了比较详细的讨论,对异构网络的互连方案、异构网络环境下实现分布式特性的解决方案、异构网络环境下的实时通信问题的解决方案以及异构数据库系统之间的数据交换与实时共享问题的解决方案进行了设计. 相似文献
8.
从IPv4转向IPv6的原因众所周知.在基于TCP/IP的网络中,地址解析(以及逆向地址解析)是一个十分重要的问题.IPv4中使用了ARP和RARP两个协议来解决.IPv6对于这个问题使用一种新的协议,即邻居发现协议,这些功能包括在ICMPv6中,其中邻居宣告和邻居请求合在一起代替了IPv4中的ARP协议.对于ARP和RARP已有了成熟的技术,而IPv6的邻居发现协议的开发与实现正在实验阶段,本文的目的是对IPv6的有关地址解析问题作一个探讨,并对它与IPv4的ARP和RARP在功能上技术上进行比较,以此可以通过ARP/RARP的技术特点,来指导将来从IPv4转向IPv4的有关技术问题. 相似文献
9.
10.
智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)模型是求解激励学习问题的一般框架,瞬时差分TD(λ)是在MDP模型下与策略相关的学习值函数的一种算法.一般情况下,智能体必须记住其所有的值函数的值,当状态空间非常大时,这种记忆的量是大得惊人的.为了解决这个问题,给出了一种遗忘算法,这种算法把心理学的遗忘准则引入到了激励学习之中.利用遗忘算法,可以解决智能体在大状态空间中的激励学习问题. 相似文献