排序方式: 共有17条查询结果,搜索用时 0 毫秒
1.
针对连续状态空间下的强化学习算法初始性能差及收敛速度慢的问题,提出利用自适应势函数塑造奖赏机制来改进强化学习算法。该机制通过额外的奖赏信号自适应地将模型知识传递给学习器,可以有效提高算法的初始性能及收敛速度。鉴于径向基函数(RBF)网络的优良性能及存在的问题,提出利用自适应归一化RBF(ANRBF)网络作为势函数来塑造奖赏。基于ANRBF网络提出了梯度下降(GD)版的强化学习算法——ANRBF-GD-Sarsa(λ)。从理论上分析了ANRBF-GD-Sarsa(λ)算法的收敛性,并通过实验验证了ANRBF-GD-Sarsa(λ)算法具有较好的初始性能及收敛速度。 相似文献
2.
3.
近年来,山东省德州市的农田水利建设在各级党委、政府的领导下,取得了较大成绩,为农村经济发展、农民增收奠定了坚实的基础。我国加入WTO后,农产品价格受到冲击,群众对农业投入较少,特别是农村税费改革的实施,“两工”将逐步被取消,村内所需劳务实行一事一议,农田水利建设施工组织和资金筹集面临着新的问题,农田水利基本建设如果仍延用旧的工作方式、工作习惯,路将会越走越窄,必须解放思想,与时俱进,深化改革,加大措施,才能更加扎实有效地开展冬春农田水利基本建设。1适应形式,深化改革目前德州市农田水利抗御水旱灾害的能力还很低,需要大… 相似文献
4.
5.
电渗析水处理设备在农村饮水工程中的应用 总被引:2,自引:0,他引:2
1 德州市农村饮水现状德州市当地水资源严重不足, 人均水资源占有量为272m3, 仅占全国人均水资源占有量的 10%,全省的61%, 大大低于国际公认的维持一个地区经济发展 1000m3 的临界值, 属极度缺水区。据调查,全市浅层地下水符合国家饮用水标准的面积为1682 8km2, 占全市的 16 2%, 能饮用的深层地下水面积 2261 7km3, 占总面积的 21 8%。目前, 全市饮用不安全水的人数达121 万人, 占全市农村总人口的28%。由于长时间饮用不合格的水, 人民群众的生产生活受到严重影响, 有的地方肠道感染、菌痢、癌症发病率明显偏高, 部分地方饮用高氟水而造成… 相似文献
6.
Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法,提出一种二阶TD Error快速Q(λ)学习算法——SOE-FQ(λ)算法.该算法利用二阶TD Error修正Q值函数,并通过资格迹将TD Error传播至整个状态动作空间,加快算法的收敛速度.在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算法所要执行的迭代次数T主要指数依赖于1/1-γ、1/ε.将SOE-FQ(λ)算法用于Random Walk和Mountain Car问题,实验结果表明,算法具有较快的收敛速度和较好的收敛精度. 相似文献
7.
8.
不确定环境的时序决策问题是强化学习研究的主要内容之一,agent的目标是最大化其与环境交互过程中获得的累计奖赏值.直接学习方法寻找最优策略的算法收敛效率较差,而采用Dyna结构将学习与规划并行集成,可提高算法的收敛效率.为了进一步提高传统Dyna结构的收敛速度和收敛精度,提出了Dyna-PS算法,并在理论上证明了其收敛性.该算法在Dyna结构规划部分使用优先级扫描算法的思想,对优先级函数值高的状态优先更新,剔除了传统值迭代、策略迭代过程中不相关和无更新意义的状态更新,提升了规划的收敛效率,从而进一步提升了Dyna结构算法的性能.将此算法应用于一系列经典规划问题,实验结果表明,Dyna-PS算法有更快的收敛速度和更高的收敛精度,且对于状态空间的增长具有较强的鲁棒性. 相似文献
9.
自山东省政府启动村村通自来水工程以来,德州市把村村通自来水工程建设作为实践“三个代表”重要思想、扎实推进社会主义新农村建设的一项德政工程、民心工程来抓,科学规划,攻坚破难,埋头实干,取得了显著成效。目前,全市农村自来水受益人口已达165万人,自来水普及率41%。特别是在资金投入方面,多方筹集,加强管理,为村村通自来水工程奠定了坚实的物质基础。1多方筹集建设资金德州市村村通自来水工程平均每年需投入5亿多元。为保障村村通自来水工程建设资金,必须实行多渠道、多层次、多形式的筹资方式。1.1政府补助努力争取中央、省补助资金,… 相似文献
10.