排序方式: 共有37条查询结果,搜索用时 15 毫秒
1.
2.
策略梯度作为一种能有效解决连续空间决策问题的方法被广泛研究.然而,由于在策略估计过程中存在较大的方差,因此基于策略梯度的方法往往受到样本利用率低、收敛速度慢等限制.针对该问题,提出了真实在线增量式自然梯度行动者-评论家算法(TOINAC).TOINAC算法采用优于传统梯度的自然梯度,在真实在线时间差分(TOTD)算法的基础上,提出了一种新型的向前观点,改进了自然梯度行动者-评论家算法.在评论家部分,利用TOTD算法高效性的特点来估计值函数;在行动者部分,引入一种新的向前观点来估计自然梯度,再利用资格迹将自然梯度估计变为在线估计,提高了自然梯度估计的准确性和算法的效率.将TOINAC算法与核方法以及正态策略分布结合,解决连续空间问题.最后,在平衡杆、Mountain Car、以及Acrobot等连续问题上进行了仿真实验,验证算法的有效性. 相似文献
3.
一种基于启发式奖赏函数的分层强化学习方法 总被引:4,自引:0,他引:4
针对强化学习在应用中经常出现的维数灾问题,即状态空间的大小随着特征数量的增加而发生指数级的增长,以及收敛速度过慢的问题,提出了一种基于启发式奖赏函数的分层强化学习方法.该方法不仅能够大幅度减少环境状态空间,还能加快学习的收敛速度.将此算法应用到俄罗斯方块的仿真平台中,通过对实验中的参数进行设置及对算法性能进行分析,结果表明:采用启发式奖赏函数的分层强化学习方法能在一定程度上解决维数灾问题,并具有很好的收敛速度. 相似文献
4.
随着在线数据库的迅速增长,可以访问的数据库资源大大增多,但它们的信息传统搜索引擎无法获得,它隐藏在网站背后,成为人们快速有效获取信息的障碍。为了获得Deepweb中大量有价值的隐藏信息,需要整合各在线异构数据源,以便在同一领域内比较某一事物的大量相关信息。目前,越来越多的人采取网上买书的消费方式,针对这个消费热点问题,设计了一个书籍搜索领域的Deep Web数据集成系统,提供一个集成的查询接口,使得用户可以方便地进行查找和比对。 相似文献
5.
针对大数据体量大的问题,在Macro-Q算法的基础上提出了一种在线更新的Macro-Q算法(MQIU),同时更新抽象动作的值函数和元动作的值函数,提高了数据样本的利用率。针对传统的马尔可夫过程模型和抽象动作均难于应对可变性,引入中断机制,提出了一种可中断抽象动作的Macro-Q无模型学习算法(IMQ),能在动态环境下学习并改进控制策略。仿真结果验证了MQIU算法能加快算法收敛速度,进而能解决更大规模的问题,同时也验证了IMQ算法能够加快任务的求解,并保持学习性能的稳定性。 相似文献
6.
强化学习是一种Agent在与环境交互过程中,通过累计奖赏最大化来寻求最优策略的在线学习方法.由于在不稳定环境中,某一时刻的MDP模型在与Agent交互之后就发生了变化,导致基于稳定MDP模型传统的强化学习方法无法完成不稳定环境下的最优策略求解问题.针对不稳定环境下的策略求解问题,利用MDP分布对不稳定环境进行建模,提出一种基于公式集的策略搜索算法--FSPS.FSPS算法在学习过程中搜集所获得的历史样本信息,并对其进行特征信息的提取,利用这些特征信息来构造不同的用于动作选择的公式,采取策略搜索算法求解最优公式.在此基础之上,给出所求解策略的最优性边界,并从理论上证明了迁移到新MDP分布中策略的最优性主要依赖于MDP分布之间的距离以及所求解策略在原始MDP分布中的性能.最后,将FSPS算法用于经典的Markov Chain问题,实验结果表明,所求解的策略具有较好的性能. 相似文献
7.
SVM决策树能够较好地进行Web文本信息分类,在此基础上进一步结合遗传算法,将SVM决策树分类器的分类正确率作为GA适应度函数,对SVM决策树层次结构进行优化,在每一决策节点自动选择最优或近优的分类决策。实验结果表明,采用该方法进行多类分类,分类精度明显提高,体现了将遗传算法与SVM决策树结合的优越性。 相似文献
8.
基于组件技术的配电管理AM/FM/GIS系统 总被引:2,自引:1,他引:2
讨论了COM组件技术以及基于组件技术的GIS系统的特点,并介绍了基于组件技术设计的配电管理AM/FM/GIS系统—SuperFM 2000。该系统已经在多个供电企业取得了实际应用。 相似文献
9.
Web GIS的新技术 总被引:6,自引:2,他引:6
随着网络技术的发展,Web GIS将成为今后GIS应用的发展方向,该文在回顾Web GIS技术的基础上,对目前新出现的两种WebGIS技术:Java Servlet和GML进行了介绍,这两种新技术的出现为Web GIS的应用开辟了新的方向。 相似文献
10.
为了提升社交网络个性化推荐能力,结合用户行为分布进行个性化推荐设计,文中提出基于用户行为特征挖掘的个性化推荐算法,构建社交网络的用户行为信息特征挖掘模型,采用显著数据分块检测方法对社交网络用户特征的行为信息进行融合处理,提取反映用户偏好的语义信息特征量。从情感、关键词和结构等方面根据用户行为特征组,结合模糊信息感知方法进行社交网络个性化推荐过程中的信息融合处理,在关联规则约束控制下,构建社交网络用户偏好特征的混合推荐模型,实现用户偏好特征挖掘,根据语义分布和用户的行为偏好实现社交网络的个性化信息推荐。仿真结果表明,采用所提方法进行社交网络个性化推荐的特征分辨能力较好,对用户行为特征的准确识别能力较强,提高了社交网络推荐输出的准确性。 相似文献