期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张健沛王醒策张岩张汝波温丽华《哈尔滨工程大学学报》2000,21(3):78-81

讨论了连续动作的强化学习系统实现及学习方法。首先介绍了连续动作的强化学习系统的组成原理,讨论了采用神经网络实现强化学习系统的方法,然后,介绍了强化学习机制在智能机器人避碰行为学习系统中的应用,并给出了系统的仿真结果。仿真结果表明机器人具有较好的避碰能力。相似文献

2.

强化学习方法在移动机器人导航中的应用 总被引：1，自引：0，他引：1

陆军徐莉周小平《哈尔滨工程大学学报》2004,25(2):176-179

路径规划是智能机器人关键问题之一,它包括全局路径规划和局部路径规划.局部路径规划是路径规划的难点,当环境复杂时,很难得到好的路径规划结果.这里将强化学习方法用于自主机器人的局部路径规划,用以实现在复杂未知环境下的路径规划.为了克服标准Q 学习算法收敛速度慢等缺点,采用多步在策略SARSA(λ)强化学习算法,讨论了该算法在局部路径规划问题上的具体应用.采用CMAC神经网络实现了强化学习系统,完成了基于CMAC神经网络的SARSA(λ)算法.提出了路径规划和沿墙壁行走两个网络的互相转换的方法,成功解决了复杂障碍物环境下的自主机器人的局部路径规划问题.仿真结果表明了该算法的有效性,同传统方法相比该算法有较强的学习能力和适应能力. 相似文献

3.

基于神经网络的复合学习方案及在机器人控制中的应用

戴永强傅佩琛《哈尔滨工业大学学报》1993,25(4):43-48

利用基于神经网络的复合学习方案实现了机器人操作手末端执行装置的高精度轨迹跟踪.提出了通过对网络输出数据进行补偿以使网络在训练时快速收敛的方法,并推证了广义BP(误差向后传播)算法。它不需要机器人的动力学模型,仿真结果表明,该方法可适用于具有高度非线性和受各种不确定性干扰的复杂系统的控制中。相似文献

4.

基于人工神经网络的强化学习在机器人足球中的应用 总被引：7，自引：1，他引：7

张彦铎闵锋《哈尔滨工业大学学报》2004,36(7):859-861

将人工神经网络与强化学习相结合,提出了基于人工神经网络的强化学习的应用方法,并用该方法解决了机器人足球比赛中踢球机器人的动作选择问题．实验结果表明了该方法的有效性．相似文献

5.

基于Q-学习的进化博弈决策模型 总被引：1，自引：0，他引：1

刘伟兵黎民王先甲《武汉大学学报(工学版)》2008,41(4)

基于Q-强化学习算法,建立了进化博弈中代理人的决策模型.考虑到强化学习算法不需要建立环境模型,可用于不完全、不确定信息问题,将Q-强化学习算法引入到进化博弈中,研究了进化博弈中两种Q-学习决策模型:单代理人Q-学习决策模型和多代理人Q-学习决策模型,并针对不同结构的进化博弈选择不同的决策模型和算法进行了讨论.仿真算例的结果说明基于Q-学习的决策模型能指导代理人学习、选择最优策略. 相似文献

6.

递归神经网络的进化机器人路径规划方法

宋勇李贻斌李彩虹《哈尔滨工程大学学报》2009,30(8)

针对机器人递归神经网络控制器在进化优化过程中存在的问题,利用改进的进化算法对递归神经网络控制器进行优化设计,提出了一种基于递归神经网络的进化机器人路径规划算法,该算法利用高斯变异和柯西变异相结合的方式进行变异操作,利用个体适应度和种群多样性指标使交叉概率和变异概率进行自适应调整.给出了算法的具体步骤,并与基于标准前馈网络的路径规划方法进行了比较.仿真结果表明递归神经网络控制器对动态未知环境具有更好的适应性. 相似文献

7.

基于事件驱动的无人机强化学习避障研究

唐博文王智文胡振寰《广西工学院学报》2019,30(1)

强化学习方法在避障研究中应用广泛,针对其需要消耗大量的计算资源问题,本文提出一种基于事件驱动的无人机强化学习避障算法.通过在强化学习中加入事件驱动的触发机制,减少无人机的动作决策的同时找到最优路径,既可以保证性能,又可以降低系统的通信频率.实验的仿真结果表明,该算法可以在学习过程中减少对计算资源的消耗,并且完成避障任务的同时可以明显加快收敛速度. 相似文献

8.

基于模糊进化学习的移动机器人目标跟踪控制

余文勇周祖德陈幼平《武汉理工大学学报》2006,28(8):125-128

结合人工引力场原理、比例导航原理和非完整约束控制，研究一种用于自主式移动机器人动态目标跟踪控制算法，提出了移动机器人的模糊进化学习策略，以模糊控制器为基础，通过进化学习来搜索最优控制参数和控制量，并在动态目标跟踪实验中得到验证。相似文献

9.

基于差分进化的BP神经网络在纱线质量预测中的应用

曹成辉黄海涛王强《河南工程学院学报(自然科学版)》2012,24(3):1-5

为了提高BP神经网络在纱线质量预测上的精度,采用差分进化算法训练BP神经网络,利用差分进化算法的全局寻优能力优化BP神经网络的权值和阈值,建立了反映纱线质量的重要指标——单纱强度和条干CV%的神经网络预测模型.对真实数据的测试表明该算法效果良好,提高了BP神经网络算法的预测精度,能够为企业的纱线质量预测提供有效支持. 相似文献

10.

基于分层强化学习的多移动机器人避障算法

祖丽楠田彦涛梅昊《吉林大学学报(工学版)》2006,(Z2)

介绍了一种基于分层思想的强化学习方法,即将机器人的复杂行为分解为一系列简单的行为进行离线独立学习,并分别设计了每个层次的结构、参数及函数。这种学习方法能够减小状态空间并简化强化函数的设计,从而提高了学习的速率以及学习结果的准确性,并使学习过程实现了决策的逐步求精。最后以多机器人避障为任务模型,将避障问题分解为躲避静态和动态障碍物以及向目标点靠近3个子行为分别进行学习,实现了机器人的自适应行为融合,并利用仿真实验对其有效性进行了验证。相似文献

11.

Application of reinforcement learning and neural network in robot navigation

孟伟洪炳熔《哈尔滨工业大学学报(英文版)》2001,8(3)

0　ＩＮＴＲＯＤＵＣＴＩＯＮＰａｔｈｐｌａｎｎｉｎｇｉｓｏｎｅｏｆｔｈｅｍｏｓｔｉｍｐｏｒｔａｎｔｐｒｏｂｌｅｍｓｉｎｒｏｂｏｔｎａｖｉｇａｔｉｏｎ .Ｔｈｅｐａｔｈｐｌａｎｎｉｎｇｏｆｔｈｅｍｏｂｉｌｅｒｏｂｏｔｉｓｃｌａｓｓｉｆｉｅｄｉｎｔｏｔｗｏｃａｔｅｇｏｒｉｅｓ:ｇｌｏｂａｌｐａｔｈｐｌａｎｎｉｎｇｂａｓｅｄｏｎｐｒｉｏｒｋｎｏｗｌｅｄｇｅａｂｏｕｔｅｎｖｉｒｏｎｍｅｎｔａｎｄｌｏｃａｌｐａｔｈｐｌａｎｎｉｎｇｂａｓｅｄｏｎｕｎｓｔｒｕｃｔｕｒｅｄｅｎｖｉｒｏｎｍｅｎｔ.Ｔｈｉｓｐａｐｅ… 相似文献

12.

Layered learning of soccer robot based on artificial neural network 总被引：1，自引：0，他引：1

韩学东洪炳熔《哈尔滨工业大学学报(英文版)》2001,8(3)

0　ＩＮＴＲＯＤＵＣＴＩＯＮＲｅｃｅｎｔｌｙ,ｍｕｌｔｉａｇｅｎｔｓｙｓｔｅｍｓｈａｖｅｂｅｃｏｍｅａｌａｒｇｅｆｉｅｌｄｏｆａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ[1 ] ,Ｇｅｎｅｒａｌｌｙ,ｍｕｌｔｉａｇｅｎｔｓｙｓｔｅｍｉｓｄｅｆｉｎｅｄａｓｔｈｅｓｙｓｔｅｍｃｏｍｐｏｓｅｄｏｆｍｏｒｅｔｈａｎ 2ｒｏｂｏｔｓａｎｄｐｅｒｆｏｒｍｓｔｈｅｔａｓｋｓｂｙｃｏｏｐｅｒａｔｉｏｎ .Ｔｈｅｓｙｓｔｅｍｈａｓｄｉｆｆｅｒｅｎｔｆａｃｔｏｒｓｃｏｍｐａｒｅｄｗｉｔｈｓｉｎｇｌｅｒｏｂｏｔｓｙｓｔｅｍ … 相似文献

13.

基于多神经网络的机器人轨迹学习控制研究

韦巍蒋静坪《浙江大学学报(工学版)》1997,31(4):505-511

本文利用神经辨识器和神经控制器相结合的思想提出了机器人动力学模型完全未知情况下的一种新的学习控制策略．文中描述了机器人系统新的控制结构，并推导出该结构下神经辨识器和神经控制的在线学习算法．仿真结果表明，文中提出的控制方法能够实现任何可达期望曲线的机器人高精度轨迹控制．相似文献

14.

Study and application of reinforcement learning based on DAI in cooperative strategy of robot soccer

郭琦张达志杨永田《哈尔滨工业大学学报(英文版)》2009,16(4):513-519

A dynamic cooperation model of multi-agent is established by combining reinforcement learning with distributed artificial intelligence(DAI),in which the concept of individual optimization loses its meaning because of the dependence of repayment on each agent itself and the choice of other agents.Utilizing the idea of DAI,the intellectual unit of each robot and the change of task and environment,each agent can make decisions independently and finish various complicated tasks by communication and reciprocation between each other.The method is superior to other reinforcement learning methods commonly used in the multi-agent system.It can improve the convergence velocity of reinforcement learning,decrease requirements of computer memory,and enhance the capability of computing and logical ratiocinating for agent.The result of a simulated robot soccer match proves that the proposed cooperative strategy is valid. 相似文献

15.

基于人工神经网络的GIS技术

史艳贝嘉祥李欣《沈阳工业大学学报》2000,22(2):145-147,169

探讨在传统地理信息系统技术的基础上,应用人工神经网络理论 ,提高系统对数据进行复杂的综合分析的功能,并以预测线损率为例,详细计算了系统构成、网络结构、算法设计及参数选取等问题,提出了一种ＧＩＳ技术发展的新思路,以及相应的实现方法。相似文献

16.

基于CMAC和图像信息测度特征的边缘检测方法及其应用

何剑春王涌贾立新《浙江工业大学学报》2005,33(6):665-668

CMAC(Cerebellar Model Articulation Controller)网络是一种具有线性结构、算法简单的局部化神经网络,由一个固定的非线性输入层和一个可调线性输出层组成,实质为自适应查表算法.由于信息以分布方式存储,CMAC泛化能力强,学习速度快.通过引入信息测度特征反映图像边缘,以CMAC网络为非线性函数映射器,对配电系统中关键绝缘瓷瓶的远程监控作了应用研究,提出一种利用CMAC网络完成瓷瓶图像信息测度至边缘特征的非线性映射方法;并通过边缘检测前后的正常预处理和异常扫描,实现瓷瓶状态的实时监测.仿真和实际应用均表明该方案具有可行性和有效性. 相似文献

17.

基于强化学习的机器人曲面恒力跟踪研究

张铁肖蒙邹焱飚肖佳栋《浙江大学学报(工学版)》2019,53(10):1865-1873

针对机器人末端执行器和曲面工件接触时难以得到恒定接触力的问题,建立机器人末端执行器与曲面工件的接触模型.构建曲面接触力坐标系与机器人传感器测量坐标系之间的关系,利用基于概率动力学模型的强化学习（PILCO）算法对模型输出参数与接触状态的关系进行学习,对部分接触状态进行预测,强化学习根据预测的状态优化机器人位移输入参数,得到期望跟踪力信号. 实验中,将强化学习的输入状态改为一段时间内的状态平均值以减少接触状态下信号的干扰. 实验结果表明,利用PILCO算法在迭代8次后能够得到较稳定的力,相比于模糊迭代算法收敛速度较快,力误差绝对值的平均值减少了29%. 相似文献

18.

基于动态测度和神经网络的电能质量扰动识别 总被引：4，自引：0，他引：4

宋雪雷佟为明李凤阁《哈尔滨工程大学学报》2006,27(Z1):133-137

提出一种基于动态测度和神经网络的电能质量扰动识别方法.首先对电能质量扰动数据进行预处理,然后用动态测度算法提取特征向量,最后输入到神经网络分类器实现扰动类型的自动识别.动态测度算法能准确检测信号的所有极值点,并根据信号畸变点与峰谷点之间较大的动态测度差别有效识别信号畸变点.特征向量的元素包括能量特征值、持续时间特征值、幅值范围特征值和幅值变化特征值.神经网络分类器采用并行结构,每个子网络可识别一种扰动,它由BP网络构建,并采用动量-自适应学习BP算法改进其收敛性能.仿真和测试结果验证了新方法是正确和有效的,且具有较高的正确识别率. 相似文献