期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	232篇
免费	43篇
国内免费	69篇

专业分类

电工技术	25篇
综合类	31篇
机械仪表	9篇
建筑科学	1篇
矿业工程	1篇
能源动力	4篇
水利工程	1篇
武器工业	2篇
无线电	41篇
一般工业技术	8篇
冶金工业	1篇
自动化技术	220篇

出版年

2024年	9篇
2023年	16篇
2022年	30篇
2021年	25篇
2020年	27篇
2019年	14篇
2018年	7篇
2017年	15篇
2016年	9篇
2015年	10篇
2014年	15篇
2013年	13篇
2012年	15篇
2011年	21篇
2010年	15篇
2009年	17篇
2008年	19篇
2007年	12篇
2006年	11篇
2005年	7篇
2004年	4篇
2003年	6篇
2002年	7篇
2001年	4篇
2000年	1篇
1999年	4篇
1998年	5篇
1997年	2篇
1996年	2篇
1994年	2篇

排序方式： 共有344条查询结果，搜索用时 0 毫秒

1 [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] 下一页 » 末页»

基于Q-learning的不确定环境BDI Agent最优策略规划研究

万谦刘玮徐龙龙郭竞知《计算机工程与科学》2019,41(1):166-172

BDI模型能够很好地解决在特定环境下的Agent的推理和决策问题,但在动态和不确定环境下缺少决策和学习的能力。强化学习解决了Agent在未知环境下的决策问题,却缺少BDI模型中的规则描述和逻辑推理。针对BDI在未知和动态环境下的策略规划问题,提出基于强化学习Q-learning算法来实现BDI Agent学习和规划的方法,并针对BDI的实现模型ASL的决策机制做出了改进,最后在ASL的仿真平台Jason上建立了迷宫的仿真,仿真实验表明,在加入Q-learning学习机制后的新的ASL系统中,Agent在不确定环境下依然可以完成任务。相似文献

基于神经动态规划算法的最优路径选择

李菲肖洪祥《桂林工学院学报》2009,29(1):154-157

针对传统动态规划算法在计算大规模路网的优化问题时所表现出来的计算时间长、存储空间大等缺点,引入了一种神经动态规划算法：它将传统的动态规划和BP神经网络结合起来,通过逼近Q学习算法来寻求一种最优策略,最终达到路径优化的目的。将此算法应用于一个交通路网,且用Matlab软件进行仿真,试验表明：该方法的实时性、并行性和全局性都优于传统动态规划,在城市交通流系统中能切实起到路径诱导的作用。相似文献

可变服务率模式下基于需求驱动的传送带给料加工站系统的优化控制

唐昊许玲玲周雷谭琦《控制理论与应用》2015,32(6):810-816

本文主要研究可变服务率模式下基于需求驱动的传送带给料加工站(CSPS)系统的优化控制问题,主要目标是对系统的随机优化控制问题进行建模和提供解决方案.论文以缓冲库和成品库剩余容量为联合状态,以站点前视距离和工件服务率为控制变量,将其最优控制问题描述为半马尔科夫决策过程(SMDP)模型.该模型为利用策略迭代等方法求解系统在平均准则或折扣准则下的最优控制策略提供了理论基础,特别地,据此可引入基于模拟退火思想的Q学习算法等优化方法来寻求近似解,以克服理论求解过程中的维数灾和建模难等困难.仿真结果说明了本文建立的数学模型及给出的优化方法的有效性. 相似文献

基于改进的Q学习的RoboCup传球策略研究

周勇刘锋《微机发展》2008,18(4):63-66

模拟机器人足球比赛(Robot World Cup,RoboCup)作为多Agent系统的一个理想的实验平台,已经成为人工智能的研究热点。传统的Q学习已被有效地应用于处理RoboCup中传球策略问题,但是它仅能简单地离散化连续的状态、动作空间。提出将神经网络应用于Q学习,系统只需学习部分状态-动作的Q值即可获得近似连续的Q值,就可以有效地提高泛化能力。然后将改进的Q学习应用于优化传球策略,最后在RobCup中实现测试了该算法,实验结果表明改进的Q学习在RoboCup传球策略中的应用,可以有效提高传球的成功率。相似文献

具有加性和乘性噪声的线性离散时间随机系统的无模型最优跟踪控制

银玉博罗世贤万韬《控制理论与应用》2023,40(6):1014-1022

本文研究一类同时受加性和乘性噪声影响的离散时间随机系统的最优跟踪控制问题.通过构造由原始系统和参考轨迹组成的增广系统,将随机线性二次跟踪控制(SLQT)的成本函数转化为与增广状态相关的二次型函数,由此推导出用于求解SLQT的贝尔曼方程和增广随机代数黎卡提方程(SARE),而后进一步针对系统和参考轨迹动力学信息完全未知的情形,提出一种Q-学习算法来在线求解增广SARE,证明了该算法的收敛性,并采用批处理最小二乘法(BLS)解决该在线无模型控制算法的实现问题.通过对单相电压源UPS逆变器的仿真,验证了所提出控制方案的有效性. 相似文献

基于Q—learning的一种多Agent系统结构模型

许培薛伟《计算机与数字工程》2011,39(8):8-11

多Agent系统是近年来比较热门的一个研究领域,而Q-learning算法是强化学习算法中比较著名的算法,也是应用最广泛的一种强化学习算法。以单Agent强化学习Qlearning算法为基础,提出了一种新的学习协作算法,并根据此算法提出了一种新的多Agent系统体系结构模型,该结构的最大特点是提出了知识共享机制、团队结构思想和引入了服务商概念,最后通过仿真实验说明了该结构体系的优越性。相似文献

基于Q学习算法的变论域模糊控制新算法

余涛于文俊李章文《控制理论与应用》2011,28(11):1645-1650

变论域模糊控制器的控制函数被＂复制＂到后代中,往往存在着＂失真＂现象,这种现象的后果是造成算法本身的误差.针对这一问题,本文提出了一种基于Q学习算法的变论域模糊控制优化设计方法.本算法在变论域模糊控制算法基础上提出了一种利用伸缩因子、等比因子相互协调来调整论域的构想,且通过用Q学习算法来寻优参数使控制器性能指标最小,使其在控制过程中能够降低＂失真率＂,从而进一步提高控制器性能.最后,把算法运用于一个二阶系统与非最小相位系统,实验表明,该算法不但具有很好的鲁棒性及动态性能,且与变论域模糊控制器比较起来,其控制性能也更加提高. 相似文献

小脑模型关节控制器网络在传送带给料生产加工站学习优化控制中的应用

周雷孔凤唐昊张建军《控制理论与应用》2011,28(11):1665-1670

研究单站点传送带给料生产加工站（conveyor-serviced production station,CSPS）系统的前视（look-ahead）距离最优控制问题,以提高系统的工作效率.论文运用半Markov决策过程对CSPS优化控制问题进行建模.考虑传统Q学习难以直接处理CSPS系统前视距离为连续变量的优化控制问题,将小脑模型关节控制器网络的Q值函数逼近与在线学习技术相结合,给出了在线Q学习及模型无关的在线策略迭代算法.仿真结果表明,文中算法提高了学习速度和优化精度. 相似文献

数据驱动的工业过程运行优化控制

李金娜高溪泽柴天佑范家璐《控制理论与应用》2016,33(12):1584-1592

现代工业过程机理复杂使得很难对生产过程以及运行指标与被控变量之间关系精确建模.如何基于工业运行过程数据信息,不依赖模型参数给出设定值设计方案,优化运行指标是一挑战性难题.本文针对在稳态附近可以线性化的一类工业过程,考虑运行控制环和底层控制环不同时间尺度,提出一种基于Q--学习方法的次优设定值学习算法.此算法完全利用数据,学习得到次优设定值,实现运行指标以次优的方式跟踪理想值.浮选过程仿真结果表明本文所提方法的有效性. 相似文献

10.

Ad Hoc网络Q学习稳定蚁群路由算法 总被引：1，自引：0，他引：1

王庆文史浩山戚茜《哈尔滨工业大学学报》2012,44(7):120-125

针对Ad Hoc网络路由协议存在的对动态拓扑适应性差和链路不稳定问题,提出了一种Q学习稳定蚁群路由算法(SACRQ),该算法综合了蚁群优化和Q学习算法的思想,将信息素映射为Q学习算法的Q值,增强节点对动态环境的学习能力．在路由选择方面,使用自适应伪随机比率选择下一跳节点,避免算法陷入局部最优或是停滞;提出了新的链路稳定度来衡量链路的鲁棒性,结合鲁棒性和信息素强度两种因素选择下一跳链路．该算法增加了链路的鲁棒性,对Ad Hoc网络动态拓扑适应性强．仿真结果表明,SACRQ的路由发现数量、平均端对端延迟、冲突数量和每次路由发现吞吐量4种指标均优于ARA和AODV．相似文献

1 [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] 下一页 » 末页»