期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	232篇
免费	43篇
国内免费	69篇

专业分类

电工技术	25篇
综合类	31篇
机械仪表	9篇
建筑科学	1篇
矿业工程	1篇
能源动力	4篇
水利工程	1篇
武器工业	2篇
无线电	41篇
一般工业技术	8篇
冶金工业	1篇
自动化技术	220篇

出版年

2024年	9篇
2023年	16篇
2022年	30篇
2021年	25篇
2020年	27篇
2019年	14篇
2018年	7篇
2017年	15篇
2016年	9篇
2015年	10篇
2014年	15篇
2013年	13篇
2012年	15篇
2011年	21篇
2010年	15篇
2009年	17篇
2008年	19篇
2007年	12篇
2006年	11篇
2005年	7篇
2004年	4篇
2003年	6篇
2002年	7篇
2001年	4篇
2000年	1篇
1999年	4篇
1998年	5篇
1997年	2篇
1996年	2篇
1994年	2篇

排序方式： 共有344条查询结果，搜索用时 15 毫秒

1 [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] 下一页 » 末页»

基于Q-learning的不确定环境BDI Agent最优策略规划研究

万谦刘玮徐龙龙郭竞知《计算机工程与科学》2019,41(1):166-172

BDI模型能够很好地解决在特定环境下的Agent的推理和决策问题,但在动态和不确定环境下缺少决策和学习的能力。强化学习解决了Agent在未知环境下的决策问题,却缺少BDI模型中的规则描述和逻辑推理。针对BDI在未知和动态环境下的策略规划问题,提出基于强化学习Q-learning算法来实现BDI Agent学习和规划的方法,并针对BDI的实现模型ASL的决策机制做出了改进,最后在ASL的仿真平台Jason上建立了迷宫的仿真,仿真实验表明,在加入Q-learning学习机制后的新的ASL系统中,Agent在不确定环境下依然可以完成任务。相似文献

基于Q学习的DDoS攻防博弈模型研究 总被引：1，自引：0，他引：1

史云放武东英刘胜利高翔《计算机科学》2014,41(11):203-207,226

新形势下的DDoS攻防博弈过程和以往不同,因此利用现有的方法无法有效地评估量化攻防双方的收益以及动态调整博弈策略以实现收益最大化。针对这一问题,设计了一种基于Q学习的DDoS攻防博弈模型,并在此基础上提出了模型算法。首先,通过网络熵评估量化方法计算攻防双方收益;其次,利用矩阵博弈研究单个DDoS攻击阶段的攻防博弈过程;最后,将Q学习引入博弈过程,提出了模型算法,用以根据学习效果动态调整攻防策略从而实现收益最大化。实验结果表明,采用模型算法的防御方能够获得更高的收益,从而证明了算法的可用性和有效性。相似文献

基于神经动态规划算法的最优路径选择

李菲肖洪祥《桂林工学院学报》2009,29(1):154-157

针对传统动态规划算法在计算大规模路网的优化问题时所表现出来的计算时间长、存储空间大等缺点,引入了一种神经动态规划算法：它将传统的动态规划和BP神经网络结合起来,通过逼近Q学习算法来寻求一种最优策略,最终达到路径优化的目的。将此算法应用于一个交通路网,且用Matlab软件进行仿真,试验表明：该方法的实时性、并行性和全局性都优于传统动态规划,在城市交通流系统中能切实起到路径诱导的作用。相似文献

可变服务率模式下基于需求驱动的传送带给料加工站系统的优化控制

唐昊许玲玲周雷谭琦《控制理论与应用》2015,32(6):810-816

本文主要研究可变服务率模式下基于需求驱动的传送带给料加工站(CSPS)系统的优化控制问题,主要目标是对系统的随机优化控制问题进行建模和提供解决方案.论文以缓冲库和成品库剩余容量为联合状态,以站点前视距离和工件服务率为控制变量,将其最优控制问题描述为半马尔科夫决策过程(SMDP)模型.该模型为利用策略迭代等方法求解系统在平均准则或折扣准则下的最优控制策略提供了理论基础,特别地,据此可引入基于模拟退火思想的Q学习算法等优化方法来寻求近似解,以克服理论求解过程中的维数灾和建模难等困难.仿真结果说明了本文建立的数学模型及给出的优化方法的有效性. 相似文献

基于改进的Q学习的RoboCup传球策略研究

周勇刘锋《微机发展》2008,18(4):63-66

模拟机器人足球比赛(Robot World Cup,RoboCup)作为多Agent系统的一个理想的实验平台,已经成为人工智能的研究热点。传统的Q学习已被有效地应用于处理RoboCup中传球策略问题,但是它仅能简单地离散化连续的状态、动作空间。提出将神经网络应用于Q学习,系统只需学习部分状态-动作的Q值即可获得近似连续的Q值,就可以有效地提高泛化能力。然后将改进的Q学习应用于优化传球策略,最后在RobCup中实现测试了该算法,实验结果表明改进的Q学习在RoboCup传球策略中的应用,可以有效提高传球的成功率。相似文献

具有加性和乘性噪声的线性离散时间随机系统的无模型最优跟踪控制

银玉博罗世贤万韬《控制理论与应用》2023,40(6):1014-1022

本文研究一类同时受加性和乘性噪声影响的离散时间随机系统的最优跟踪控制问题.通过构造由原始系统和参考轨迹组成的增广系统,将随机线性二次跟踪控制(SLQT)的成本函数转化为与增广状态相关的二次型函数,由此推导出用于求解SLQT的贝尔曼方程和增广随机代数黎卡提方程(SARE),而后进一步针对系统和参考轨迹动力学信息完全未知的情形,提出一种Q-学习算法来在线求解增广SARE,证明了该算法的收敛性,并采用批处理最小二乘法(BLS)解决该在线无模型控制算法的实现问题.通过对单相电压源UPS逆变器的仿真,验证了所提出控制方案的有效性. 相似文献

基于信息年龄的变电站业务无线接入选择算法

下载免费PDF全文

韩东升岳栩彤《电子测量技术》2022,45(20):29-36

为更好满足变电站中大规模设备接入和高可靠低时延业务传输需求,提出了一种适用于变电站业务的多频异构无线通信网络接入选择算法。首先构造了一个异构无线网络覆盖下的变电站场景模型,综合考虑变电站业务对于可靠性和有效性的需求。其次为有效提升接收到信息的新鲜程度,以平均信息年龄（Average Age of Information,AAoI）作为无线网络接入选择的优化目标函数,提出了基于信息年龄的变电站业务接入选择优化问题。最后利用深度Q学习（Deep Q-Learning,DQN）方法求解该问题,以获得最佳的接入选择方案。通过对应用实例与试验数据的分析可以看出,所提出的接入选择优化理论和算法,可以降低业务传输时的平均信息年龄,提升数据的新鲜程度。相似文献

基于Q—learning的一种多Agent系统结构模型

许培薛伟《计算机与数字工程》2011,39(8):8-11

多Agent系统是近年来比较热门的一个研究领域,而Q-learning算法是强化学习算法中比较著名的算法,也是应用最广泛的一种强化学习算法。以单Agent强化学习Qlearning算法为基础,提出了一种新的学习协作算法,并根据此算法提出了一种新的多Agent系统体系结构模型,该结构的最大特点是提出了知识共享机制、团队结构思想和引入了服务商概念,最后通过仿真实验说明了该结构体系的优越性。相似文献

基于Q学习算法的变论域模糊控制新算法

余涛于文俊李章文《控制理论与应用》2011,28(11):1645-1650

变论域模糊控制器的控制函数被＂复制＂到后代中,往往存在着＂失真＂现象,这种现象的后果是造成算法本身的误差.针对这一问题,本文提出了一种基于Q学习算法的变论域模糊控制优化设计方法.本算法在变论域模糊控制算法基础上提出了一种利用伸缩因子、等比因子相互协调来调整论域的构想,且通过用Q学习算法来寻优参数使控制器性能指标最小,使其在控制过程中能够降低＂失真率＂,从而进一步提高控制器性能.最后,把算法运用于一个二阶系统与非最小相位系统,实验表明,该算法不但具有很好的鲁棒性及动态性能,且与变论域模糊控制器比较起来,其控制性能也更加提高. 相似文献

10.

小脑模型关节控制器网络在传送带给料生产加工站学习优化控制中的应用

周雷孔凤唐昊张建军《控制理论与应用》2011,28(11):1665-1670

研究单站点传送带给料生产加工站（conveyor-serviced production station,CSPS）系统的前视（look-ahead）距离最优控制问题,以提高系统的工作效率.论文运用半Markov决策过程对CSPS优化控制问题进行建模.考虑传统Q学习难以直接处理CSPS系统前视距离为连续变量的优化控制问题,将小脑模型关节控制器网络的Q值函数逼近与在线学习技术相结合,给出了在线Q学习及模型无关的在线策略迭代算法.仿真结果表明,文中算法提高了学习速度和优化精度. 相似文献

1 [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] 下一页 » 末页»