首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   232篇
  免费   43篇
  国内免费   69篇
电工技术   25篇
综合类   31篇
机械仪表   9篇
建筑科学   1篇
矿业工程   1篇
能源动力   4篇
水利工程   1篇
武器工业   2篇
无线电   41篇
一般工业技术   8篇
冶金工业   1篇
自动化技术   220篇
  2024年   9篇
  2023年   16篇
  2022年   30篇
  2021年   25篇
  2020年   27篇
  2019年   14篇
  2018年   7篇
  2017年   15篇
  2016年   9篇
  2015年   10篇
  2014年   15篇
  2013年   13篇
  2012年   15篇
  2011年   21篇
  2010年   15篇
  2009年   17篇
  2008年   19篇
  2007年   12篇
  2006年   11篇
  2005年   7篇
  2004年   4篇
  2003年   6篇
  2002年   7篇
  2001年   4篇
  2000年   1篇
  1999年   4篇
  1998年   5篇
  1997年   2篇
  1996年   2篇
  1994年   2篇
排序方式: 共有344条查询结果,搜索用时 15 毫秒
1.
BDI模型能够很好地解决在特定环境下的Agent的推理和决策问题,但在动态和不确定环境下缺少决策和学习的能力。强化学习解决了Agent在未知环境下的决策问题,却缺少BDI模型中的规则描述和逻辑推理。针对BDI在未知和动态环境下的策略规划问题,提出基于强化学习Q-learning算法来实现BDI Agent学习和规划的方法,并针对BDI的实现模型ASL的决策机制做出了改进,最后在ASL的仿真平台Jason上建立了迷宫的仿真,仿真实验表明,在加入Q-learning学习机制后的新的ASL系统中,Agent在不确定环境下依然可以完成任务。  相似文献   
2.
基于Q学习的DDoS攻防博弈模型研究   总被引:1,自引:0,他引:1  
史云放  武东英  刘胜利  高翔 《计算机科学》2014,41(11):203-207,226
新形势下的DDoS攻防博弈过程和以往不同,因此利用现有的方法无法有效地评估量化攻防双方的收益以及动态调整博弈策略以实现收益最大化。针对这一问题,设计了一种基于Q学习的DDoS攻防博弈模型,并在此基础上提出了模型算法。首先,通过网络熵评估量化方法计算攻防双方收益;其次,利用矩阵博弈研究单个DDoS攻击阶段的攻防博弈过程;最后,将Q学习引入博弈过程,提出了模型算法,用以根据学习效果动态调整攻防策略从而实现收益最大化。实验结果表明,采用模型算法的防御方能够获得更高的收益,从而证明了算法的可用性和有效性。  相似文献   
3.
针对传统动态规划算法在计算大规模路网的优化问题时所表现出来的计算时间长、存储空间大等缺点,引入了一种神经动态规划算法:它将传统的动态规划和BP神经网络结合起来,通过逼近Q学习算法来寻求一种最优策略,最终达到路径优化的目的。将此算法应用于一个交通路网,且用Matlab软件进行仿真,试验表明:该方法的实时性、并行性和全局性都优于传统动态规划,在城市交通流系统中能切实起到路径诱导的作用。  相似文献   
4.
本文主要研究可变服务率模式下基于需求驱动的传送带给料加工站(CSPS)系统的优化控制问题,主要目标是对系统的随机优化控制问题进行建模和提供解决方案.论文以缓冲库和成品库剩余容量为联合状态,以站点前视距离和工件服务率为控制变量,将其最优控制问题描述为半马尔科夫决策过程(SMDP)模型.该模型为利用策略迭代等方法求解系统在平均准则或折扣准则下的最优控制策略提供了理论基础,特别地,据此可引入基于模拟退火思想的Q学习算法等优化方法来寻求近似解,以克服理论求解过程中的维数灾和建模难等困难.仿真结果说明了本文建立的数学模型及给出的优化方法的有效性.  相似文献   
5.
周勇  刘锋 《微机发展》2008,18(4):63-66
模拟机器人足球比赛(Robot World Cup,RoboCup)作为多Agent系统的一个理想的实验平台,已经成为人工智能的研究热点。传统的Q学习已被有效地应用于处理RoboCup中传球策略问题,但是它仅能简单地离散化连续的状态、动作空间。提出将神经网络应用于Q学习,系统只需学习部分状态-动作的Q值即可获得近似连续的Q值,就可以有效地提高泛化能力。然后将改进的Q学习应用于优化传球策略,最后在RobCup中实现测试了该算法,实验结果表明改进的Q学习在RoboCup传球策略中的应用,可以有效提高传球的成功率。  相似文献   
6.
本文研究一类同时受加性和乘性噪声影响的离散时间随机系统的最优跟踪控制问题.通过构造由原始系统和参考轨迹组成的增广系统,将随机线性二次跟踪控制(SLQT)的成本函数转化为与增广状态相关的二次型函数,由此推导出用于求解SLQT的贝尔曼方程和增广随机代数黎卡提方程(SARE),而后进一步针对系统和参考轨迹动力学信息完全未知的情形,提出一种Q-学习算法来在线求解增广SARE,证明了该算法的收敛性,并采用批处理最小二乘法(BLS)解决该在线无模型控制算法的实现问题.通过对单相电压源UPS逆变器的仿真,验证了所提出控制方案的有效性.  相似文献   
7.
为更好满足变电站中大规模设备接入和高可靠低时延业务传输需求,提出了一种适用于变电站业务的多频异构无线通信网络接入选择算法。首先构造了一个异构无线网络覆盖下的变电站场景模型,综合考虑变电站业务对于可靠性和有效性的需求。其次为有效提升接收到信息的新鲜程度,以平均信息年龄(Average Age of Information,AAoI)作为无线网络接入选择的优化目标函数,提出了基于信息年龄的变电站业务接入选择优化问题。最后利用深度Q学习(Deep Q-Learning,DQN)方法求解该问题,以获得最佳的接入选择方案。通过对应用实例与试验数据的分析可以看出,所提出的接入选择优化理论和算法,可以降低业务传输时的平均信息年龄,提升数据的新鲜程度。  相似文献   
8.
多Agent系统是近年来比较热门的一个研究领域,而Q-learning算法是强化学习算法中比较著名的算法,也是应用最广泛的一种强化学习算法。以单Agent强化学习Qlearning算法为基础,提出了一种新的学习协作算法,并根据此算法提出了一种新的多Agent系统体系结构模型,该结构的最大特点是提出了知识共享机制、团队结构思想和引入了服务商概念,最后通过仿真实验说明了该结构体系的优越性。  相似文献   
9.
变论域模糊控制器的控制函数被"复制"到后代中,往往存在着"失真"现象,这种现象的后果是造成算法本身的误差.针对这一问题,本文提出了一种基于Q学习算法的变论域模糊控制优化设计方法.本算法在变论域模糊控制算法基础上提出了一种利用伸缩因子、等比因子相互协调来调整论域的构想,且通过用Q学习算法来寻优参数使控制器性能指标最小,使其在控制过程中能够降低"失真率",从而进一步提高控制器性能.最后,把算法运用于一个二阶系统与非最小相位系统,实验表明,该算法不但具有很好的鲁棒性及动态性能,且与变论域模糊控制器比较起来,其控制性能也更加提高.  相似文献   
10.
周雷  孔凤  唐昊  张建军 《控制理论与应用》2011,28(11):1665-1670
研究单站点传送带给料生产加工站(conveyor-serviced production station,CSPS)系统的前视(look-ahead)距离最优控制问题,以提高系统的工作效率.论文运用半Markov决策过程对CSPS优化控制问题进行建模.考虑传统Q学习难以直接处理CSPS系统前视距离为连续变量的优化控制问题,将小脑模型关节控制器网络的Q值函数逼近与在线学习技术相结合,给出了在线Q学习及模型无关的在线策略迭代算法.仿真结果表明,文中算法提高了学习速度和优化精度.  相似文献   
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号