首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   221篇
  免费   43篇
  国内免费   62篇
电工技术   25篇
综合类   30篇
机械仪表   9篇
建筑科学   1篇
矿业工程   1篇
能源动力   4篇
水利工程   1篇
武器工业   2篇
无线电   33篇
一般工业技术   8篇
冶金工业   1篇
自动化技术   211篇
  2024年   7篇
  2023年   12篇
  2022年   28篇
  2021年   25篇
  2020年   25篇
  2019年   11篇
  2018年   7篇
  2017年   11篇
  2016年   8篇
  2015年   10篇
  2014年   15篇
  2013年   13篇
  2012年   15篇
  2011年   21篇
  2010年   15篇
  2009年   17篇
  2008年   19篇
  2007年   12篇
  2006年   11篇
  2005年   7篇
  2004年   4篇
  2003年   6篇
  2002年   7篇
  2001年   4篇
  2000年   1篇
  1999年   4篇
  1998年   5篇
  1997年   2篇
  1996年   2篇
  1994年   2篇
排序方式: 共有326条查询结果,搜索用时 15 毫秒
1.
BDI模型能够很好地解决在特定环境下的Agent的推理和决策问题,但在动态和不确定环境下缺少决策和学习的能力。强化学习解决了Agent在未知环境下的决策问题,却缺少BDI模型中的规则描述和逻辑推理。针对BDI在未知和动态环境下的策略规划问题,提出基于强化学习Q-learning算法来实现BDI Agent学习和规划的方法,并针对BDI的实现模型ASL的决策机制做出了改进,最后在ASL的仿真平台Jason上建立了迷宫的仿真,仿真实验表明,在加入Q-learning学习机制后的新的ASL系统中,Agent在不确定环境下依然可以完成任务。  相似文献   
2.
唐昊  裴荣  周雷  谭琦 《自动化学报》2014,40(5):901-908
单站点传送带给料加工站(Conveyor-serviced production station,CSPS)系统中,可运用强化学习对状态——行动空间进行有效探索,以搜索近似最优的前视距离控制策略.但是多站点CSPS系统的协同控制问题中,系统状态空间的大小会随着站点个数的增加和缓存库容量的增加而成指数形式(或几何级数)增长,从而导致维数灾,影响学习算法的收敛速度和优化效果.为此,本文在站点局域信息交互机制的基础上引入状态聚类的方法,以减小每个站点学习空间的大小和复杂性.首先,将多个站点看作相对独立的学习主体,且各自仅考虑邻近下游站点的缓存库的状态并纳入其性能值学习过程;其次,将原状态空间划分成多个不相交的子集,每个子集用一个抽象状态表示,然后,建立基于状态聚类的多站点反馈式Q学习算法.通过该方法,可在抽象状态空间上对各站点的前视距离策略进行优化学习,以寻求整个系统的生产率最大.仿真实验结果说明,与一般的多站点反馈式Q学习方法相比,基于状态聚类的多站点反馈式Q学习方法不仅具有收敛速度快的优点,而且还在一定程度上提高了系统生产率.  相似文献   
3.
传统Q算法对于机器人回报函数的定义较为宽泛,导致机器人的学习效率不高。为解决该问题,给出一种回报详细分类Q(RDC-Q)学习算法。综合机器人各个传感器的返回值,依据机器人距离障碍物的远近把机器人的状态划分为20个奖励状态和15个惩罚状态,对机器人每个时刻所获得的回报值按其状态的安全等级分类,使机器人趋向于安全等级更高的状态,从而帮助机器人更快更好地学习。通过在一个障碍物密集的环境中进行仿真实验,证明该算法收敛速度相对传统回报Q算法有明显提高。  相似文献   
4.
基于Q学习的DDoS攻防博弈模型研究   总被引:1,自引:0,他引:1  
史云放  武东英  刘胜利  高翔 《计算机科学》2014,41(11):203-207,226
新形势下的DDoS攻防博弈过程和以往不同,因此利用现有的方法无法有效地评估量化攻防双方的收益以及动态调整博弈策略以实现收益最大化。针对这一问题,设计了一种基于Q学习的DDoS攻防博弈模型,并在此基础上提出了模型算法。首先,通过网络熵评估量化方法计算攻防双方收益;其次,利用矩阵博弈研究单个DDoS攻击阶段的攻防博弈过程;最后,将Q学习引入博弈过程,提出了模型算法,用以根据学习效果动态调整攻防策略从而实现收益最大化。实验结果表明,采用模型算法的防御方能够获得更高的收益,从而证明了算法的可用性和有效性。  相似文献   
5.
针对传统动态规划算法在计算大规模路网的优化问题时所表现出来的计算时间长、存储空间大等缺点,引入了一种神经动态规划算法:它将传统的动态规划和BP神经网络结合起来,通过逼近Q学习算法来寻求一种最优策略,最终达到路径优化的目的。将此算法应用于一个交通路网,且用Matlab软件进行仿真,试验表明:该方法的实时性、并行性和全局性都优于传统动态规划,在城市交通流系统中能切实起到路径诱导的作用。  相似文献   
6.
异构车载网络环境下如何选择接入网络对于车载终端用户的服务体验而言至关重要,目前基于Q学习的网络选择方法利用智能体与环境的交互来迭代学习网络选择策略,从而实现较优的网络资源分配.然而该类方法通常存在状态空间过大引起迭代效率低下和收敛速度较慢的问题,同时由于Q值表更新产生的过高估计现象容易导致网络资源利用不均衡.针对上述问题,基于多智能体Q学习提出一种适用于融合5G通信异构车载网络的选择方法M QSM.该方法采用多智能体协作学习的思想,利用双Q值表交替更新的方式来获得动作选择的总回报值,最终实现异构车载网络环境下长期有效的最优网络切换决策集合.实验结果表明,与同类型方法相比较,M QSM在系统总切换次数、平均总折扣值和网络容量利用率方面表现出更好的性能.  相似文献   
7.
Wireless sensor network(WSN)is effective for monitoring the target environment,which consists of a large number of sensor nodes of limited energy.An efficient medium access control(MAC)protocol is thus imperative to maximize the energy efficiency and performance of WSN.The most existing MAC protocols are based on the scheduling of sleep and active period of the nodes,and do not consider the relationship between the load condition and performance.In this paper a novel scheme is proposed to properly determine the duty cycle of the WSN nodes according to the load,which employs the Q-leaming technique and function approximation with linear regression.This allows low-latency energy-efficient scheduling for a wide range of traffic conditions,and effectively overcomes the limitation of Q-learning with the problem of continuous state-action space.NS3 simulation reveals that the proposed scheme significantly improves the throughput,latency,and energy efficiency compared to the existing fully active scheme and S-MAC.  相似文献   
8.
针对密集异构网络自回程场景中带宽分配不合理引起的负载不均衡问题,提出一种基于self-backhaul感知的用户接入负载均衡方案.首先根据密集异构网络下各个小基站接入与回程资源的负载状态提出一种用户接入负载均衡策略;其次利用Q-Learning算法对各个小基站带内无线接入与回程带宽分配进行学习,用户在不同带宽分配因子下,根据用户接入负载均衡策略进行重新接入,得到不同接入情况下的系统效用,进而得到最优带宽分配策略,保证负载均衡性的同时实现系统效用最大化.仿真结果表明,该方案在密集异构网络自回程场景中提高了网络负载均衡性,同时提升了用户速率体验.  相似文献   
9.
Under the centralized cognitive radio network architecture, considering the network performance and users' demands. We propose an optimized dynamic spectrum access algorithm based on Q-learning. The proposed algorithm has two steps, which consist of user request according to Q-learning and the application process according to the overall system performance. Simulation results show that the proposed scheme can improve the overall system performance obviously, and that the user requirements could be satisfied at the same time.  相似文献   
10.
基于深度强化学习的激励型需求响应决策优化模型   总被引:1,自引:0,他引:1  
随着中国电力市场化改革的推进,售电侧市场逐步开放,售电商可以聚合大量的分散负荷参与电力市场环境下的需求响应.文中提出以售电商和用户综合收益最大化为目标的基于深度强化学习的激励型需求响应建模和求解方法.首先,建立售电商和用户的需求响应模型,通过引入时间-价格弹性,改进现有的用户响应模型,考虑用户对相邻时段补贴价格差的反应.然后,基于马尔可夫决策过程框架构建补贴价格决策优化模型,并设计基于深度Q学习网络的求解算法.最后,以1个售电商和3个不同类型的用户为例进行仿真计算,通过分析算法收敛性和对比不同模型及参数下的优化结果,验证了改进模型的合理性和生成策略的有效性,并分析了激励型需求响应对售电商以及用户的影响.  相似文献   
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号