期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	221篇
免费	43篇
国内免费	62篇

专业分类

电工技术	25篇
综合类	30篇
机械仪表	9篇
建筑科学	1篇
矿业工程	1篇
能源动力	4篇
水利工程	1篇
武器工业	2篇
无线电	33篇
一般工业技术	8篇
冶金工业	1篇
自动化技术	211篇

出版年

2024年	7篇
2023年	12篇
2022年	28篇
2021年	25篇
2020年	25篇
2019年	11篇
2018年	7篇
2017年	11篇
2016年	8篇
2015年	10篇
2014年	15篇
2013年	13篇
2012年	15篇
2011年	21篇
2010年	15篇
2009年	17篇
2008年	19篇
2007年	12篇
2006年	11篇
2005年	7篇
2004年	4篇
2003年	6篇
2002年	7篇
2001年	4篇
2000年	1篇
1999年	4篇
1998年	5篇
1997年	2篇
1996年	2篇
1994年	2篇

排序方式： 共有326条查询结果，搜索用时 15 毫秒

1 [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] 下一页 » 末页»

基于Q-learning的不确定环境BDI Agent最优策略规划研究

万谦刘玮徐龙龙郭竞知《计算机工程与科学》2019,41(1):166-172

BDI模型能够很好地解决在特定环境下的Agent的推理和决策问题,但在动态和不确定环境下缺少决策和学习的能力。强化学习解决了Agent在未知环境下的决策问题,却缺少BDI模型中的规则描述和逻辑推理。针对BDI在未知和动态环境下的策略规划问题,提出基于强化学习Q-learning算法来实现BDI Agent学习和规划的方法,并针对BDI的实现模型ASL的决策机制做出了改进,最后在ASL的仿真平台Jason上建立了迷宫的仿真,仿真实验表明,在加入Q-learning学习机制后的新的ASL系统中,Agent在不确定环境下依然可以完成任务。相似文献

基于状态聚类的多站点CSPS系统的协同控制方法

唐昊裴荣周雷谭琦《自动化学报》2014,40(5):901-908

单站点传送带给料加工站（Conveyor-serviced production station,CSPS）系统中,可运用强化学习对状态——行动空间进行有效探索,以搜索近似最优的前视距离控制策略.但是多站点CSPS系统的协同控制问题中,系统状态空间的大小会随着站点个数的增加和缓存库容量的增加而成指数形式（或几何级数）增长,从而导致维数灾,影响学习算法的收敛速度和优化效果.为此,本文在站点局域信息交互机制的基础上引入状态聚类的方法,以减小每个站点学习空间的大小和复杂性.首先,将多个站点看作相对独立的学习主体,且各自仅考虑邻近下游站点的缓存库的状态并纳入其性能值学习过程;其次,将原状态空间划分成多个不相交的子集,每个子集用一个抽象状态表示,然后,建立基于状态聚类的多站点反馈式Q学习算法.通过该方法,可在抽象状态空间上对各站点的前视距离策略进行优化学习,以寻求整个系统的生产率最大.仿真实验结果说明,与一般的多站点反馈式Q学习方法相比,基于状态聚类的多站点反馈式Q学习方法不仅具有收敛速度快的优点,而且还在一定程度上提高了系统生产率. 相似文献

基于RDC-Q学习算法的移动机器人路径规划

王子强武继刚《计算机工程》2014,(6):211-214

传统Q算法对于机器人回报函数的定义较为宽泛,导致机器人的学习效率不高。为解决该问题,给出一种回报详细分类Q(RDC-Q)学习算法。综合机器人各个传感器的返回值,依据机器人距离障碍物的远近把机器人的状态划分为20个奖励状态和15个惩罚状态,对机器人每个时刻所获得的回报值按其状态的安全等级分类,使机器人趋向于安全等级更高的状态,从而帮助机器人更快更好地学习。通过在一个障碍物密集的环境中进行仿真实验,证明该算法收敛速度相对传统回报Q算法有明显提高。相似文献

基于Q学习的DDoS攻防博弈模型研究 总被引：1，自引：0，他引：1

史云放武东英刘胜利高翔《计算机科学》2014,41(11):203-207,226

新形势下的DDoS攻防博弈过程和以往不同,因此利用现有的方法无法有效地评估量化攻防双方的收益以及动态调整博弈策略以实现收益最大化。针对这一问题,设计了一种基于Q学习的DDoS攻防博弈模型,并在此基础上提出了模型算法。首先,通过网络熵评估量化方法计算攻防双方收益;其次,利用矩阵博弈研究单个DDoS攻击阶段的攻防博弈过程;最后,将Q学习引入博弈过程,提出了模型算法,用以根据学习效果动态调整攻防策略从而实现收益最大化。实验结果表明,采用模型算法的防御方能够获得更高的收益,从而证明了算法的可用性和有效性。相似文献

基于神经动态规划算法的最优路径选择

李菲肖洪祥《桂林工学院学报》2009,29(1):154-157

针对传统动态规划算法在计算大规模路网的优化问题时所表现出来的计算时间长、存储空间大等缺点,引入了一种神经动态规划算法：它将传统的动态规划和BP神经网络结合起来,通过逼近Q学习算法来寻求一种最优策略,最终达到路径优化的目的。将此算法应用于一个交通路网,且用Matlab软件进行仿真,试验表明：该方法的实时性、并行性和全局性都优于传统动态规划,在城市交通流系统中能切实起到路径诱导的作用。相似文献

基于多智能体Q学习的异构车载网络选择方法

聂雷刘博李鹏何亨《计算机工程与科学》2021,43(5):836-844

异构车载网络环境下如何选择接入网络对于车载终端用户的服务体验而言至关重要,目前基于Q学习的网络选择方法利用智能体与环境的交互来迭代学习网络选择策略,从而实现较优的网络资源分配.然而该类方法通常存在状态空间过大引起迭代效率低下和收敛速度较慢的问题,同时由于Q值表更新产生的过高估计现象容易导致网络资源利用不均衡.针对上述问题,基于多智能体Q学习提出一种适用于融合5G通信异构车载网络的选择方法M QSM.该方法采用多智能体协作学习的思想,利用双Q值表交替更新的方式来获得动作选择的总回报值,最终实现异构车载网络环境下长期有效的最优网络切换决策集合.实验结果表明,与同类型方法相比较,M QSM在系统总切换次数、平均总折扣值和网络容量利用率方面表现出更好的性能. 相似文献

Determining node duty cycle using Q-learning and linear regression for WSN

Han Yao HUANG Kyung Tae KIM Hee Yong YOUN 《Frontiers of Computer Science》2021,15(1):151101-23

Wireless sensor network(WSN)is effective for monitoring the target environment,which consists of a large number of sensor nodes of limited energy.An efficient medium access control(MAC)protocol is thus imperative to maximize the energy efficiency and performance of WSN.The most existing MAC protocols are based on the scheduling of sleep and active period of the nodes,and do not consider the relationship between the load condition and performance.In this paper a novel scheme is proposed to properly determine the duty cycle of the WSN nodes according to the load,which employs the Q-leaming technique and function approximation with linear regression.This allows low-latency energy-efficient scheduling for a wide range of traffic conditions,and effectively overcomes the limitation of Q-learning with the problem of continuous state-action space.NS3 simulation reveals that the proposed scheme significantly improves the throughput,latency,and energy efficiency compared to the existing fully active scheme and S-MAC. 相似文献

密集网络下基于Self-Backhaul感知的用户接入负载均衡算法

唐伦梁荣陈婉张元宝《北京邮电大学学报》2017,40(4):60-67

针对密集异构网络自回程场景中带宽分配不合理引起的负载不均衡问题,提出一种基于self-backhaul感知的用户接入负载均衡方案.首先根据密集异构网络下各个小基站接入与回程资源的负载状态提出一种用户接入负载均衡策略;其次利用Q-Learning算法对各个小基站带内无线接入与回程带宽分配进行学习,用户在不同带宽分配因子下,根据用户接入负载均衡策略进行重新接入,得到不同接入情况下的系统效用,进而得到最优带宽分配策略,保证负载均衡性的同时实现系统效用最大化.仿真结果表明,该方案在密集异构网络自回程场景中提高了网络负载均衡性,同时提升了用户速率体验. 相似文献

Optimization algorithm for dynamic spectrum access based on Q-learning in cognitive radio networks

HUANG Ying YAN Dingyu LI Nan 《西安电子科技大学学报(自然科学版)》2015,42(6):179-183

Under the centralized cognitive radio network architecture, considering the network performance and users' demands. We propose an optimized dynamic spectrum access algorithm based on Q-learning. The proposed algorithm has two steps, which consist of user request according to Q-learning and the application process according to the overall system performance. Simulation results show that the proposed scheme can improve the overall system performance obviously, and that the user requirements could be satisfied at the same time. 相似文献

10.

基于深度强化学习的激励型需求响应决策优化模型 总被引：1，自引：0，他引：1

徐弘升陆继翔杨志宏李昀陆进军黄华《电力系统自动化》2021,45(14):97-103

随着中国电力市场化改革的推进,售电侧市场逐步开放,售电商可以聚合大量的分散负荷参与电力市场环境下的需求响应.文中提出以售电商和用户综合收益最大化为目标的基于深度强化学习的激励型需求响应建模和求解方法.首先,建立售电商和用户的需求响应模型,通过引入时间-价格弹性,改进现有的用户响应模型,考虑用户对相邻时段补贴价格差的反应.然后,基于马尔可夫决策过程框架构建补贴价格决策优化模型,并设计基于深度Q学习网络的求解算法.最后,以1个售电商和3个不同类型的用户为例进行仿真计算,通过分析算法收敛性和对比不同模型及参数下的优化结果,验证了改进模型的合理性和生成策略的有效性,并分析了激励型需求响应对售电商以及用户的影响. 相似文献

1 [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] 下一页 » 末页»