期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	38篇
免费	5篇
国内免费	5篇

专业分类

电工技术	3篇
综合类	1篇
机械仪表	5篇
无线电	11篇
自动化技术	28篇

出版年

2023年	1篇
2022年	5篇
2021年	3篇
2020年	5篇
2019年	4篇
2018年	1篇
2017年	1篇
2016年	2篇
2014年	1篇
2013年	5篇
2012年	2篇
2011年	2篇
2010年	3篇
2008年	4篇
2007年	2篇
2006年	2篇
2002年	2篇
1998年	1篇
1997年	1篇
1996年	1篇

排序方式： 共有48条查询结果，搜索用时 15 毫秒

1 [2] [3] [4] [5] 下一页 » 末页»

基于强化学习的数据驱动最优镇定控制及仿真

陆超伦李永强冯远静《模式识别与人工智能》2019,32(4):345-352

利用Q-学习算法,针对模型未知只有数据可用的非线性被控对象,解决最优镇定控制问题.由于状态空间和控制空间的连续性,Q-学习只能以近似的方式实现.因此,文中提出的近似Q-学习算法只能获得一个次优控制器.尽管求得的控制器只是次优,但是仿真研究表明,对于强非线性被控对象,相比线性二次型调节器和深度确定性梯度下降方法,文中方法的闭环吸引域更宽广,实际指标函数也更小. 相似文献

基于强化学习的分布式光伏运维资源动态调度

高鹏苏雍贺左颖陶飞《计算机集成制造系统》2022,28(2):552-563

针对分布式光伏运维资源调度过程中因动态因素影响导致调度计划难以实施的问题,提出基于强化学习的分布式光伏运维资源动态调度方法。该方法通过构建动态调度规则同步调整运维任务的优先级,并以新计划完成成本最低和完成时间最短为优化目标构建动态调度模型。采用Q-Learning求解模型,通过实验对比,Q-Learning算法的求解速度快、算法稳定性好,更适合求解动态调度问题,所提资源动态调度方法可以应对分布式光伏运维过程中的动态因素影响,提升服务质量。相似文献

未知环境下机器人避障设计研究

刘欢王健李金凤李金娜《机械设计与制造》2013,(10)

随着信息技术的发展,各个领域越来越需要高性能的自动化系统。机器人技术飞速发展,研究重点已经转向在复杂、未知、不可预测环境中独立工作的自主式智能机器人。介绍了机器人Q学习避障算法的实现方法,并构建了仿真实验平台,模拟了移动机器人在未知环境下自主地、安全地从起始点到达目标点的过程。通过仿真实验验证了Q学习实现机器人在未知环境下的行为选择控制是可行的、有效的,并验证机器人在未知环境下具有良好的越障性能。相似文献

基于逐次超松弛技术的Double Speedy Q-Learning算法

周琴罗飞丁炜超顾春华郑帅《计算机科学》2022,49(3):239-245

Q-Learning是目前一种主流的强化学习算法,但其在随机环境中收敛速度不佳,之前的研究针对Speedy Q-Learning存在的过估计问题进行改进,提出了Double Speedy Q-Learning算法。但Double Speedy Q-Learning算法并未考虑随机环境中存在的自循环结构,即代理执行动作时,存在进入当前状态的概率,这将不利于代理在随机环境中学习,从而影响算法的收敛速度。针对Double Speedy Q-Learning中存在的自循环结构,利用逐次超松弛技术对Double Speedy Q-Learning算法的Bellman算子进行改进,提出基于逐次超松弛技术的Double Speedy Q-Learning算法(Double Speedy Q-Learning based on Successive Over Relaxation,DSQL-SOR),进一步提升了Double Speedy Q-Learning算法的收敛速度。通过数值实验将DSQL-SOR与其他算法的实际奖励和期望奖励之间的误差进行对比,实验结果表明,所提算法比现有主流的算法SQL的误差低0.6,比逐次超松弛算法GSQL低0.5,这表明DSQL-SOR算法的性能较其他算法更优。实验同时对DSQL-SOR算法的可拓展性进行测试,当状态空间从10增加到1000时,每次迭代的平均时间增长缓慢,始终维持在10^-4数量级上,表明DSQL-SOR的可拓展性较强。相似文献

基于Q-Learning的多功能雷达认知干扰决策方法

张柏开朱卫纲《电讯技术》2020,(2):129-136

针对多功能雷达和认知电子战的快速发展所导致传统干扰决策方法难以适应现代化战争的问题,提出了一种基于Q-Learning的多功能雷达认知干扰决策方法。通过对比认知思想和干扰决策原理,将Q-Learning运用于认知干扰决策中并提出了认知干扰决策的算法步骤。以某多功能雷达为基础,通过分析其工作状态及对应干扰样式构建雷达状态转移图,通过仿真试验分析了各参数对决策性能的影响,为应对实际战场提供参考。仿真了在新状态加入下的决策过程、实际战场中转移概率对决策路径的影响以及四种主要干扰决策方法的决策性能对比。试验表明,该方法能够通过自主学习干扰效果完成干扰决策,更加贴合实际战场,对认知电子战的发展有一定的借鉴意义。相似文献

基于深度强化学习的股市操盘手模型研究

下载免费PDF全文

韩道岐张钧垚周玉航刘青《计算机工程与应用》2020,56(21):145-153

股票市场具有变化快、干扰因素多、周期数据不足等特点,股票交易是一种不完全信息下的博弈过程,单目标的监督学习模型很难处理这类序列化决策问题。强化学习是解决该类问题的有效途径之一。提出了基于深度强化学习的智能股市操盘手模型ISTG（Intelligent Stock Trader and Gym）,融合历史行情数据、技术指标、宏观经济指标等多数据类型,分析评判标准和优秀控制策略,加工长周期数据,实现可增量扩展不同类型数据的复盘模型,自动计算回报标签,训练智能操盘手,并提出直接利用行情数据计算单步确定性动作值的方法。采用中国股市1400多支的有10年以上数据的股票进行多种对比实验,ISTG的总体收益达到13%,优于买入持有总体−7%的表现。相似文献

应用强化学习算法求解置换流水车间调度问题

张东阳叶春明《计算机系统应用》2019,28(12):195-199

面对日益增长的大规模调度问题,新型算法的开发越显重要.针对置换流水车间调度问题,提出了一种基于强化学习Q-Learning调度算法.通过引入状态变量和行为变量,将组合优化的排序问题转换成序贯决策问题,来解决置换流水车间调度问题.采用所提算法对OR-Library提供Flow-shop国际标准算例进行测试,并与已有的一些算法对比,结果表明算法的有效性. 相似文献

基于强化学习的动态频谱分配研究

杜江刘毅《数字通信》2012,39(4):34-38

首先介绍了认知无线电技术产生的背景,以及强化学习的发展和应用于认知领域的优势;接着对强化学习的基本原理及其2个常见的模型Q-Learning和POMDP作了介绍,并对其模型定义、思想、所要描述的问题和使用的场景都做了较详细的阐述;然后针对这个方向最近几年的顶级会议和期刊论文,分析了其主要内容;通过最近几年的学术、会议论文中所述的研究现状及成果,说明强化学习的主要特点是能够准确、快速学习到最优策略,能够模拟真实环境,自适应性强,提高频谱感知、分配效率,从而最大化系统吞吐量,这些优势充分证明了强化学习将是认知领域里一种很有前景的技术。相似文献

Q-Learning Based Interference-Aware Channel Handoff for Partially Observable Cognitive Radio Ad Hoc Networks

XU Ning ZHANG Huyin XU Fang WANG Zhiyong 《电子学报:英文版》2017,26(4)

Channel handoff is a crucial function for Cognitive radio ad hoc networks (CRAHNs). The ab-sence of centralized infrastructures and the limited power make the handoff design more challenging. A learning-based interference-aware handoff scheme is proposed for distributed CRAHNs. We model the channel handoff pro-cess as a Partially observable Markov decision process (POMDP) and adopt a Q-learning algorithm to find an optimal handoff strategy in a long term. The proposed algorithm obtains an efficient transmission performance by considering the interferences among SUs and PUs. To achieve PU awareness, the handoff scheme predicts the PU activities by using the historical channel usage statistics. In addition, we also propose a refined channel selection rule to compromise between learning speed and cumulative trans-mission reward. The simulation results show that the pro-posed handoff scheme can adapt to the PU activities and achieves a better performance in terms of high throughput and low collisions. And the learning process keeps a consid-erable balance between convergence time and cumulative reward. 相似文献

10.

Agent-based airline scheduling

J. J. Langerman E. M. Ehlers 《Computers & Industrial Engineering》1997,33(3-4):849-852

The development of an airline schedule can be defined as the art of developing system-wide flight patterns that deliver optimum service to the public in terms of quantity as well as quality. The development of the schedule is market driven with maintenance and crew requirements as constraints. This paper deals with an integrated agent-based approach for the airline scheduling problem. A bidding protocol is used to generate a market based schedule. FIFO and genetic algorithms are used to develop a crew schedule. An expert system combined with the Q-learning algorithm assist operational schedulers in resolving operational conflicts such as delays. 相似文献

1 [2] [3] [4] [5] 下一页 » 末页»