首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   221篇
  免费   43篇
  国内免费   62篇
电工技术   25篇
综合类   30篇
机械仪表   9篇
建筑科学   1篇
矿业工程   1篇
能源动力   4篇
水利工程   1篇
武器工业   2篇
无线电   33篇
一般工业技术   8篇
冶金工业   1篇
自动化技术   211篇
  2024年   7篇
  2023年   12篇
  2022年   28篇
  2021年   25篇
  2020年   25篇
  2019年   11篇
  2018年   7篇
  2017年   11篇
  2016年   8篇
  2015年   10篇
  2014年   15篇
  2013年   13篇
  2012年   15篇
  2011年   21篇
  2010年   15篇
  2009年   17篇
  2008年   19篇
  2007年   12篇
  2006年   11篇
  2005年   7篇
  2004年   4篇
  2003年   6篇
  2002年   7篇
  2001年   4篇
  2000年   1篇
  1999年   4篇
  1998年   5篇
  1997年   2篇
  1996年   2篇
  1994年   2篇
排序方式: 共有326条查询结果,搜索用时 15 毫秒
101.
Cooperation among agents is important for multiagent systems having a shared goal. In this paper, an example of the pursuit problem is studied, in which four hunters collaborate to catch a target. A reinforcement learning algorithm is employed to model how the hunters acquire this cooperative behavior to achieve the task. In order to apply Q-learning, which is one way of reinforcement learning, two kinds of prediction are needed for each hunter agent. One is the location of the other hunter agents and target agent, and the other is the movement direction of the target agent at next time step t. In our treatment we extend the standard problem to systems with heterogeneous agents. One motivation for this is that the target agent and hunter agents have differing abilities. In addition, even though those hunter agents are homogeneous at the beginning of the problem, their abilities become heterogeneous in the learning process. Simulations of this pursuit problem were performed on a continuous action state space, the results of which are displayed, accompanied by a discussion of their outcomes’ dependence upon the initial locations of the hunters and the speeds of the hunters and a target.  相似文献   
102.
在引入休眠机制的超密集异构无线网络中,针对网络动态性增强,导致切换性能下降的问题,该文提出一种基于改进深度Q学习的网络选择算法.首先,根据网络的动态性分析,构建深度Q学习选网模型;其次,将深度Q学习选网模型中线下训练模块的训练样本与权值,通过迁移学习,将其迁移到线上决策模块中;最后,利用迁移的训练样本及权值加速训练神经...  相似文献   
103.
为进一步提升基于值函数强化学习的智能干扰决策算法的收敛速度,增强战场决策的有效性,设计了一种融合有效方差置信上界思想的改进Q学习智能通信干扰决策算法.该算法在Q学习算法的框架基础上,利用有效干扰动作的价值方差设置置信区间,从干扰动作空间中剔除置信度较低的干扰动作,减少干扰方在未知环境中不必要的探索成本,加快其在干扰动作...  相似文献   
104.
基于Q学习的供应链分销系统最优订货策略研究   总被引:2,自引:0,他引:2  
李随成  尹洪英 《控制与决策》2005,20(12):1404-1407
研究由一个制造商和多个分销商组成的分销系统的最优订货策略问题.在外部顾客需求不断变化的情况下,以不断提高分销系统双方合作绩效为目标,基于Q学习算法来确定每个分销商的最优订货批量.实例结果表明,在外部需求不断变化的条件下,该算法能简便地解决供应链企业分销系统合作中的最优订货批量问题.  相似文献   
105.
针对目前建筑信息模型(BIM)消防疏散路径人工绘制的耗时问题,从提高设计效率出发,提出了一种基于深度Q学习(DQN)与A*结合的混合算法,并以此开发了一种基于该算法的BIM疏散自动设计工具.首先,房间疏散路径使用A*算法进行绘制;然后使用改进的DQN算法确定楼层疏散中疏散门至安全出口的路径再以A*算法绘制.在DQN算法...  相似文献   
106.
Action coordination in multiagent systemsis a difficult task especially in dynamicenvironments. If the environment possessescooperation, least communication,incompatibility and local informationconstraints, the task becomes even moredifficult. Learning compatible action sequencesto achieve a designated goal under theseconstraints is studied in this work. Two newmultiagent learning algorithms called QACE andNoCommQACE are developed. To improve theperformance of the QACE and NoCommQACEalgorithms four heuristics, stateiteration, means-ends analysis, decreasing reward and do-nothing, aredeveloped. The proposed algorithms are testedon the blocks world domain and the performanceresults are reported.  相似文献   
107.
秦子鹰  周南  赵冬梅 《微计算机信息》2007,23(24):137-138,88
该文提出了一个针对轿车市场中交易协商的双边多议题自动协商模型,该模型具有如下特点:用基于效用的相似度比较法实现Agent智能搜索;模型采用学习机制包括历史学习和Q-学习,历史学习机制用于Agent协商前初始信念的创建,对Agent在协商中策略的选择、执行具有指导作用。Q-学习机制用于生成协商提议,使得Agent能够在半竞争、信息不完全和不确定以及存在最大协商时间的情况下,更为有效地完成多议题协商。  相似文献   
108.
基于增强学习的空空导弹智能精确制导律研究   总被引:1,自引:0,他引:1  
根据现代战争的对抗格局,提出了空空导弹拦截高速大机动目标的智能制导律.这种制导律是采用基于Q-learning算法的.Q-learning的思想是直接优化一个可迭代计算的Q函数,并利用增强学习实现知识的自动获取,来扩展所能得到的知识资源.在Q-learning算法中,系统通过计算状态的值函数或者状态-动作对的值函数来控制导弹的飞行.根据环境的评价性回报函数来实现决策的优化,从而能够达到行为优化.这种制导规律只需要导弹和目标的位置、状态变量和法向过载的测量量,易于弹上实时实现,并且将这种制导律和传统制导相比较.结果表明:这种制导具有一定的智能行为,可以拦截大机动目标.这种智能制导方法有利于提高打击精度和载机的作战生存能力.  相似文献   
109.
一种井下RFID定位系统的读卡器防碰撞算法   总被引:4,自引:0,他引:4  
随着技术的进步,RFID(射频识别)已在煤矿井下的动目标定位中得到了应用。由于频率资源有限,读卡器之间往往存在频率干扰,将导致RFID定位系统出现读卡器碰撞的问题。文章分析了读卡器碰撞的两种情形,提出了基于Q学习的仿碰撞算法,并进行了仿真测试。测试结果表明,读卡器碰撞问题得到了有效的控制,该防碰撞算法是有效、可行的。  相似文献   
110.
针对车联网中高通信需求和高移动性造成的车对车链路(Vehicle to Vehicle, V2V)间的信道冲突及网络效用低下的问题,提出了一种基于并联门控循环单元(Gated Recurrent Unit, GRU)和长短期记忆网络(Long Short-Term Memory, LSTM)的组合模型的车联网信道分配算法。算法以降低V2V链路信道碰撞率和空闲率为目标,将信道分配问题建模为分布式深度强化学习问题,使每条V2V链路作为单个智能体,并通过最大化每回合平均奖励的方式进行集中训练、分布式执行。在训练过程中借助GRU训练周期短和LSTM拟合精度高的组合优势去拟合深度双重Q学习中Q函数,使V2V链路能快速地学习优化信道分配策略,合理地复用车对基础设施(Vehicle to Infrastructure, V2I)链路的信道资源,实现网络效用最大化。仿真结果表明,与单纯使用GRU或者LSTM网络模型的分配算法相比,该算法在收敛速度方面加快了5个训练回合,V2V链路间的信道碰撞率和空闲率降低了约27%,平均成功率提升了约10%。  相似文献   
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号