期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	221篇
免费	43篇
国内免费	62篇

专业分类

电工技术	25篇
综合类	30篇
机械仪表	9篇
建筑科学	1篇
矿业工程	1篇
能源动力	4篇
水利工程	1篇
武器工业	2篇
无线电	33篇
一般工业技术	8篇
冶金工业	1篇
自动化技术	211篇

出版年

2024年	7篇
2023年	12篇
2022年	28篇
2021年	25篇
2020年	25篇
2019年	11篇
2018年	7篇
2017年	11篇
2016年	8篇
2015年	10篇
2014年	15篇
2013年	13篇
2012年	15篇
2011年	21篇
2010年	15篇
2009年	17篇
2008年	19篇
2007年	12篇
2006年	11篇
2005年	7篇
2004年	4篇
2003年	6篇
2002年	7篇
2001年	4篇
2000年	1篇
1999年	4篇
1998年	5篇
1997年	2篇
1996年	2篇
1994年	2篇

排序方式： 共有326条查询结果，搜索用时 15 毫秒

[首页] « 上一页 [6] [7] [8] [9] [10] 11 [12] [13] [14] [15] [16] 下一页 » 末页»

101.

An approach to the pursuit problem on a heterogeneous multiagent system using reinforcement learning

Yuko Takamasa Yukinori 《Robotics and Autonomous Systems》2003,43(4):245-256

Cooperation among agents is important for multiagent systems having a shared goal. In this paper, an example of the pursuit problem is studied, in which four hunters collaborate to catch a target. A reinforcement learning algorithm is employed to model how the hunters acquire this cooperative behavior to achieve the task. In order to apply Q-learning, which is one way of reinforcement learning, two kinds of prediction are needed for each hunter agent. One is the location of the other hunter agents and target agent, and the other is the movement direction of the target agent at next time step t. In our treatment we extend the standard problem to systems with heterogeneous agents. One motivation for this is that the target agent and hunter agents have differing abilities. In addition, even though those hunter agents are homogeneous at the beginning of the problem, their abilities become heterogeneous in the learning process. Simulations of this pursuit problem were performed on a continuous action state space, the results of which are displayed, accompanied by a discussion of their outcomes’ dependence upon the initial locations of the hunters and the speeds of the hunters and a target. 相似文献

102.

基于改进深度Q学习的网络选择算法

马彬陈海波张超《电子与信息学报》2022,44(1):346-353

在引入休眠机制的超密集异构无线网络中,针对网络动态性增强,导致切换性能下降的问题,该文提出一种基于改进深度Q学习的网络选择算法.首先,根据网络的动态性分析,构建深度Q学习选网模型;其次,将深度Q学习选网模型中线下训练模块的训练样本与权值,通过迁移学习,将其迁移到线上决策模块中;最后,利用迁移的训练样本及权值加速训练神经... 相似文献

103.

融合有效方差置信上界的Q学习智能干扰决策算法

饶宁许华宋佰霖《哈尔滨工业大学学报》2022,54(5):162-170

为进一步提升基于值函数强化学习的智能干扰决策算法的收敛速度,增强战场决策的有效性,设计了一种融合有效方差置信上界思想的改进Q学习智能通信干扰决策算法.该算法在Q学习算法的框架基础上,利用有效干扰动作的价值方差设置置信区间,从干扰动作空间中剔除置信度较低的干扰动作,减少干扰方在未知环境中不必要的探索成本,加快其在干扰动作... 相似文献

104.

基于Q学习的供应链分销系统最优订货策略研究 总被引：2，自引：0，他引：2

李随成尹洪英《控制与决策》2005,20(12):1404-1407

研究由一个制造商和多个分销商组成的分销系统的最优订货策略问题.在外部顾客需求不断变化的情况下,以不断提高分销系统双方合作绩效为目标,基于Q学习算法来确定每个分销商的最优订货批量.实例结果表明,在外部需求不断变化的条件下,该算法能简便地解决供应链企业分销系统合作中的最优订货批量问题. 相似文献

105.

基于人工智能的BIM疏散设计自动化方法

下载免费PDF全文

梁裕卿吉久茂杨佳蕾张东升王珂王凌宇《图学学报》2021,42(2):299-306

针对目前建筑信息模型(BIM)消防疏散路径人工绘制的耗时问题,从提高设计效率出发,提出了一种基于深度Q学习(DQN)与A*结合的混合算法,并以此开发了一种基于该算法的BIM疏散自动设计工具.首先,房间疏散路径使用A*算法进行绘制;然后使用改进的DQN算法确定楼层疏散中疏散门至安全出口的路径再以A*算法绘制.在DQN算法... 相似文献

106.

Learning Sequences of Compatible Actions Among Agents

Faruk Polat Osman Abul 《Artificial Intelligence Review》2002,17(1):21-37

Action coordination in multiagent systemsis a difficult task especially in dynamicenvironments. If the environment possessescooperation, least communication,incompatibility and local informationconstraints, the task becomes even moredifficult. Learning compatible action sequencesto achieve a designated goal under theseconstraints is studied in this work. Two newmultiagent learning algorithms called QACE andNoCommQACE are developed. To improve theperformance of the QACE and NoCommQACEalgorithms four heuristics, stateiteration, means-ends analysis, decreasing reward and do-nothing, aredeveloped. The proposed algorithms are testedon the blocks world domain and the performanceresults are reported. 相似文献

107.

一个基于Agent的轿车市场自动协商模型

秦子鹰周南赵冬梅《微计算机信息》2007,23(24):137-138,88

该文提出了一个针对轿车市场中交易协商的双边多议题自动协商模型，该模型具有如下特点：用基于效用的相似度比较法实现Agent智能搜索；模型采用学习机制包括历史学习和Q-学习，历史学习机制用于Agent协商前初始信念的创建，对Agent在协商中策略的选择、执行具有指导作用。Q-学习机制用于生成协商提议，使得Agent能够在半竞争、信息不完全和不确定以及存在最大协商时间的情况下，更为有效地完成多议题协商。相似文献

108.

基于增强学习的空空导弹智能精确制导律研究 总被引：1，自引：0，他引：1

卢超群江加和任章《战术导弹技术》2006,(4):19-22

根据现代战争的对抗格局,提出了空空导弹拦截高速大机动目标的智能制导律.这种制导律是采用基于Q-learning算法的.Q-learning的思想是直接优化一个可迭代计算的Q函数,并利用增强学习实现知识的自动获取,来扩展所能得到的知识资源.在Q-learning算法中,系统通过计算状态的值函数或者状态-动作对的值函数来控制导弹的飞行.根据环境的评价性回报函数来实现决策的优化,从而能够达到行为优化.这种制导规律只需要导弹和目标的位置、状态变量和法向过载的测量量,易于弹上实时实现,并且将这种制导律和传统制导相比较.结果表明:这种制导具有一定的智能行为,可以拦截大机动目标.这种智能制导方法有利于提高打击精度和载机的作战生存能力. 相似文献

109.

一种井下RFID定位系统的读卡器防碰撞算法 总被引：4，自引：0，他引：4

胡圣波郑志平《工矿自动化》2006,(2):4-7

随着技术的进步,RFID(射频识别)已在煤矿井下的动目标定位中得到了应用。由于频率资源有限,读卡器之间往往存在频率干扰,将导致RFID定位系统出现读卡器碰撞的问题。文章分析了读卡器碰撞的两种情形,提出了基于Q学习的仿碰撞算法,并进行了仿真测试。测试结果表明,读卡器碰撞问题得到了有效的控制,该防碰撞算法是有效、可行的。相似文献

110.

基于GRU和LSTM组合模型的车联网信道分配方法

王磊王永华何一汕伍文韬《电讯技术》2024,64(2):273-280

针对车联网中高通信需求和高移动性造成的车对车链路(Vehicle to Vehicle, V2V)间的信道冲突及网络效用低下的问题,提出了一种基于并联门控循环单元(Gated Recurrent Unit, GRU)和长短期记忆网络(Long Short-Term Memory, LSTM)的组合模型的车联网信道分配算法。算法以降低V2V链路信道碰撞率和空闲率为目标,将信道分配问题建模为分布式深度强化学习问题,使每条V2V链路作为单个智能体,并通过最大化每回合平均奖励的方式进行集中训练、分布式执行。在训练过程中借助GRU训练周期短和LSTM拟合精度高的组合优势去拟合深度双重Q学习中Q函数,使V2V链路能快速地学习优化信道分配策略,合理地复用车对基础设施(Vehicle to Infrastructure, V2I)链路的信道资源,实现网络效用最大化。仿真结果表明,与单纯使用GRU或者LSTM网络模型的分配算法相比,该算法在收敛速度方面加快了5个训练回合,V2V链路间的信道碰撞率和空闲率降低了约27%,平均成功率提升了约10%。相似文献

[首页] « 上一页 [6] [7] [8] [9] [10] 11 [12] [13] [14] [15] [16] 下一页 » 末页»