期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

卢春江翁一武陈启梅《计算机仿真》2007,24(1):238-241

碳酸熔融盐燃料电池热力特性的研究对改善电池性能和提高电池寿命起着至关重要的作用.重点分析了电池工作电流对电池热力特性的影响.基于Matlab/Simulink的仿真环境,分析了燃料电池的工作过程,由能量和物质守恒对电极-电解质、燃料流、氧化剂流和隔板的热力特性进行研究并建立MCFC温度和电流的仿真模型.仿真结果表明燃料电池内部各点的温度分布和电流分布都存在较大的差异,随着燃料和氧化剂流量的增加,电极-电解质的温度和电流显著增加,工作电流对电池的热力特性有显著的影响.计算中的有关数据来自上海交通大学燃料电池研究所1.5kW级熔融碳酸盐燃料电池. 相似文献

2.

基于粒子群优化和深度强化学习的策略搜索方法

彭坤彦尹翔刘笑竹李恒宇《计算机工程与科学》2023,(4):718-725

深度强化学习DRL算法是一种常用的策略搜索方法，已成功应用于一系列具有挑战性的控制任务。但是，由于DRL难以应对奖励稀疏问题，缺乏有效的探索以及对超参数具有极其敏感的脆弱收敛性，使其难以应用于大规模实际问题。粒子群优化算法PSO是一种进化优化算法，它使用整个episode的累积回报作为适应性值，对奖励稀疏的环境不敏感，且该算法也具有基于种群的多样化探索以及稳定的收敛性，但样本效率低。因此，提出了PSO-RL算法，结合PSO和基于策略梯度的离策略DRL算法，DRL通过PSO种群提供的多种数据来训练种群中累积奖励最低的几个策略，并且每次都将训练后累积奖励得到提升的策略插入PSO种群，增强DRL与PSO之间的信息交流。PSO-RL算法能够提升PSO的样本效率，而且能够改善DRL算法的性能和稳定性。在pybullet模块具有挑战性的连续控制任务中的实验结果表明，PSO-RL的性能不仅优于DRL的，且优于进化强化学习算法的。相似文献

3.

面向频谱接入深度强化学习模型的后门攻击方法

魏楠魏祥麟范建华薛羽胡永扬《计算机科学》2023,(1):351-361

深度强化学习(Deep Reinforcement Learning, DRL)方法以其在智能体感知和决策方面的优势,在多用户智能动态频谱接入问题上得到广泛关注。然而,深度神经网络的弱可解释性使得DRL模型容易受到后门攻击威胁。针对认知无线网络下基于深度强化学习模型的动态频谱接入(Dynamic Spectrum Access, DSA)场景,提出了一种非侵入、开销低的后门攻击方法。攻击者通过监听信道使用情况来选择非侵入的后门触发器,随后将后门样本添加到次用户的DRL模型训练池,并在训练阶段将后门植入DRL模型中;在推理阶段,攻击者主动发送信号激活模型中的触发器,使次用户做出目标动作,降低次用户的信道接入成功率。仿真结果表明,所提后门攻击方法能够在不同规模的DSA场景下达到90%以上的攻击成功率,相比持续攻击可以减少20%～30%的攻击开销,并适用于3种不同类型的DRL模型。相似文献

4.

燃料电池汽车最优氢耗马尔科夫决策控制

付江涛付主木宋书中《控制理论与应用》2021,38(8):1219-1228

本文基于马尔科夫决策过程提出一种燃料电池汽车最优等效氢燃料消耗控制策略.控制策略以部分观测量为基础,以马尔科夫转移概率矩阵为条件,采用基于蒙特卡洛马尔科夫(MCMC)算法的Metropolis-Hastings采样方法,获得平均奖励输出,进而通过最优氢燃料消耗代价函数的优化以控制在氢燃料电池系统和动力电池系统间进行能量分配.该策略避免了目前燃料电池汽车控制策略过度依赖未来需求功率的预测以及预测模型的准确性.在建立燃料电池汽车动力模型,燃料电池系统和动力电池系统模型的基础上,进行了包含自学习系统、基于MH采样的平均奖励过滤系统以及控制选择输出系统的控制策略设计.通过仿真和实验结果表明基于马尔科夫决策控制策略的有效性. 相似文献

5.

“老鼠”燃料电池

库洛洛《微型计算机》2010,(29):14-14

伟大的小白鼠又立功了,这次它们献身于生物燃料电池的实验。事情的真相是,法国的一些研究人员通过小鼠实验制造了一种以老鼠血液为介质的燃料电池。听起来好像很恐怖,其实就是以葡萄糖为燃料的电池,虽然此前也有类似的以葡萄糖为燃料的电池,但基本都失败了,这次的“老鼠”燃料电池是真正能够稳定工作的。相似文献

6.

NEC便携燃料电池取得进展

木木《微电脑世界》2006,(11)

NEC公司在2006年8月30日于日本举办的“拉开便携终端燃料电池的序幕”研讨会上,通过演讲宣布了其便携型燃料电池的开发进展情况。(便携型燃料电池主要针对各类移动数码设备,有望成为移动设备的下一代主流供电技术)。据悉,NEC目前研发的燃料电相似文献

7.

基于FPGA的深度强化学习硬件加速技术研究

下载免费PDF全文

凤雷王宾涛刘冰李喜鹏《计算机测量与控制》2022,30(6):242-247

深度强化学习(Deep Reinforcement Learning, DRL)是机器学习领域的一个重要分支,用于解决各种序贯决策问题,在自动驾驶、工业物联网等领域具有广泛的应用前景。由于DRL具备计算密集型的特点,导致其难以在计算资源受限且功耗要求苛刻的嵌入式平台上进行部署。针对DRL在嵌入式平台上部署的局限性,采用软硬件协同设计的方法,设计了一种面向DRL的FPGA加速器,提出了一种设计空间探索方法,在ZYNQ7100异构计算平台上完成了对Cartpole应用的在线决策任务。实验结果表明,研究在进行典型DRL算法训练时的计算速度和运行功耗相对于CPU和GPU平台具有明显的优势,相比于CPU实现了12.03的加速比,相比于GPU实现了28.08的加速比,运行功耗仅有7.748W,满足了深度强化学习在嵌入式领域的在线决策任务。相似文献

8.

数字热词

《电脑爱好者》2007,(2)

燃料电池2006年3月,我们看到东芝燃料电池原型机正式发布。时隔不到一年,三星Q35笔记本电脑的燃料电池也正式发布了。这个可装载1公升甲醇的燃料电池,可为笔记本电脑供电160小时。如果每周用5次,每次用8小时,将可以使用将近一个月。这款燃料电池输出最大功率为20瓦。此外,三星还发布了一种容量约100cc小容量燃料电池,每次可使用15小时。相似文献

9.

基于深度强化学习的无信号灯路口决策研究

傅明建郭福强《计算机工程》2024,(5):91-99

无信号灯左转路口是自动驾驶场景中最为危险的场景之一,如何实现高效安全的左转决策是自动驾驶领域的重大难题。深度强化学习(DRL)算法在自动驾驶决策领域具有广阔应用前景。但是,深度强化学习在自动驾驶场景中存在样本效率低、奖励函数设计困难等问题。提出一种基于专家先验的深度强化学习算法(CBAMBC SAC)来解决上述问题。首先,利用SMARTS仿真平台获得专家先验知识;然后,使用通道-空间注意力机制(CBAM)改进行为克隆(BC)方法,在专家先验知识的基础上预训练模仿专家策略;最后,使用模仿专家策略指导深度强化学习算法的学习过程,并在无信号灯路口左转决策中进行验证。实验结果表明,基于专家先验的DRL算法比传统的DRL算法更具优势,不仅可以免去人为设置奖励函数的工作量,而且可以显著提高样本效率从而获得更优性能。在无信号灯路口左转场景下,CBAM-BC SAC算法与传统DRL算法(SAC)、基于传统行为克隆的DRL算法(BC SAC)相比,平均通行成功率分别提高了14.2和2.2个百分点。相似文献

10.

基于路径规划和深度强化学习的机器人避障导航研究

康振兴《计算机应用与软件》2024,(1):297-303

针对移动机器人的长距离避障导航问题,提出结合深度强化学习(Deep Reinforcement Learning, DRL)和路径规划(Path Planning, PL)的避障导航算法。该方法通过快速扩展随机树(Rapidly Exploring Random Tree, RRT)算法在长距离的路径上进行规划,根据生成的路径节点,将长距离路径划分为若干短距离,而在短距离的导航问题上利用深度强化学习的算法,训练一个具有环境感知和智能决策能力的端到端避障导航模型。仿真实验表明,相较于仅用DRL的避障导航,该方法使移动机器人的长距离避障导航性能有了大幅度提升,解决了DRL在长距离避障导航任务上的局限性问题。相似文献

11.

一种基于梯度的多智能体元深度强化学习算法

赵春宇赖俊陈希亮张人文《计算机应用研究》2024,41(5)

多智能体系统在自动驾驶、智能物流、医疗协同等多个领域中广泛应用,然而由于技术进步和系统需求的增加,这些系统面临着规模庞大、复杂度高等挑战,常出现训练效率低和适应能力差等问题。为了解决这些问题,将基于梯度的元学习方法扩展到多智能体深度强化学习中,提出一种名为多智能体一阶元近端策略优化（MAMPPO）方法,用于学习多智能体系统的初始模型参数,从而为提高多智能体深度强化学习的性能提供新的视角。该方法充分利用多智能体强化学习过程中的经验数据,通过反复适应找到在梯度下降方向上最敏感的参数并学习初始参数,使模型训练从最佳起点开始,有效提高了联合策略的决策效率,显著加快了策略变化的速度,面对新情况的适应速度显著加快。在星际争霸II上的实验结果表明,MAMPPO方法显著提高了训练速度和适应能力,为后续提高多智能强化学习的训练效率和适应能力提供了一种新的解决方法。相似文献

12.

基于深度强化学习的机器人操作行为研究综述

陈佳盼郑敏华《机器人》2022,44(2):236-256

通过梳理、总结前人的研究,首先对深度学习和强化学习的基本理论和算法进行介绍,进而对深度强化学习的流行算法和在机器人操作领域的应用现状进行综述。最后,根据目前存在的问题及解决方法,对深度强化学习在机器人操作领域未来的发展方向作出总结与展望。相似文献

13.

利用优先级双重深度强化学习的自适应Web服务组合方法

下载免费PDF全文

张鑫雯《计算机测量与控制》2022,30(5):197-202

针对大规模Web服务组合在动态环境下难以实现高可靠性、高动态适应能力的问题,提出一种结合优先级双重强化学习和POMDP的自适应Web服务组合方法。首先,采用POMDP对大规模Web服务组合优化策略进行建模,简化了组合优化分析的步骤,提高了大规模Web组合服务的效率;然后,在POMDP基础上,利用双重深度强化学习方法对优化策略进行分层重构,并求取最优解,提高了组合服务对动态服务环境的适应能力;实验结果表明,与现有优秀方法相比,所提方法在可靠性、效率和动态环境适应能力方面均有显著提升。相似文献

14.

记忆增强型深度强化学习研究综述

汪晨曾凡玉郭九霞《小型微型计算机系统》2021,(3):454-461

近年来,深度强化学习的取得了飞速发展,为了提高深度强化学习处理高维状态空间或动态复杂环境的能力,研究者将记忆增强型神经网络引入到深度强化学习,并提出了不同的记忆增强型深度强化学习算法,记忆增强型深度强化学习已成为当前的研究热点.本文根据记忆增强型神经网络类型,将记忆增强型深度强化学习分为了4类:基于经验回放的深度强化学习、基于记忆网络的深度强化学习算法、基于情景记忆的深度强化学习算法、基于可微分计算机的深度强化学习.同时,系统性地总结和分析了记忆增强型深度强化学习的一系列研究成果存在的优势和不足.另外,给出了深度强化学习常用的训练环境.最后,对记忆增强型深度强化学习进行了展望,指出了未来研究方向. 相似文献

15.

基于DRL的综合能源系统优化运行研究

下载免费PDF全文

周楠梁馨予于向华秦彦玮孙斌陈俊徐烨《电力大数据》2023,26(6):49-57

发展以电网为核心,电、热、气多能互补、协同供能的综合能源系统是落实“双碳”的重要手段,但是电-热-气联合运行的综合能源系统存在的经济性问题和稳定性问题有待解决。本文致力于采用机器学习算法在兼顾运行稳定性的情况下解决电-热-气联合运行系统的经济性问题。首先,本文对包含储能和电转气装置的综合能源系统进行建模,结合优化运行问题优化目标-约束条件的一般框架,在约束条件中考虑功率平衡、各机组出力限制、爬坡率限制和容量限制因素;然后,本文设计了基于DRL的电-热-气联合系统优化运行问题求解策略,算法结合了强化学习策略选择的优势和深度学习环境模拟的优势,在算法设计中详细考虑动作空间、回报函数、状态空间、DRL算法、DRL网络五大模块;最后,本文设计了4个算例,结合电-热-气联合系统典型日运行条件,验证了采用电-热-气联合运行供能模式可以有效实现多能互补降低用能成本,并且本文设计的DRL方法可以有效求解电-热-气联合系统的优化运行问题。相似文献

16.

基于深度强化学习的网络攻击路径规划方法

下载免费PDF全文

高文龙周天阳赵子恒朱俊虎《信息安全学报》2022,7(5):65-78

攻击路径规划对实现自动化渗透测试具有重要意义,在现实环境中攻击者很难获取全面准确的网络及配置信息,面向未知渗透测试环境下的攻击路径规划,提出了基于深度强化学习的攻击路径规划方法。首先,对渗透测试问题的状态空间和动作空间进行形式化描述,引入信息收集动作增强对环境的感知能力。然后,智能体通过与环境的自主交互进行学习,寻找最大化长期收益的最优策略,从而指导攻击者进行路径规划。当前深度强化学习算法应用于攻击路径规划存在适应性不强和收敛困难等问题,限制了其处理复杂渗透测试环境的能力。智能体在训练初期通过盲目探索得到的动作序列在维度迅速增长时质量会急剧下降,有时很难完成目标,而且低质量的动作序列大量积累会导致算法不收敛甚至神经元死亡。针对此问题,本文提出的深度强化学习算法在DDQN算法的基础上增加了路径启发信息和深度优先渗透的动作选择策略。路径启发信息充分利用历史经验,在训练初期对智能体的学习过程加以引导,深度优先渗透的动作选择策略在一定程度上对动作空间进行了剪枝,加速智能体的学习过程。最后,通过与其他深度强化学习算法在相同实验条件下的对比,验证了本文算法收敛速度更快,运行时间缩短30%以上。相似文献

17.

结合深度强化学习的区块链分片系统性能优化

下载免费PDF全文

温建伟姚冰冰万剑雄李雷孝《计算机工程与应用》2022,58(19):116-123

提高区块链系统吞吐量是广泛应用区块链的关键问题之一。针对以上问题,将分片技术应用到区块链系统中,通过使区块链并行处理事务提高区块链的吞吐量。将区块链分片选择问题建立为马尔科夫决策过程（Markov decision process,MDP）,并设计了基于深度强化学习（deep reinforcement learning,DRL）的区块链分片最优选择策略（branching dueling Q-network shard-based blockchain,BDQSB）。所采用的BDQSB算法克服了传统DRL算法行为空间维度高、神经网络难以训练的缺点。仿真实验结果表明,所提出的方法可以有效降低行为空间维度,提高区块链处理事务的吞吐量和可扩展性。相似文献

18.

Multi-label fault recognition framework using deep reinforcement learning and curriculum learning mechanism

《Advanced Engineering Informatics》2022

In the actual working site, the equipment often works in different working conditions while the manufacturing system is rather complicated. However, traditional multi-label learning methods need to use the pre-defined label sequence or synchronously predict all labels of the input sample in the fault diagnosis domain. Deep reinforcement learning (DRL) combines the perception ability of deep learning and the decision-making ability of reinforcement learning. Moreover, the curriculum learning mechanism follows the learning approach of humans from easy to complex. Consequently, an improved proximal policy optimization (PPO) method, which is a typical algorithm in DRL, is proposed as a novel method on multi-label classification in this paper. The improved PPO method could build a relationship between several predicted labels of input sample because of designing an action history vector, which encodes all history actions selected by the agent at current time step. In two rolling bearing experiments, the diagnostic results demonstrate that the proposed method provides a higher accuracy than traditional multi-label methods on fault recognition under complicated working conditions. Besides, the proposed method could distinguish the multiple labels of input samples following the curriculum mechanism from easy to complex, compared with the same network using the pre-defined label sequence. 相似文献

19.

结构交互驱动的机器人深度强化学习控制方法

余超董银昭郭宪冯旸赫卓汉逵张强《软件学报》2023,34(4):1749-1764

针对深度强化学习在高维机器人行为控制中训练效率低下和策略不可解释等问题,提出一种基于结构交互驱动的机器人深度强化学习方法(structure-motivated interactive deep reinforcement learning, SMILE).首先,利用结构分解方法将高维的单机器人控制问题转化为低维的多关节控制器协同学习问题,从而缓解连续运动控制的维度灾难难题;其次,通过两种协同图模型(ATTENTION和PODT)动态推理控制器之间的关联关系,实现机器人内部关节的信息交互和协同学习;最后,为了平衡ATTENTION和PODT协同图模型的计算复杂度和信息冗余度,进一步提出两种协同图模型更新方法 APDODT和PATTENTION,实现控制器之间长期关联关系和短期关联关系的动态自适应调整.实验结果表明,基于结构驱动的机器人强化学习方法能显著提升机器人控制策略学习效率.此外,基于协同图模型的关系推理及协同机制,可为最终学习策略提供更为直观和有效的解释. 相似文献

20.

基于双重注意力机制的异步优势行动者评论家算法

凌兴宏李杰朱斐刘全伏玉琛《计算机学报》2020,43(1):93-106

深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和图像特征.针对上述问题,本文提出了一种基于双重注意力机制的异步优势行动者评论家算法.新算法利用特征注意力机制和视觉注意力机制来改进传统的异步深度强化学习模型.其中,特征注意力机制为卷积神经网络卷积后的所有特征图设置不同的权重,使得智能体聚焦于重要的图像特征;同时,视觉注意力机制为图像不同区域设置权重参数,权重高的区域表示该区域信息对智能体后续的策略学习有重要价值,帮助智能体更高效地学习到最优策略.新算法引入双重注意力机制,从表层和深层两个角度对图像进行编码表征,帮助智能体将聚焦点集中在重要的图像区域和图像特征上.最后,通过Atari 2600部分经典实验验证了基于双重注意力机制的异步优势行动者评论家算法的有效性. 相似文献