排序方式: 共有20条查询结果,搜索用时 15 毫秒
1.
策略蒸馏是一种将知识从一个策略转移到另一个策略的方法,在具有挑战性的强化学习任务中获得了巨大的成功。典型的策略蒸馏方法采用的是师生策略模型,即知识从拥有优秀经验数据的教师策略迁移到学生策略。获得一个教师策略需要耗费大量的计算资源,因此双策略蒸馏框架(Dual Policy Distillation, DPD)被提出,其不再依赖于教师策略,而是维护两个学生策略互相进行知识迁移。然而,若其中一个学生策略无法通过自我学习超越另一个学生策略,或者两个学生策略在蒸馏后趋于一致,则结合DPD的深度强化学习算法会退化为单一策略的梯度优化方法。针对上述问题,给出了学生策略之间相似度的概念,并提出了基于相似度约束的双策略蒸馏框架(Similarity Constrained Dual Policy Distillation, SCDPD)。该框架在知识迁移的过程中,动态地调整两个学生策略间的相似度,从理论上证明了其能够有效提升学生策略的探索性以及算法的稳定性。实验结果表明,将SCDPD与经典的异策略和同策略深度强化学习算法结合的SCDPD-SAC算法和SCDPD-PPO算法,在多个连续控制任务上,相比经... 相似文献
2.
为了提高钢渣和矿渣的高附加值利用率以及钢渣在胶凝材料中的掺量,研究了钢渣与矿渣掺量、质量比和胶凝活性激发方式对复合胶凝材料抗折、抗压强度的影响,并采用X射线衍射、扫描电镜和热重分析等检测手段探究了钢渣—矿渣复合胶凝材料的水化机理。结果表明:钢渣矿渣掺量为80%、钢渣矿渣质量比为5∶5、钢渣粉磨时间为80 min(比表面积为509 m2/kg)时,钢渣—矿渣复合胶凝材料的28 d抗折强度为7.3 MPa、抗压强度为31.3MPa;选取Na OH、Na2CO3、Na2SO4和水玻璃为激发剂对胶凝材料活性进行激发,只有水玻璃提高了复合胶凝材料的活性,且当水玻璃模数为2、Na2O当量为4%时,其28 d抗折强度为8.4 MPa、抗压强度为43.0 MPa。分析水玻璃激发胶凝材料的水化产物发现:其微观形貌紧实致密,生成的C—S—H凝胶、Ca(OH)2和Aft相互交织,提高了胶凝材料的强度。 相似文献
3.
1.1可吸入颗粒物PM10、PM2.5(Particle matter)的控制
空气中微细粒子的浓度与人们的患病率密切相关,导致城市人口患病率和死亡率增加的主要原因是空气中悬浮颗粒物中的微细粒子的浓度,而并非空气中悬浮颗粒物的总量。细颗粒是导致心血管和呼吸疾病的主要原因,对人体健康产生严重危害。 相似文献
4.
5.
6.
GMC系列袋除尘器在水泥厂的使用措施与对策 总被引:1,自引:0,他引:1
介绍了GMC脉喷型袋除尘器的工作原理和技术特点,同时分析了水泥生产过程中烘干设备、立窑、回转窑窑尾和篦冷机等扬尘点的高温烟气特点。在此基础上,着重介绍不同工况条件下使用GMC系列高温脉喷型袋除尘器所采取的措施与对策.以正确引导高温喷吹型袋除尘器的设计选型和使用。 相似文献
7.
窑尾除尘器"电改袋"方案分析 总被引:1,自引:0,他引:1
随着新型干法水泥技术的飞速发展,上世纪建设的2 000t/d以下水泥生产线普遍面临着技术改造,改造后烧成系统的产量会大幅度提高.原配套的窑尾除尘器无论从处理能力还是除尘效率都已不能满足要求,也必须进行改造或更换. 相似文献
8.
袋除尘器系统的性能与其控制系统密切相关,测量参数的选择、传感器的选型直接影响控制系统的性能。详细介绍了大型袋除尘器中各类检测仪表(包括温度,压力,位置,速度,排放浓度)的选型要点,应用注意事项及检测数据在控制系统中的作用。在不同参数、多种相关变量发生变化时,运用先进模糊识别运算功能的袋收尘器控制系统,可实现智能化专家控制。 相似文献
9.
本文选用了两种不同温度的坯料进行模拟分析,温度分别是915℃、935℃。TC11钛合金叶片压制采用等温锻工艺,可有效消除叶片内的冷模组织,显著提高叶片内温度分布均匀性。模拟结果显示,两种温度坯料均满足等温锻工艺要求。但是坯料温度较低时,成形完整时需要较大成形载荷,模具磨损也更明显。坯料最高温度不能超过935℃,最佳区间为925℃~935℃。其中坯料温度为935℃对于降低成形载荷更加有利。 相似文献
10.
近年来, 深度强化学习在复杂控制任务中取得了令人瞩目的效果, 然而由于超参数的高敏感性和收敛性难以保证等原因, 严重影响了其对现实问题的适用性. 元启发式算法作为一类模拟自然界客观规律的黑盒优化方法, 虽然能够有效避免超参数的敏感性, 但仍存在无法适应待优化参数量规模巨大和样本使用效率低等问题. 针对以上问题, 提出融合引力搜索的双延迟深度确定策略梯度方法(twin delayed deep deterministic policy gradient based on gravitational search algorithm, GSA-TD3). 该方法融合两类算法的优势: 一是凭借梯度优化的方式更新策略, 获得更高的样本效率和更快的学习速度; 二是将基于万有引力定律的种群更新方法引入到策略搜索过程中, 使其具有更强的探索性和更好的稳定性. 将GSA-TD3应用于一系列复杂控制任务中, 实验表明, 与前沿的同类深度强化学习方法相比, GSA-TD3在性能上具有显著的优势. 相似文献