首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
本文针对多智能体强化学习中存在的通信和计算资源消耗大等问题,提出了一种基于事件驱动的多智能体强化学习算法,侧重于事件驱动在多智能体学习策略层方面的研究。在智能体与环境的交互过程中,算法基于事件驱动的思想,根据智能体观测信息的变化率设计触发函数,使学习过程中的通信和学习时机无需实时或按周期地进行,故在相同时间内可以降低数据传输和计算次数。另外,分析了该算法的计算资源消耗,以及对算法收敛性进行了论证。最后,仿真实验说明了该算法可以在学习过程中减少一定的通信次数和策略遍历次数,进而缓解了通信和计算资源消耗。  相似文献   

2.
分析了人类对暖通空调系统的要求,介绍了暖通空调控制的现状,提出了一种新的基于人体热舒适性指标PMV的暖通空调控制器,该控制器能满足人类对暖通空调系统健康、舒适和节能的要求,是一种理想的暖通空调控制器。  相似文献   

3.
徐鹏  谢广明      文家燕    高远 《智能系统学报》2019,14(1):93-98
针对经典强化学习的多智能体编队存在通信和计算资源消耗大的问题,本文引入事件驱动控制机制,智能体的动作决策无须按固定周期进行,而依赖于事件驱动条件更新智能体动作。在设计事件驱动条件时,不仅考虑智能体的累积奖赏值,还引入智能体与邻居奖赏值的偏差,智能体间通过交互来寻求最优联合策略实现编队。数值仿真结果表明,基于事件驱动的强化学习多智能体编队控制算法,在保证系统性能的情况下,能有效降低多智能体的动作决策频率和资源消耗。  相似文献   

4.
强化学习方法在近年来被逐渐尝试应用于工程控制之中,并且展示出其强大的控制能力和潜力。强化学习算法虽然具有较好的控制性能,但是其控制策略的收敛需要建立在一段时间后的训练上,而这段时间在工程应用上可能会造成一些浪费。为了解决这一问题,提出了基于先验知识的DQN对暖通空调(HVAC)系统中的冷却水系统进行控制,将先验知识引入DQN算法的前期训练中,以减少训练时间,加速收敛,节约成本。基于先验知识的DQN算法不仅能够对系统进行有效的控制,并且能够比DQN更早地实现节能。  相似文献   

5.
交通信号的智能控制是智能交通研究中的热点问题。为更加及时有效地自适应协调交通,文中提出了一种基于分布式深度强化学习的交通信号控制模型,采用深度神经网络框架,利用目标网络、双Q网络、价值分布提升模型表现。将交叉路口的高维实时交通信息离散化建模并与相应车道上的等待时间、队列长度、延迟时间、相位信息等整合作为状态输入,在对相位序列及动作、奖励做出恰当定义的基础上,在线学习交通信号的控制策略,实现交通信号Agent的自适应控制。为验证所提算法,在SUMO(Simulation of Urban Mobility)中相同设置下,将其与3种典型的深度强化学习算法进行对比。实验结果表明,基于分布式的深度强化学习算法在交通信号Agent的控制中具有更好的效率和鲁棒性,且在交叉路口车辆的平均延迟、行驶时间、队列长度、等待时间等方面具有更好的性能表现。  相似文献   

6.
作为解决序贯决策的机器学习方法,强化学习采用交互试错的方法学习最优策略,能够契合人类的智能决策方式。基于课程学习的深度强化学习是强化学习领域的一个研究热点,它针对强化学习智能体在面临高维状态空间和动作空间时学习效率低、难以收敛的问题,通过抽取一个或多个简单源任务训练优化过程中的共性知识,加速或改善复杂目标任务的学习。论文首先介绍了课程学习的基础知识,从四个角度对深度强化学习中的课程学习最新研究进展进行了综述,包括基于网络优化的课程学习、基于多智能体合作的课程学习、基于能力评估的课程学习、基于功能函数的课程学习。然后对课程强化学习最新发展情况进行了分析,并对深度强化学习中的课程学习的当前存在问题和解决思路进行了总结归纳。最后,基于当前课程学习在深度强化学习中的应用,对课程强化学习的发展和研究方向进行了总结。  相似文献   

7.
8.
9.
深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究目标对深度强化学习方法进行分类,分析与讨论高维状态动作空间任务上的算法收敛、复杂应用场景下的算法样本效率提高、奖励函数稀疏或无明确定义情况下的算法探索以及多任务场景下的算法泛化性能增强问题,总结与归纳4类深度强化学习方法的研究现状,同时针对深度强化学习技术的未来发展方向进行展望。  相似文献   

10.
为解决在测试日内的短期预测过程中,农村城镇人体热舒适中建筑惰性及人员等随机因素使人体感受变化的样本对预测结果影响大而导致预测精准度低的问题,提出基于改进麻雀搜索算法(Improvement Sparrow Search Algorithm, ISSA)优化长短期记忆神经网络(Long Short-Term Memory Neural Network, LSTM)的方法建立新型户用空调热舒适短期预测模型。首先,对测试日气象数据进行动态性分析,对数据进行有效性验证并构建多种热舒适预测模型;随后选用新型户用热舒适短期预测模型(ISSA-LSTM)对热舒适进行预测。结果表明,模型的最高预测均方误差(Mean Squared Error,MSE)比麻雀搜索算法(Sparrow Search Algorithm,SSA)和蜣螂优化算法(Dung beetle optimizer,DBO)优化LSTM分别提高了0.02296和0.10827,采用ISSA-LSTM方法后改善了短期热舒适预测的精度问题,并提高了分体式空调通过热舒适来控制温度的性能。  相似文献   

11.
Existing thermal comfort prediction approaches by machine learning models have been achieving great success based on large datasets in sustainable Industry 4.0 environment. However, the industrial Internet of Things (IoT) environment generates small-scale datasets where each dataset may contain lots of worker’s private data. The latter is challenging the current prediction approaches as small datasets running a large number of iterations can result in overfitting. Moreover, worker’s privacy has been a public concern throughout recent years. Therefore, there must be a trade-off between developing accurate thermal comfort prediction models and worker’s privacy-preserving. To tackle this challenge, we present a privacy-preserving machine learning technique, federated learning (FL), where an FL-based neural network algorithm (Fed-NN) is proposed for thermal comfort prediction. Fed-NN departs from current centralized machine learning approaches where a universal learning model is updated through a secured parameter aggregation process in place of sharing raw data among different industrial IoT environments. Besides, we designed a branch selection protocol to solve the problem of communication overhead in federating learning. Experimental studies on a real dataset reveal the robustness, accuracy, and stability of our algorithm in comparison to other machine learning algorithms while taking privacy into consideration.  相似文献   

12.
Having a reliable approximation of heating load (HL) and cooling load (CL) is a substantial task for evaluating the energy performance of buildings (EPB). Also, the appearance of soft computing techniques has made many traditional methods antiquated. Thus, the main effort of this study was to evaluate the capability of several learning methods for appraising the HL and CL of a residential building. To this end, a proper dataset consisting of eight influential factors was provided. To simplify the problem, we executed feature validity by using a correlation-based feature subset selection (CfsSubsetEval) technique. The results of this process showed that wall area, overall height, orientation and glazing area have the most significant impact on the HL and CL simulation. After preparing the suitable dataset, sixteen learning methods namely, elastic net (EN), Gaussian process regression (GPR), least median of squares regression (LMSR), multiple linear regression (MLR), multi-layer perceptron regression (MPR), multi-layer perceptron (MLP), radial basis function regression (RBFR), sequential minimal optimization regression (SMOR), functions XNV, lazy K-star, lazy LWL, rules decision table (RDT), M5Rules, alternating model tree (AMT), directional path consistency (DPC), and Random Forest (RF) were developed in Weka environment to forecast the HL and CL variables. Referring to the results, it was concluded that RF, lazy K-star, RDT and AMT outperform other predictive models. Also, comparing the results with the results of the previous studies showed that the applied feature reduction not only did not disturb the learning process but also has enhanced the performance of models. Also, due to the excellent accuracy of the MLP, a formula was derived from the optimized structure of it to predict the HL and CL variables.  相似文献   

13.
Recently, many models of reinforcement learning with hierarchical or modular structures have been proposed. They decompose a task into simpler subtasks and solve them by using multiple agents. However, these models impose certain restrictions on the topological relations of agents and so on. By relaxing these restrictions, we propose networked reinforcement learning, where each agent in a network acts autonomously by regarding the other agents as a part of its environment. Although convergence to an optimal policy is no longer assured, by means of numerical simulations, we show that our model functions appropriately, at least in certain simple situations. This work was presented in part at the 13th International Symposium on Artificial Life and Robotics, Oita, Japan, January 31–February 2, 2008  相似文献   

14.
强化学习在游戏对弈、系统控制等领域内表现出良好的性能,如何使用少量样本快速学习新任务是强化学习中亟需解决的问题。目前的有效解决方法是将元学习应用在强化学习中,由此所产生的元强化学习日益成为强化学习领域中的研究热点。为了帮助后续研究人员快速并全面了解元强化学习领域,根据近年来的元强化学习文献对研究方法进行梳理,将其归纳成基于循环网络的元强化学习、基于上下文的元强化学习、基于梯度的元强化学习、基于分层的元强化学习和离线元强化学习,对五种类型的研究方法进行对比分析,简要阐述了元强化学习的基本理论和面临的挑战,最后基于当前研究现状讨论了元强化学习的未来发展前景。  相似文献   

15.
As a powerful tool for solving nonlinear complex system control problems, the model-free reinforcement learning hardly guarantees system stability in the early stage of learning, especially with high complicity learning components applied. In this paper, a reinforcement learning framework imitating many cognitive mechanisms of brain such as attention, competition, and integration is proposed to realize sample-efficient self-stabilized online learning control. Inspired by the generation of consciousness in human brain, multiple actors that work either competitively for best interaction results or cooperatively for more accurate modeling and predictions were applied. A deep reinforcement learning implementation for challenging control tasks and a real-time control implementation of the proposed framework are respectively given to demonstrate the high sample efficiency and the capability of maintaining system stability in the online learning process without requiring an initial admissible control.  相似文献   

16.
针对高铁站这类半封闭建筑的热舒适度影响因素众多,影响机制复杂以及热舒适度与能耗存在背反等问题,提出了基于机器学习的高铁站热舒适度与能耗综合预测方法。首先采用传感器数据捕获及Energy Plus仿真两种方式对高铁站室内外状态、多联机及热交换机等控制单元及热能传导环境进行建模;其次提出影响高铁站热舒适度的八类因素——多联机开启台数、多联机设置温度、热交换机开启台数、客流密度、室外温度、室内温度、室内湿度和室内二氧化碳浓度,并设计424种模型运行工况以及3 714 240个实例;最后设计6种机器学习模型——深度神经网络、支持向量回归、决策树回归、线性回归、岭回归和贝叶斯岭回归,来对高铁站室内热舒适度和空调能耗进行有效预测。实验结果表明,6种机器学习模型中决策树回归预测模型能够在较短的时间内获得最优的预测性能,其平均均方误差低至0.002 2。所得研究成果可直接为下一阶段的温控策略提供主动预判的环境状态参数并实现实时决策。  相似文献   

17.
室内热舒适环境的模糊关系矩阵模型控制系统   总被引:1,自引:0,他引:1  
针对复杂非线性系统中多个输出不能解耦的控制问题,基于实际系统的采样数据,利用矩阵半张量积运算建立模糊关系矩阵模型,得出一种新型模糊控制器设计方法.将传统模糊控制中的推理过程和模糊规则的建立转化成矩阵运算,有效避免了建模和控制的复杂性.将其应用于室内热环境舒适度控制系统中,基于室内外的温度、湿度等多个变量的采样数据对,给出具体的模糊关系矩阵的建立过程,设计得出新型模糊控制器.仿真和实验结果表明,该方法能够实现室内热环境的舒适度控制,并且不需要进行多变量之间的解耦.  相似文献   

18.
深度逆向强化学习是机器学习领域的一个新的研究热点,它针对深度强化学习的回报函数难以获取问题,提出了通过专家示例轨迹重构回报函数的方法。首先介绍了3类深度强化学习方法的经典算法;接着阐述了经典的逆向强化学习算法,包括基于学徒学习、最大边际规划、结构化分类和概率模型形式化的方法;然后对深度逆向强化学习的一些前沿方向进行了综述,包括基于最大边际法的深度逆向强化学习、基于深度Q网络的深度逆向强化学习和基于最大熵模型的深度逆向强化学习和示例轨迹非专家情况下的逆向强化学习方法等。最后总结了深度逆向强化学习在算法、理论和应用方面存在的问题和发展方向。  相似文献   

19.
强化学习(reinforcement learning)是机器学习和人工智能领域的重要分支,近年来受到社会各界和企业的广泛关注。强化学习算法要解决的主要问题是,智能体如何直接与环境进行交互来学习策略。但是当状态空间维度增加时,传统的强化学习方法往往面临着维度灾难,难以取得好的学习效果。分层强化学习(hierarchical reinforcement learning)致力于将一个复杂的强化学习问题分解成几个子问题并分别解决,可以取得比直接解决整个问题更好的效果。分层强化学习是解决大规模强化学习问题的潜在途径,然而其受到的关注不高。本文将介绍和回顾分层强化学习的几大类方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号