共查询到19条相似文献,搜索用时 46 毫秒
1.
2.
Spark Streaming作为主流的开源分布式流分析框架,性能优化是目前的研究热点之一。在Spark Streaming性能优化中,业务场景下的配置参数优化是其性能提升的重要因素。在Spark Streaming系统中,可配置的参数有200多个,对参数调优人员的经验要求较高,未经优化的参数配置会影响流作业执行性能。因此,针对Spark Streaming的参数配置优化问题,提出一种基于深度强化学习的Spark Streaming参数优化方法(DQN-SSPO),将Spark Streaming参数优化配置问题转化为深度强化学习模型训练中的最大回报获得问题,并提出权重状态空间转移方法来增加模型训练获得高反馈奖励的概率。在3种典型的流分析任务上进行实验,结果表明经参数优化后Spark Streaming上的流作业性能在总调度时间上平均缩减27.93%,在总处理时间上平均缩减42%。 相似文献
3.
深度强化学习DRL算法是一种常用的策略搜索方法,已成功应用于一系列具有挑战性的控制任务。但是,由于DRL难以应对奖励稀疏问题,缺乏有效的探索以及对超参数具有极其敏感的脆弱收敛性,使其难以应用于大规模实际问题。粒子群优化算法PSO是一种进化优化算法,它使用整个episode的累积回报作为适应性值,对奖励稀疏的环境不敏感,且该算法也具有基于种群的多样化探索以及稳定的收敛性,但样本效率低。因此,提出了PSO-RL算法,结合PSO和基于策略梯度的离策略DRL算法,DRL通过PSO种群提供的多种数据来训练种群中累积奖励最低的几个策略,并且每次都将训练后累积奖励得到提升的策略插入PSO种群,增强DRL与PSO之间的信息交流。PSO-RL算法能够提升PSO的样本效率,而且能够改善DRL算法的性能和稳定性。在pybullet模块具有挑战性的连续控制任务中的实验结果表明,PSO-RL的性能不仅优于DRL的,且优于进化强化学习算法的。 相似文献
4.
张永棠 《小型微型计算机系统》2021,(1):132-136
移动边缘计算(MEC)技术已成为云无线接入网(C-RAN)提供近距离服务的一个很有前途的例子,从而减少了服务延迟,节约了能源消耗.本文考虑一个多用户MEC系统,解决了计算卸载策略和资源分配策略问题.我们将延迟总成本和能耗作为优化目标,在一个动态的环境中获得一个最优的策略.提出了一个基于深度强化学习的优化框架来解决资源分配问题,利用深度神经网络(DNN)对批评者的价值函数进行估计,从当前状态直接提取信息,不需要获取准确的信道状态.从而降低了优化目标的状态空间复杂度.参与者使用另一个DNN来表示参数随机策略,并在批评者的帮助下改进策略.仿真结果表明,与其它方案相比,该方案显著降低了总功耗. 相似文献
5.
边缘计算(EC)与无线携能通信(SWIPT)技术能够提升传统网络性能,但同时也增加了系统决策制定的难度和复杂度。而基于最优化方法所设计的系统决策往往具有较高的计算复杂度,无法满足系统的实时性需求。为此,针对EC与SWIPT辅助的无线传感网络(WSN),联合考虑网络中波束成形、计算卸载与功率控制问题,建立了系统能效最优化数学模型;其次,针对该模型的非凸与参数耦合特征,通过设计系统的信息交换过程,提出基于深度强化学习的联合优化方法,该方法无须建立环境模型,采用奖励函数代替Critic网络对动作进行评估,能降低决策制定难度并提升实时性;最后,基于该方法设计了改进的深度确定性策略梯度(IDDPG)算法,并与多种最优化算法和机器学习算法进行仿真对比,验证了联合优化方法在降低计算复杂度、提升决策实时性方面的优势。 相似文献
6.
8.
组合优化问题广泛存在于国防、交通、工业、生活等各个领域, 几十年来, 传统运筹优化方法是解决组合优化问题的主要手段, 但随着实际应用中问题规模的不断扩大、求解实时性的要求越来越高, 传统运筹优化算法面临着很大的计算压力, 很难实现组合优化问题的在线求解. 近年来随着深度学习技术的迅猛发展, 深度强化学习在围棋、机器人等领域的瞩目成果显示了其强大的学习能力与序贯决策能力. 鉴于此, 近年来涌现出了多个利用深度强化学习方法解决组合优化问题的新方法, 具有求解速度快、模型泛化能力强的优势, 为组合优化问题的求解提供了一种全新的思路. 因此本文总结回顾近些年利用深度强化学习方法解决组合优化问题的相关理论方法与应用研究, 对其基本原理、相关方法、应用研究进行总结和综述, 并指出未来该方向亟待解决的若干问题. 相似文献
9.
目前深度强化学习算法已经可以解决许多复杂的任务,然而如何平衡探索和利用的关系仍然是强化学习领域的一个基本的难题,为此提出一种联合随机性策略的深度强化学习探索方法.该方法利用随机性策略具有探索能力的特点,用随机性策略生成的经验样本训练确定性策略,鼓励确定性策略在保持自身优势的前提下学会探索.通过结合确定性策略算法DDPG... 相似文献
10.
多智能体系统在自动驾驶、智能物流、医疗协同等多个领域中广泛应用,然而由于技术进步和系统需求的增加,这些系统面临着规模庞大、复杂度高等挑战,常出现训练效率低和适应能力差等问题。为了解决这些问题,将基于梯度的元学习方法扩展到多智能体深度强化学习中,提出一种名为多智能体一阶元近端策略优化(MAMPPO)方法,用于学习多智能体系统的初始模型参数,从而为提高多智能体深度强化学习的性能提供新的视角。该方法充分利用多智能体强化学习过程中的经验数据,通过反复适应找到在梯度下降方向上最敏感的参数并学习初始参数,使模型训练从最佳起点开始,有效提高了联合策略的决策效率,显著加快了策略变化的速度,面对新情况的适应速度显著加快。在星际争霸II上的实验结果表明,MAMPPO方法显著提高了训练速度和适应能力,为后续提高多智能强化学习的训练效率和适应能力提供了一种新的解决方法。 相似文献
11.
随着交通流检测技术的发展,海量的交通流信息可以更容易高效地获取,针对短时车流量预测的准确性要求,提出了一种结合深度学习的短时车流量预测优化方法,采用神经网络Long Short-Term Memory算法,用多因素分析的思想对数据进行处理。通过对短时交通流数据进行多因素分析,如天气因素、节假日等,将短时交通流数据划分为多种数据集,将划分的不同数据集作为训练集去预测与训练集因素相同的未来时刻车流量情况。通过这种方法,使得获取的数据更为纯净,有效解决了多种因素对车流量预测影响问题。结果表明,该优化方法克服了车流量数据集影响因素不单一的缺点,能够更为准确地反映道路交通流的变化特征。 相似文献
12.
自动驾驶是人工智能研究的重要应用领域,文章提出了一种基于深度强化学习的自动驾驶策略模型学习方法.首先采用在线交互式学习方法对深度网络模型进行训练,并基于专业司机的经验数据对模型进行预训练,进而结合经验池回放技术提高模型训练收敛速度,通过对状态空间进行聚类再采样,提高其独立同分布特性以及策略模型的泛化能力.通过与神经网络拟和Q-迭代算法的比较,所提方法的训练时间可缩短90%以上,稳定性能提高超过30%.以复杂度略高于训练集的测试道路长度为基准,与经验过滤的Q-学习算法相比,采用聚类再采样的方法可以使策略模型的平均行驶距离提高70%以上. 相似文献
13.
目前在线学习资源推荐较多采用单目标转化方法,推荐过程中对学习者偏好考虑相对不足,影响学习资源推荐精度.针对上述问题,文中提出基于多目标优化策略的在线学习资源推荐模型(MOSRAM),在学习者规划时间内,以同时获得学习者对学习资源类型偏好度最大和难度水平适应度最佳为优化目标,设计具有向邻居均值学习能力和探索新区域能力的多目标粒子群优化算法(NEMOPSO),提出以MOSRAM为核心的在线学习资源推荐方法(NEMOPSO-RA).不同问题规模下融合经典多目标优化算法的推荐方法对比实验表明,NEMOPSO-RA可以有效提高在线学习资源的推荐精度和推荐性能. 相似文献
14.
随着微软2017年10月份宣布永久停产Kinect产品,目前体感交互领域急需一种Kinect的替代品。本文采用普通单目摄像头实时读取视频流,用Faster-RCNN网络检测人体位置并且框出,改进非极大值抑制算法,引入线性加权函数将IOU大于阈值的检测框分数减低而不是变成零。其次,根据得到的检测框送入人体关键点检测CPM网络,输出人物全身骨骼点坐标位置,将Center Loss引入以增加关键点的类内特征的内聚性和类间的差异性。最后,按照模板匹配法根据识别结果生成体感交互的控制指令。本文方法降低了对专业设备的依赖,简化了体感交互的复杂度,对促进体感普及以及拓展人机交互使用范围都具有重要价值。 相似文献
15.
提出了一种基于递深度递归强化学习的自动驾驶策略模型学习方法,并在TORCS虚拟驾驶引擎进行仿真验真。针对Actor-Critic框架过估计和更新缓慢的问题,结合clipped double DQN,通过取最小估计值的方法缓解过估计的情况。为了获取多时刻状态输入以帮助智能体更好的决策,结合递归神经网络,设计出包含LSTM结构的Actor策略网络的Critic评价网络。在TORCS平台仿真实验表明,所提算法相对与传统DDPG算法能有效提高训练效率。 相似文献
16.
17.
加热炉燃烧系统的复杂性、参数不确定性和非线性,以及某钢铁公司加热炉燃烧控制过程存在的问题,在分别分析炉温变化、煤气热值与煤气流量关系,以及煤气流量、煤气热值、烟道含氧量与空燃比关系的基础上,本文提出了基于智能控制策略的加热炉燃烧优化模型;应用结果表明,该模型的应用实现了燃烧过程的优化控制,提高了产品的质量,节约能源,易于实现. 相似文献
18.
19.
手写汉字生成是机器学习中一个重要的研究方向.近二十年来,针对手写汉字生成的研究大体可分为两个阶段:早期主要利用汉字的显式特征如结构和笔画等实现对汉字的分解,再通过算法实现汉字的生成.该类方法对汉字的分解准确度及数据集的精度要求较高,限制了该类方法的广泛应用.现阶段的汉字生成研究主要借助于深度神经网络来实现对汉字隐式特征的提取,从而生成更高质量的汉字并克服早期研究阶段数据集不足等问题.主要目的是对已有汉字生成研究进行全面系统的综述. 相似文献