共查询到20条相似文献,搜索用时 62 毫秒
1.
2.
在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性. 相似文献
3.
目前,多数海上避碰模型都是将船舶作为单智能体进行避碰决策,未考虑船舶间的协调避让,在多船会遇场景下仅靠单船进行避碰操作会导致避让效果不佳。为此,提出了一种改进双延迟深度确定性策略梯度算法(TD3)的Softmax深层双确定性策略梯度(SD3)多船协调避碰模型。从考虑船舶航行安全的时空因素出发构建时间碰撞模型、空间碰撞模型,对船舶碰撞风险进行定量分析,在此基础上采用根据会遇态势和船速矢量动态变化的船域模型对船舶碰撞风险进行定性分析。综合船舶目标导向、航向角改变、航向保持、碰撞风险和《国际海上避碰规则》(COLREGS)的约束设计奖励函数,结合COLREGS中的典型相遇情况构造对遇、追越和交叉相遇多局面共存的会遇场景进行避碰模拟仿真。消融实验显示softmax运算符提升了SD3算法的性能,使其在船舶协调避碰中拥有更好的决策效果,并与其他强化学习算法进行学习效率和学习效果的比较。实验结果表明,SD3算法在多局面共存的复杂场景下能高效做出准确的避碰决策,并且性能优于其他强化学习算法。 相似文献
4.
强化学习中的连续控制问题一直是近年来的研究热点.深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异.DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效率,将情节累积回报作为样本分类依据,提出一种基于情节... 相似文献
5.
为了实现对非线性、滞后性和强耦合的工业过程稳定精确的控制,提出了一种基于局部策略交互探索的深度确定性策略梯度(LPIE-DDPG)的控制方法用于深度强化学习的连续控制。首先,使用深度确定性策略梯度(DDPG)算法作为控制策略,从而极大地减小控制过程中的超调和振荡现象;同时,使用原控制器的控制策略作为局部策略进行搜索,并以交互探索规则进行学习,提高了学习效率和学习稳定性;最后,在Gym框架下搭建青霉素发酵过程仿真平台并进行实验。仿真结果表明,相较于DDPG,LPIE-DDPG在收敛效率上提升了27.3%;相较于比例-积分-微分(PID),LPIE-DDPG在温度控制效果上有更少的超调和振荡现象,在产量上青霉素浓度提高了3.8%。可见所提方法能有效提升训练效率,同时提高工业过程控制的稳定性。 相似文献
6.
为了降低控制器设计对火星无人机动力学模型的依赖,提高火星无人机控制系统的智能化水平,结合强化学习(reinforcement learning,RL)算法,提出了一种具有自主学习能力的火星无人机位置姿态控制器。该控制器由神经网络构成,利用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法进行学习,不断优化控制策略,最终获得满足控制要求的策略。仿真结果表明,在没有推导被控对象模型的前提下,基于DDPG算法的控制器通过学习,自主将火星无人机稳定控制到目标位置,且控制精度、调节时间等性能优于比例-积分-微分(proportion integration differentiation,PID)控制器的效果,验证了基于DDPG算法的控制器的有效性;此外,在被控对象模型改变或存在外部扰动的情况下,基于DDPG算法的控制器仍然能够稳定完成任务,控制效果优于PID控制器,表明基于DDPG算法的控制器具有良好的鲁棒性。 相似文献
7.
航迹规划是无人机走向智能化的重要组成部分。目前已有的传统航迹规划算法存在实时规划能力差、无法处理动态场景、航迹不平滑等问题,现有的强化学习算法虽然能够实时规划,但是大多数算法主要应用在二维场景下,且存在容易碰撞障碍物、到达率低、航迹不平滑和航迹质量低等问题。针对上述问题,提出基于改进深度确定性策略梯度的强化学习算法,该算法融合自注意力机制,提取障碍物特征,躲避障碍,解决到达率低、实时规划能力差的问题,重新设计奖励函数,惩罚无人机“后退”行为,引入方向向量夹角引导机制,解决航迹不平滑问题。仿真验证结果表明,提出的改进算法在复杂动态场景下达到93.5%的到达率,平均飞行距离减少7.3%,推理时间减少26.2%,推理时间短,航迹符合无人机的飞行要求。 相似文献
8.
深度确定性策略梯度(Deep deterministic policy gradient,DDPG)方法在连续控制任务中取得了良好的性能表现.为进一步提高深度确定性策略梯度方法中经验回放机制的效率,提出分类经验回放方法,并采用两种方式对经验样本分类:基于时序差分误差样本分类的深度确定性策略梯度方法(DDPG with temporal difference-error classification,TDCDDPG)和基于立即奖赏样本分类的深度确定性策略梯度方法(DDPG with reward classification,RC-DDPG).在TDCDDPG和RC-DDPG方法中,分别使用两个经验缓冲池,对产生的经验样本按照重要性程度分类存储,网络模型训练时通过选取较多重要性程度高的样本加快模型学习.在连续控制任务中对分类经验回放方法进行测试,实验结果表明,与随机选取经验样本的深度确定性策略梯度方法相比,TDC-DDPG和RC-DDPG方法具有更好的性能. 相似文献
9.
10.
针对人体动作识别中传统方法在分类决策方面存在问题和缺陷,提出了一种新颖的基于深度神经网络(DNN)和遗传算法(GA)合并算法的非线性分类决策方法。首先,提出的合并算法在整个训练集合上对特征提取器进行组合,进而组合成不同的两个独立网络;再利用DNN对两个独立网络进行初始化,进一步利用GA对两个网络进行合并。然后将网络的偏差和权重表示为每层网络间的一个矩阵;最后,利用DNN对网络的偏差和权重进行训练,并在合并过程中将矩阵中的每一行当作一个染色体。实验采用了标准MNIST数据集对提出算法的性能进行评估。评估结果显示实验过程中的交叉和突变操作增加了神经元节点,提高了识别性能,并且弱化了不相关和相关神经元节点。因此,提出算法的错误率更低,网络性能更优异。 相似文献
11.
Thakore A.K. Su S.Y.W. Lam H.X. 《Knowledge and Data Engineering, IEEE Transactions on》1995,7(3):487-504
Management of large quantities of complex data is essential in many advanced application areas. Object-oriented (OO) database management system have been developed to effectively model and process the complex domain knowledge. They have been shown to outperform some existing relational systems. The existing implementations of OO database management systems attempt to improve the efficiency of OO queries by explicitly capturing the relationships among objects. However, the execution of complex queries involving the retrieval of objects from many classes and relationships among them causes the existing system to operate inefficiently. In this paper, we present parallel algorithms for the processing of queries against a large OO database. The algorithms are based on a closed model of query processing pattern-based access instead of the conventional value-based access. During processing, the algorithms avoid the execution of time-consuming join operations by making use of the explicitly stored object associations. Generation of large quantities of temporary data is avoided by marking objects using their identifiers and by employing a two-phase query processing strategy. A query is processed by concurrent multiple waves, thereby improving parallelism avoiding the complexities introduced in their sequential implementation. The correctness and the performance of the parallel algorithms have been tested and analyzed by running parallel programs on a 32-node transputer based parallel machine designed and developed at the IBM Research Center at Yorktown Heights, New York. Benchmark queries of different semantic complexities are generated, and their performance is analyzed for various data and query parameters 相似文献
12.
移动边缘计算(MEC)系统中,因本地计算能力和电池能量不足,终端设备可以决定是否将延迟敏感性任务卸载到边缘节点中执行。针对卸载过程中用户任务随机产生且系统资源动态变化问题,提出了一种基于异步奖励的深度确定性策略梯度(asynchronous reward deep deterministic policy gradient,ARDDPG)算法。不同于传统独立任务资源分配采用顺序等待执行的策略,该算法在任务产生的时隙即可执行资源分配,不必等待上一个任务执行完毕,以异步模式获取任务计算奖励。ARDDPG算法在时延约束下联合优化了任务卸载决策、动态带宽分配和计算资源分配,并通过深度确定性策略梯度训练神经网络来探索最佳优化性能。仿真结果表明,与随机策略、基线策略和DQN算法相比,ARDDPG算法在不同时延约束和任务生成率下有效降低了任务丢弃率和系统的时延和能耗。 相似文献
13.
针对频繁出现的数据冗余、数据复用效率低下等问题,将列存储方式结合并行处理机制对数据复用策略进行优化。构建了基于MapReduce的数据复用并行化处理模型,利用改进型CSM模式匹配算法结合数据挖掘过程中的数据筛选算法,提出并行化数据复用算法。该算法利用数据属性的模式匹配确定属性列之间的对应关系,使用数据检测方式验证属性列数据复用的可行性,从而进行属性列数据筛选,实现并行化的数据复用策略。在大数据环境下的数据仓库中,对大规模基准数据属性集SSB和TPCH中提取的数据实证分析,实验结果分析中存储量和处理时间分别减少了17%和35%,实验结果验证了并行化数据复用策略在数据存储量、数据处理时间等方面比普通数据复用策略更具高效性。 相似文献
14.
视频设备被广泛应用于公共区域、智能交通和工业生产等许多领域,其产生的视频数据具有体量巨大、速度极快、价值稀疏和完全非结构化等大数据典型特征。为了进一步提高视频大数据的处理性能,提出了一种基于Spark Streaming的视频大数据并行处理方法,设计了基于Spark Streaming的视频大数据并行处理框架,针对帧间无关分析算法和帧间相关分析算法分别给出了并行化策略,前者利用数据并行机制将去冗余后的视频帧映射到不同节点并行处理,后者利用流水线并行机制将分析算法的各个算子根据依赖关系映射到不同节点并行处理;结合实际应用对并行处理框架和并行化策略进行了评价,设计了电梯乘客数并行检测算法和电梯门异常并行检测算法,当节点数增加到16个时,电梯乘客数检测算法的性能加速比为615%,电梯门异常检测的性能加速比为253%。 相似文献
15.
16.
17.
18.
针对产品族演进过程中产品族创新策略选择问题,提出了FAHP-TOPSIS集成方法的产品族创新策略的多属性决策模型。在界定3种产品族创新策略类型和特点的基础上,构建产品族创新策略的评价指标体系及产品族创新策略的多属性决策模型。为了消除决策过程中的主观不确定性和模糊性,将FAHP和TOPSIS有机结合起来进行定性和定量综合评价产品族创新策略方案的优劣。通过具体实例,验证了该方法的有效性,这为解决产品族创新演进过程中策略决策问题提供了一种新的分析途径。 相似文献
19.
《Journal of Microcomputer Applications》1990,13(1):57-67
We discuss two different approaches to parallelize a known HSC-generator for picture recognition. The first uses the old sequential algorithm and sends canonical sub-tasks to different transputers for parallel execution. The second exploits the inherent concurrent structure of the problem. 相似文献
20.
在云存储过程中,从本地发送大量文件到服务器端采用打包传输时,在接收端需要等待文件包完整接收后方可进行打包,这一过程由于打包和解包耗时较多降低了传输效率。针对这一问题,提出了一种优化传输的并行处理策略,将传输的大量文件无损压缩后以特定的大小进行多批次打包,传输过程中接收端同时对接收之前批次的包文件进行解包,以此达到并行处理打包和解包操作,实验表明并行处理的策略有效地降低了传输时间,提高了存储效率。 相似文献