期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

官蕊丁家满贾连印游进国姜瑛《计算机工程与科学》2020,42(9):1697-1703

在排序学习方法中,通过直接优化信息检索评价指标来学习排序模型的方法,取得了很好的排序效果,但是其损失函数在利用所有排序位置信息以及融合多样性排序因素方面还有待提高。为此,提出基于强化学习的多样性文档排序算法。首先,将强化学习思想应用于文档排序问题,通过将排序行为建模为马尔可夫决策过程,在每一次迭代过程中利用所有排序位置的信息,不断为每个排序位置选择最优的文档。其次,在排序过程中结合多样性策略,依据相似度阈值,裁剪高度相似的文档,从而保证排序结果的多样性。最后,在公共数据集上的实验结果表明,提出的算法在保证排序准确性的同时,增强了排序结果的多样性。相似文献

2.

基于深度强化学习DDPG算法的投资组合管理

齐岳  黄硕华 《计算机与现代化》2018,(5):93

将深度强化学习技术应用于投资组合管理,采用深度强化学习中的深度确定性策略梯度DDPG（Deep Deterministic Policy Gradient）算法,通过限制单只股票的投资权重,分散风险,并采用丢弃算法（Dropout）,即在训练模型时随机丢弃节点,解决过拟合问题。以中国股市为例,选取16只中证100指数成分股作为风险资产进行实验。结果表明,本文基于深度强化学习方法构建的投资组合,在实验期间的价值增幅显著高于对照组（等权重组合）,2年达到65%,约为对照组的2.5倍,表明了本文方法的有效性。而且通过进一步实验,表明了当用于训练的数据离测试数据时间越近,则本文构建的投资组合表现越好。相似文献

3.

基于深度强化学习的网联车辆队列纵向控制

下载免费PDF全文

李永福周发涛黄龙旺于树友施树明《控制与决策》2024,39(6):1879-1887

针对车辆队列中多目标控制优化问题,研究基于强化学习的车辆队列控制方法.控制器输入为队列各车辆状态信息以及车辆间状态误差,输出为基于车辆纵向动力学的期望加速度,实现在V2X通信下的队列单车稳定行驶和队列稳定行驶.根据队列行驶场景以及采用的间距策略、通信拓扑结构等特性,建立队列马尔科夫决策过程(Markov decision process,MDP)模型.同时根据队列多输入-多输出高维样本特性,引入优先经验回放策略,提高算法收敛效率.为贴近实际车辆队列行驶工况,仿真基于PreScan构建多自由度燃油车动力学模型,联合Matlab/ Simulink搭建仿真环境,同时引入噪声对队列控制器中动作网络和评价网络进行训练.仿真结果表明基于强化学习的车辆队列控制燃油消耗更低,且控制器实时性更高,对车辆的控制更为平滑. 相似文献

4.

基于深度强化学习的机器人手臂控制

杨淑珍韩建宇梁盼古彭杨发展吕萍丽《福建电脑》2019,35(1)

相似文献

5.

基于深度确定性策略梯度强化学习算法的航迹规划研究

杨友波张目唐俊雷印杰《现代计算机》2023,(5):1-7+27

航迹规划是无人机走向智能化的重要组成部分。目前已有的传统航迹规划算法存在实时规划能力差、无法处理动态场景、航迹不平滑等问题,现有的强化学习算法虽然能够实时规划,但是大多数算法主要应用在二维场景下,且存在容易碰撞障碍物、到达率低、航迹不平滑和航迹质量低等问题。针对上述问题,提出基于改进深度确定性策略梯度的强化学习算法,该算法融合自注意力机制,提取障碍物特征,躲避障碍,解决到达率低、实时规划能力差的问题,重新设计奖励函数,惩罚无人机“后退”行为,引入方向向量夹角引导机制,解决航迹不平滑问题。仿真验证结果表明,提出的改进算法在复杂动态场景下达到93.5%的到达率,平均飞行距离减少7.3%,推理时间减少26.2%,推理时间短,航迹符合无人机的飞行要求。相似文献

6.

强化学习在车辆路径问题中的研究综述

下载免费PDF全文

牛鹏飞王晓峰芦磊张九龙《计算机工程与应用》2022,58(1):41-55

车辆路径问题是物流运输优化中的核心问题,目的是在满足顾客需求下得到一条最低成本的车辆路径规划。但随着物流运输规模的不断增大,车辆路径问题求解难度增加,并且对实时性要求也不断提高,已有的常规算法不再适应实际要求。近年来,基于强化学习算法开始成为求解车辆路径问题的重要方法,在简要回顾常规方法求解车辆路径问题的基础上,重点总结基于强化学习求解车辆路径问题的算法,并将算法按照基于动态规划、基于价值、基于策略的方式进行了分类;最后对该问题未来的研究进行了展望。相似文献

7.

基于内部结构MPOMDP模型的策略梯度学习算法

下载免费PDF全文

张润梅王浩张佑生姚宏亮方长胜《计算机工程与应用》2009,45(7):20-23

为了提高MPOMDP模型的知识表示能力和推理效率,提出一种基于Agent内部结构的MPOMDP模型。该模型能表示Agent的内部结构及其时间演化,并通过将系统联合概率分布表示成每个Agent内部变量集的局部因式形式,以提高模型的推理效率。将GPI-POMDP算法扩展到基于内部结构的MPOMDP模型中,给出基于内部状态的多Agent策略梯度算法（MIS-GPOMDP）,来求解基于内部结构的MPOMDP。实验结果表明MIS-GPOMDP算法具有较高的推理效率,且算法是收敛的。相似文献

8.

基于深度强化学习的无信号灯路口决策研究

傅明建郭福强《计算机工程》2024,(5):91-99

无信号灯左转路口是自动驾驶场景中最为危险的场景之一,如何实现高效安全的左转决策是自动驾驶领域的重大难题。深度强化学习(DRL)算法在自动驾驶决策领域具有广阔应用前景。但是,深度强化学习在自动驾驶场景中存在样本效率低、奖励函数设计困难等问题。提出一种基于专家先验的深度强化学习算法(CBAMBC SAC)来解决上述问题。首先,利用SMARTS仿真平台获得专家先验知识;然后,使用通道-空间注意力机制(CBAM)改进行为克隆(BC)方法,在专家先验知识的基础上预训练模仿专家策略;最后,使用模仿专家策略指导深度强化学习算法的学习过程,并在无信号灯路口左转决策中进行验证。实验结果表明,基于专家先验的DRL算法比传统的DRL算法更具优势,不仅可以免去人为设置奖励函数的工作量,而且可以显著提高样本效率从而获得更优性能。在无信号灯路口左转场景下,CBAM-BC SAC算法与传统DRL算法(SAC)、基于传统行为克隆的DRL算法(BC SAC)相比,平均通行成功率分别提高了14.2和2.2个百分点。相似文献

9.

基于深度强化算法的机器人动态目标点跟随研究

徐继宁曾杰《计算机科学》2019,46(z2)

相似文献

10.

D2D通信增强的蜂窝网络中基于DDPG的资源分配

唐睿庞川林张睿智刘川岳士博《计算机应用》2024,(5):1562-1569

针对终端直通(D2D)通信增强的蜂窝网络中存在的同频干扰,通过联合调控信道分配和功率控制最大化D2D链路和速率,并同时满足功率约束和蜂窝链路的服务质量(QoS)需求。为有效求解上述资源分配所对应的混合整数非凸规划问题,将原问题转化为马尔可夫决策过程,并提出一种基于深度确定性策略梯度(DDPG)算法的机制。通过离线训练,直接构建了从信道状态信息到最佳资源分配策略的映射关系,而且无需求解任何优化问题,因此可通过在线方式部署。仿真结果表明,相较于遍历搜索机制,所提机制在仅损失9.726%性能的情况下将运算时间降低了4个数量级(99.51%)。相似文献

11.

基于深度强化学习的车辆多目标协同巡航决策控制系统设计

下载免费PDF全文

宋倩罗富贵蓝俊欢《计算机测量与控制》2023,31(10):115-121

为提升车辆巡航避障能力,实现对运动目标的精准决策,设计基于深度强化学习的车辆多目标协同巡航决策控制系统。利用主控制电路输出的电量信号,调节ACC控制器、MPC轨迹跟踪器、双闭环控制器的实时连接状态,再借助多目标解耦模块,确定目标车辆所处巡航位置,完成巡航决策控制系统的主要应用结构设计。建立深度强化学习模型,根据车辆目标数据集定义条件,求解协同参数实际取值范围,实现对车辆巡航位姿的估计。确定坐标转换原则,通过分析多目标量化结果的方式,实现对巡航决策轨迹的按需规划,再联合相关应用设备,完成基于深度强化学习的车辆多目标协同巡航决策控制系统的设计。实验结果表明,深度强化学习机制作用下,车辆在横、纵两个巡航方向上的避障准确度都达到了100%,符合车辆多目标协同巡航决策的实际需求。相似文献

12.

基于强化学习的电动车路径优化研究

胡尚民《计算机应用研究》2020,37(11):3232-3235

针对有路径总时长约束、载重量约束和电池容量约束的电动车路径优化问题（EVRP）,考虑其途中可前往充电站充电的情境,构建以最小化路径总长度为目标的数学模型,提出一种基于强化学习的求解算法RL-EVRP。该算法用给定的分布生成训练数据,再通过策略梯度法训练模型,并保证在训练过程中路径合法即可。训练得到的模型可用于解决其他数据同分布的问题,无须重新训练。通过仿真实验及与其他算法的对比,表明RL-EVRP算法求解的路径总长度更短、车辆数更少,也表明强化学习可成功运用于较复杂的组合优化问题中。相似文献

13.

基于深度强化学习的服务功能链映射算法

金明李琳琳张文瑾刘文《计算机应用研究》2020,37(11):3456-3460,3466

针对服务功能链映射对网络时延和部署失败率的影响,提出了一种基于深度强化学习的服务功能链映射算法DQN-SFC。首先构建了一个多层次NFV管理编排架构,以满足算法对资源感知和设备配置的需求;然后基于马尔可夫决策过程建模,对SFC映射问题进行形式化描述;最后构建了一个深度强化学习网络,将网络平均时延和部署失败产生的运维开销作为奖惩反馈,经过训练后可根据网络状态决定虚拟网络功能的部署位置。通过仿真实验,对该算法的正确性和性能优势进行了验证。实验表明：与传统算法相比,该算法能有效降低网络平均时延和部署失败率,同时算法运行时间具有一定优势。相似文献

14.

结构化状态空间中的递阶再励学习方法

孟江华朱纪洪孙增圻《控制与决策》2007,22(2):233-237

在状态空间满足结构化条件的前提下,通过状态空间的维度划分直接将复杂的原始MDP问题递阶分解为一组简单的MDP或SMDP子问题,并在线对递阶结构进行完善.递阶结构中嵌入不同的再励学习方法可以形成不同的递阶学习.所提出的方法在具备递阶再励学习速度快、易于共享等优点的同时,降低了对先验知识的依赖程度,缓解了学习初期回报值稀少的问题. 相似文献

15.

基于鸽群的鲁棒强化学习算法

下载免费PDF全文

张明英华冰张宇光李海东郑墨泓《网络与信息安全学报》2022,8(5):66-74

强化学习是一种人工智能算法,具有计算逻辑清晰、模型易扩展的优点,可以在较少甚至没有先验信息的前提下,通过和环境交互并最大化值函数,调优策略性能,有效地降低物理模型引起的复杂性。基于策略梯度的强化学习算法目前已成功应用于图像智能识别、机器人控制、自动驾驶路径规划等领域。然而强化学习高度依赖采样的特性决定了其训练过程需要大量样本来收敛,且决策的准确性易受到与仿真环境中不匹配的轻微干扰造成严重影响。特别是当强化学习应用于控制领域时,由于无法保证算法的收敛性,难以对其稳定性进行证明,为此,需要对强化学习进行改进。考虑到群体智能算法可通过群体协作解决复杂问题,具有自组织性及稳定性强的特征,利用其对强化学习进行优化求解是一个提高强化学习模型稳定性的有效途径。结合群体智能中的鸽群算法,对基于策略梯度的强化学习进行改进：针对求解策略梯度时存在迭代求解可能无法收敛的问题,提出了基于鸽群的强化学习算法,以最大化未来奖励为目的求解策略梯度,将鸽群算法中的适应性函数和强化学习结合估计策略的优劣,避免求解陷入死循环,提高了强化学习算法的稳定性。在具有非线性关系的两轮倒立摆机器人控制系统上进行仿真验证,实验结果表... 相似文献

16.

基于深度强化学习的动态装配算法

下载免费PDF全文

王竣禾姜勇《智能系统学报》2023,18(1):2-11

针对动态装配环境中存在的复杂、动态的噪声扰动,提出一种基于深度强化学习的动态装配算法。将一段时间内的接触力作为状态,通过长短时记忆网络进行运动特征提取;定义序列贴现因子,对之前时刻的分奖励进行加权得到当前时刻的奖励值;模型输出的动作为笛卡尔空间位移,使用逆运动学调整机器人到达期望位置。与此同时,提出一种对带有资格迹的时序差分算法改进的神经网络参数更新方法,可缩短模型训练时间。在实验部分,首先在圆孔–轴的简单环境中进行预训练,随后在真实场景下继续训练。实验证明提出的方法可以很好地适应动态装配任务中柔性、动态的装配环境。相似文献

17.

基于分层强化学习的自动驾驶车辆掉头问题研究

曹洁邵紫旋侯亮《计算机应用研究》2022,39(10)

调头任务是自动驾驶研究的内容之一,大多数在城市规范道路下的方案无法在非规范道路上实施。针对这一问题,建立了一种车辆掉头动力学模型,并设计了一种多尺度卷积神经网络提取特征图作为智能体的输入。另外还针对调头任务中的稀疏奖励问题,结合分层强化学习和近端策略优化算法提出了分层近端策略优化算法。在简单和复杂场景的实验中,该算法相比于其他算法能够更快地学习到策略,并且具有更高的掉头成功率。相似文献

18.

免疫遗传算法的混合动力汽车多目标优化

下载免费PDF全文

李婕李昊赵新蕖《计算机工程与应用》2018,54(4):237-243

以混合动力汽车传动系统参数与控制策略参数为优化变量,以最小燃油消耗和尾气排放量（CO+HC+NOx）为优化目标,以动力性能与电池荷电状态平衡作为约束条件,建立多目标优化模型,并使用权重系数法将多目标函数优化问题转化为单目标问题。提出了基于免疫遗传算法优化混合动力汽车参数的优化方法,该算法采用实数编码,通过调用ADVISOR的后台函数,建立联合优化仿真模型。仿真结果表明,该算法可有效降低车辆的燃油消耗,减少CO与HC排放量,能够较好地解决带有约束的混合动力汽车的多目标多参数优化问题,可以获得一组具有低油耗与低污染物排放的传动系统与控制策略参数,供决策者选择。相似文献

19.

RLAR:基于增强学习的自适应路由算法

郑力明李晓冬李小勇《计算机工程与设计》2011,32(4):1190-1194

针对当前各种路由算法在广域网环境下由于不能适应各种拓扑环境和负载不均衡时所引起的路由性能不高等问题,提出了一种基于梯度上升算法实现的增强学习的自适应路由算法RLAR。增强学习意味着学习一种策略,即基于环境的反馈信息构造从状态到行为的映射,其本质为通过与环境的交互试验对策略集合进行评估。将增强学习策略运用于网络路由优化中,为路由研究提供了一种全新的思路。对比了多种现有的路由算法,实验结果表明,RLAR能有效提高网络路由性能。相似文献

20.

基于强化学习的参数自整定及优化算法

下载免费PDF全文

严家政专祥涛《智能系统学报》2022,17(2):341-347

传统PID控制算法在非线性时滞系统的应用中,存在参数整定及性能优化过程繁琐、控制效果不理想的问题。针对该问题,提出了一种基于强化学习的控制器参数自整定及优化算法。该算法引入系统动态性能指标计算奖励函数,通过学习周期性阶跃响应的经验数据,无需辨识被控对象模型的具体数据,即可实现控制器参数的在线自整定及优化。以水箱液位控制系统为实验对象,对不同类型的PID控制器使用该算法进行参数整定及优化的对比实验。实验结果表明,相比于传统的参数整定方法,所提出的算法能省去繁琐的人工调参过程,有效优化控制器参数,减少被控量的超调量,提升控制器动态响应性能。相似文献