首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 203 毫秒
1.
在路径规划领域已经涌现出了诸多的优秀的经典算法,但这些传统方法往往基于静态环境,对于动态可变环境缺乏处理能力.本文提出一种结合LSTM强化学习动态环境路径规划算法.首先,本文以环境图像作为输入,最大限度了保证了原始的信息来源.而后构建了自动编码器用来对环境图像进行特征降维,降低了整体模型的复杂程度.最后采用深度强化学习算法DDPG进行路径规划,其中Actor部分采用LSTM的网络构建,使Actor在决策时可以参考前序信息,做到有预测的避开动态障碍.最后通过实验证明了本文算法的可行性和高效性.  相似文献   

2.
近年来,工业物联网迅猛发展,在实现工业数字化、自动化、智能化的同时也带来了大量的网络威胁,且复杂、多样的工业物联网环境为网络入侵者创造了全新的攻击面.传统的入侵检测技术已无法满足当前工业物联网环境下的网络威胁发现需求.对此,文中提出了一种基于深度强化学习算法近端策略优化(Proximal Policy Optimization 2.0,PPO2)的工业物联网入侵检测系统.该系统将深度学习的感知能力和强化学习的决策能力相结合,以实现对工业物联网多种类型网络攻击的有效检测.首先,运用基于LightGBM的特征选择算法筛选出工业物联网数据中最有效的特征集合;然后,结合深度学习算法将多层感知器网络的隐藏层作为PPO2算法中的价值网络和策略网络的共享网络结构;最后,基于PPO2算法构建入侵检测模型,并使用ReLU(Rectified Linear Unit)进行分类输出.在美国能源部橡树岭国家实验室公开发布的工业物联网真实数据集上开展的大量实验表明,所提出的入侵检测系统在检测对工业物联网的多种类型网络攻击时,获得了99.09%的准确率,且在准确率、精密度、召回率、F1评分等指标上均优于目前基于LSTM,CNN,RNN等深度学习模型和DDQN,DQN等深度强化学习模型的入侵检测系统.  相似文献   

3.
为了更好地对股票价格进行预测,进而为股民提供合理化的建议,提出了一种在结合长短期记忆网络(LSTM)和卷积神经网络(CNN)的基础上引入注意力机制的股票预测混合模型(LSTM-CNN-CBAM),该模型采用的是端到端的网络结构,使用LSTM来提取数据中的时序特征,利用CNN挖掘数据中的深层特征,通过在网络结构中加入注意力机制--Convolutional Attention Block Module(CBAM)卷积模块,可以有效地提升网络的特征提取能力。基于上证指数进行对比实验,通过对比实验预测结果和评价指标,验证了在LSTM与CNN结合的网络模型中加入CBAM模块的预测有效性和可行性。  相似文献   

4.
短文本分类是互联网文本数据处理中的关键任务之一.长短时记忆网络LSTM(long short-term memory)和卷积神经网络CNN(convolutional neural network)是广泛应用于短文本分类任务的两种深度学习模型.在计算机视觉和语音识别领域的深度学习研究表明,深层次的神经网络模型具有较好的表达数据特征的能力.受此启发,面向文本深度学习分类问题,提出基于3层LSTM和CNN网络结构的ResLCNN(residual-LSTM-CNN)深度学习模型.该模型有效结合LSTM获取文本序列数据的长距离依赖特征和CNN通过卷积操作获取句子局部特征的优势,同时借鉴残差模型理论,在第1层LSTM层与CNN层之间加入恒等映射,构建残差层,缓解深层模型梯度消失问题.为了探究深层短文本分类中ResLCNN模型的文本分类能力,在多种数据集上将其与LSTM、CNN及其组合模型进行对比实验.结果表明,相比于单层LSTM与CNN组合模型,ResLCNN深层模型在MR、SST-2和SST-5数据集上分别提高了1.0%、0.5%、0.47%的准确率,取得了更好的分类效果.  相似文献   

5.
强化学习是机器学习领域的研究热点, 是考察智能体与环境的相互作用, 做出序列决策、优化策略并最大化累积回报的过程. 强化学习具有巨大的研究价值和应用潜力, 是实现通用人工智能的关键步骤. 本文综述了强化学习算法与应用的研究进展和发展动态, 首先介绍强化学习的基本原理, 包括马尔可夫决策过程、价值函数、探索-利用问题. 其次, 回顾强化学习经典算法, 包括基于价值函数的强化学习算法、基于策略搜索的强化学习算法、结合价值函数和策略搜索的强化学习算法, 以及综述强化学习前沿研究, 主要介绍多智能体强化学习和元强化学习方向. 最后综述强化学习在游戏对抗、机器人控制、城市交通和商业等领域的成功应用, 以及总结与展望.  相似文献   

6.
针对深度强化学习算法在复杂动态环境中训练时,由于环境的部分可观测性原因导致智能体难以获得有用信息而不能学习到良好策略且算法收敛速度慢等典型问题,提出一种基于LSTM和非对称actor-critic网络的改进DDPG算法。该算法在actor-critic网络结构中引入LSTM结构,通过记忆推理来学习部分可观测马尔可夫状态中的隐藏状态,同时在actor网络只使用RGB图像作为部分可观测输入的情况下,critic网络利用仿真环境的完全状态进行训练构成非对称网络,加快了训练收敛速度。通过在ROS中进行机械臂抓取仿真实验,结果显示该算法相比于DDPG、PPO和LSTM-DDPG算法获得了更高的成功率,同时具有较快的收敛速度。  相似文献   

7.
强化学习(Reinforcement Learning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与环境进行交互来学习,最终将累积收益最大化。常用的强化学习算法分为模型化强化学习(Model-based Reinforcement Lear-ning)和无模型强化学习(Model-free Reinforcement Learning)。模型化强化学习需要根据真实环境的状态转移数据来预定义环境动态模型,随后在通过环境动态模型进行策略学习的过程中无须再与环境进行交互。在无模型强化学习中,智能体通过与环境进行实时交互来学习最优策略,该方法在实际任务中具有更好的通用性,因此应用范围更广。文中对无模型强化学习的最新研究进展与发展动态进行了综述。首先介绍了强化学习、模型化强化学习和无模型强化学习的基础理论;然后基于价值函数和策略函数归纳总结了无模型强化学习的经典算法及各自的优缺点;最后概述了无模型强化学习在游戏AI、化学材料设计、自然语言处理和机器人控制领域的最新研究现状,并对无模型强化学习的未来发展趋势进行了展望。  相似文献   

8.
针对SDN控制器中网络路由的优化问题,基于强化学习中的PPO模型设计了一种路由优化算法。该算法可以针对不同的优化目标调整奖励函数来动态更新路由策略,并且不依赖于任何特定的网络状态,具有较强的泛化性能。由于采用了强化学习中策略方法,该算法对路由策略的控制相比各类基于Q-learning的算法更为精细。基于Omnet++仿真软件通过实验评估了该算法的性能,相比传统最短路径路由算法,路由优化算法在Sprint结构网络上的平均延迟和端到端最大延迟分别降低了29.3%和17.4%,吞吐率提高了31.77%,实验结果说明了基于PPO的SDN路由控制算法不仅具有良好的收敛性,而且相比静态最短路径路由算法与基于Q-learning的QAR路由算法具有更好的性能和稳定性。  相似文献   

9.
心脏MRI左心室自动检测在心脏疾病计算机辅助诊断中具有重要价值,针对左心室候选区域与周边组织分布复杂而导致区分度低的问题,提出结合候选区域2级距离度量学习与CNN分类回归联合学习的左心室检测方法.在候选区域生成阶段,利用超像素产生初始区域并合并为中间区域,设计有监督的2级距离度量学习算法,融合中间区域来构建目标候选区域;在检测阶段,以CNN分类与回归联合学习的方式定位候选区域,并设计难例样本挖掘策略对模型进行微调,以缓解样本不均衡问题.将该方法与扩展的4种变体方法(改变或舍弃部分模块)在公开心脏图谱数据集(CAP)上进行了实验,结果表明该方法中各模块设置具有合理性;与FastR-CNN和基于SSAE方法的检测结果相比,该方法取得了较高的检测精度.  相似文献   

10.
基于因果建模的强化学习技术在智能控制领域越来越受欢迎.因果技术可以挖掘控制系统中的结构性因果知识,并提供了一个可解释的框架,允许人为对系统进行干预并对反馈进行分析.量化干预的效果使智能体能够在复杂的情况下(例如存在混杂因子或非平稳环境)评估策略的性能,提升算法的泛化性.本文旨在探讨基于因果建模的强化学习控制技术(以下简称因果强化学习)的最新进展,阐明其与控制系统各个模块的联系.首先介绍了强化学习的基本概念和经典算法,并讨论强化学习算法在变量因果关系解释和迁移场景下策略泛化性方面存在的缺陷.其次,回顾了因果理论的研究方向,主要包括因果效应估计和因果关系发现,这些内容为解决强化学习的缺陷提供了可行方案.接下来,阐释了如何利用因果理论改善强化学习系统的控制与决策,总结了因果强化学习的四类研究方向及进展,并整理了实际应用场景.最后,对全文进行总结,指出了因果强化学习的缺点和待解决问题,并展望了未来的研究方向.  相似文献   

11.
针对现有深度强化学习算法在状态空间维度大的环境中难以收敛的问题,提出了在时间维度上提取特征的基于一维卷积循环网络的强化学习算法;首先在深度Q网络(DQN,deep Q network)的基础上构建一个深度强化学习系统;然后在深度循环Q网络(DRQN,deep recurrent Q network)的神经网络结构基础上加入了一层一维卷积层,用于在长短时记忆(LSTM,long short-term memory)层之前提取时间维度上的特征;最后在与时序相关的环境下对该新型强化学习算法进行训练和测试;实验结果表明这一改动可以提高智能体的决策水平,并使得深度强化学习算法在非图像输入的时序相关环境中有更好的表现。  相似文献   

12.
Stock trading is an important decision-making problem that involves both stock selection and asset management. Though many promising results have been reported for predicting prices, selecting stocks, and managing assets using machine-learning techniques, considering all of them is challenging because of their complexity. In this paper, we present a new stock trading method that incorporates dynamic asset allocation in a reinforcement-learning framework. The proposed asset allocation strategy, called meta policy (MP), is designed to utilize the temporal information from both stock recommendations and the ratio of the stock fund over the asset. Local traders are constructed with pattern-based multiple predictors, and used to decide the purchase money per recommendation. Formulating the MP in the reinforcement learning framework is achieved by a compact design of the environment and the learning agent. Experimental results using the Korean stock market show that the proposed MP method outperforms other fixed asset-allocation strategies, and reduces the risks inherent in local traders.  相似文献   

13.
股价预测一直是金融时间序列研究的热点和难点,采用一种合理有效的股价预测方法对于投资者获取高额收益回报及规避交易风险具有重要的指导意义.通过结合近端策略优化(proximal policy optimization, PPO)和强化学习(reinforcement learning, RL),将股价预测视为一个时间序列预测问题,提出一种近端强化学习的股价预测方法 (PPORL).此外,在预测方法的基础上引入股票的相对强弱性能和股票均线指标,提出一种能够自动捕捉潜在交易点的量化交易策略,期望在获取高额收益的同时降低交易过程中存在的风险.通过实验对比了长短期记忆网络(long short-term memory, LSTM)和循环神经网络(recurrent neural network, RNN)模型在上证指数(SZZS)、深证成指(SZCZ)和沪深300指数(HS300)上的预测性能和交易决策表现,并利用多种误差评估方法对预测结果进行定量分析,从而验证了PPORL在预测性能和交易决策等方面的有效性和鲁棒性.  相似文献   

14.
股票市场不仅是上市公司的重要融资渠道,也是重要的投资市场,股票预测一直受到人们的关注。为了充分利用来自不同股票价格的信息,提高股票的预测效果,提出一种多尺度股票价格预测模型TL-EMD-LSTM-MA(TELM)。TELM模型通过经验模态分解将收盘价分解为多个时间尺度分量,不同时间尺度分量震荡频率不同,反映了不同的周期性信息;根据分量的震荡频率选择不同方法进行预测,高频分量利用深度迁移学习的方法训练堆叠LSTM,低频分量利用移动平均法进行预测;将所有分量的预测值相加作为收盘价的最终预测输出。通过深度迁移学习训练的堆叠LSTM,包含来自不同股票的信息,具备更多行业或市场的知识,能有效降低预测误差。利用移动平均法预测低频分量,更有效捕获股票的总体趋势。对中国A股市场内500支股票以及上证指数、深证成指等指数进行预测,结果表明,与其他模型相比,TELM预测误差最低,拟合优度最高。根据TELM预测的股票收盘价模拟股票交易过程,结果表明TELM投资风险低、收益高。  相似文献   

15.
提出了一种基于递深度递归强化学习的自动驾驶策略模型学习方法,并在TORCS虚拟驾驶引擎进行仿真验真。针对Actor-Critic框架过估计和更新缓慢的问题,结合clipped double DQN,通过取最小估计值的方法缓解过估计的情况。为了获取多时刻状态输入以帮助智能体更好的决策,结合递归神经网络,设计出包含LSTM结构的Actor策略网络的Critic评价网络。在TORCS平台仿真实验表明,所提算法相对与传统DDPG算法能有效提高训练效率。  相似文献   

16.
股票市场具有变化快、干扰因素多、周期数据不足等特点,股票交易是一种不完全信息下的博弈过程,单目标的监督学习模型很难处理这类序列化决策问题。强化学习是解决该类问题的有效途径之一。提出了基于深度强化学习的智能股市操盘手模型ISTG(Intelligent Stock Trader and Gym),融合历史行情数据、技术指标、宏观经济指标等多数据类型,分析评判标准和优秀控制策略,加工长周期数据,实现可增量扩展不同类型数据的复盘模型,自动计算回报标签,训练智能操盘手,并提出直接利用行情数据计算单步确定性动作值的方法。采用中国股市1400多支的有10年以上数据的股票进行多种对比实验,ISTG的总体收益达到13%,优于买入持有总体−7%的表现。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号