首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 61 毫秒
1.
针对传统多任务学习方法只利用关系或者特征进行多任务学习的局限性,提出了一种基于高斯过程并且同时学习任务特征和任务关系协方差矩阵的多任务学习方法。该方法通过高速过程对多个线性函数进行建模,同时构建任务关系协方差矩阵和特征关系协方差矩阵,在训练的同时学习线性方程的参数、任务关系协方差矩阵和特征关系协方差矩阵,该方法称为基于高斯过程的多任务联合学习((multi-task joint learning based on gaussian process, MJLGP)。实验结果表明,所提方法在精度上比对比实验具有更好的优势。  相似文献   

2.
针对大规模、连续空间随着状态维度指数级增加造成的"维数灾"问题,提出基于Option分层强化学习基础框架的改进的随机技能发现算法。通过定义随机Option生成一棵随机技能树,构造一个随机技能树集合。将任务目标分成子目标,通过学习低阶Option策略,减少因智能体增大而引起学习参数的指数增大。以二维有障碍栅格连续空间内两点间最短路径规划为任务,进行仿真实验和分析,实验结果表明:由于Option被随机定义,因此算法在初始性能上具有间歇的不稳定性,但是随着随机技能树集合的增加,能较快地收敛到近似最优解,能有效克服因为维数灾引起的难以求取最优策略或收敛速度过慢的问题。  相似文献   

3.
吴志东  唐涛  王鼎 《电子学报》2020,(12):2304-2312
构建准确的空间磁场是实现地磁室内定位的基础,针对传统构建模型未考虑磁场分布规律,导致其构建磁场精度差的问题,本文提出了基于磁势梯度与高斯过程的磁场构建方法.首先,将磁势梯度和磁场的关系中引入高斯过程,并用平方指数核函数的空间梯度与地球磁场分布的方差和作为高斯过程核函数;然后,将带有约束的超参数优化问题转换为无约束优化问题,并利用Rprop算法优化超参数;最后,通过仿真分析了新方法相比于传统方法的优势,讨论了超参数对构建精度的影响,并且使用三轴矢量磁传感器,分别在小区域较强磁场异常环境、开阔区域强磁场异常环境和弱磁场异常环境中开展磁场构建实验,结果证明提出的方法能够用于真实环境下空间磁场的准确构建.  相似文献   

4.
高斯过程是一种已应用在回归和分类问题上的非常有前途的技术。近年来,基于高斯过程的先验模型引起了在机器学习领域的重视。基于高斯过程的二元分类是一种非常成熟的方法。文中阐述了一种基于二元高斯分类的多元分类方法。通过这种方法可以得到一个很好的精度。同时,在实验过程中,对此种方法和支持向量机(SVM)在决策时间和精度上进行了比较。  相似文献   

5.
吴志东  唐涛  王鼎 《电子学报》2000,48(12):2304-2312
构建准确的空间磁场是实现地磁室内定位的基础,针对传统构建模型未考虑磁场分布规律,导致其构建磁场精度差的问题,本文提出了基于磁势梯度与高斯过程的磁场构建方法.首先,将磁势梯度和磁场的关系中引入高斯过程,并用平方指数核函数的空间梯度与地球磁场分布的方差和作为高斯过程核函数;然后,将带有约束的超参数优化问题转换为无约束优化问题,并利用Rprop算法优化超参数;最后,通过仿真分析了新方法相比于传统方法的优势,讨论了超参数对构建精度的影响,并且使用三轴矢量磁传感器,分别在小区域较强磁场异常环境、开阔区域强磁场异常环境和弱磁场异常环境中开展磁场构建实验,结果证明提出的方法能够用于真实环境下空间磁场的准确构建.  相似文献   

6.
Agent强化学习是机器学习的一个重要分支。阐述了Agent强化学习算法的基本理论,建立了求解类货郎担等NP问题的数学模型,给出了Agent强化学习算法解决这类问题的框架和基本方法,并运用该方法成功地解决了一个赛程安排问题,较传统方法有一定的改进。  相似文献   

7.
邵杰  杜丽娟  杨静宇 《通信技术》2010,43(4):220-222
提出了一种基于改进学习分类器的多机器人强化学习方法。增强学习使机器人能发现一组用于指导其强化学习行为的规则。遗传算法则在现有的规则中淘汰掉较差的,并利用较优的种群规则产生出新的学习规则。规则合并能提高多机器人的并行强化学习效率,使多个机器人自主地学习到相互协作的最优策略。算法的分析和仿真表明,将改进的学习分类器用于多机器人的强化学习是有效的。  相似文献   

8.
曾鑫  赵龙波  马尽文 《信号处理》2019,35(5):831-836
债券分析的核心问题是发现偿还期限与到期收益率之间的关系,即利率期限结构,而实际上国债利率期限结构是最为重要和基本的模式。目前人们对于利率期限结构的分析主要采用经济理论模型和数量模型进行,但是这两种方法都难于对国债收益率进行有效的预测。基于高斯过程混合模型强大的数据拟合和分析能力,本文将其应用于国债收益率的建模和预测。本文采用国债收益率数据作为输出变量,筛选出对国债收益率影响最强的一组作用因子作为驱动或输入变量,然后利用高斯过程混合模型对数据进行学习和建模,并依此对国债收益率进行建模和分析。实验结果表明高斯过程混合模型能够更好的描述国债利率期限结构。相比于其他机器学习模型和算法,高斯过程混合模型在国债收益率的测试数据上获得了更好准确的预测结果。   相似文献   

9.
10.
基于支持向量域描述的学习分类器   总被引:2,自引:1,他引:2  
文章在分析支持向量域描述的基础上发展了一类基于描述的学习分类器.该算法在训练时通过在高维特征空间中求取所描述的训练样本的超球体边界,然后通过该边界对样本数据进行分类.文章所获得的学习算法和支持向量机(SVM)和序列最小优化(SMO)算法相比,不仅降低了样本的采集代价,而且在训练速度上有了很大提高.在CBCL人脸库和USPS手写数字识别的实验中,给出了该算法和SVM、SOM算法的实验对比结果,说明了该学习算法的有效性。  相似文献   

11.
In this paper, we consider a cognitive radio (CR) system with a single secondary user (SU) and multiple licensed channels. The SU requests a fixed number of licensed channels and must sense the licensed channels one by one before transmission. By leveraging prediction based on correlation between the licensed channels, we propose a novel spectrum sensing strategy, to decide which channel is the best choice to sense in order to reduce the sensing time overhead and further improve the SU's achievable throughput. Since the correlation coefficients between the licensed channels cannot be exactly known in advance, the spectrum sensing strategy is designed based on the model-free reinforcement learning (RL). The experimental results show that the proposed spectrum sensing strategy based on reinforcement learning converges and outperforms random sensing strategy in terms of long-term statistics.  相似文献   

12.
RLGA:一种基于强化学习机制的遗传算法   总被引:3,自引:0,他引:3       下载免费PDF全文
分析了强化学习与遗传算法工作机制,在提出基因空间分割概念的基础上,提出了一种将强化学习与遗传算法内在结合起来的算法RLGA,在遗传算法的框架下实现强化学习机制.从理论上分析了RLGA的收敛性,讨论了RLGA的时间和空间效率及其与基因空间分割的关系,通过实验分析了RLGA中基因空间分割的指导范围.实验结果表明,RLGA具有良好的全局收敛性能.  相似文献   

13.
To enable a relevance feedback paradigm to evolve itself by users’ feedback, a reinforcement learning method is proposed. The feature space of the medical images is partitioned into positive and negative hypercubes by the system. Each hypercube constitutes an individual in a genetic algorithm infrastructure. The rules take recombination and mutation operators to make new rules for better exploring the feature space. The effectiveness of the rules is checked by a scoring method by which the ineffective rules will be omitted gradually and the effective ones survive. Our experiments on a set of 10,004 images from the IRMA database show that the proposed approach can better describe the semantic content of images for image retrieval with respect to other existing approaches in the literature.  相似文献   

14.
黄志清  曲志伟  张吉  张严心  田锐 《电子学报》2000,48(9):1711-1719
端到端的驾驶决策是无人驾驶领域的研究热点.本文基于DDPG(Deep Deterministic Policy Gradient)的深度强化学习算法对连续型动作输出的端到端驾驶决策展开研究.首先建立基于DDPG算法的端到端决策控制模型,模型根据连续获取的感知信息(如车辆转角,车辆速度,道路距离等)作为输入状态,输出车辆驾驶动作(加速,刹车,转向)的连续型控制量.然后在TORCS(The Open Racing Car Simulator)平台下不同的行驶环境中进行训练并验证,结果表明该模型可以实现端到端的无人驾驶决策.最后与离散型动作输出的DQN(Deep Q-learning Network)模型进行对比分析,实验结果表明DDPG决策模型具有更优越的决策控制效果.  相似文献   

15.
计算卸载是移动边缘网络中的一个关键问题,基于深度学习的算法为高效生成卸载策略提供了一种解决方法。但考虑到移动终端设备的动态性以及不同任务场景之间的转换,需要大量的训练数据和较长的训练时间重新训练神经网络模型,即这些方法对新环境的适应能力较弱。针对这些不足,提出了一种基于元强化学习(Meta Reinforcement Learning, MRL)的自适应卸载方法,先对外部模型进行预训练,处理具体任务时再基于外部模型训练内部模型。该方法能快速适应具有少量梯度更新的样本的新环境。仿真实验表明,该算法能够适应新的任务场景,效果良好。  相似文献   

16.
针对目标驱动的视觉导航系统中由于导航的场景变化而导致智能体导航性能大大减弱的问题,提出了一种基于长短时记忆网络(Long Short-Term Memory, LSTM)的深度强化学习(Deep Reinforcement Learning, DRL)视觉导航模型。该模型通过输入当前状态和目标状态的RGB图像来实现视觉导航,在改进原有目标驱动视觉导航模型的基础上,基于历史状态信息,结合LSTM和通用后继表征(Universal Successor Representations, USR)对未来动作决策。在AI2-THOR仿真环境下进行实验,实验结果表明,所提出的模型训练智能体导航性能优异,与其他几种模型相比,平均路径长度减少约6%,平均碰撞率减少40%,模型收敛速度较快。  相似文献   

17.
为优化软件定义网络(SDN)的路由选路,该文将深度增强学习原理引入到软件定义网络的选路过程,提出一种基于深度增强学习的路由优化选路机制,用以削减网络运行时延、提高吞吐量等网络性能,实现连续时间上的黑盒优化,减少网络运维成本。此外,该文通过实验对所提出的路由优化机制进行评估,实验结果表明,路由优化机制具有良好的收敛性与有效性,较传统路由协议可提供更优的路由方案与实现更稳定的性能。  相似文献   

18.
入侵检测问题可以模型化为数据流分类问题,传统的数据流分类算法需要标注大量的训练样本,代价昂贵,降低了相关算法的实用性。在PU学习算法中,仅需标注部分正例样本就可以构造分类器。对此本文提出一种动态的集成PU学习数据流分类的入侵检测方法,只需要人工标注少量的正例样本,就可以构造数据流分类器。在人工数据集和真实数据集上的实验表明,该方法具有较好的分类性能,在处理偏斜数据流上优于三种PU 学习分类方法,并具有较高的入侵检测率。  相似文献   

19.
Hyperparameters are important for machine learning algorithms since they directly control the behaviors of training algorithms and have a significant effect on the performance of machine learning models. Several techniques have been developed and successfully applied for certain application domains. However, this work demands professional knowledge and expert experience. And sometimes it has to resort to the brute-force search. Therefore, if an efficient hyperparameter optimization algorithm can be developed to optimize any given machine learning method, it will greatly improve the efficiency of machine learning. In this paper, we consider building the relationship between the performance of the machine learning models and their hyperparameters by Gaussian processes. In this way, the hyperparameter tuning problem can be abstracted as an optimization problem and Bayesian optimization is used to solve the problem. Bayesian optimization is based on the Bayesian theorem. It sets a prior over the optimization function and gathers the information from the previous sample to update the posterior of the optimization function. A utility function selects the next sample point to maximize the optimization function. Several experiments were conducted on standard test datasets. Experiment results show that the proposed method can find the best hyperparameters for the widely used machine learning models, such as the random forest algorithm and the neural networks, even multi-grained cascade forest under the consideration of time cost.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号