首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随机森林分类算法在产生决策树以及投票流程中各个决策树的分类准确度各不相同,由此带来的问题是少部分决策树会影响随机森林算法的整体分类性能。除此以外,数据集中的不平衡数据也能影响到决策树的分类精度。针对以上缺点,对Bootstrap抽样方法添加约束条件,以降低非平衡数据对生成决策树的影响;以及利用袋外数据(Outof-Bagging)和非平衡系数对生成的决策树进行评估加权。试验结果表明,所提算法改善了随机森林对不平衡数据的分类精度。  相似文献   

2.
从海量数据中进行近似数据的检索是数据挖掘领域许多应用的关键。尤其近年来,数据的规模出现爆炸式增长,数据检索需面对海量数据和"维度灾难"的叠加考验,这使得传统最近邻算法效率降低,而近似最近邻算法发挥了越来越重要的作用。其中哈希算法以其在存储空间和计算时间上的优势受到了广泛关注。提出了一种基于随机森林的哈希算法。该算法通过构建随机森林,将原始空间的样本映射为海明空间的二进制哈希码,并在哈希空间上定义了顺序敏感的海明距离,以最大程度保持数据在原空间的近邻关系不变。由于随机森林中不同决策树所使用的特征空间和学习过程是独立的,可以以增量的方式灵活地确定哈希码的长度。此外基于随机森林的哈希编码算法天然适合并行部署,从而可以大大提高算法速度。最后,在MNIST和CIFAR-10数据集对所提算法进行了实验验证,结果表明了算法的有效性和出色性能。  相似文献   

3.
4.
由于通信数据异常会影响巡检机器人对巡检任务数据的接收精度,因此利用孤立森林算法实现巡检机器人通信异常数据自动检测方法的优化设计。首先,在构建的通信信道环境下,采集巡检机器人通信数据,从通信流量、数据信噪比、数据包平均长度等方面,提取通信数据特征。其次,利用孤立森林算法,计算通信数据异常分值。最后,通过异常分值的分区比对和数据特征的匹配,以可视化的形式输出通信异常数据自动检测结果。通过性能测试实验发现,优化设计自动检测方法的误检率和漏检率均低于预设值,即优化设计方法具有较高的检测精度。  相似文献   

5.
为解决当前数据分类算法效率低的问题,提出一种非结构化海量变电工程数据的分类算法.通过构建非结构化海量变电工程数据模型,计算非结构化数据相似度,设计分类算法流程等方式,完成对算法的设计.此外,设计对比实验,证明了设计的非结构化海量变电工程数据分类算法,对于海量数据的处理效率更高,综合性能更优,可满足变电单位对数据分类处理...  相似文献   

6.
异常步态对行动能力产生严重影响,因此,及时、自动地检测异常步态具有至关重要的意义。本文提出了一种基于BlazePose和随机森林算法的人体异常步态检测方法。先利用BlazePose算法提取RGB视频中的人体骨骼关键点,然后通过数据处理获取7个关键的步态特征参数。最后采用随机森林算法作为步态分类器,用于区分正常步态与异常步态。利用142例异常步态数据和257例正常步态数据对分类器进行训练和测试评估,实验结果显示准确率和召回率分别达到97.5%和90%,表明该方法在异常步态检测方面具备一定的可行性和实用价值。  相似文献   

7.
针对电网中的拓扑错误和不良遥测信息严重影响电网的安全运行的现象,提出了基于改进局部异常因子算法的拓扑辨识方法.该方法利用统计理论对开关及刀闸的状态信息和电网的遥测信息进行评估,同时考虑到遥测及遥信信息对拓扑错误辨识的影响不同,采用相对熵对其数据进行加权处理,并在异常拓扑状态检测过程中,通过网格来屏蔽那些非异常的对象,提升算法效率.实验结果表明,该算法能够快速识别电网中的拓扑错误,发现其中的不良遥测信息.  相似文献   

8.
由于电力数据异常检测时的电力数据特征提取效果较差,导致电力数据异常检测准确性较低,对此,提出基于孤立森林算法的电力数据异常检测方法。采用总线传输控制协议进行短期负荷电力数据参数采集,通过堆叠多层神经网络来执行机器学习,得到电力数据有最小值,构建电力数据采样模型。基于采集到的短期负荷电力数据,利用相邻子模块融合方法对短期负荷电力数据进行融合处理,基于上述融合处理后的短期负荷电力数据,对其进行数据特征提取。根据数据特征提取结果,使用孤立森林学习算法进行短期负荷电力数据异常检测。实验结果表明:该方法对电力数据异常检测的聚类性和收敛性较好,且数据异常检测精度最高达97%,检测时长最高为16 s,具有实用性。  相似文献   

9.
10.
基于改进的随机森林算法的入侵检测模型   总被引:7,自引:0,他引:7  
郭山清  高丛  姚建  谢立 《软件学报》2005,16(8):1490-1498
针对现有入侵检测算法对不同类型的攻击检测的不均衡性和对攻击的响应时间较差的问题.将随机森林算法引入到入侵检测领域,构造了基于改进的随机森林算法的入侵检测模型,并把这种算法用于基于网络连接信息的数据的攻击检测和异常发现.通过对DARPA数据的入侵检测实验,其结果表明,基于改进的随机森林算法的入侵检测模型是可行的、高效的,对数据集DARPA中所包含的4种类型的攻击检测具有良好的均衡性.  相似文献   

11.
目前,我国电网企业对于识别停电投诉风险,开展用户停电敏感程度分析的研究工作还处在起步阶段.为了有效地分析停电用户的敏感程度,提出了一种基于改进随机森林算法的停电敏感用户分类算法.首先,对原始数据进行清洗、特征选择等预处理;接着,采用SMOTE算法增加少数敏感用户样本数据量,解决数据分布不均匀问题;然后,以Fisher比作为特征的重要性度量,按比例随机采样选取具有代表性的特征构成子特征空间;最后,利用随机森林算法识别停电敏感用户.通过在真实停电数据上的实验,验证了提出的方法不仅具有较好的准确性和时间性能,而且可以有效处理高维、冗余特征的数据.  相似文献   

12.
用电异常状态的辨识是用电环节的重点和难点。本文基于计量自动化系统智能电能表所采集的用电大数据,对用电异常状态辨识方法进行研究。首先,基于用电海量数据及高维随机矩阵理论,研究分析了大维随机矩阵的协方差矩阵特征谱分布;然后,根据矩阵的统计特性提出基于用电大数据矩阵的用电异常状态辨识方法;最后,以贵州实际用电数据为例进行了仿真研究。仿真结果表明该文方法不仅能满足电网对可视性、时效性、可靠性、安全性的迫切要求,而且为数据驱动用电环节智能化、可视化监控提供了新思路。  相似文献   

13.
在处理高度不平衡数据时,代价敏感随机森林算法存在自助法采样导致小类样本学习不充分、大类样本占比较大、容易削弱代价敏感机制等问题.文中通过对大类样本聚类后,多次采用弱平衡准则对每个集群进行降采样,使选择的大类样本与原训练集的小类样本融合生成多个新的不平衡数据集,用于代价敏感决策树的训练.由此提出基于聚类的弱平衡代价敏感随机森林算法,不仅使小类样本得到充分学习,同时通过降低大类样本数量,保证代价敏感机制受其影响较小.实验表明,文中算法在处理高度不平衡数据集时性能较优.  相似文献   

14.
提出一种改进随机森林算法(SP-RF).通过建立数据抽样索引表和随机特征索引表来实现随机森林算法在Spark上的并行化;通过计算随机森林算法中每个决策树的AUC值来给分类能力不同的决策树分配权重;提高随机森林算法在投票环节的分类精度.实验结果表明改进后的随机森林算法分类精度平均提高5%,运行时间平均减少25%以上.  相似文献   

15.
提出一种改进随机森林算法(SP-RF).通过建立数据抽样索引表和随机特征索引表来实现随机森林算法在Spark上的并行化;通过计算随机森林算法中每个决策树的AUC值来给分类能力不同的决策树分配权重;提高随机森林算法在投票环节的分类精度.实验结果表明改进后的随机森林算法分类精度平均提高5%,运行时间平均减少25%以上.  相似文献   

16.
数据不平衡会严重影响传统分类算法的性能,不平衡数据分类是机器学习领域的一个热点和难点问题.为提高不平衡数据集中少数类样本的检出率,提出一种改进的随机森林算法.该算法的核心是对每一棵通过Bootstrap采样后的随机森林子树数据集进行混合采样.首先采用基于高斯混合模型的逆权重上采样,然后基于SMOTE-borderlin...  相似文献   

17.
针对传统的关系数据存储系统性能不足、容错性差,无法适应海量非结构化数据管理的问题,提出一种高性能、高可用非关系型存储管理机制。首先,设计了良好的用户访问服务接口,通过高效的一致性哈希算法支持数据分发到多个存储节点;其次,采用可配置的数据副本机制改善存储系统的可用性;最后,提出查询故障处理机制,用以提升存储系统的容错性,避免节点失效导致服务中断问题。实验结果表明,在不同规模用户负载下,新的存储系统的并发访问请求能力和传统的文件系统、关系数据库相比,分别提升了30%和50%;同时,在合理响应时间内,故障状态下的存储系统的可用性损失小于14%。因此,该机制适用于海量非结构化数据的高效存储管理。  相似文献   

18.
工业物联网系统所面临的网络安全威胁随着物联网技术的广泛应用日益增加,信息安全问题已成为其发展过程中的一大挑战。MQTT(Message Queuing Telemetry Transport)协议是物联网通信的主流协议,基于该协议的物联网通信安全研究是当前研究的热点话题。传统的流量识别技术如深度包检测无法有效地识别符合包格式的异常流量,而基于机器学习理论的异常流量识别技术则表现出很好的效果。对此提出一种基于随机森林算法的MQTT异常流量检测方法,实现整体高于90%的MQTT异常流量识别准确度,与其他常用分类模型相比拥有更好的识别效果。  相似文献   

19.
随机森林(random forest,RF)算法虽应用广泛且分类准确度很高,但在面对特征维度高且不平衡的数据时,算法分类性能被严重削弱。高维数据通常包含大量的无关和冗余的特征,针对这个问题,结合权重排序和递归特征筛选的思想提出了一种改进的随机森林算法RW_RF(ReliefF&wrapper random forest)。首先引用ReliefF算法对数据集的所有特征按正负类分类能力赋予不同的权值,再递归地删除冗余的低权值特征,得到分类性能最佳的特征子集来构造随机森林;同时改进ReliefF的抽样方式,以减轻不平衡数据对分类模型的影响。实验结果显示,在特征数目很多的数据集中,改进算法的各评价指标均高于原算法,证明提出的RW_RF算法有效精简了特征子集,减轻了冗余特征对模型分类精度的影响,同时也证明了改进算法对处理不平衡数据起到了一定的效果。  相似文献   

20.
传统识别方法未对异常数据流进行分类,导致识别正确率不高,提出基于改进K最邻近(K-Nearest Neighbor,KNN)算法的网络数据流异常识别方法。通过预处理异常数据流,提取异常数据流的特征,并以此作为基础,利用KNN算法统计异常数据流的类别,并分类所出现的异常数据。之后,通过计算不同网络环境下识别异常数据的时长,完成网络异常数据流的识别。在仿真实验中,与以往的网络数据流异常识别方法相比,提出的基于改进KNN算法的网络数据流异常识别方法具有更好的识别效果,识别正确率更高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号