首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
一种大规模样本数据的特征提取方法   总被引:2,自引:0,他引:2  
针对沙尘暴样本数据的特点,根据专家经验依次通过聚类分析、建立典型模式类、计算中心场,再以样本与中心场的距离作为样本的特征,成功地在每个样本的几百个数据中提取到40个特征。通过对提取特征的统计检验,说明了本文所用方法的有效性;同时,提出了一种建立在K-L变换基础上的特征综合方法,协助完成关于多维特征的类间差异检验。  相似文献   

2.
为了全面提升图书馆集成信息检索方法的综合性能,结合随机森林算法,提出一种基于随机森林的图书馆集成信息检索方法。在建立随机森林底层分类器的过程中加入贝叶斯多项式,利用算法中携带的数据提出一种基于二维权重分布的投票机制,根据投票结果进行图书馆集成信息检索。仿真实验结果表明,所提方法能够有效提升检索效率和检索结果准确率,获取满意的图书馆集成信息检索结果。  相似文献   

3.
针对城市污水处理运行过程中出现混合异常数据的问题,提出了一种基于改进型随机森林的数据清洗方法.首先,设计了一个孤立森林的异常数据识别模型,识别数据中的离群值.其次,建立了一种改进型随机森林回归模型,提高随机森林对混合类型异常数据的适应能力,并对数据趋势进行拟合预测.最后,用改进的随机森林数据清洗方法对剔除混合异常数据后的缺失数据进行补偿,实现对污水数据的清洗.实际数据测试结果表明,该方法提高了混合类型缺失数据补偿的准确性.  相似文献   

4.
为适应优化算法的模型,用K近邻方法对数据进行预处理,提出了KNN-RF模型.对数据集用K近邻进行缺失补充,并进行归一化等预处理操作,以随机森林算法为基础,并采用交叉检验和网格搜索寻找最佳参数.在比较流行的UCI心脏病数据集和克利夫兰医学中心公开数据集分别进行实验,建立了心脏病预测模型,用于辅助医生对患者是否患有心脏病进...  相似文献   

5.
目前现有技术在中文异常邮件过滤方面,存在误判、效率不高等缺陷。为了缓解此问题,结合随机森林算法的优点,采用了中文分词方法进行特征提取,并对词频进行权重计算,通过奇异值降解,更好地填充算法以完成对中文异常邮件的检测。多种算法的对比分析检测效果表明,提出的基于随机森林异常邮件检测器在精准度、召回率的性能均优于其他算法,而在时间效能上也处于较好水平。  相似文献   

6.
《南昌水专学报》2016,(6):99-102
作为人工智能算法的经典算法之一,K最近邻(KNN)在非线性、低维数据时能够取得优越的效果。但是,当维数较高时,现有数据集往往会变得较为稀疏,此时KNN需要大量训练数据才能保证精度。因此,适当的数据降维方法是改进KNN方法的重要手段。先用随机森林对训练数据集的变量进行排序,从而建立一种有效的KNN算法,并采用Boston数据集验证了该模型的有效性。  相似文献   

7.
针对高维小样本数据的类(模式)内离散度矩阵常为奇异,提出了一种改进的线性判别分析方法ModLDA。它通过嵌入偏最小二乘算法,完成投影方向矢量的稳健估计,进而提取出若干个特征变量。而后基于特征变量张成的低维空间,构造样本类别的线性判别函数。在实证中,将ModLDA应用于药物光谱数据的化学模式识别,结果显示ModLDA方法判别能力明显优于其他方法。  相似文献   

8.
基于随机森林的流量分类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
网络流量识别在提高网络管理能力和保护网络安全方面有着重要作用。传统的基于端口识别和深度包检测的方法由于无法应对端口随机化、数据加密等原因,识别效率大大降低。近年来,出现了基于流统计特征的识别方法。然而,已有的基于流统计特征的识别方法大多使用单个分类器进行流量识别,存在着精度提高难、环境依赖强等局限性。针对这一问题,提出一种基于随机森林的流量分类方法,基于多分类器集成的思想,采用由多个决策树集成、由随机向量决定决策树构造方式的随机森林,实现对网络流量的分类。实验分析结果表明,所提出方法的分类性能优于常见的基于C4.5和Naive Bayes的流量分类方法。  相似文献   

9.
为提高民航运输的高效性和安全性,利用随机森林模型,结合多普勒激光雷达技术,提出一种基于径向速度极差特征和边缘轮廓特征融合的方法,实现对飞机尾流的准确识别。将在双流机场采集的数据样本进行速度极差特征提取,同时将样本数据映射成灰度图,通过形态学梯度提取图像轮廓特征,再将二者融合,并以此构建随机森林尾流识别模型,最后进行对比实验。实验结果表明,特征融合后随机森林模型的分类准确率、精确率、召回率、F1-score分别为95.8%、87.3%、89.4%、88.4%,高于单一特征方式和决策树模型识别结果。本文提出的方法能够对具有复杂背景风场中的尾涡进行检测。  相似文献   

10.
在得到了局部放电绝缘缺陷模式识别所需的特征集后,针对特征维度较高,建立分类模型复杂的问题,提出了基于方差分析的随机森林前向特征选择方法.从两个方面进行了改进:一是提出一种基于方差分析的方法,度量特征在不同类别上的差异性,得到了修改之后的排列置换方案,用来指导某一个特征在袋外数据样本上的取值顺序的重新排列;二是采用序列前...  相似文献   

11.
提出了一种基于果蝇算法优化的随机森林预测方法,该方法使用果蝇优化算法对随机森林的两个主要参数进行优化,构建一种优化的随机森林模型,并与现有方法进行了对比和分析。实验结果表明,本文方法不仅具有更高的识别准确度,在时间上也具有较高效率,可作为问题预测的一种有效工具。  相似文献   

12.
数据高维且不平衡时,产生的分类器易过度拟合且倾向于牺牲少数类准确率.为降低分类器复杂度且提高少数类识别率,提出了一种代价敏感随机森林算法.以随机森林算法框架为基础,利用Bagging平衡数据,并在基分类器属性分裂度量以及评价函数中引入误分类和测试双重代价,其中测试代价由分裂属性与少数类的相关度决定,使得基决策树在建模过程中向少数类倾斜.与随机森林和仅引入误分类代价的随机森林相比,引入双重代价的随机森林的分类准确率较高,尤其在少数类识别上具有较大优势.  相似文献   

13.
全面质量管理为企业实现科学、全面、高效的管理提供了理论依据.在分析产品生产过程中影响产品质量各方面因素的基础上,利用随机森林决策树算法对数据进行处理,挖掘内在的、本质的信息,能为企业的管理提供帮助.通过实测数据分析,结果显示基于随机森林决策树的方法有较好的性能,可以满足企业的实际应用要求,提高企业效率和产品合格率,降低企业成本.  相似文献   

14.
为适应特征级信息融合计算的需要,在粗糙集理沦框架下,提出了一种基于概括约简的特征提取新方法.首先引入层次树的概念研究了属性值的抽象概括方法,然后设计了两种带有互补性的属性约简方法,一种是利用条件属性间的相关性作为约简策略去除冗余条件属性,另一种是利用有效一致性因子原则约简无关条件属性.设计的方法弥补了粗糙集理论中目前还存在的处理对象范围狭窄和处理效果较差等方面缺陷.应用实例验证了方法的正确性和可信性.  相似文献   

15.
16.
从经济发展、城市环境和生活品质3个方面选取16项指标构建评价体系,利用随机森林算法构建评价模型,定量分析2017年吉林省39个县级市(地级市和延边朝鲜族自治州除外)的新型城镇化发展水平,为推进吉林省新型城镇化发展提供参考。  相似文献   

17.
基于相关鉴别分析和随机森林的人脸识别方法   总被引:1,自引:0,他引:1  
本文研究了人脸识别应用中的"维数灾难"问题。针对经典欧式距离不能较好刻画高维空间中样本间相似性特征,我们引入了相关系数鉴别分析方法,在高维空间中,基于相关系数提取鉴别特征,实现了人脸样本的维数约简。本文实验结果表明,该方法在小规模及大规模数据集上均具有较好的性能。  相似文献   

18.
针对硬件木马特征多样性以及激活效率低的现状,提出了一种基于随机森林的硬件木马检测方法,即在门级电路检测触发节点。首先,从已知网表中提取每个节点的特征值;然后,根据时序电路和组合电路两种情况,通过随机森林分类器赋予每种特征相应的权重并生成两种模型(双模型用于识别未知网表中的可疑触发节点,并且给出每个可疑触发节点的可疑度结果);最后,通过可疑度排名的前n%个可疑节点检测硬件木马。实验结果证明了该方法的优越性。  相似文献   

19.
多导睡眠仪中的多种呼吸信号使睡眠呼吸暂停检测过程变得复杂,影响患者睡眠,对此,提出一种利用随机森林方法进行自动睡眠呼吸暂停检测的方法.腹部呼吸信号经过希尔伯特-黄变换后,呼吸暂停与正常睡眠时的能量和边际谱分布显著不同,通过提取相关频域特征,结合时域特征,利用机器学习中的随机森林方法进行呼吸暂停的检测,有效地降低了检测复杂性,提高了检测准确性.实验结果表明,此方法在检测的便捷性和准确性上优于已有方法,更适用于家庭环境,具有广泛的应用前景.  相似文献   

20.
以广州车牌竞拍价格数据集为数据来源,采用线性回归并结合k折交叉验证,研究小样本数据集的预测方法.为解决小样本局部特异性数据导致的验证误差增大的问题,提出验证之前先对数据进行全局混洗的策略.最后通过实验验证了此策略可以明显降低验证误差,以此为基础,通过多组实验验证,确定了合适的参数,结果表明最终预测值的总平均正确率达到了...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号