首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
杨丰瑞 《计算机应用研究》2020,37(9):2625-2628,2633
高维复杂数据处理是数据挖掘领域中的关键问题,针对现有特征选择分类算法存在的预测精确度失衡、整体分类效率低下等问题,提出了一种结合概率相关性和极限随机森林的特征选择分类算法(P-ERF)。该算法使用充分考虑特征之间相关性与P值结合的特征选择方式,避免了树节点分裂过程中造成的冗余性问题;并以随机树为基分类器、极限随机森林为整体框架,使P-ERF算法获得了更高的精准度和更好的泛化误差。实验结果表明,P-ERF算法相较于随机森林算法、极限随机森林算法,在数据集分类精度与整体性方面均得到良好的效果。  相似文献   

2.
3.
针对传统随机森林随特征数增加计算消耗高的问题,提出了一种随机森林多特征置换算法.该算法对数据特征进行聚类,保持其他特征簇不变,逐一对同簇特征同时随机置换,得到全部特征簇的重要性得分及簇间排序.簇内特征按与分类信息的相关程度排序,引入相关性阈值选出重要特征,对剩余特征按先簇间、再簇内的规则进行排序.为了进一步比较该方法的...  相似文献   

4.
提出一种基于量子粒子群和随机森林封装的特征选择方法。将量子粒子群算法用于特征选择,优化特征子集,采用随机森林分类器评价特征子集的性能,指导特征子集更新,以寻求最优的特征子集。  相似文献   

5.
在肌电信号的情感识别问题中,如何从高维特征中找出起关键作用的特征,一直是情感识别的难题。使用随机森林算法,并依照其对特征的评价准则,来计算肌电信号的126个初始特征在不同情感模式分类中的贡献度。依照每个特征的重要程度,优先组合贡献度大的特征并将其用于情感的分类。实验数据验证了该方法的有效性。  相似文献   

6.
构建个人信用风险评估模型的过程中, 特征工程很大程度上决定了评估器的性能, 传统的特征选择方法无法全面的考虑高维度指标对评估结果的影响, 且大多数研究在构建模型的过程中人为决定特征集大小, 导致随机性强、可信度低; 基于此, 提出基于传统风控指标优化XGBoost的随机森林模型(IV-XGBoostRF), 将传统风控指标IV与XGBoost相结合对原始特征集进行筛选, 建立较为完善的信用评估模型. 通过对比实验的结果显示改进后的随机森林模型准确度提高了0.90%, 且其他各项评估指标均优于传统信用评估模型, 证明了该组合特征选择方法的可行性, 有一定的应用价值.  相似文献   

7.
大数据时代,数据的共享与挖掘存在隐私泄露的安全隐患。针对使用K-匿名隐藏实现隐私保护会大幅降低数据分类挖掘性能问题,提出一种基于随机森林特征重要性的K-匿名特征选择算法(RFKA)用于分类挖掘。使用随机森林特征重要性度量特征的分类性能;采用前向序列搜索策略每次选择不破坏K-匿名且分类性能最大的特征加入特征子集;使用特征子集对应的数据集构建模型进行分类实验。实验结果表明,该算法能更有效地平衡K-匿名和分类挖掘性能,且算法运行效率更高。  相似文献   

8.
9.
针对邮件过滤系统中普遍存在的维数灾难、类别主题差异和反馈信息缺失问题,提出一种基于类别特征选择与反馈学习随机森林算法的邮件过滤模型。该方法将隐含的Dirichlet模型引入到邮件的特征选择环节,在不同类型的邮件集中建立各自的生成模型,分别搜寻构成各个主题的特征信息,有效降低冗余信息和噪声数据对分类性能的影响。反馈学习随机森林算法发挥了决策树集成与反馈学习的优势,实现邮件过滤系统的自我调节,及时捕捉垃圾邮件的变化趋势。在公开的语料库CCERT和Trec06上进行测试,并与典型算法进行比较,实验结果表明所提算法的可行性和有效性。  相似文献   

10.
亚健康状态是一种介于健康和疾病之间的低质量状态。研究的目的是要确定哪些因素或因素组合能够针对亚健康状态进行预测。临床流行病学调查,获取572个实际案例(其中,523宗均为亚健康状态,49宗为健康),在报告中包括了50种相关症状。应用随机森林分类技术进行基于临床数据分析的亚健康状态预测,正确分类率为91.28%。由50倍随机森林方法所得到的特征选择(症状),即疲劳、心悸、四肢肌无力、疲劳程度和悲观态度是重要的判别变量。相关实验结果显示了提出方法的可行性与高效性。  相似文献   

11.
深入研究大间隔从样本间相似性、信息熵从特征间相关性进行特征选择的特点,提出一种有效地融合这两类方法的特征选择算法。采用Relief算法得到一个有效的特征排序,进而将其划分为若干区段。设置各区段的采样率,以对称不确定性作为启发因子获得每个局部随机子空间的特征子集。将获得的所有特征子集作为最终的特征选择结果。实验结果表明该方法优于一些常用的特征选择算法。  相似文献   

12.
针对以随机森林为分类器的人体姿态估计系统内存占用过大的问题,提出一种优化的随机森林模型,该模型在进行Bootstrap抽样前,引入Poisson过程并将其与深度信息相融合组建一个滤过网对原始训练数据集进行过滤,将一部分对后续分类起到非积极作用的特征样本点滤除,使训练数据集得到优化重构,进而较好地弥补随机森林在抽样过程中重复抽样以及重抽样样本代表性不强的缺点。实验结果表明了该优化模型的有效性,大大降低了系统的时间、空间复杂度,使得系统的适用性更强。  相似文献   

13.
谢琪  徐旭  程耕国  陈和平 《计算机应用》2020,40(5):1266-1271
针对传统的基于森林优化算法的特征选择算法在初始化阶段、候选森林生成阶段和更新阶段存在的问题,提出了一种新的基于森林优化算法的特征选择算法。该算法在初始化阶段采用皮尔森相关系数和L1正则化方法代替随机初始化策略;在候选森林生成阶段,采用优劣树分开和差额补足的方法解决优劣树不完备问题;在更新阶段,将与最优树精度相同但维度不同的树木添加到森林中。在实验中,所提算法采用与传统的基于森林优化算法的特征选择算法相同的实验数据和实验参数,分别测试了小维度、中维度和大维度数据。实验结果表明,在2个大维度数据和2个中维度数据上,所提算法的分类精度和维度缩减能力均高于传统的基于森林优化算法的特征选择算法。实验结果验证了所提算法在处理特征选择问题的有效性。  相似文献   

14.
Credit risk assessment has been a crucial issue as it forecasts whether an individual will default on loan or not. Classifying an applicant as good or bad debtor helps lender to make a wise decision. The modern data mining and machine learning techniques have been found to be very useful and accurate in credit risk predictive capability and correct decision making. Classification is one of the most widely used techniques in machine learning. To increase prediction accuracy of standalone classifiers while keeping overall cost to a minimum, feature selection techniques have been utilized, as feature selection removes redundant and irrelevant attributes from dataset. This paper initially introduces Bolasso (Bootstrap-Lasso) which selects consistent and relevant features from pool of features. The consistent feature selection is defined as robustness of selected features with respect to changes in dataset Bolasso generated shortlisted features are then applied to various classification algorithms like Random Forest (RF), Support Vector Machine (SVM), Naïve Bayes (NB) and K-Nearest Neighbors (K-NN) to test its predictive accuracy. It is observed that Bolasso enabled Random Forest algorithm (BS-RF) provides best results forcredit risk evaluation. The classifiers are built on training and test data partition (70:30) of three datasets (Lending Club’s peer to peer dataset, Kaggle’s Bank loan status dataset and German credit dataset obtained from UCI). The performance of Bolasso enabled various classification algorithms is then compared with that of other baseline feature selection methods like Chi Square, Gain Ratio, ReliefF and stand-alone classifiers (no feature selection method applied). The experimental results shows that Bolasso provides phenomenal stability of features when compared with stability of other algorithms. Jaccard Stability Measure (JSM) is used to assess stability of feature selection methods. Moreover BS-RF have good classification accuracy and is better than other methods in terms of AUC and Accuracy resulting in effectively improving the decision making process of lenders.  相似文献   

15.
提出了一种基于遗传算法的大数据特征选择算法。该算法首先对各维度的特征进行评估,根据每个特征在同类最近邻和异类最近邻上的差异度调整其权重,基于特征权重引导遗传算法的搜索,以提升算法的搜索能力和获取特征的准确性;然后结合特征权重计算特征的适应度,以适应度作为评价指标,启动遗传算法获取最优的特征子集,并最终实现高效准确的大数据特征选择。通过实验分析发现,该算法能够有效减小分类特征数,并提升特征分类准确率。  相似文献   

16.
罗丹  罗海勇 《计算机应用》2015,35(11):3157-3160
针对现有跌倒检测算法由于缺乏真实老人跌倒样本以及使用年轻人仿真跌倒样本规模较小导致的过拟合和适应性不足等问题,提出了基于随机森林的跌倒检测算法.该算法采用滑动窗口机制,对窗口内的加速度数据进行时间域和变换域处理,提取时间域和变换域特征参数后,在所有样本集中进行有放回的Bootstrap随机抽样和属性随机选择,构建多个基于最佳属性分割的支持向量机(SVM)基本分类器.在线跌倒检测阶段,对多个SVM基本分类器的分类结果采用少数服从多数的原则,给出最终判定结果.实验表明,随机森林跌倒检测算法可获得95.2%的准确率、90.6%的敏感度和93.5%的特异性,明显优于基于SVM和反向传播(BP)神经网络跌倒检测算法,反映出随机森林跌倒检测算法能更准确地检测跌倒行为,具有较强的泛化能力和鲁棒性.  相似文献   

17.
AVS-P10是我国第一部移动环境下的音频编解码标准。针对AVS-P10开环方式下编码模式选择算法准确率不高导致编码质量不佳的问题,提出基于随机森林的开环编码模式选择算法,通过拟合闭环方式下的编码模式选择结果,以提升开环方式下的编码模式选择准确度。为了降低随机森林计算复杂度并保持高准确度,采用两次特征选择并结合随机森林的特性选择特征。主客观测试结果表明,所提方法将开环方式下的编码模式选择准确率大幅提升;采用所提方法的开环编码质量明显优于AVS-P10开环编码质量,与AVS-P10闭环编码质量相当。  相似文献   

18.
针对线性红外光谱建模方法会导致模型的泛化能力受限,而非线性方法随着光谱特征数目增多会导致模型预测准确度下降的问题,对随机森林(RF)标准算法的特征选择方法进行改进。根据红外光谱与待测组分的相关性对光谱特征重要性进行度量,采用K-均值聚类算法划分光谱特征区,按特定比例从各特征区采样并建立决策树,最终构造随机森林。实验结果表明,改进算法建立较少的决策树就可以达到较高的准确度,将其与PLS、SVM和标准RF算法比较,证明改进RF算法能够提高红外光谱模型的准确度,同时降低模型的复杂度。  相似文献   

19.
针对特征选择算法——relief在训练个别属性权值时的盲目性缺点,提出了一种基于自适应划分实例集的新算法——Q-relief,该算法改正了原算法属性选择时的盲目性缺点,选择出表达图像信息最优的特征子集来进行模式识别。将该算法应用于列车运行故障动态图像监测系统(TFDS)的故障识别,经实验验证,与其他算法相比,Q-relief算法明显提高了故障图像识别的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号