首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
李鲜  王艳  罗勇  周激流 《计算机应用》2019,39(5):1485-1489
针对医学图像中存在的灰度对比度低、器官组织边界模糊等问题,提出一种新的随机森林(RF)特征选择算法用于鼻咽肿瘤MR图像的分割。首先,充分提取图像的灰度、纹理、几何等特征信息用于构建一个初始的随机森林分类器;随后,结合随机森林特征重要性度量,将改进的特征选择方法应用于原始手工特征集;最终,以得到的最优特征子集构建新的随机森林分类器对测试图像进行分割。实验结果表明,该算法对鼻咽肿瘤的分割精度为:Dice系数79.197%,Acc准确率97.702%,Sen敏感度72.191%,Sp特异性99.502%。通过与基于传统随机森林和基于深度卷积神经网络(DCNN)的分割算法对比可知,所提特征选择算法能有效提取鼻咽肿瘤MR图像中的有用信息,并较大程度地提升小样本情况下鼻咽肿瘤的分割精度。  相似文献   

2.
3.
针对传统随机森林随特征数增加计算消耗高的问题,提出了一种随机森林多特征置换算法.该算法对数据特征进行聚类,保持其他特征簇不变,逐一对同簇特征同时随机置换,得到全部特征簇的重要性得分及簇间排序.簇内特征按与分类信息的相关程度排序,引入相关性阈值选出重要特征,对剩余特征按先簇间、再簇内的规则进行排序.为了进一步比较该方法的...  相似文献   

4.
提出一种基于量子粒子群和随机森林封装的特征选择方法。将量子粒子群算法用于特征选择,优化特征子集,采用随机森林分类器评价特征子集的性能,指导特征子集更新,以寻求最优的特征子集。  相似文献   

5.
在肌电信号的情感识别问题中,如何从高维特征中找出起关键作用的特征,一直是情感识别的难题。使用随机森林算法,并依照其对特征的评价准则,来计算肌电信号的126个初始特征在不同情感模式分类中的贡献度。依照每个特征的重要程度,优先组合贡献度大的特征并将其用于情感的分类。实验数据验证了该方法的有效性。  相似文献   

6.
构建个人信用风险评估模型的过程中, 特征工程很大程度上决定了评估器的性能, 传统的特征选择方法无法全面的考虑高维度指标对评估结果的影响, 且大多数研究在构建模型的过程中人为决定特征集大小, 导致随机性强、可信度低; 基于此, 提出基于传统风控指标优化XGBoost的随机森林模型(IV-XGBoostRF), 将传统风控指标IV与XGBoost相结合对原始特征集进行筛选, 建立较为完善的信用评估模型. 通过对比实验的结果显示改进后的随机森林模型准确度提高了0.90%, 且其他各项评估指标均优于传统信用评估模型, 证明了该组合特征选择方法的可行性, 有一定的应用价值.  相似文献   

7.
针对邮件过滤系统中普遍存在的维数灾难、类别主题差异和反馈信息缺失问题,提出一种基于类别特征选择与反馈学习随机森林算法的邮件过滤模型。该方法将隐含的Dirichlet模型引入到邮件的特征选择环节,在不同类型的邮件集中建立各自的生成模型,分别搜寻构成各个主题的特征信息,有效降低冗余信息和噪声数据对分类性能的影响。反馈学习随机森林算法发挥了决策树集成与反馈学习的优势,实现邮件过滤系统的自我调节,及时捕捉垃圾邮件的变化趋势。在公开的语料库CCERT和Trec06上进行测试,并与典型算法进行比较,实验结果表明所提算法的可行性和有效性。  相似文献   

8.
亚健康状态是一种介于健康和疾病之间的低质量状态。研究的目的是要确定哪些因素或因素组合能够针对亚健康状态进行预测。临床流行病学调查,获取572个实际案例(其中,523宗均为亚健康状态,49宗为健康),在报告中包括了50种相关症状。应用随机森林分类技术进行基于临床数据分析的亚健康状态预测,正确分类率为91.28%。由50倍随机森林方法所得到的特征选择(症状),即疲劳、心悸、四肢肌无力、疲劳程度和悲观态度是重要的判别变量。相关实验结果显示了提出方法的可行性与高效性。  相似文献   

9.
大数据时代,数据的共享与挖掘存在隐私泄露的安全隐患。针对使用K-匿名隐藏实现隐私保护会大幅降低数据分类挖掘性能问题,提出一种基于随机森林特征重要性的K-匿名特征选择算法(RFKA)用于分类挖掘。使用随机森林特征重要性度量特征的分类性能;采用前向序列搜索策略每次选择不破坏K-匿名且分类性能最大的特征加入特征子集;使用特征子集对应的数据集构建模型进行分类实验。实验结果表明,该算法能更有效地平衡K-匿名和分类挖掘性能,且算法运行效率更高。  相似文献   

10.
11.
针对以随机森林为分类器的人体姿态估计系统内存占用过大的问题,提出一种优化的随机森林模型,该模型在进行Bootstrap抽样前,引入Poisson过程并将其与深度信息相融合组建一个滤过网对原始训练数据集进行过滤,将一部分对后续分类起到非积极作用的特征样本点滤除,使训练数据集得到优化重构,进而较好地弥补随机森林在抽样过程中重复抽样以及重抽样样本代表性不强的缺点。实验结果表明了该优化模型的有效性,大大降低了系统的时间、空间复杂度,使得系统的适用性更强。  相似文献   

12.
深入研究大间隔从样本间相似性、信息熵从特征间相关性进行特征选择的特点,提出一种有效地融合这两类方法的特征选择算法。采用Relief算法得到一个有效的特征排序,进而将其划分为若干区段。设置各区段的采样率,以对称不确定性作为启发因子获得每个局部随机子空间的特征子集。将获得的所有特征子集作为最终的特征选择结果。实验结果表明该方法优于一些常用的特征选择算法。  相似文献   

13.
谢琪  徐旭  程耕国  陈和平 《计算机应用》2020,40(5):1266-1271
针对传统的基于森林优化算法的特征选择算法在初始化阶段、候选森林生成阶段和更新阶段存在的问题,提出了一种新的基于森林优化算法的特征选择算法。该算法在初始化阶段采用皮尔森相关系数和L1正则化方法代替随机初始化策略;在候选森林生成阶段,采用优劣树分开和差额补足的方法解决优劣树不完备问题;在更新阶段,将与最优树精度相同但维度不同的树木添加到森林中。在实验中,所提算法采用与传统的基于森林优化算法的特征选择算法相同的实验数据和实验参数,分别测试了小维度、中维度和大维度数据。实验结果表明,在2个大维度数据和2个中维度数据上,所提算法的分类精度和维度缩减能力均高于传统的基于森林优化算法的特征选择算法。实验结果验证了所提算法在处理特征选择问题的有效性。  相似文献   

14.
Credit risk assessment has been a crucial issue as it forecasts whether an individual will default on loan or not. Classifying an applicant as good or bad debtor helps lender to make a wise decision. The modern data mining and machine learning techniques have been found to be very useful and accurate in credit risk predictive capability and correct decision making. Classification is one of the most widely used techniques in machine learning. To increase prediction accuracy of standalone classifiers while keeping overall cost to a minimum, feature selection techniques have been utilized, as feature selection removes redundant and irrelevant attributes from dataset. This paper initially introduces Bolasso (Bootstrap-Lasso) which selects consistent and relevant features from pool of features. The consistent feature selection is defined as robustness of selected features with respect to changes in dataset Bolasso generated shortlisted features are then applied to various classification algorithms like Random Forest (RF), Support Vector Machine (SVM), Naïve Bayes (NB) and K-Nearest Neighbors (K-NN) to test its predictive accuracy. It is observed that Bolasso enabled Random Forest algorithm (BS-RF) provides best results forcredit risk evaluation. The classifiers are built on training and test data partition (70:30) of three datasets (Lending Club’s peer to peer dataset, Kaggle’s Bank loan status dataset and German credit dataset obtained from UCI). The performance of Bolasso enabled various classification algorithms is then compared with that of other baseline feature selection methods like Chi Square, Gain Ratio, ReliefF and stand-alone classifiers (no feature selection method applied). The experimental results shows that Bolasso provides phenomenal stability of features when compared with stability of other algorithms. Jaccard Stability Measure (JSM) is used to assess stability of feature selection methods. Moreover BS-RF have good classification accuracy and is better than other methods in terms of AUC and Accuracy resulting in effectively improving the decision making process of lenders.  相似文献   

15.
提出了一种基于遗传算法的大数据特征选择算法。该算法首先对各维度的特征进行评估,根据每个特征在同类最近邻和异类最近邻上的差异度调整其权重,基于特征权重引导遗传算法的搜索,以提升算法的搜索能力和获取特征的准确性;然后结合特征权重计算特征的适应度,以适应度作为评价指标,启动遗传算法获取最优的特征子集,并最终实现高效准确的大数据特征选择。通过实验分析发现,该算法能够有效减小分类特征数,并提升特征分类准确率。  相似文献   

16.
雍菊亚  周忠眉 《计算机应用》2020,40(12):3478-3484
针对在特征选择中选取特征较多时造成的去冗余过程很复杂的问题,以及一些特征需与其他特征组合后才会与标签有较强相关度的问题,提出了一种基于互信息的多级特征选择算法(MI_MLFS)。首先,根据特征与标签的相关度,将特征分为强相关、次强相关和其他特征;其次,选取强相关特征后,在次强相关特征中,选取冗余度较低的特征;最后,选取能增强已选特征集合与标签相关度的特征。在15组数据集上,将MI_MLFS与ReliefF、最大相关最小冗余(mRMR)算法、基于联合互信息(JMI)算法、条件互信息最大化准则(CMIM)算法和双输入对称关联(DISR)算法进行对比实验,结果表明MI_MLFS在支持向量机(SVM)和分类回归树(CART)分类器上分别有13组和11组数据集获得了最高的分类准确率。相较多种经典特征选择方法,MI_MLFS算法有更好的分类性能。  相似文献   

17.
针对传统的偏最小二乘法只考虑单特征的重要性以及特征之间存在冗余和多重共线性等问题,将特征之间的统计相关性引入到传统的偏最小二乘分析中,构造了一种基于特征相关的偏最小二乘模型。首先利用特征相关度对特征进行评估预选出特征组,然后将其放入偏最小二乘模型中进行训练,评估该特征组是否可取。结合前向贪心搜索策略依次评价候选特征,并选中使目标函数最小的候选特征加入到已选特征。分别采用麻杏石甘汤君药止咳、平喘和UCI数据集进行分析处理,实验结果表明,该特征选择方法能较好寻找较优的特征组。  相似文献   

18.
罗丹  罗海勇 《计算机应用》2015,35(11):3157-3160
针对现有跌倒检测算法由于缺乏真实老人跌倒样本以及使用年轻人仿真跌倒样本规模较小导致的过拟合和适应性不足等问题,提出了基于随机森林的跌倒检测算法.该算法采用滑动窗口机制,对窗口内的加速度数据进行时间域和变换域处理,提取时间域和变换域特征参数后,在所有样本集中进行有放回的Bootstrap随机抽样和属性随机选择,构建多个基于最佳属性分割的支持向量机(SVM)基本分类器.在线跌倒检测阶段,对多个SVM基本分类器的分类结果采用少数服从多数的原则,给出最终判定结果.实验表明,随机森林跌倒检测算法可获得95.2%的准确率、90.6%的敏感度和93.5%的特异性,明显优于基于SVM和反向传播(BP)神经网络跌倒检测算法,反映出随机森林跌倒检测算法能更准确地检测跌倒行为,具有较强的泛化能力和鲁棒性.  相似文献   

19.
特征选择是模式识别中的一个重要组成部分。针对未知类标号的样本集,提出基于中心距离比值准则的无监督特征选择算法。该算法利用爬山法确定聚类数目范围和估计初始聚类中心,再通过K-均值聚类算法确定特征子集的最佳分类数,然后用中心距离比值准则来评价特征子集的分类性能,并通过特征间的相关性分析,从中选择出分类效果好,相关程度低的特征组成特征子集。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号