首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
为解决Webshell检测特征覆盖不全、检测算法有待完善的问题,论文提出一种基于随机森林的Webshell检测方法。首先对三种类型的Webshell进行深入特征分析,构建多维特征向量较全面的覆盖静态属性和动态行为,改进随机森林特征选取方法,依据Fisher比度量特征重要性,对子类的依赖特征进行划分,按比例和顺序从中选择特征,克服特征选择完全随机带来的弊端,提高决策树分类强度,降低树间相关度。实验对随机森林改进算法和标准算法进行了对比分析,结果表明改进算法依靠更少的决策树就能达到很好效果,并进一步与SVM算法进行比较,证明了该方法在Webshell检测问题上具有一定优越性。  相似文献   

2.
大数据时代,数据的共享与挖掘存在隐私泄露的安全隐患。针对使用K-匿名隐藏实现隐私保护会大幅降低数据分类挖掘性能问题,提出一种基于随机森林特征重要性的K-匿名特征选择算法(RFKA)用于分类挖掘。使用随机森林特征重要性度量特征的分类性能;采用前向序列搜索策略每次选择不破坏K-匿名且分类性能最大的特征加入特征子集;使用特征子集对应的数据集构建模型进行分类实验。实验结果表明,该算法能更有效地平衡K-匿名和分类挖掘性能,且算法运行效率更高。  相似文献   

3.
李鲜  王艳  罗勇  周激流 《计算机应用》2019,39(5):1485-1489
针对医学图像中存在的灰度对比度低、器官组织边界模糊等问题,提出一种新的随机森林(RF)特征选择算法用于鼻咽肿瘤MR图像的分割。首先,充分提取图像的灰度、纹理、几何等特征信息用于构建一个初始的随机森林分类器;随后,结合随机森林特征重要性度量,将改进的特征选择方法应用于原始手工特征集;最终,以得到的最优特征子集构建新的随机森林分类器对测试图像进行分割。实验结果表明,该算法对鼻咽肿瘤的分割精度为:Dice系数79.197%,Acc准确率97.702%,Sen敏感度72.191%,Sp特异性99.502%。通过与基于传统随机森林和基于深度卷积神经网络(DCNN)的分割算法对比可知,所提特征选择算法能有效提取鼻咽肿瘤MR图像中的有用信息,并较大程度地提升小样本情况下鼻咽肿瘤的分割精度。  相似文献   

4.
针对线性红外光谱建模方法会导致模型的泛化能力受限,而非线性方法随着光谱特征数目增多会导致模型预测准确度下降的问题,对随机森林(RF)标准算法的特征选择方法进行改进。根据红外光谱与待测组分的相关性对光谱特征重要性进行度量,采用K-均值聚类算法划分光谱特征区,按特定比例从各特征区采样并建立决策树,最终构造随机森林。实验结果表明,改进算法建立较少的决策树就可以达到较高的准确度,将其与PLS、SVM和标准RF算法比较,证明改进RF算法能够提高红外光谱模型的准确度,同时降低模型的复杂度。  相似文献   

5.
对中医临床诊断数据的特性进行了研究,提出了病证及其特征数据(症状或体征数据)的一些特性指标:病证的相似度、复杂度、隐蔽度,特征数据的贡献度、常见度、显隐性.另外,研究了基于多维关联规则提取诊断经验的方法.在此基础上,研究了一种非充分条件下复杂数据智能化处理拓展算法,该算法的实现模型嵌入了模糊竞争神经网络.该算法在复杂的中医诊断数字化中得到了应用,结果表明,该算法可以较好地处理复杂数据.  相似文献   

6.
针对传统随机森林随特征数增加计算消耗高的问题,提出了一种随机森林多特征置换算法。该算法对数据特征进行聚类,保持其他特征簇不变,逐一对同簇特征同时随机置换,得到全部特征簇的重要性得分及簇间排序。簇内特征按与分类信息的相关程度排序,引入相关性阈值选出重要特征,对剩余特征按先簇间、再簇内的规则进行排序。为了进一步比较该方法的有效性,基于[K]均值聚类、层次聚类、模糊[C]均值聚类算法,设计了三种随机森林多特征置换的特征选择算法。实验结果表明,与传统随机森林方法相比,新算法可选择较少特征时仍取得较高分类精度,且时间效率更高。  相似文献   

7.
目前,我国电网企业对于识别停电投诉风险,开展用户停电敏感程度分析的研究工作还处在起步阶段.为了有效地分析停电用户的敏感程度,提出了一种基于改进随机森林算法的停电敏感用户分类算法.首先,对原始数据进行清洗、特征选择等预处理;接着,采用SMOTE算法增加少数敏感用户样本数据量,解决数据分布不均匀问题;然后,以Fisher比作为特征的重要性度量,按比例随机采样选取具有代表性的特征构成子特征空间;最后,利用随机森林算法识别停电敏感用户.通过在真实停电数据上的实验,验证了提出的方法不仅具有较好的准确性和时间性能,而且可以有效处理高维、冗余特征的数据.  相似文献   

8.
师彦文  王宏杰 《计算机科学》2017,44(Z11):98-101
针对不平衡数据集的有效分类问题,提出一种结合代价敏感学习和随机森林算法的分类器。首先提出了一种新型不纯度度量,该度量不仅考虑了决策树的总代价,还考虑了同一节点对于不同样本的代价差异;其次,执行随机森林算法,对数据集作K次抽样,构建K个基础分类器;然后,基于提出的不纯度度量,通过分类回归树(CART)算法来构建决策树,从而形成决策树森林;最后,随机森林通过投票机制做出数据分类决策。在UCI数据库上进行实验,与传统随机森林和现有的代价敏感随机森林分类器相比,该分类器在分类精度、AUC面积和Kappa系数这3种性能度量上都具有良好的表现。  相似文献   

9.
基于中医疗效评价的交互式数据挖掘框架   总被引:1,自引:1,他引:0       下载免费PDF全文
设计并实现了基于小儿肺炎中医疗效评价的交互式数据挖掘框架。该框架采用数据挖掘、数理统计和逻辑分析相结合的方法,通过回顾性和前瞻性多角度的验证与比较研究,揭示各证和所属症状之间的关联性,不仅突破了传统的疗效评价方法的限制,而且优化了疗效规范,建立了客观的、人机交互可度量的病证结合的疗效评价体系。  相似文献   

10.
以新疆阿尔泰山南麓克兰河流域典型区为研究区,利用GF-3全极化数据进行积雪探测,提出了一种基于特征优选的积雪识别方法。首先通过极化分解获取了GF-3数据的22个极化特征,并利用随机森林方法计算各特征的重要性,构建特征优选规则生成最优特征集,然后基于最优特征集对积雪进行识别。分析特征的重要性发现,同极化后向散射系数对积雪识别的贡献比交叉极化的贡献大,面散射和体散射对积雪识别的贡献比二面角散射贡献大。将该方法与最大似然法、支持向量机、BP神经网络3种分类器的对比发现,使用最优特征集并且利用随机森林方法的积雪识别精度最高(F指数为0.86,总体精度为0.79)。结果表明:基于特征优选进行积雪识别,不仅使得积雪识别效率得到提高,而且保持精度不变甚至有所增加,证明了该方法在积雪识别中的有效性。  相似文献   

11.
介绍了中等职业学校中“五笔字型,,输入法教学的重要性,总结了在“五笔字型,,输入法教学过程中的四个主要阶段,并介绍了中职学生的“五笔字型“教学必须从学生的思想教育入手,重视实践的练习,持之以恒,坚持不懈方能取得好成绩.  相似文献   

12.
受特征重要性不平衡的影响,随机森林可能随机抽取到弱特征子集,从而生成“弱决策树”,进而导致模型的收敛速度降低、模型的性能下降。鉴于此,提出融合因子分析的随机森林模型,主要创新在于采用因子分析法构建特征组,再按特征个数比随机抽取特征形成每个分裂节点的候选子集。以模型的分类预测、回归拟合、特征重要性分析的准确率和运行时间为评价指标,选取了9组UCI数据综合考察模型的整体性能,并与决策树、随机森林对比实验。结果表明:融合因子分析的随机森林模型基本消除了准确率低的决策树产生,提高了模型的准确率和收敛速度,泛化性更强,更加有利于高维大数据,可行有效。  相似文献   

13.
面诊是中医四诊之一,在中医面诊时通常将人脸区域分成5个部分,每个部分对应于不同的人体内脏部位,内脏的病变表现为人脸对应区域的颜色变化。实现了一种简单快速的人脸区域分割方法,首先用Gabor小波变换定位人眼,将AdaBoost和唇色模型相结合定位嘴角,然后根据先验知识确定内眉点位置,用提取轮廓算法确定人脸边界,从而实现人脸区域的自动分割。通过对样本图片的测试,实验结果表明该方法可以满足面诊实时分割人脸区域的需求。  相似文献   

14.
Regression conformal prediction produces prediction intervals that are valid, i.e., the probability of excluding the correct target value is bounded by a predefined confidence level. The most important criterion when comparing conformal regressors is efficiency; the prediction intervals should be as tight (informative) as possible. In this study, the use of random forests as the underlying model for regression conformal prediction is investigated and compared to existing state-of-the-art techniques, which are based on neural networks and k-nearest neighbors. In addition to their robust predictive performance, random forests allow for determining the size of the prediction intervals by using out-of-bag estimates instead of requiring a separate calibration set. An extensive empirical investigation, using 33 publicly available data sets, was undertaken to compare the use of random forests to existing state-of-the-art conformal predictors. The results show that the suggested approach, on almost all confidence levels and using both standard and normalized nonconformity functions, produced significantly more efficient conformal predictors than the existing alternatives.  相似文献   

15.
性味归经与抗衰老药效的BP神经网络研究   总被引:1,自引:0,他引:1       下载免费PDF全文
针对中药药效与其性味归经之间复杂的、不确定的关系,运用人工神经网络的理论和方法,建立中药抗衰老药效的BP神经网络模型,通过实例对抗衰老指标进行评价分析。经验证,用BP神经网络方法评价中药抗衰老药效是一种快速、可靠的方法。  相似文献   

16.
This paper is concerned with developing rules for assignment of tooth prognosis based on actual tooth loss in the VA Dental Longitudinal Study. It is also of interest to rank the relative importance of various clinical factors for tooth loss. A multivariate survival tree procedure is proposed. The procedure is built on a parametric exponential frailty model, which leads to greater computational efficiency. We adopted the goodness-of-split pruning algorithm of [LeBlanc, M., Crowley, J., 1993. Survival trees by goodness of split. Journal of the American Statistical Association 88, 457-467] to determine the best tree size. In addition, the variable importance method is extended to trees grown by goodness-of-fit using an algorithm similar to the random forest procedure in [Breiman, L., 2001. Random forests. Machine Learning 45, 5-32]. Simulation studies for assessing the proposed tree and variable importance methods are presented. To limit the final number of meaningful prognostic groups, an amalgamation algorithm is employed to merge terminal nodes that are homogeneous in tooth survival. The resulting prognosis rules and variable importance rankings seem to offer simple yet clear and insightful interpretations.  相似文献   

17.
黄伟雄 《物联网技术》2012,(5):75-77,81
五防系统是变电站保障设备安全运行的重要一环,如果五防系统不符合投运条件而投入运行,运行人员在倒闸操作和停送电操作中,就很容易发生误操作事故。为了杜绝误操作事故的发生,必须从误操作发生的各种可能原因进行分析,并采取相应的对策,确保五防系统正确、可靠地投入运行。文中介绍了变电站五防系统在实际工作中容易出现的弊端,并对变电站五防系统在新站投运和技改工作中的一些做法进行了分析。  相似文献   

18.
Infrared imaging has the advantage of all-weather working ability. Due to the limitation of the hardware and the high cost, the resolution of infrared image (IR) is very low. To improve the resolution of IR images, this paper exploits super-resolution (SR) method for IR images. A new SR framework by using random forests is proposed in this paper. Existing methods adopts single regression model for SR. However, which single regression model tends to overfit training data, and would lead to a poor performance. Furthermore, the existing methods are not suitable for real-time system due to the heavy time consuming. To resolve this problem, an ensemble regression model, i.e. random forests rather than single regression model is adopted in this paper. In addition, to achieve better results multi-regression models rather than a single regression model are trained on the clustered training data. Moreover, the features used in many SR methods cannot extract features on diagonal orientation. To resolve this problem, we adopt a second order derivative filter, which can extract features on diagonal orientation. The experimental results demonstrate the availability of the proposed method.  相似文献   

19.
周强  吕鹏  任鹏 《信息与控制》2012,(4):465-471
考虑到高性能的白噪声在信号处理中的重要性,提出了一种生成高性能白噪声的新方法.首先,辨识伪随机序列的模型;其次,将伪随机序列进行平稳化、实时辨识和循环白化;最后,获得性能比较高的白噪声.仿真结果表明:该方法获得的白噪声具有较高的性能.  相似文献   

20.
Bagging组合的不平衡数据分类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
秦姣龙  王蔚 《计算机工程》2011,37(14):178-179
提出一种基于Bagging组合的不平衡数据分类方法CombineBagging,采用少数类过抽样算法SMOTE进行数据预处理,在此基础上利用C-SVM、径向基函数神经网络、Random Forests 3种不同的基分类器学习算法,分别对采样后的数据样本进行Bagging集成学习,通过投票规则集成学习结果。实验结果表明,该方法能够提高少数类的分类准确率,有效处理不平衡数据分类问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号