首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 593 毫秒
1.
为了提高不平衡数据集中少数类的分类准确率,文章对组合分类算法进行了研究,提出了一种新的组合分类算法WDB.该算法采用决策树C4.5和朴素贝叶斯两种不同的分类器作为基分类器,选择精确度(precision)作为权值,根据不同的训练集,通过"权值学习"的方式自动调整各基分类器的权值大小,然后,结合各基分类器的预测结果,利用加权平均法进行代数组合,构造出一种新的分类算法WDB.最后,以开放的不平衡数据集作为数据源,利用常见的性能评价指标进行实验验证.实验结果证明,在组合分类算法中引入"权值学习"能够发挥基分类器对于特定数据类型的分类优势,提高预测结果的准确率.WDB算法对不平衡数据集分类的性能优于决策树C4.5算法、朴素贝叶斯算法及随机森林算法,能够有效提升不平衡数据集中少数类的分类准确率.  相似文献   

2.
阐明决策树分类器在用于分类的数据挖掘技术中依然重要,论述基于决策树归纳分类的ID3、C4.5算法,并且对决策属性的选取法则进行说明。通过实例解析ID3、C4.5算法实现过程,结果表明C4.5算法相比较于ID3算法的优越性.尤其在处理具有多属性值的数据时的更加合理和正确。  相似文献   

3.
针对C4.5决策树算法在处理多维数据分类时,没有考虑各属性对分类结果的影响,导致分类准确率低的问题,提出一种基于距离权值的C4.5组合决策树算法。根据标准欧式距离定义数据属性的距离权值,更新C4.5决策树算法的信息增益率,得到基于距离权值的C4.5算法。利用改进后的C4.5决策树分类算法训练多个基分类器,基分类器通过Bagging集成方法构建组合决策树。实验结果表明,该算法在处理多维数据时有较高的准确性和稳定性。  相似文献   

4.
基于粗糙集分类算法研究与实现   总被引:2,自引:1,他引:1  
数据挖掘是人工智能中知识发现的重要组成部分,而分类又是一种主要的应用形式。ID3算法是数据挖掘中经典的决策树分类算法,ID3算法具有抗噪声能力差的缺点。通过对分类和粗糙集理论的研究,将可变精度粗糙集理论的思想应用在计算属性信息熵时设定阈值上,以放宽属性选择的要求,从而对经典的ID3算法作了相应的改进。改进后的ID3算法(称之为VPID3算法)可在一定程度上降低噪声对系统分类的干扰,提高了有数据有噪声情况下的分类精度。另外根据该算法设计并实现了一个分类器,并通过实验检验了该算法的性能。  相似文献   

5.
流分类技术在网络安全监控,QoS,入侵检测等方面起着重要的作用。流分类器处理的数据含有大量的相关与冗余特征,这不仅增加了分类器的计算复杂性,同时也影响了分类器的分类效果。针对高维特征空间,特征选择一方面可以提高分类精度与效率,另一方面可以找出富含信息的特征子集。该文提出一种wrapper型特征选择算法VFSA-C4.5来构建轻量级的流分类器。该算法采用快速模拟退火VFSA搜索策略对特征子集空间进行随机搜索,然后以提供的数据在C4.5上的分类正确率作为特征子集的评价标准,来获取最优特征子集。在流数据集上进行的大量实验结果表明,基于VFSA-C4.5的流分类器在不影响分类性能的情况下能够提高分类速度。  相似文献   

6.
分类问题是数据研发领域里研究和使用最广泛的技术之一。近几年经济的飞速发展,分类问题在多行业和领域中被广泛使用,那么,怎样更准确、更有效地分类呢?这是多数研究工作人员的目标。决策树(decision tree)以条理清晰,程序严谨,定量、定性分析相结合,方法通俗易懂,容易掌握,应用性较强等优点,被广泛应用。现在构造决策树的算法比较多,如:ID3算法、C4.5算法、CART等。C4.5算法是在ID3算法的基础上进行改进的,C4.5算法选用信息增益率(Info Gain Ratio)为择取分枝属性的标准,此方法弥补了ID3算法在运用信息增益择取分枝属性时偏向于取值较多的属性的不足之处,但是C4.5算法也有部分缺陷,本文主要在其处理连续属性比较耗时问题上进行深入探讨,本文对其连续的处理过程进行改进来提高C4.5算法的计算效率,大大缩短算法用时。  相似文献   

7.
针对医院信息管理工作难度大,数据种类复杂并且对于医院管理数据利用率低等问题,设计一种医院信息管理系统,该系统软件设计采用C/S架构记性设计;针对医院数据挖掘技术,通过改进Apriori算法和增量决策树算法对数据进行处理,提高医院信息利用率;并通过设计模拟实验方案对设计的算法进行验证,其中对于改进Apriori算法与原始的Apriori算法相比起处理速度提升了 10倍;对于增量决策树算法分类的准确率比C4.5算法和ID3算法高5%以上,并且在增量学习中耗时是C4.5算法和ID3算法的40%以下.  相似文献   

8.
张宏莉  鲁刚 《软件学报》2012,23(6):1500-1516
网络协议流不平衡环境下,流样本分布的变化对基于机器学习的流量分类器准确性及稳定性有较大的影响选择合适的机器学习算法以适应网络协议流不平衡环境下的在线流量分类,显得格外重要.为此,首先通过单因子实验设计,验证了C4.5决策树、贝叶斯核估计(NBK)和支持向量机(SVM)这3种分类算法统计TCP连接开始的前4个数据包足以分类流量.接着,比较了上述3种分类算法的性能,发现C4.5决策树的测试时间最短,SVM分类算法最稳定.然后,将Bagging算法应用到流量分类中.实验结果表明,Bagging分类算法的稳定性与SVM相似,且测试时间与建模时间接近于C4.5决策树,因此更适于在线分类流量.  相似文献   

9.
汪辉  侯传宇 《数字社区&智能家居》2011,(15):3572-3574,3581
ID3算法和C4.5算法是经典的决策树算法,通过对ID3算法和C4.5算法的数据结构、算法描述和分裂属性选取等方面进行比较,为其他研究者提供参考.  相似文献   

10.
许俊 《福建电脑》2006,(12):34-35
决策树是分类数据挖掘的重要方法。其中,经典ID3算法根据具有最大信息增益的属性对训练样本集进行分类,适用于离散型属性。C4.5算法延用了ID3算法的基本策略,增加了处理连续数值型属性的方法。本文在其基础上讨论了新的基于属性变换的离散化处理方法。该方法基于统计概率信息,依据概率属性的最佳分裂对应分裂连续属性,增加了决策树的分类精度。  相似文献   

11.
决策树是数据挖掘的分类应用中采用最广泛的模型之一,但是传统的ID3、C4.5和CART等算法在应用于超大型数据库的挖掘时,有效性会降得很低,甚至出现内存溢出的现象,针对此本文提出了一种基于属性加权的随机决策树算法,并通过实验证明该算法减少了对系统资源的占用,并且对高维的大数据集具有很高的分类准确率,非常适合被用于入侵检测的分类之中。  相似文献   

12.
现有的决策树ID3、C4.5算法是一种快速有效的经典分类算法,但其有一个不足就是无回溯的自顶向下分析.造成所得的结果往往更多的是局部最优解而不一定是全局最优解。利用挖掘类比较技术,自底向上地分析描述,完善C4.5的分类算法,并实现自顶向下和自底向上共同分析,逼近全局最优解,取得了较好的效果。  相似文献   

13.
一种基于属性加权的决策树算法   总被引:1,自引:0,他引:1  
ID3算法和C4.5算法是简单而有效的决策树分类算法,但其应用于复杂决策问题上存在准确性差的问题。本文提出了一种新的基于属性加权决策树算法,基于粗集理论提出通过属性对决策影响程度的不同进行加权来构建决策树,提高了决策结果准确性。通过属性加权标记属性的重要性,权值可以从训练数据中学习得到。实验结果表明,算法明显提高了决策结果的准确率。  相似文献   

14.
从大数据的基本特点和医疗大数据研究现状出发,分析处理过程中存在的问题,提出在决策树算法下的医疗大数据填补及分类方法。分析医疗数据的关联规则,采用关联分析(Apriori)算法和频繁模式树(Frequent Pattern Growth,FP-Growth)算法挖掘数据。以挖掘数据为基础填补其中的缺失数据,按照医疗数据特点搭建决策树,并运用ID3和C4.5决策树算法,实现医疗大数据的分类,得出数据分类结果。由仿真得出,与传统方法相比,填补量提高了50%,分类精度提高了11.40%、14.80%,无论从数据的填补方面还是分类方法,上述方法均有较高的应用价值,为医疗大数据体系的构建开辟了新的思路。  相似文献   

15.

Learning from patient records may aid medical knowledge acquisition and decision making. Decision tree induction, based on ID3, is a well-known approach of learning from examples. In this article we introduce a new data representation formalism that extends the original ID3 algorithm. We propose a new algorithm, ID+, which adopts this representation scheme. ID+ provides the capability of modeling dependencies between attributes or attribute values and of handling multiple values per attribute. We demonstrate our work via a series of medical knowledge acquisition experiments that are based on a ''real-world'' application of acute abdominal pain in children. In the context of these experiments, we compare ID+ with C4.5, NewId, and a Naive Bayesian classifier. Results demonstrate that the rules acquired via ID+ improve decision tree clinical comprehensibility and complement explanations supported by the Naive Bayesian classifier, while in terms of classification, accuracy decrease is marginal.  相似文献   

16.
经典ID3决策树算法适用于离散型数据分类,但用于连续处理时需要数据离散化容易导致信息损失。提出邻域等价关系从而诱导邻域ID3(NID3)决策树算法,NID3算法改进了ID3决策树算法,能够直接实施连续预测并获取更好的分类效果。在邻域决策系统中,挖掘一种邻域等价关系;基于邻域等价粒化,构建邻域信息度量;基于邻域信息增益,设计NID3决策树算法。实例分析与数据实验均表明,NID3算法具有连续数据分类预测有效性,在分类机器学习中优于ID3算法。  相似文献   

17.
针对现有决策树算法对连续性数据分类的信息丢失、效果不佳等缺点,提出一种邻域决策树(NDT)构造算法.首先,挖掘了邻域决策信息系统上的变精度邻域等价粒,并探讨了相关性质;然后基于变精度邻域等价粒构建邻域基尼指数度量,以度量邻域决策信息系统的不确定性;最后,用邻域基尼指数度量诱导出树节点的选取条件,并以变精度邻域等价粒为树...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号