共查询到19条相似文献,搜索用时 203 毫秒
1.
针对基于信息熵的决策树算法中存在多值属性偏向、连续属性处理不佳和时间复杂度较高等问题,提出一种基于离散比概念的决策树特征度量方法.首先采用K-means聚类算法对连续性数值属性进行离散化处理,其次利用属性在各个分类中的权重以及在整个条件属性中的权重比值,计算出该属性的离散比,避免了计算熵过程中复杂的对数运算,最后根据离... 相似文献
2.
3.
《西安邮电学院学报》2019,(3):71-75
针对基分类器算法偏向选择多值属性以及大量对数运算引起运算复杂的问题,提出一种基于属性相容性的随机森林算法。引入粗糙集中的属性相容性,计算各个条件属性的相容度,利用宽相容度辅助严相容度构建分割属性的划分规则,重建基分类器的信息增益或信息增益率表达式。实验结果表明,改进算法在保持对数据量较多时有较高分类准确率前提下,对数据量较少时的分类准确率有显著提升,且降低了运算复杂度。 相似文献
4.
《青岛科技大学学报(自然科学版)》2016,(6):687-692
针对传统的基于信息熵的决策树算法所存在的问题,本研究从粗糙集理论的角度来考虑信息熵,定义了依赖决策熵的概念,并提出一种基于依赖决策熵的决策树算法DTDDE。在DTDDE算法中,采用依赖决策熵的概念来度量每个条件属性的重要性,并选择重要性最大的属性作为当前的分离属性。通过在多个UCI数据集上的实验表明:与现有的决策树算法相比,本研究所提出的算法能够获得更好的分类性能。 相似文献
5.
CET-4是一个客观、准确的大学生英语能力测量平台,C4.5算法在应用于CET-4成绩分析中仍存在一些问题。针对运用C4.5算法对高职院校CET-4成绩数据构建分析决策树时存在的离散化运算繁琐、忽视各属性影响度等典型问题,提出一种面向高职院校CET-4成绩分析的改进C4.5算法。首先通过在C4.5算法中引入成绩正态分布规律确立初始聚类中心、K-means算法来离散连续属性;其次引入CET-4中听、读、写的权重来修正信息增益率的计算;最后运用改进的C4.5算法、经典的C4.5算法分别构建决策树模型并进行预测分析。实验结果表明,改进的C4.5算法所构建高职院校CET-4成绩分析的模型效率、预测能力均有明显提高。运用改进的C4.5算法有效地分析出影响CET-4达标各因素间的关系,从而提升CET-4反拨英语教学效应。 相似文献
6.
7.
针对在C4.5决策树构造过程中,测试属性选择未考虑属性之间影响的缺点,提出了一种改进的C4.5决策算法.该算法使用一个属性与其他属性的平均信息熵表示这个属性与其他属性的冗余度,然后在选择测试属性的过程中,加入测试属性与其他属性的冗余度,通过信息增益、分裂熵和冗余度三个因素的评价,选择信息增益率高而与其他属性冗余度低的测试属性.实验结果表明,在选定的实验数据集上,改进后的C4.5决策树算法平均分类正确率提高. 相似文献
8.
为了使构造的决策树更简单,规则更容易被理解且精度更高,文章基于粗糙集理论提出了一种对属性约简及泛化的多变量决策树算法。该方法采用条件属性的加权平均粗糙度这个指标来选择测试属性构造决策树。实验表明该方法较ID3算法得到的决策树更小且分类准确率更高。文章还展望用核属性以外的条件组合属性作测试属性构造更简化的多变量决策树。 相似文献
9.
基于划分子集的属性约简算法 总被引:1,自引:1,他引:0
Pawlak提出的基于属性重要度的约简算法是常用的算法之一,它通过计算等价关系对论域划分的粒度来度量属性的重要度。但用该算法计算每一个属性的重要度时,都要计算不同等价关系对整个论域的划分,计算复杂度非常高。受决策树划分子集思想的启发,对基于属性重要度的属性约简算法进行了改进,提出了一种基于划分子集的属性约简算法。在核属性集形成划分的基础上,通过在核属性中添加非核属性从而形成更细的划分,如此反复。在保持正域不变的框架下,形成最细化分的属性集就是一个约简。理论分析显示该算法减少了求属性约简的计算时间复杂度,提高了求属性约简的效率。 相似文献
10.
用知识发现的思想来解决决策型工艺知识获取问题。定义了工艺决策数据表(PDDT)的概念,用它存储工艺决策数据样本,并基于CLS(Concept Learning System)算法提出了一种改进的工艺决策树学习算法,采用ID3(Iterative Dichotomizer 3)算法来度量工艺决策数据表中条件属性对于工艺决策规则的重要性,进而构建工艺决策树,提出了工艺决策树简化处理的原则以及转换为工艺决策规则的方法。 相似文献
11.
当前,远程教学系统缺少智能性,不能提供个性化教学,引入ID3算法后可以根据学习者的特征对其分类,从而实现对不同学习者的针对性教学.然而传统的决策树ID3算法存在多值倾向的问题,选择分裂属性不符合客观事实.运用一种基于灰色关联分析的修正因子属性选择方法予以改进,对取值较多但灰色关联度低的属性,在计算其信息增益时通过灰色关联度的正弦值作为修正因子,克服传统ID3算法的不足.将改进的ID3算法引入到远程教学系统中,可以更好地对学习者进行分类以实现智能化导学. 相似文献
12.
一种基于粗糙集的K-means聚类算法 总被引:2,自引:0,他引:2
对粗糙集进行了相关研究,并提出了一种以粗糙集理论为基础的K-平均聚类算法,该算法以信息表中条件属性和决策属性的一致性原理为基础,应用粗糙集的属性约简算法消除冗余属性,利用各属性重要度确定其权值,在此基础上应用改进的K-平均算法进行聚类分析.该方法的优势在于消除了不重要的属性,赋予了各属性权值,使聚类更有效,更客观.实验结果表明,该方法是有效的. 相似文献
13.
为解决多进制LDPC码基于FFT-BP译码算法不利于硬件实现的问题,提出了一种改进算法:利用对数运算,将乘法运算变换成对数域上的加法运算,从而降低复杂度,便于硬件实现。对该算法在高斯白噪声信道,基于GF(4)有限域、码率0.5的规则LDPC码(486,972)进行了仿真分析。结果显示:改进的FFT-BP译码算法相对传统的FFT-BP译码算法,在误码性能上损失极小(当误码率10-4时,信噪比损失大约0.07dB)情况下,能够使译码算法硬件复杂度得到较大的改善。 相似文献
14.
为充分挖掘隐藏于遥测数据中的规则知识,发现数据间的关联性,采用ID3算法对卫星太阳帆板遥测数据进行挖掘分析,计算各类参数的信息增益值,以最大增益值为分裂属性构建出相关性决策树,得到决策知识,发现影响太阳帆板状态变化的参数间的关联性,为卫星在轨性能分析和故障诊断提供依据.分析结果表明,采用ID3算法对遥测数据进行分析可以获得预期的结果. 相似文献
15.
目标综合评价关联聚类算法的改进 总被引:1,自引:0,他引:1
利用现有的适于目标综合评价的关联聚类分析法对模糊事物进行分类评判时,存在阈值选取困难、聚类结果与标准对象的排列顺序直接相关、容易出现误判和漏判、先分的类聚集较多的对象而后分的类聚集较少的对象等缺点,影响了聚类结果的准确性和合理性,针对这些问题,提出一种改进的关联聚类算法,克服了原算法的不足之处,无论标准对象顺序如何排列、域值如何选取、先聚集哪一个类别,都能得到合理的稳定的聚类结果. 相似文献
16.
杜丽英 《吉林建筑工程学院学报》2014,(5):48-50
决策树是数据挖掘技术中的重要方法,主要用于分类和预测.本文介绍了决策树算法中应用最广泛的ID3算法和C4.5算法,阐述了两种算法的主要思想,说明了构造决策树的基本步骤,对两种算法进行了分析和比较. 相似文献
17.
在粗糙集理论的基础上提出了一种新的决策树算法,把粗糙集中的近似分类精度及决策规则的确定性因子应用于决策树的构造,在算法形成的过程中提出抑制因子,对决策树进行修剪,避免了先生成决策树再修剪的繁琐步骤,且在每次划分时对条件属性值和决策属性值进行匹配考察,避免不必要的计算,进一步提高了算法速度. 相似文献
18.
本文对数据成时间序列的动态决策表 ,用增量式算法提取决策表的规则模型。增量式算法的关键点是在分类正确率和相容度下对属性集进行优级排序 ,算法的特点是随着数据的增加逐次推导规则。随着计算轮次的增加 ,比较运算的次数按多项式增加。由于大型静态数据库可转化为动态数据库 ,所以 ,增量式算法是大型决策表规则提取的有效算法 相似文献
19.
基于决策树的就业数据挖掘 总被引:12,自引:0,他引:12
针对学生就业问题,给出了就业数据挖掘模型.决策树方法是数据挖掘中非常有效的分类方法,根据就业数据特点,采用了C4.5决策树算法.C4.5算法是决策树核心算法ID3的改进算法,它构造简单,速度较快,容易实现.模型对就业数据预处理,选取决策属性,实现挖掘算法并抽取规则知识,由规则知识指出哪些决策属性决定了就业单位的类别,挖掘结果表明,该算法能够正确将就业数据分类,并得到若干有价值的结论,供决策分析。 相似文献