共查询到17条相似文献,搜索用时 118 毫秒
1.
分析了基于正区域、基于粗糙边界和基于依赖度的属性选择标准的关系,证明了这三种属性选择标准彼此等价。以正区域的属性选择标准为代表,分析了基于正区域的决策树生成算法的优点和不足。针对这些不足,提出基于差别元素的大小为新的属性选择标准。用新的属性选择标准生成的决策树一般具有叶子数目较少,叶子的平均深度也较小,且叶子具有较强的泛化能力。用一实例说明了新的属性选择标准的优越性。 相似文献
2.
关于“两种新的决策表属性约简概念”的注记 总被引:1,自引:0,他引:1
出于应用目的,许多学者提出了各种不同的属性约简概念.蒋思宇等在分析了基于正区域的属性约简和基于信息熵属性约简概念的差别后,提出了两种新的属性约简概念.通过实例分析,指出两种新的属性约简概念的不足,其根源是度量平均决策强度和决策熵的两个公式不具有单调性.根据原作者的出发点,给出了度量决策强度和决策熵的两个新公式,分别证明了这两个公式都具有单调性,并由此给出了基于决策强度和决策熵的属性约简概念. 相似文献
3.
出于应用目的,许多学者提出了各种不同的属性约简概念.蒋思宇等在分析了基于正区域的属性约简和基于信息熵属性约简概念的差别后,提出了两种新的属性约简概念.通过实例分析,指出两种新的属性约简概念的不足,其根源是度量平均决策强度和决策熵的两个公式不具有单调性.根据原作者的出发点,给出了度量决策强度和决策熵的两个新公式,分别证明了这两个公式都具有单调性,并由此给出了基于决策强度和决策熵的属性约简概念. 相似文献
4.
李想 《计算机光盘软件与应用》2014,(7):302-303
文章在基于变精度粗糙集模型的基础上,研究了具有置信度规则的一种新的决策树构造方法。新算法对基于粗糙集的决策树生成方法进行改进,新算法以变精度加权平均粗糙度作为属性选择标准构造决策树,综合分析训练数据的噪声数据,引入在构造决策树的过程中存在的不一致性。在决策树生长过程中引入置信度,以控制决策树的生长,得到具有确切置信度的决策规则。 相似文献
5.
ID3算法是一种典型的决策树归纳算法,它以信息增益作为选择扩展属性根结点的标准,并递归地生成决策树。但ID3算法倾向于选取属性取值较多的属性作为根结点,而且它假设训练集中各类别样例的比例应与实际问题领域里各类别样例的比例相同。提出一种新的基于粗糙集技术的决策树归纳算法,它是一种完全数据驱动的归纳算法,可以克服ID3算法的上述不足。 相似文献
6.
决策树算法是一种采用分治策略的自顶向下的归纳算法,传统的决策树算法往往是基于信息论度量的.文章以粗糙集合理论中的区分观点为基础,提出了两种新型的属性选择判据:区分度和区分价值.实验结果表明,采用区分价值的属性选择策略所生成的决策树要明显优于基于熵的属性选择策略. 相似文献
7.
基于粗糙集的理论全面考虑了分离属性每个划分对整个分类的贡献程度,把这些贡献度进行汇总,避免局部最佳效应。在此基础上结合变精度模型,用变精度近似精度来代替近似精度,提出了一种新的变精度分支汇总粗糙度的概念,把变精度分支汇总粗糙度作为属性选择标准构造决策树。既提高了属性选择的准确度又有效克服噪声数据的影响,使生成的决策树灵活泛化能力更强。将算法应用于武汉市康龙逸君健康体检中心的信息管理系统,经实际数据验证,该算法生成的决策树复杂度低,分类效果好。 相似文献
8.
在已有的多种决策树测试属性选择方法中,来见将属性值遗漏数据处理集成在测试属性选择过程中的报道,而现有的属性值遗漏数据处理方法都会不同程度地带入偏置.基于此,提出了一种将基于联合熵的信息增益率作为决策树测试属性选择标准的方法,用以在生成决策树的过程中消除值遗漏数据对测试属性选择的影响.在WEKA机器平台上进行了对比实验,结果表明,改进算法能够从总体上提高算法的执行效率和分类精度. 相似文献
9.
决策树是一种采用分治策略的聚类分析方法,构建决策树的关键是选择合适的属性。传统的决策树通常从最大化信息熵的角度来构造,不能对属性的分类能力进行足够好的区分。对传统的决策树生成算法的不足,本文提出了一种基于马氏距离的决策树生成算法。算法使用马氏距离来区分不同特征属性子集的分类能力。试验结果表明,基于度量的决策树的性能优于传统的决策树。 相似文献
10.
构建决策树分类器关键是选择分裂属性。通过分析信息增益和增益比率、Gini索引、基于Goodman-Kruskal关联索引这三种选择分裂属性的标准,提出了一种改进经典决策树分类器C4.5算法的方法(竞争选择分裂属性的决策树分类模型),它综合三种选择分裂属性的标准,通过竞争机制选择最佳分裂属性。实验结果表明它在大多数情况下,使得不牺牲分类精确度而获得更小的决策树成为了可能。 相似文献
11.
12.
13.
14.
传统启发式正域属性约简算法在每次迭代的过程中需要添加当前正域依赖度最大的属性进入已选定的特征属性子集,算法迭代次数多且效率低,难以应用于高维大规模数据集的特征选择中。针对上述问题,研究决策系统中正域之间的单调关系,给出了多尺度属性粒(MSAG)的形式化描述,提出了一种基于多尺度属性粒的快速正域约简算法(MAG-QPR)。由于多尺度属性粒包含多个属性,可以对已选定的特征属性子集提供较大的正域,因此,通过每次迭代添加MSAG,可以达到减少迭代次数和使选定的特征属性子集能更快地趋近于条件属性全集的正域分辨能力的目的,从而提高了启发式正域约简算法的效率。在实验部分,选取8组UCI数据进行实验,对于数据集Lung Cancer、Flag和German,MAG-QPR与基于正向近似的正域保持属性约简算法(FSPA-PR)、基于正向近似的条件熵属性约简算法(FSPA-SCE)、后向贪婪正域保持属性约简算法(BGRAP)和后向贪婪启发式广义决策保持属性约简算法(BGRAG)的运行时间加速比分别为9.64、15.70、5.03、2.50;3.93、7.55、1.69、4.57;3.61、6.49、1.30、9.51。实验结果表明,所提算法MAG-QPR提高了算法效率,具有更好的分类精度。 相似文献
15.
变精度集对势粗糙集模型 总被引:1,自引:0,他引:1
为使粗糙集理论能有效处理含噪音的不完备信息系统,将集对势扩充粗糙集模型和Ziarko教授提出的多数包含关系相结合,提出了变精度集对势粗糙集模型.然后,给出了正域相似度的定义,提出了基于正域相似度的启发式属性约简算法,并分析了算法的时间复杂度.仿真实验表明了该方法处理含噪音的不完备信息系统的有效性. 相似文献
16.
17.
基于正域的属性约简算法是利用"下近似"思想,仅考虑被正确区分样本数的约简算法。借鉴"上近似"的思想,利用"邻域信息粒"的概念定义了区分对象集,探讨了其基本性质,并提出了基于区分对象集的属性重要度度量及启发式属性约简算法。该约简算法既考虑信息决策表的相对正域,也考虑以核属性为启发信息逐个增加条件属性时对边界域样本的影响。通过实例分析,说明了所提算法的可行性,并且以6个UCI标准数据集为实验对象,与基于正域的属性约简算法进行对比实验。实验结果说明,采用提出的约简算法得到的约简属性集,与基于正域的属性约简算法相比,在进行分类任务时的分类精度能够保持不变或有所提高。 相似文献