首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
使用信息论的方法进行连续属性的离散化,引入Hellinger偏差HD(Hellinger Divergence)作为每个区间对决策的信息量度量,从而定义切分点的信息熵,最终的离散化结果是使各区间的信息量尽可能平均,分析了HD度量在两种离散化方法中的作用,说明它在划分算法中运用比较理想,而在归并算法中则有局限。  相似文献   

2.
郭启铭  樊玮 《计算机工程》2008,34(4):111-112,115
在类一属性相关离散化方法的基础上,提出一种基于Cramer’s V的连续属性离散化算法CVM,该方法利用统计学中的Cramer’s V来量化类一属性相关度,以保证离散后的类一属性相关度最大。与CADD和CAIM算法的实验比较以及对离散化后的数据进行C4.5分类测试,表明CVM算法性能良好,其离散化的数据明显地提高了分类器的预测精度。  相似文献   

3.
基于信息熵的粗糙集连续属性离散化算法   总被引:60,自引:0,他引:60  
谢宏  程浩忠  牛东晓 《计算机学报》2005,28(9):1570-1574
该文提出了一种新的粗糙集连续属性离散化算法.首先对每一个候选断点定义了信息熵,以此作为对断点重要性的量度,在此基础上给出了断点选择的粗糙集连续属性离散化算法.最后采用多组数据对此算法的性能进行了检验,并与其它算法做了对比实验.实验结果表明此算法是有效的,而且当候选断点个数增多时仍有很高的计算效率.  相似文献   

4.
随着知识发现和数据挖掘的迅速发展,出现了很多的数据挖掘方法,这些方法很多都依赖于离散的数据,连续属性的离散化是数据分析预处理中的一项重要内容,在数据挖掘、机器学习等领域中具有重要作用。然而,在现实世界数据库中,存在着大量的连续值属性。因此,常常需要对连续值属性进行离散化本文利用LVQ神经网络能够找到连续属性断点的功能,提出了一种基于LVQ神经网络的离散化方法,从而实现了对连续属性的离散化。算法分析和实验证明,本算法是切实可行的。  相似文献   

5.
基于信息熵的二元分割算法离散连续属性,在对连续属性较多,数据量较大的数据集进行分析预测中,存在不足。实验表明,在决策树算法中结合改进后的k-means算法作为连续属性离散化算法,在连续属性较多的数据实例中可以构造出更好的决策树。  相似文献   

6.
一种连续属性离散化的新方法   总被引:6,自引:0,他引:6  
提出了一种基于聚类方法、结合粗集理论的连续属性离散化方法。在粗集理论中有一个重要概念:属性重要度(Attribute significance),它常用来作为生成好的约简所采用的启发式评价函数。受此启发,在连续属性离散化方法中可把它用于属性选择,即从已离散化的属性集中选择出属性重要度最高的属性,再把它和待离散化的连续属性一起进行聚类学习,得到该连续属性的离散区间。文中介绍了该方法的算法描述,并通过实验与其他算法进行了比较。实验结果表明,由于这种方法在离散化过程中结合了粗集理论的思想,考虑了属性间的相互影响,从而产生了比较合理的划分点,提高了规则的分类精度。  相似文献   

7.
基于Cramer’s V的连续属性离散化算法   总被引:1,自引:0,他引:1       下载免费PDF全文
郭启铭  樊玮 《计算机工程》2008,34(4):111-112
在类-属性相关离散化方法的基础上,提出一种基于Cramer’s V的连续属性离散化算法CVM,该方法利用统计学中的Cramer’s V来量化类-属性相关度,以保证离散后的类-属性相关度最大。与CADD和CAIM算法的实验比较以及对离散化后的数据进行C4.5分类测试,表明CVM算法性能良好,其离散化的数据明显地提高了分类器的预测精度。  相似文献   

8.
连续属性离散化算法SHD及其改进   总被引:2,自引:0,他引:2  
为了让规则抽取算法能更好地适用于连续属性领域的问题,文章提出了一种有导师的连续属性离散化算法SHD,并将该算法扩展到多连续属性处理领域。在此基础上,文章对该算法的数据预处理过程进行了探讨,提出了一种基于类间离散度矩阵分析属性空间重构造算法,并将其应用到属性预处理过程中。算法测试证明,对于连续属性领域的问题,使用SHD属性离散化算法将明显改进后继规则抽取算法的效果。  相似文献   

9.
为了解决数据挖掘和机器学习领域中连续属性离散化问题,提出一种改进的自适应离散粒子群优化算法。将连续属性的断点集合作为离散粒子群,通过粒子间的相互作用最小化断点子集,同时引入模拟退火算法作为局部搜索策略,提高了粒子群的多样性和寻找全局最优解的能力。利用粗糙集理论中决策属性对条件属性的依赖度来衡量决策表的一致性,从而达到连续属性离散化的目的,最后采用多组数据对此算法的性能进行了检验,并与其他算法做了对比实验,实验结果表明此算法是有效的。  相似文献   

10.
一种基于熵的连续属性离散化算法   总被引:6,自引:0,他引:6  
贺跃  郑建军  朱蕾 《计算机应用》2005,25(3):637-638
连续属性离散化的关键在于合理确定离散化划分点的个数和位置。为了提高无监督离散化的效率,给出一种基于熵的连续属性离散化方法。该方法利用连续属性的信息量 (熵 )的特性,通过对连续属性变量的自身划分,最小化信息熵的减少和区间数,并寻求熵的损失与适度的区间数之间的最佳平衡,以便得到优化的离散值。实验表明该算法是行之有效的。  相似文献   

11.
匹配树和决策树方法识别英语句子中的BaseNP   总被引:1,自引:1,他引:1  
提出了语料库和机器学习相结合的方法识别英语句子中的简单的、非递归的名词短语(BaseNP),在含有词性标注和BaseNP边界标注的训练语料中,抽取所有不同类型BaseNP短语对应的词性序列(BaseNP规则),通过规则排序和语方学知识,对其中正确率低且明显不符合语法的规则进行剔除,在识别时,采取规则匹配树的方法进行最大长度匹配,通过归纳机器学习C4.5自满引入上下文信息,由C4.5算法学习出有效(  相似文献   

12.
采用粗糙集理论中的属性重要度作为挑选测试属性的指标来构造决策树,形成了一种新的决策树分类算法S_D_Tree,在计算挑选测试属性的时间复杂度为O(|C||n|)。实验结果表明,该算法可以构建一个较简洁的决策树,与C4.5算法相比较,具有更好的预测准确率。  相似文献   

13.
在嵌入式软件开发过程中,软件不可避免地会出现各种错误,因此调试是软件生命周期中一个非常重要的环节。针对嵌入式软件开发的流程和特点,对其调试部分进行较为深入具体的研究和探索,提出基于调试器的"二叉决策树"调试模型。该模型描述了嵌入式软件调试的一般过程、调试对象和常用方法。实践表明"二叉决策树"调试模型具有较好的实用性和扩展性。  相似文献   

14.
组合药物在复杂疾病特别是癌症的治疗中发挥越来越重要的作用。以组合药物靶标为初始节点在药物-蛋白质异构网络上执行重启型随机游走,将收敛后的概率分布作为药物组合的特征向量,训练梯度提升决策树模型来预测新的药物组合。在标准药物组合数据集的性能评估表明,该方法比其他七种典型分类器和传统的提升算法具有更好的性能,且基于异构网络的特征显著提升了各分类器的性能,AUC值从0.528提升至0.909。  相似文献   

15.
一种新的决策树归纳学习算法   总被引:79,自引:1,他引:79  
本文不示例学习的重要分枝--决策树归纳学习进行了分析探讨,从示例学习最优化的角度分析了决策树归纳学习的优化原则,指出了以往的以ID3为代表的归纳学习算法所固有的缺陷,并提出了一种新的基于概率的决策树归纳学习算法PID,PID在扩展属性的选择上仍采用基于信息增益率的方法,但在树上的扩展过程中,采用属性聚类的方法进行树的支合并。PID得到的决策树在树的规模和分类精度上都优于ID3。  相似文献   

16.
在集成电路的自动布图技术中,在完成布局过程,即各模块(或子电路单元)的拓扑位置确定以后,布线需要完成各电路模块之间的连接。斯坦纳树的构造问题可以应用于总体布线;如果考虑已有单元或连线的障碍,它也可以应用于详细布线。  相似文献   

17.
不完整Vague决策表中的近似集学习方法   总被引:25,自引:0,他引:25  
含糊性和不可分辨性构成了决策表中不确定性的两个不同侧面,Vague集作为当前模糊信息处理中的一个新兴研究课题,它具有强大的表达不精确数据的能力,然而针对它的学习方法却未见报导 ,大多数现有针对Vague集的研究仍集中于对其本身性质的讨论,在介绍Vague集的有关概念的基础上,借鉴了粗糙集中中有关近似集的概念,特别对不ague决策表中的学习机制作了研究,解决了数据描述了不确凿时的学习问题,所给出的两  相似文献   

18.
随着网络犯罪的日益猖獗,计算机取证正逐步成为人们研究与关注的焦点.为了能从海量的可疑数据中发现证据,数据挖掘技术的参与必不可少.首先介绍了在计算机取证中比较常用的数据挖掘分类分析方法,然后介绍其在计算机取证原型系统中的实现和应用,最后给出了进一步研究的方向:多样证据的提取及其之间的关联.  相似文献   

19.
近年来,由大学生心理疾病引发的各种社会问题频发,把数据挖掘技术引入大学生心理健康状况的诊断研究具有其他技术不可比拟的优势,它能挖掘事物中隐含的规律。对决策树C4.5算法的原理进行阐述,并通过C4.5建立一个心理健康评估模型,构造决策树,由提取规则对心理健康进行预测。实验结果表明,该算法能将学生心理健康进行正确分类。挖掘结果能指导心理健康教育工作者制定正确的辅导计划,对辅助决策有很好的帮助。  相似文献   

20.
铣削实时仿真中广泛应用Z-Map方法描述几何体网格变化,模拟工件表面.三角形网格模型简单,可以用二叉树结构表示三角网格之间边的关系.创建二叉树网格几何体,分析父子关系和无父子关系两类共边网格相邻单元的划分方法.提出铣削区域计算公式,完成铣削区域的网格划分,验算在铣削实时仿真中区域网格和全域网格的仿真性能.结果表明,用二...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号