首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 437 毫秒
1.
乔梅  韩文秀 《计算机应用》2005,25(5):989-991
噪音数据是影响决策树训练效率和结果集质量的重要因素。目前的树剪枝方法不能消除噪音数据对选择决策树测试节点属性的影响。为改变这种状况,基于变精度Rough集(VPRS)模型,提出了一个在决策树算法中处理噪音数据的新方法---预剪枝法,该方法在进行选择属性的计算之前基于变精度正区域求取属性修正的分类模式,来消除噪音数据的对选择属性以及生成叶节点的影响。利用该方法对基本ID3决策树算法进行了改进。分析和实验表明,与先剪枝方法相比,该方法能进一步减小决策树的规模和训练时间。  相似文献   

2.
具有高可理解性的二分决策树生成算法研究   总被引:3,自引:0,他引:3  
蒋艳凰  杨学军  赵强利 《软件学报》2003,14(12):1996-2005
二分离散化是决策树生成中处理连续属性最常用的方法,对于连续属性较多的问题,生成的决策树庞大,知识表示难以理解.针对两类分类问题,提出一种基于属性变换的多区间离散化方法--RCAT,该方法首先将连续属性转化为某类别的概率属性,此概率属性的二分法结果对应于原连续属性的多区间划分,然后对这些区间的边缘进行优化,获得原连续属性的信息熵增益,最后采用悲观剪枝与无损合并剪枝技术对RCAT决策树进行简化.对多个领域的数据集进行实验,结果表明:对比二分离散化,RCAT算法的执行效率高,生成的决策树在保持分类精度的同时,树的规模小,可理解性强.  相似文献   

3.
决策树算法采用递归方法构建,训练效率较低,过度分类的决策树可能产生过拟合现象.因此,文中提出模型决策树算法.首先在训练数据集上采用基尼指数递归生成一棵不完全决策树,然后使用一个简单分类模型对其中的非纯伪叶结点(非叶结点且结点包含的样本不属于同一类)进行分类,生成最终的决策树.相比原始的决策树算法,这样产生的模型决策树能在算法精度不损失或损失很小的情况下,提高决策树的训练效率.在标准数据集上的实验表明,文中提出的模型决策树在速度上明显优于决策树算法,具备一定的抗过拟合能力.  相似文献   

4.
属性频率划分和信息熵离散化的决策树算法   总被引:2,自引:0,他引:2       下载免费PDF全文
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,节点划分属性选择的度量直接影响决策树分类的效果。基于粗糙集的属性频率函数方法度量属性重要性,并用于分枝划分属性的选择和决策树的预剪枝,提出一种决策树学习算法。同时,为了能处理数值型属性,利用数据集的统计性质为启发式知识,提出了一种改进的数值型属性信息熵离散化算法。实验结果表明,新的离散化方法计算效率有明显提高,新的决策树算法与基于信息熵的决策树算法相比较,结构简单,且能有效提高分类效果。  相似文献   

5.
决策树中基于基尼指数的属性分裂方法   总被引:2,自引:0,他引:2  
决策树是数据挖掘中的一个重要算法。文中首先介绍了决策树的生成思想,和生成过程中关于多值属性的分离问题。基尼指数是多值属性分离的一种方法,文中详细介绍了基尼指数作为一种不纯度分裂方法的原理,并通过一个分别用两种方式进行基尼分裂的实例。最后参阅国内外文献将基尼指数与其他一些算法如信息增益、χ2统计作了比较来说明其在多值属性分裂时的一些优点和缺点。  相似文献   

6.
为改善剪枝算法单一的事前剪枝或事后剪枝导致分类响应时间长、准确度低的问题,在REP事后剪枝的基础上,提出一种CDC与REP结合的决策树剪枝优化算法。使用CDC算法在生成决策树的同时,利用左右子树节点差异比来排除部分非叶子节点,决策树生成后再通过REP算法对决策树进一步剪枝。实验结果表明,该算法可避免庞大决策树的生成过程过于细化导致过于拟合的现象,与其他算法相比,能减少分裂时间,提高决策树分裂的正确率。  相似文献   

7.
针对现有决策树算法对连续性数据分类的信息丢失、效果不佳等缺点,提出一种邻域决策树(NDT)构造算法.首先,挖掘了邻域决策信息系统上的变精度邻域等价粒,并探讨了相关性质;然后基于变精度邻域等价粒构建邻域基尼指数度量,以度量邻域决策信息系统的不确定性;最后,用邻域基尼指数度量诱导出树节点的选取条件,并以变精度邻域等价粒为树...  相似文献   

8.
决策树是数据挖掘中的一个重要算法.文中首先介绍了决策树的生成思想,和生成过程中关于多值属性的分离问题.基尼指数是多值属性分离的一种方法,文中详细介绍了基尼指数作为一种不纯度分裂方法的原理,并通过一个分别用两种方式进行基尼分裂的实例.最后参阅国内外文献将基尼指数与其他一些算法如信息增益、χ2统计作了比较来说明其在多值属性分裂时的一些优点和缺点.  相似文献   

9.
噪声数据降低了多变量决策树的生成效率和模型质量,目前主要采用针对叶节点的剪枝策略来消除噪声数据的影响,而对决策树生成过程中的噪声干扰问题却没有给予关注。为改变这种状况,将基本粗糙集(rough set,RS)理论中相对核的概念推广到变精度粗糙集(variable precision roughset,VPRS)理论中,并利用其进行决策树初始变量选择;将两个等价关系相对泛化的概念推广为两个等价关系多数包含情况下的相对泛化,并利用其进行决策树初始属性检验;进而给出一种能够有效消除噪声数据干扰的多变量决策树构造算法。最后,采用实例验证了算法的有效性。  相似文献   

10.
为在同等隐私保护级别下提高模型的预测准确率并降低误差,提出一种基于ExtraTrees的差分隐私保护算法DiffPETs。在决策树生成过程中,根据不同的准则计算出各特征的结果值,利用指数机制选择得分最高的特征,通过拉普拉斯机制在叶子节点上进行加噪,使算法能够提供ε-差分隐私保护。将DiffPETs算法应用于决策树分类和回归分析中,对于分类树,选择基尼指数作为指数机制的可用性函数并给出基尼指数的敏感度,在回归树上,将方差作为指数机制的可用性函数并给出方差的敏感度。实验结果表明,与决策树差分隐私分类和回归算法相比,DiffPETs算法能有效降低预测误差。  相似文献   

11.
本文主要介绍数据结构中二叉树的生成,以及二叉树的先序、中序和后序的非递归算法。  相似文献   

12.
《国际计算机数学杂志》2012,89(3-4):189-208
Execution of sub-processes within a program segment are subject to a partial ordering. In certain cases (such as expressions and assignment statements) this ordering reduces to a tree which, according to the characteristics of the operators present, may be manipulated to influence the extent to which parallel processing capabilities of multiple-processor configurations can be utilized in its evaluation. A strategy is presented which uses associativity of certain operators to adjust the shape of the trees to allow a degree of overlap between adjacent subtrees. Although only optimal in the local sense, the transformation yields significant improvements in the “parallel dimensions” of the tree and, more importantly, can be couched in syntactic terms. Consequently, it is possible in principle to perform these manipulations within the syntax analysis phase of compilation, regardless of other operational characteristics of the operators, or of the parallel capabilities of the target run-time system.  相似文献   

13.
基于约束树编辑距离与导航树的信息采集   总被引:1,自引:0,他引:1       下载免费PDF全文
姜波  丁岳伟 《计算机工程》2009,35(14):75-77
介绍基于网站和网页结构的信息采集算法,提出一种基于约束树编辑距离的导航树算法。该算法通过提取网页的HTML的重要标记生成网页结构的标签树,对网页进行结构分析,通过约束树编辑距离算法判断爬行到的网页与主题的相关性,并根据网站基于URL的拓扑结构,提出基于导航树的信息采集约束信息采集器的爬行路径,提高了目标页面采集的效率和准确率。  相似文献   

14.
分析了时钟树的性能要素:时钟树长度、时钟树偏差和时钟信号占空比,分析了改进时钟树性能的多个策略:合理的floorplan、合理的时钟创建源点、避免宏模块时钟端对时钟树平衡的不利影响、正确处理分离时钟门控、使用clock inverter改善时钟信号占空比。  相似文献   

15.
由于在故障树分析、故障诊断和可靠性分析中迫切要求故障树图形化显示,所以文中研究了故障树画树算法。故障树显示为多叉树,将故障树节点的下一级节点作为左节点,将故障树同级右侧节点作为右节点,就把多叉树转换为二叉树存于数据库中,需要显示时将故障树节点信息对应的存于多向链表中的节点,通过递归函数计算出每个节点的坐标位置,然后用画树函数将故障树画于图形显示区域。文中基于C Builder 6.0开发环境,实现了故障树的图形显示,这样就为基于故障树的故障诊断提供坚实基础。  相似文献   

16.
T树结合了平衡二叉树(AVL树)和B树的优点,可以有效地组织索引数据,从而为内存数据库提供优良的存储效率和查询性能。结合自主开发的一个内存数据库系统SwiftMMDB介绍T树索引的设计与实现,并通过节点分裂、填充等方法改进了经典T树的插入和删除操作,减少了T树中平衡旋转的次数,从而进一步提高内存数据库检索的效率和性能。  相似文献   

17.
通过对同一棵二叉树的前序遍历、中序遍历、后序遍历及层次遍历得到四个不同序列的分析,概括出二叉树的前序遍历、中序遍历、后序遍历及层次遍历序列间的关系,确定对应的二叉树。  相似文献   

18.
The algorithm proposed by Chang and lyengar to perfectly balance binary search trees has been modified to not only balance but also thread binary search trees. Threads are constructed in the same sequence as normal pointers during the balancing process. No extra workspace is necessary, and the running time is also linear for the modified algorithm. Such produced tree structure has minimal average path length for fast information retrieval, and threads to facilitate more flexible and efficient traversing schemes. Maintenance and manipulation of the data structure are discussed and relevant algorithms given.  相似文献   

19.
孙娟  王熙照 《计算机工程》2006,32(12):210-211,231
决策树归纳学习算法是机器学习领域中解决分类问题的最有效工具之一。由于决策树算法自身的缺陷了,因此需要进行相应的简化来提高预测精度。模糊决策树算法是对决策树算法的一种改进,它更加接近人的思维方式。文章通过实验分析了模糊决策树、规则简化与模糊规则简化;模糊决策树与模糊预剪枝算法的异同,对决策树的大小、算法的训练准确率与测试准确率进行比较,分析了模糊决策树的性能,为改进该算法提供了一些有益的线索。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号