首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 72 毫秒
1.
FDTU:针对不确定数据的快速决策树生成算法   总被引:1,自引:0,他引:1  
目前,针对不确定数据分类分析的决策树算法,如DTU等具有较高的时间复杂度.因此,在利用决策树算法处理不确定数据时,如何能够在保证准确度的同时降低时间开销成为一个重要问题.基于样本属性相互独立的假设提出了不确定独立信息增益的概念和快速不确定决策树算法FDTU (fast decision tree for uncertain data),降低了决策树生成的运行时间.在UCI数据集上的实验表明,相对于不确定决策树算法DTU,FDTU算法具有相近的分类准确度,同时显著地降低了生成决策树所需的运行时间.  相似文献   

2.
滑坡灾害预测受多种因素影响,其中降雨等不确定因素存在难以获取数据及有效处理等难题,为提高滑坡危险性预测的准确率,根据滑坡灾害发生相关理论及决策树分类原理,提出了基于不确定决策树算法在滑坡危险性预测的方法.该方法引入不确定因子降雨,并将不确定因子和其余评价因子一起,根据不确定决策树算法理论构建出不确定决策树,建立滑坡危险性等级预测模型,并用延安市宝塔区的实例进行验证.实验结果表明,该预测方法取得了较高的总体精度和有效精度,达到了滑坡预测的精度标准,且两项预测精度均高于传统C4.5决策树方法.  相似文献   

3.
uPOSC4.5:一种针对不确定数据的PU学习决策树算法   总被引:1,自引:0,他引:1  
目前绝大多数在PU学习场景下的学习算法都只能处理确定数据,然而在现实世界的许多应用中,如在传感器网络、市场分析和医学诊断等领域,数据的不确定性是普遍存在的.基于针对精确数据的PU学习算法POSC4. 5,提出了PU概率信息增益,并在此基础上提出了一种能在PU学习场景下学习不确定数据的决策树算法uPOSC4. 5(Uncertain POSC4. 5).在UCI数据集上的实验表明,uPOSC4. 5具有较好的分类准确率和健壮性,且其分类性能优于aUPNB.  相似文献   

4.
王鹤澎  王宏志  李建中  高宏 《软件学报》2017,28(11):2814-2824
近年来,随着现实生活中数据量的不断增大,不一致数据的出现也越发频繁,这使得人工修正不一致数据变得更加耗时.而且,人工修正数据方法本身也存在着不可避免的人为操作错误,因此,这种修正方法不再可行.如何不提前修复不一致数据,直接在不一致数据上进行分类,是该文的核心研究内容.对决策树生成算法的目标函数进行改进,使其能够直接对不一致数据进行分类,并得到较好的分类结果.对约束条件中的特征对分类结果的影响进行了多方面衡量,从而调整该特征的影响因子,使得决策树的节点分割更加精确,分类效果更优.  相似文献   

5.
针对当前分类算法还存在的诸如伸缩性不强、可调性差、缺乏全局优化能力等问题,该文提出了一种有效的用于数据挖掘分类任务的方法——基于决策树的协同进化分类算法。实验结果表明该方法获得了更高的预测准确率,产生了更小的规则集。  相似文献   

6.
基于贝叶斯方法的决策树分类算法   总被引:6,自引:0,他引:6  
樊建聪  张问银  梁永全 《计算机应用》2005,25(12):2882-2884
针对数据挖掘的特点和本质,充分利用贝叶斯方法和决策树分类的优点,将贝叶斯的先验信息方法与决策树分类的信息增益方法相结合,提出了一种新的数据挖掘分类算法(BD1.0算法),并对此算法进行了设计和分析。实验分析表明,该算法可以处理不一致或者不完整数据等“脏数据”,比单纯使用贝叶斯方法或决策树方法具有更高的准确率,而且与C4.5算法具有近似的时间复杂度。  相似文献   

7.
近年来,数据流分类问题已经逐渐成为数据挖掘领域的一个研究热点,然而传统的数据流分类算法大多只能处理数据项已知并且为精确值的数据流,无法有效地应用于现实应用中普遍存在的不确定数据流。为建立适应数据不确定性的分类模型,提高不确定数据流分类准确率,提出一种针对不确定数据流的集成分类算法,该算法将不确定数据用区间及其概率分布函数表示,用C4.5决策树分类方法和朴素贝叶斯分类方法训练基分类器,在合理处理数据流中不确定性的同时,还能有效解决数据流中隐含的概念漂移问题。实验结果表明,所提算法在处理不确定数据流的分类时具有较好的鲁棒性,并且具有较高的分类准确率。  相似文献   

8.
外包维修过程中产生的数据通常是模糊的,传统上很少按重要性分类,从这些数据仅仅能搜索到相关的不确定信息。将证据理论作为处理不确定数据的有力工具,提出用证据理论加权决策树算法对外包维修过程产生的不确定数据进行分类并挖掘出规则。实验结果表明本算法可有效的对外包维修数据进行分类,并可以生成可指导产品研发的规则。  相似文献   

9.
基于自适应快速决策树的不确定数据流概念漂移分类算法   总被引:1,自引:0,他引:1  

由于不确定数据流中一般隐藏着概念漂移问题, 对其进行有效分类存在着很多困难. 为此, 提出一种基于自适应快速决策树的算法. 该算法基于一般决策树算法的原理, 以自适应学习规则计算信息增益, 以无标记情景学习拆分原理检测不确定数据流中的不确定数值属性, 通过自适应快速决策树节点的拆分方法将不确定数值属性转化为不确定分类属性, 以实现对不确定数据流的有效分类, 进而有效检测到其中隐含的概念漂移现象. 仿真结果验证了所提出方法的可靠性.

  相似文献   

10.
针对当前分类算法还存在的诸如伸缩性不强、可调性差、缺乏全局优化能力等问题,该文提出了一种有效的用于数据挖掘分类任务的方法--基于决策树的协同进化分类算法.实验结果表明该方法获得了更高的预测准确率,产生了更小的规则集.  相似文献   

11.
基于SPRINT方法的并行决策树分类研究   总被引:9,自引:0,他引:9  
决策树技术的最大问题之一就是它的计算复杂性和训练数据的规模成正比,导致在大的数据集上构造决策树的计算时间太长。并行构造决策树是解决这个问题的一种有效方法。文中基于同步构造决策树的思想,对SPRINT方法的并行性做了详细分析和研究,并提出了进一步研究的方向。  相似文献   

12.
对差分隐私的基本概念和实现方法进行了介绍,提出了一种用于决策树分析的差分隐私保护数据发布算法.该算法首先将数据完全泛化,然后在给定的隐私保护预算下采用指数机制将数据逐步精确化,最后根据拉普拉斯机制向数据中加入噪声,保证整个算法过程满足差分隐私保护要求;对指数机制中方案选择的方法进行了有效的改进.相对于已有的算法,本算法可在给定的隐私保护预算下使数据泛化程度更小,使所发布数据建立的决策树模型具有更高的分类准确率.实验结果验证了本算法的有效性和相对于其他算法的优越性.  相似文献   

13.
Abstract: Cancer classification, through gene expression data analysis, has produced remarkable results, and has indicated that gene expression assays could significantly aid in the development of efficient cancer diagnosis and classification platforms. However, cancer classification, based on DNA array data, remains a difficult problem. The main challenge is the overwhelming number of genes relative to the number of training samples, which implies that there are a large number of irrelevant genes to be dealt with. Another challenge is from the presence of noise inherent in the data set. It makes accurate classification of data more difficult when the sample size is small. We apply genetic algorithms (GAs) with an initial solution provided by t statistics, called t‐GA, for selecting a group of relevant genes from cancer microarray data. The decision‐tree‐based cancer classifier is built on the basis of these selected genes. The performance of this approach is evaluated by comparing it to other gene selection methods using publicly available gene expression data sets. Experimental results indicate that t‐GA has the best performance among the different gene selection methods. The Z‐score figure also shows that some genes are consistently preferentially chosen by t‐GA in each data set.  相似文献   

14.
ID3算法作为数据挖掘分类技术中的核心算法,有着构造简单、学习能力强、分类速度快等优点。但由于其沿用的是机器学习算法,处理的数据集规模小且与数据库集成性较差,影响了其实用性。在继承原有算法思路的基础上,对其核心部分进行了改进,通过使用嵌入式SQL,直接对目标数据库进行查询操作并处理,最终得到分类决策表并保存于数据库。实验证明,改进的ID3算法结合了SQL的高效性和C语言的灵活性,高效无缝地实现了大量数据的分类且大大提高了算法的执行效率。  相似文献   

15.
一种改进的决策树分类属性选择方法   总被引:2,自引:0,他引:2       下载免费PDF全文
分析了ID3算法的基本原理、实现步骤及现有两种改进分类算法的优缺点,针对ID3算法的取值偏向问题和现有两种改进算法在分类时间、分类精确度方面存在的不足,提出了一种新的分类属性选择方案,并利用数学知识对其进行了优化。经实验证明,优化后的方案克服了ID3算法的取值偏向问题,同时在分类时间及分类精确度方面优于ID3算法及现有两种改进的分类算法。  相似文献   

16.
阐述了饰品企业营销的现状,提出了将数据挖掘技术应用到饰品营销中的方案.在分析决策树算法的基础上,介绍了决策树算法及决策树的构造,并使用该算法对企业客户进行分类及对新客户类型预测,实现对商业数据中隐藏信息的挖掘,且对该挖掘模型进行了验证.  相似文献   

17.
决策树算法的一种改进算法   总被引:2,自引:0,他引:2  
决策树是归纳学习和数据挖掘的重要方法,主要用于分类和预测.ID3算法是决策树中应用最广泛的算法,通过对数据挖掘中决策树的基本思想进行阐述,讨论了ID3算法倾向于取值较多属性的缺点,引入无关度对ID3算法作了改进.实验数据结果分析表明,改进后的算法能得到更合理、更有效的规则.  相似文献   

18.
高效性和可扩展性是多关系数据挖掘中最重要的问题,而提高算法效率的主要瓶颈在于假设空间,且用户对分类的指导会在很大程度上帮助系统完成分类任务,减少系统独自摸索的时间。针对以上问题提出了改进的多关系决策树算法,即将虚拟连接元组传播技术和提出的背景属性传递技术应用到多关系决策树算法中。对改进的多关系决策树算法进行了理论证明,并且对多关系决策树算法和改进的多关系决策树算法进行比较实验。通过实验可以得出,当改进的多关系决策树在搜索数据项达到背景属性传递阈值时,改进的多关系决策树算法的效率相对很高且受属性个数增加(或  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号