首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
决策树方法是一种重要的可完成分类任务的知识发现技术 ,目的是通过构造一个分类模型 ,把数据库中的元组映射到给定类别中的某一个。决策树分类算法效率高且应用广泛 ,但是不能处理在决策树的构建和分类过程中的不确定数据。针对决策树分类算法的局限 ,利用证据理论是对概率论的扩展 ,将置信函数与概率的上下值相联系 ,可用于不确定数据的表达这个有力工具 ,把决策树分类技术扩展到含有不确定数据的环境中 ,提出了 D- S决策树分类算法。实验结果表明 D- S决策树分类算法能有效的对不确定数据进行分类。  相似文献   

2.
基于决策树数据挖掘的分析与应用   总被引:1,自引:1,他引:0  
决策树技术是一种对海量数据集进行分类的非常有效方法。通过构造决策树模型,提取有价值的分类规则,帮助决策者做出准确的预测已经应用在很多领域。基于这种技术构造的蘑菇可食用性决策树模型,提供了通过蘑菇属性判别蘑菇可食用性的科学依据。决策树算法采用C4.5算法,它把信息增益率作为属性选择的度量标准。从实验结果来看,决策树模型虽然显示了一个很不平衡的结构,但得出了很容易理解的决策规则。  相似文献   

3.
针对传统的决策树区域滑坡预测模型难以刻画诱发因子雨量值的问题,提出了不确定模糊ID3决策树模型.首先设计了面积积分法,结合复合型隶属度函数将不确定属性模糊化以刻画雨量值,并结合ID3决策树算法,构造区域滑坡危险性预测模型,对延安市宝塔区进行滑坡危险性预测.实验数据结果证明,该模型的预测精度达到了可信要求,高于模糊ID3决策树预测模型;与不确定决策树算法和不确定多分类支持向量机算法相比,不确定模糊ID3算法具有预测精度收敛快和受样本数量影响较小等优势,具备较强的实践意义.  相似文献   

4.
一种改进的PEP决策树剪枝算法   总被引:1,自引:0,他引:1  
剪枝过程是决策树分类学习中的重要环节,能够简化决策树并提高决策树的泛化能力,避免对训练数据集的过适应。在PEP算法的基础上,本文提出了一种改进的决策树剪枝算法IPEP,实验结果表明,该算法剪枝效果较PEP算法更好。  相似文献   

5.
传统的数据挖掘分类方法能够成功地应用于确定性数据分类,但却无法满足绝大多数领域中复杂的不确定性数据的分类需求,由此出现了一系列针对不确定性数据的分类方法。通过大量研究,目前经典的分类算法及针对不确定数据分类的改进方法得到了很大发展,如改进后的支持向量机算法、朴素贝叶斯算法、决策树算法等日渐成熟。  相似文献   

6.
针对传统差分隐私保护方案以剩余隐私预算的一半逐层分配,即等比分配隐私预算,被应用于决策树时,随着决策树高度的增加,分配至顶层的隐私预算过小,随机噪声过大,分类准确率受到影响的问题,作者提出以差分隐私保护结合主流决策树C4.5分类方法为基本思路,依据决策树高度等差分配隐私预算的方案。差分隐私中的Laplace机制和指数机制确保决策树分类的安全性。作者利用大数据Hadoop平台的MapReduce框架,主程序进行MapReduce参数配置以及外层循环。在执行到每一个节点时,主程序将数据集属性的统计任务交给Mapper类,Reducer类接收Mapper类的统计结果并利用Laplace机制添加随机噪声,加噪结果返回主程序中作为计算信息增益率的参数。主程序利用指数机制选择最佳细分方案,递归过程直至样本数为0时停止。实验采用UCI数据库的car数据集进行测试,在不同隐私预算下将等比分配与等差分配两种方案得到的分类结果准确率进行对比。实验结果表明:本文算法在可接受的分类准确率降低的情况下满足差分隐私保护;与传统隐私预算分配相比,本文算法在相同隐私预算下提高了分类准确率;对于car数据集,本文算法在隐私预算为0.7或0.8时可较好兼顾数据集的安全性和有效性。因此,在一定程度上依据决策树高度等差分配隐私预算的方案可改善分类准确率,可实际应用于决策树分类算法。  相似文献   

7.
基于决策树的就业数据挖掘   总被引:12,自引:0,他引:12  
针对学生就业问题,给出了就业数据挖掘模型.决策树方法是数据挖掘中非常有效的分类方法,根据就业数据特点,采用了C4.5决策树算法.C4.5算法是决策树核心算法ID3的改进算法,它构造简单,速度较快,容易实现.模型对就业数据预处理,选取决策属性,实现挖掘算法并抽取规则知识,由规则知识指出哪些决策属性决定了就业单位的类别,挖掘结果表明,该算法能够正确将就业数据分类,并得到若干有价值的结论,供决策分析。  相似文献   

8.
针对不确定性问题,提出了一种新的基于知识发现的信息融合的方法.对不确定问题采用精确的数学方法解决会得到不精确的结论,模糊决策树算法可以很好地解决这类问题,并能有效地提取出模糊规则.即利用模糊决策树的ID3算法对测试空间中的大量不确定多源信息数据进行综合分析、处理,建立准确的评估模型,提取隐含其中的规则,最终获取新的知识.此方法已成功应用于吉林丰满水电数字仿真系统中的考核系统.实验证明,这种知识提取方法对处理大量无序、不确定的数据很有效.  相似文献   

9.
为从理论层次上深度解析决策树分类算法的逻辑可行性,根据可拓理论中可拓逻辑和可拓思维的全新视角,对构建决策树过程中节点的选择、规则提取和预测等步骤,进行理论上的分析和评价.以可拓思维中的菱形思维模式来分析决策树算法中节点的选择,以可拓逻辑中基元变换理论来评价决策树算法的规则提取,以可拓逻辑中的基元发散规则来解释决策树算法的预测步骤,在验证决策树算法各个步骤符合可拓理论处理矛盾问题的思维模式的同时,也对决策树算法的分类结果建立了基于可拓理论的评价体系.  相似文献   

10.
一种基于信息熵建立决策树的算法   总被引:2,自引:0,他引:2  
信息论给出了信息的数学本质,提出了用热力学中的熵来度量信息量的大小。分类是一个重要的数据挖掘问题,在训练数据集上建立分类树的关键是如何选择决策树每一个内部结点的测试属性。传统的决策树建立算法利用信息论中熵的概念选择属性,具有偏向于取值较多属性的缺点。本文分析了信息论中有关熵的一些基本概念和含义,讨论了它们在挖掘分类树中的应用,利用互信息设计了一个建立分类树的算法,克服了传统算法的缺点。  相似文献   

11.
决策树分类算法是数据挖掘中最基本也是最重要的算法之一。目前,数据挖掘技术被广泛应用在商业领域中。在汽车产品销售系统中,引入数据挖掘技术,可以为汽车销售的经营决策提供科学依据。本文收集某汽车品牌安徽地区近一年的销售数据进行集成和数据预处理;之后采用数据挖掘技术中的改进决策树算法,对汽车销售数据仓库分析和应用,预测影响汽车的销售的主要因素,从而制定汽车的营销策略,帮助企业得到更好的收益。  相似文献   

12.
决策树是数据挖掘技术中的重要方法,主要用于分类和预测.本文介绍了决策树算法中应用最广泛的ID3算法和C4.5算法,阐述了两种算法的主要思想,说明了构造决策树的基本步骤,对两种算法进行了分析和比较.  相似文献   

13.
在粗糙集理论的基础上提出了一种新的决策树算法,把粗糙集中的近似分类精度及决策规则的确定性因子应用于决策树的构造,在算法形成的过程中提出抑制因子,对决策树进行修剪,避免了先生成决策树再修剪的繁琐步骤,且在每次划分时对条件属性值和决策属性值进行匹配考察,避免不必要的计算,进一步提高了算法速度.  相似文献   

14.
决策树算法是数据挖掘中重要的分类算法,但目前多数针对决策树的改进方法都基于传统的串行算法,不能满足大数据环境下对海量数据挖掘的需要.针对大数据集中串行挖掘算法效率低下的问题,采用MapReduce对决策树算法进行了并行化实现,同时引入修正参数来改进ID3算法倾向于多值属性选取的问题.实验结果表明,该算法具有较好的并行性和扩展性,能有效处理大数据集的分类问题.  相似文献   

15.
目前大多分类算法都是从数据库的单个表中挖掘分类模式的,但是现实中的数据大多以多个关系表的形式存在,而且各个表之间存在联系.用选择图表示多关系决策树中结点的分类算法,直接从多个关系表中挖掘分类模型,不需要将多个表进行连接操作.对该方法进行了研究,发现多关系决策树算法在处理限定词互补方面存在缺陷,并给出了相应的改进.  相似文献   

16.
一个基于粗糙集和决策树的最简分类规则集生成算法   总被引:5,自引:0,他引:5  
利用粗糙集理论中属性核与不可分辨关系给出了属性约简和数据过滤算法,去除信息系统中与决策无关的冗余信号,在简化的信息系统基础上用传统算法构造决策树,总利用由粗糙度理论推出的极小、极大化学习方法对决策树规则进行极小、极大化处理,最后给出了一个最简分类规则集生成算法。  相似文献   

17.
一种基于相似度概率的不确定分类数据聚类算法   总被引:1,自引:1,他引:0  
针对不确定分类数据,基于Squeezer算法提出一种有效的不确定数据聚类算法:USqueezer算法。该算法先计算一个不确定分类数据与每个簇的相似度概率和,选取最大的相似度和给定的阈值相比较,若大于阈值,将不确定数据划分到该簇中,否则创建一个新簇。实验表明,USqueezer算法能够有效地进行不确定分类数据的聚类,并且占用较少的运行内存空间和运行时间。  相似文献   

18.
关联性识别对于系统演化规律的确定意义重大,从测试数据累积、更新的视角,针对皮肤指标与中医体质之间的关联性进行探索,构建分类模型。提出基于建模数据动态修订决策树和模糊朴素贝叶斯融合算法的权重,建立具有较好分类及解释性的分类模型。其中决策树采用最佳后剪枝方式,避免过拟合弊端;朴素贝叶斯算法则通过定义指标归属区间的模糊隶属度来解决属性分类中存在的随机与模糊性。实证结果表明随着建模数据的变化,分类模型的融合权重动态调整,目前模型的准确率为86.7%,高于独立决策树、朴素贝叶斯的83.3%和80%,亦高于对照组小数据分类模型的76.7%。可见此动态分类模型可有效利用参与建模的数据信息识别出外在皮肤与内在体质之间的关联性,为皮肤-体质间的定量研究奠定了基础。目的:针对人体面部皮肤状态指标与中医体质类型之间的关联性进行科学、定量研究,从测试数据持续累积与知识发现深入推进的过程视角,尝试揭示人体内在中医体质与外观皮肤状态指标间的复杂动态演化规律。方法:本文综合小样本条件下决策树的良好归纳特性及大样本条件下贝叶斯算法分类准确率高的优势。提出基于建模数据量会不断增多的趋势,构建可自适应修订决策树和模糊朴素贝叶斯融合分类算法的权重,以适用于测试数据从小到大积累过程中分类模型均具有较好分类特性及可解释性的应用要求。其中决策树采用最佳后剪枝方式,避免了常规决策树存在的过拟合弊端;朴素贝叶斯算法则通过定义指标归属区间的模糊隶属度来解决皮肤属性测试与分类中存在的随机性与模糊性。结果:实证结果表明本文提出的分类模型的融合权重可动态调整且随着建模数据的增多分类精度会相应提高。目前对应151个建模数据的分类模型的分类准确率为86.7%,高于独立决策树、朴素贝叶斯的83.3%和80%,亦高于对照组80个建模数据对应分类准确率的76.7%。结论:可见此皮肤—体质动态分类模型通过有效利用参与建模的数据信息,能识别出人体面部外观皮肤状态指标与内在中医体质之间的复杂关联性,建立的分类模型具有较好的精度与可解释性,为基于数据驱动的中医理论的科学化、智能化发展进行了有益的探索。  相似文献   

19.
高光谱遥感数据用于水稻精细分类研究   总被引:10,自引:0,他引:10  
根据水稻生长期的高光谱数据的光谱特征,设计了一个混合决策树分类算法。该算法的特征波段根据波段间的可分离性决定,算法的选择根据实际分类效果决定,波段间的可分离性根据各波段均值的归一化距离决定。最后用江苏常州市金坛良种场的高光谱图象数据做了分类实验,取得了测试样本总体分类精度94.9%的好结果。  相似文献   

20.
探讨了数据挖掘技术中分类模型和算法,提出了基于决策树学习的建模方法,通过实例说明了该技术在故障智能诊断中的应用及优点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号