首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 937 毫秒
1.
决策树方法是一种重要的可完成分类任务的知识发现技术,目的是通过构造一个分类模型,把数据库中的元组映射到给定类别中的某一个。决策树分类算法效率高且应用广泛,但是不能处理在决策树的构建和分类过程中的不确定数据。针对决策树分类算法的局限,利用证据理论是对概率论的扩展,将置信函数与概率的上下值相联系,可用于不确定数据的表达这个有力工具,把决策树分类技术扩展到含有不确定数据的环境中,提出了D-S决策树分类算法。实验结果表明D-S决策树分类算法能有效的对不确定数据进行分类。  相似文献   

2.
基于决策树数据挖掘的分析与应用   总被引:1,自引:1,他引:0  
决策树技术是一种对海量数据集进行分类的非常有效方法。通过构造决策树模型,提取有价值的分类规则,帮助决策者做出准确的预测已经应用在很多领域。基于这种技术构造的蘑菇可食用性决策树模型,提供了通过蘑菇属性判别蘑菇可食用性的科学依据。决策树算法采用C4.5算法,它把信息增益率作为属性选择的度量标准。从实验结果来看,决策树模型虽然显示了一个很不平衡的结构,但得出了很容易理解的决策规则。  相似文献   

3.
针对传统的决策树区域滑坡预测模型难以刻画诱发因子雨量值的问题,提出了不确定模糊ID3决策树模型.首先设计了面积积分法,结合复合型隶属度函数将不确定属性模糊化以刻画雨量值,并结合ID3决策树算法,构造区域滑坡危险性预测模型,对延安市宝塔区进行滑坡危险性预测.实验数据结果证明,该模型的预测精度达到了可信要求,高于模糊ID3决策树预测模型;与不确定决策树算法和不确定多分类支持向量机算法相比,不确定模糊ID3算法具有预测精度收敛快和受样本数量影响较小等优势,具备较强的实践意义.  相似文献   

4.
一种改进的PEP决策树剪枝算法   总被引:1,自引:0,他引:1  
剪枝过程是决策树分类学习中的重要环节,能够简化决策树并提高决策树的泛化能力,避免对训练数据集的过适应。在PEP算法的基础上,本文提出了一种改进的决策树剪枝算法IPEP,实验结果表明,该算法剪枝效果较PEP算法更好。  相似文献   

5.
传统的数据挖掘分类方法能够成功地应用于确定性数据分类,但却无法满足绝大多数领域中复杂的不确定性数据的分类需求,由此出现了一系列针对不确定性数据的分类方法。通过大量研究,目前经典的分类算法及针对不确定数据分类的改进方法得到了很大发展,如改进后的支持向量机算法、朴素贝叶斯算法、决策树算法等日渐成熟。  相似文献   

6.
针对传统差分隐私保护方案以剩余隐私预算的一半逐层分配,即等比分配隐私预算,被应用于决策树时,随着决策树高度的增加,分配至顶层的隐私预算过小,随机噪声过大,分类准确率受到影响的问题,作者提出以差分隐私保护结合主流决策树C4.5分类方法为基本思路,依据决策树高度等差分配隐私预算的方案。差分隐私中的Laplace机制和指数机制确保决策树分类的安全性。作者利用大数据Hadoop平台的MapReduce框架,主程序进行MapReduce参数配置以及外层循环。在执行到每一个节点时,主程序将数据集属性的统计任务交给Mapper类,Reducer类接收Mapper类的统计结果并利用Laplace机制添加随机噪声,加噪结果返回主程序中作为计算信息增益率的参数。主程序利用指数机制选择最佳细分方案,递归过程直至样本数为0时停止。实验采用UCI数据库的car数据集进行测试,在不同隐私预算下将等比分配与等差分配两种方案得到的分类结果准确率进行对比。实验结果表明:本文算法在可接受的分类准确率降低的情况下满足差分隐私保护;与传统隐私预算分配相比,本文算法在相同隐私预算下提高了分类准确率;对于car数据集,本文算法在隐私预算为0.7或0.8时可较好兼顾数据集的安全性和有效性。因此,在一定程度上依据决策树高度等差分配隐私预算的方案可改善分类准确率,可实际应用于决策树分类算法。  相似文献   

7.
为从理论层次上深度解析决策树分类算法的逻辑可行性,根据可拓理论中可拓逻辑和可拓思维的全新视角,对构建决策树过程中节点的选择、规则提取和预测等步骤,进行理论上的分析和评价.以可拓思维中的菱形思维模式来分析决策树算法中节点的选择,以可拓逻辑中基元变换理论来评价决策树算法的规则提取,以可拓逻辑中的基元发散规则来解释决策树算法的预测步骤,在验证决策树算法各个步骤符合可拓理论处理矛盾问题的思维模式的同时,也对决策树算法的分类结果建立了基于可拓理论的评价体系.  相似文献   

8.
一种基于信息熵建立决策树的算法   总被引:2,自引:0,他引:2  
信息论给出了信息的数学本质,提出了用热力学中的熵来度量信息量的大小。分类是一个重要的数据挖掘问题,在训练数据集上建立分类树的关键是如何选择决策树每一个内部结点的测试属性。传统的决策树建立算法利用信息论中熵的概念选择属性,具有偏向于取值较多属性的缺点。本文分析了信息论中有关熵的一些基本概念和含义,讨论了它们在挖掘分类树中的应用,利用互信息设计了一个建立分类树的算法,克服了传统算法的缺点。  相似文献   

9.
决策树分类算法是数据挖掘中最基本也是最重要的算法之一。目前,数据挖掘技术被广泛应用在商业领域中。在汽车产品销售系统中,引入数据挖掘技术,可以为汽车销售的经营决策提供科学依据。本文收集某汽车品牌安徽地区近一年的销售数据进行集成和数据预处理;之后采用数据挖掘技术中的改进决策树算法,对汽车销售数据仓库分析和应用,预测影响汽车的销售的主要因素,从而制定汽车的营销策略,帮助企业得到更好的收益。  相似文献   

10.
决策树是数据挖掘技术中的重要方法,主要用于分类和预测.本文介绍了决策树算法中应用最广泛的ID3算法和C4.5算法,阐述了两种算法的主要思想,说明了构造决策树的基本步骤,对两种算法进行了分析和比较.  相似文献   

11.
滑坡与其环境因子间的非线性关联计算影响滑坡易发性预测建模的不确定性。为研究不确定性因素下易发性建模规律,以中国延长县为例,获取82处滑坡和14种环境因子,通过频率比(Frequency Ratio,FR)和证据权(Weight of Evidence,WOE)等关联法与卡方自动交互检测(Chi-squared Automatic Interaction Detector,CHAID)决策树相耦合进行建模,并用原始环境因子(称为“原始因子数据"”)作为输入变量的单独CHAID决策树进行对比。使用精度、易发性指数均值、标准差和平均秩等评价易发性建模的不确定性。结果表明:WOE-CHAID模型预测的滑坡易发性不确定性低于FR-CHAID模型,可见WOE具有较优秀的非线性关联性能;单独CHAID决策树预测的易发性精度整体略低于WOE-CHAID和FR-CHAID模型,但其建模效率较高;在体现滑坡与其环境因子空间关联性方面,考虑FR和WOE关联法的CHAID决策树模型优势显著。WOE是更优秀的关联分析法,CHAID决策树预测性能好且预测效率高,WOE-CHAID决策树模型的易发性预测不确定性较低且更符合实际滑坡概率分布特征。  相似文献   

12.
为了更高效准确地检测到P2P数据流,将目前在数据挖掘等领域比较成熟的决策树分类技术应用到截包分析研究中.在实际应用中,通过对流的特征属性进行计算统计处理作为训练样本集建立决策树,并对建立的决策树进行剪技优化,实验表明决策树分类技术更能快速准确地定位P2P数据流,在实时处理大量数据方面更能体现决策树分类技术的效率与准确度.  相似文献   

13.
关联性识别对于系统演化规律的确定意义重大,从测试数据累积、更新的视角,针对皮肤指标与中医体质之间的关联性进行探索,构建分类模型。提出基于建模数据动态修订决策树和模糊朴素贝叶斯融合算法的权重,建立具有较好分类及解释性的分类模型。其中决策树采用最佳后剪枝方式,避免过拟合弊端;朴素贝叶斯算法则通过定义指标归属区间的模糊隶属度来解决属性分类中存在的随机与模糊性。实证结果表明随着建模数据的变化,分类模型的融合权重动态调整,目前模型的准确率为86.7%,高于独立决策树、朴素贝叶斯的83.3%和80%,亦高于对照组小数据分类模型的76.7%。可见此动态分类模型可有效利用参与建模的数据信息识别出外在皮肤与内在体质之间的关联性,为皮肤-体质间的定量研究奠定了基础。目的:针对人体面部皮肤状态指标与中医体质类型之间的关联性进行科学、定量研究,从测试数据持续累积与知识发现深入推进的过程视角,尝试揭示人体内在中医体质与外观皮肤状态指标间的复杂动态演化规律。方法:本文综合小样本条件下决策树的良好归纳特性及大样本条件下贝叶斯算法分类准确率高的优势。提出基于建模数据量会不断增多的趋势,构建可自适应修订决策树和模糊朴素贝叶斯融合分类算法的权重,以适用于测试数据从小到大积累过程中分类模型均具有较好分类特性及可解释性的应用要求。其中决策树采用最佳后剪枝方式,避免了常规决策树存在的过拟合弊端;朴素贝叶斯算法则通过定义指标归属区间的模糊隶属度来解决皮肤属性测试与分类中存在的随机性与模糊性。结果:实证结果表明本文提出的分类模型的融合权重可动态调整且随着建模数据的增多分类精度会相应提高。目前对应151个建模数据的分类模型的分类准确率为86.7%,高于独立决策树、朴素贝叶斯的83.3%和80%,亦高于对照组80个建模数据对应分类准确率的76.7%。结论:可见此皮肤—体质动态分类模型通过有效利用参与建模的数据信息,能识别出人体面部外观皮肤状态指标与内在中医体质之间的复杂关联性,建立的分类模型具有较好的精度与可解释性,为基于数据驱动的中医理论的科学化、智能化发展进行了有益的探索。  相似文献   

14.
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,节点划分属性选择的标准直接影响决策树分类的效果。基于粗糙集的属性频率函数等方法度量属性重要性的概念,将其用于分枝划分属性的选择,提出一种决策树学习算法。该方法仅利用区分矩阵就可以计算出属性的出现频率函数值,计算简单。实验结果表明,用该方法构造的决策树与传统的基于信息熵方法构造的决策树相比较,结构简单,且能有效提高分类效果。  相似文献   

15.
针对目前学生行为评价方法的可区分度较小、可信度低、方法单一的状况,综合运用了D-S信息融合技术,基于证据推理提出了一种新的学生行为评价模型。D-S理论是一种典型的不确定性推理和信息融合方法,它适用性强,应用广泛,能很好地表示和处理学生行为表现的不确定性信息。证据的基本可信度分配和不确定度的提取采用了函数映射的方法,在预先设定的门限条件下,采用基于基本可信度分配的决策方法进行评价结果的判定,使评价目标的不确定度大大下降,可区分度明显得到了提高,学生行为的评价结果明显得到了改善,从而增强了评价的可信度。  相似文献   

16.
一种非线性支持向量机决策树多值分类器   总被引:1,自引:0,他引:1  
提出了一种非线性支持向量机决策树的分类算法.该算法通过核函数将支持向量机推广到非线性支持向量机,并在非线性映射后计算特征空间中类间相对分离度,得到类的易分程度.在支持向量机决策树分类中引入相对分离度,有效地降低累积误差,减少计算规模,从而提高分类精度与分类效率.实验结果表明,与一般的线性支持向量机决策树分类算法相比,该算法的分类精度有了明显提高,同时其分类时间也相应降低.  相似文献   

17.
基于不确定信息条件下的多属性群组决策评价模型   总被引:2,自引:0,他引:2  
建筑安全管理的复杂性要求将决策者的知识和经验有效结合以利于做出正确的决策判断.逼近理想解排序方法(TOPSIS)作为一种实用且有效地处理多属性决策问题的方法被广泛地应用到建设管理领域.将该方法与灰数理论相结合,通过建立不确定信息条件下的多属性群组决策模型来进行建筑安全绩效评价.首先采用区间型灰数矩阵描述专家评价信息的不确定性;其次引入线性变换函数对灰数评价矩阵进行规范化处理以改善评价信息偏差问题,并采用明可夫斯基距离函数来克服传统TOPSIS方法中初始权重影响过大的缺陷;最后结合建筑安全绩效评价实例证明该模型算法的科学性和有效性,并易于拓展到类似决策评价中.  相似文献   

18.
针对不确定性问题,提出了一种新的基于知识发现的信息融合的方法.对不确定问题采用精确的数学方法解决会得到不精确的结论,模糊决策树算法可以很好地解决这类问题,并能有效地提取出模糊规则.即利用模糊决策树的ID3算法对测试空间中的大量不确定多源信息数据进行综合分析、处理,建立准确的评估模型,提取隐含其中的规则,最终获取新的知识.此方法已成功应用于吉林丰满水电数字仿真系统中的考核系统.实验证明,这种知识提取方法对处理大量无序、不确定的数据很有效.  相似文献   

19.
基于决策树的就业数据挖掘   总被引:12,自引:0,他引:12  
针对学生就业问题,给出了就业数据挖掘模型.决策树方法是数据挖掘中非常有效的分类方法,根据就业数据特点,采用了C4.5决策树算法.C4.5算法是决策树核心算法ID3的改进算法,它构造简单,速度较快,容易实现.模型对就业数据预处理,选取决策属性,实现挖掘算法并抽取规则知识,由规则知识指出哪些决策属性决定了就业单位的类别,挖掘结果表明,该算法能够正确将就业数据分类,并得到若干有价值的结论,供决策分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号