共查询到17条相似文献,搜索用时 62 毫秒
1.
C4.5算法是用于生成决策树的一种经典算法,虽然其有很强的噪声处理能力,但当属性值缺失率高时,分类准确率会明显下降,而且该算法在构建决策树时,需要多次扫描、排序数据集、以及频繁调用对数,针对以上缺点,本文提出一种改进的分类算法.采用一种基于朴素贝叶斯定理方法,来处理空缺属性值,提高分类准确率.通过优化精简计算公式,在计算过程中,改进后的计算公式使用四则混合运算代替原来的对数运算,减少构建决策树的运行时间.为了验证该算法的性能,通过对UCI数据库中5个数据集进行实验,实验结果表明,改进后的算法极大的提高了运行效率. 相似文献
2.
3.
钟春梅 《计算机与数字工程》2021,49(2):238-241
论文主要研究朴素贝叶斯算法在支气管炎诊断中的应用.首先,对支气管炎患者的问卷调查数据进行离散化处理,学习到支气管炎类型与病症症状的模型;然后基于此模型,利用朴素贝叶斯算法求出该模型的最大后验概率分布,从而确定患者所属的支气管炎类型. 相似文献
4.
5.
如何对以“工业4.0”为背景的物联网智慧医疗系统所产生的医疗数据进行高效且准确的挖掘仍然是一个十分严峻的问题。而医疗数据往往是高维的、不平衡的和有噪声的,因此提出一种新的数据处理方法——将SMOTE方法与Filter-Wrapper特征选择算法融合,并将其应用于支持临床医疗决策。特别地,所提方法不仅克服了朴素贝叶斯在属性实际应用中因属性独立假设而造成的预测不佳的情况,而且避免了C4.5决策树在构建模型时的过拟合问题。将所提算法应用于ECG临床医疗决策中,取得了很好的效果。 相似文献
6.
数据流挖掘已经成为数据挖掘领域一个热门的研究方向,由于数据流中概念漂移现象的存在,使得传统的分类算法无法直接应用于数据流中。为了能有效地应对数据流中的概念漂移,提出了一种基于Kappa系数的数据流分类算法。该算法采用集成式分类技术,以Kappa系数度量系统的分类性能,根据Kappa系数来动态地调整分类器,当发生概念漂移时,系统能利用已有的知识很快删除不符合要求的分类器来适应新概念。实验结果表明,相对于实验中参与比较的BWE,AE和AWE算法,该算法不但具有较好的分类性能,而且在一定程度上能较为有效地降低时间开销。 相似文献
7.
实际应用中大量的不完整的数据集,造成了数据中信息的丢失和分析的不方便,所以对缺失数据的处理已经成为目前分类领域研究的热点。由于EM方法随机选取初始代表簇中心会导致聚类不稳定,本文使用朴素贝叶斯算法的分类结果作为EM算法的初始使用范围,然后按E步M步反复求精,利用得到的最大化值填充缺失数据。实验结果表明,本文的算法加强了聚类的稳定性,具有更好的数据填充效果。 相似文献
8.
9.
徐邵兵 《数字社区&智能家居》2009,(2)
纳税信用等级评定的实现是需要对大量税收数据进行分析和判定的结果,决策树是进行数据挖掘和分类的常用工具,其中以C4.5算法最为流行。如何应用数据挖掘技术改变纳税信用等级手工评定的现状是当前税务系统税收信息化工作难点之一。文章主要讨论如何应用C4.5算法构造纳税信用等级评定决策树,通过对纳税人涉税数据的采集、预处理、属性选择、决策树生成和剪枝等一系列过程最终生成纳税信用等级评定决策树,并根据生成的决策树实现对纳税人纳税信用等级的判决。 相似文献
10.
介绍智能导学系统的特点,并对决策树C4.5算法的原理进行了阐述,通过C4.5构造了一个学生在线学习效果的评估模型.并利用该模型得到的分类规则进行预测,得到准确性评估表,从而验证决策树算法的灵活性和计算的高效性. 相似文献
11.
12.
它概述了数据挖掘的几种常用算法,在权衡利弊的情况下,选择了决策树算法,它的优点是描述简单、分类速度快.特别适合大规模的数据处理,另外,以其易于提取显式规则、计算量相对较小、可以显示重要的决策属性和具有较高的分类准确率,综合以上优点及教学评估数据的结构化特性,选择分类技术中的决策树方法用于教学评估数据挖掘系统。 相似文献
13.
它概述了数据挖掘的几种常用算法,在权衡利弊的情况下,选择了决策树算法,它的优点是描述简单、分类速度快,特别适合大规模的数据处理,另外,以其易于提取显式规则、计算量相对较小、可以显示重要的决策属性和具有较高的分类准确率,综合以上优点及教学评估数据的结构化特性,选择分类技术中的决策树方法用于教学评估数据挖掘系统。 相似文献
14.
C4.5算法在选择分裂属性时只考虑了每个条件属性和决策属性之间的关系,而没有考虑到条件属性间的相关性,直接影响构建树的准确率。提出一种基于Kendall和谐系数的C4.5决策树优化算法,用于解决条件属性之间相关性的问题,提高算法属性选择的准确性。在引入系数的基础上运用等价无穷小原理对计算公式进行简化,提高了算法的效率。对改进后的C4.5算法和传统的算法进行仿真实验,结果表明,改进的C4.5算法在准确度和效率上都有较大提高。 相似文献
15.
16.
随着云计算、物联网等技术的兴起,流数据作为一种新型的大数据形态广泛存在于电信、互联网、金融等领域.与传统静态数据相比,大数据环境下的流数据具有快速、连续和随时间变化等特点.同时数据流的隐含分布变化会带来概念漂移问题.为了适应大数据环境下流数据分类算法的要求,必须对传统的静态离线数据分类算法进行改进,提出基于分布式计算平台Storm的P-HT并行化算法.算法在满足Storm流处理平台要求基础上,通过滑动窗口机制、替代子树机制和并行化处理,提高了算法的灵活性和通用性,并且能良好地适应数据流的概念漂移.最后通过实验验证该算法的有效性和高效性,结果表明在与传统C4.5算法相比精度没有降低的情况下,改进的P-HT算法具有更大的吞吐量和更快的处理速度. 相似文献
17.
决策树方法在恶意DLL文件检测中的应用 总被引:1,自引:0,他引:1
本文对现有恶意DLL文件注入技术和PE结构进行了分析,提出了一种检测恶意DLL文件的新方法。通过分析DLL文件的文件属性和PE文件字段值,利用决策树方法中的C4.5算法构造恶意DLL文件检测模型,并且通过实验验证该检测模型的检测效率。 相似文献