首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于决策树的就业数据挖掘   总被引:12,自引:0,他引:12  
针对学生就业问题,给出了就业数据挖掘模型.决策树方法是数据挖掘中非常有效的分类方法,根据就业数据特点,采用了C4.5决策树算法.C4.5算法是决策树核心算法ID3的改进算法,它构造简单,速度较快,容易实现.模型对就业数据预处理,选取决策属性,实现挖掘算法并抽取规则知识,由规则知识指出哪些决策属性决定了就业单位的类别,挖掘结果表明,该算法能够正确将就业数据分类,并得到若干有价值的结论,供决策分析。  相似文献   

2.
为了降低特征挖掘结果的汉明损失和错误率,提出了一种基于决策树的供应商全链路动态特征挖掘算法.对数据实施数值化、离散化和归一化处理,通过降低数据值域的差异来降低汉明损失和错误率.利用处理后的数据建立决策树,通过剪枝操作提高了数据分类的精度,采用改进的CHI值和RBF神经网络有效挖掘全链路动态特征.该算法降低了挖掘结果的汉明损失和错误率,且分类处理精度、准确率、召回率均有所提高.该算法有效提高了供应商全链路动态特征的挖掘效果.  相似文献   

3.
目前大多分类算法都是从数据库的单个表中挖掘分类模式的,但是现实中的数据大多以多个关系表的形式存在,而且各个表之间存在联系.用选择图表示多关系决策树中结点的分类算法,直接从多个关系表中挖掘分类模型,不需要将多个表进行连接操作.对该方法进行了研究,发现多关系决策树算法在处理限定词互补方面存在缺陷,并给出了相应的改进.  相似文献   

4.
流式计算形态下的大数据分析一直是当前需要解决的问题,而且研究成果和实践经验较少。随机森林方法是目前应用较多的分类算法,但在流式计算应用场景中,数据所呈现出来的实时性、易失性、无序性等特征会使得算法准确度逐渐降低。针对这个问题,分析了随机森林的算法特点,提出了根据决策树的准确度进行随机森林剪枝的思路。同时为了适应数据的变化,结合准确度间隔的概念提出生成、验证并补充新决策树的方法,最终形成可以不断随数据更新的随机森林,满足流式大数据环境对算法的要求。使用实际数据对改进后方法的可行性进行了验证,证明新方法在真实流式大数据场景中有着更高的分类准确度,最后分析讨论了随机森林方法如何进一步研究改进的主题。  相似文献   

5.
传统的数据挖掘分类方法能够成功地应用于确定性数据分类,但却无法满足绝大多数领域中复杂的不确定性数据的分类需求,由此出现了一系列针对不确定性数据的分类方法。通过大量研究,目前经典的分类算法及针对不确定数据分类的改进方法得到了很大发展,如改进后的支持向量机算法、朴素贝叶斯算法、决策树算法等日渐成熟。  相似文献   

6.
针对HiCuts算法在NIDS应用上存在着空间异常膨胀和决策树不平衡性的问题,提出了一种P-Hi-Cuts算法.P-HiCuts(Pruned HiCuts)对原报文空间分组算法进行改进,采用覆盖规则上提和非均匀切分的技术解决原有问题,从理论上减小了决策树深度.实验结果显示,改进后决策树深度空间占用缩小到原来的10%,分类速度也提升了13.71%.  相似文献   

7.
以数据挖掘的决策树方法为理论基础,结合燃煤锅炉的具体特点,将基于决策树归纳分类算法运用于锅炉历史运行数据的分析中.以锅炉效率为决策目标,对不同烟气含氧量、排烟温度等属性进行分类,构建决策树模型,采用决策树归纳分类的方法挖掘出指导锅炉运行的有用规则,并对挖掘结果进行分析和评价.  相似文献   

8.
决策树方法是一种重要的可完成分类任务的知识发现技术 ,目的是通过构造一个分类模型 ,把数据库中的元组映射到给定类别中的某一个。决策树分类算法效率高且应用广泛 ,但是不能处理在决策树的构建和分类过程中的不确定数据。针对决策树分类算法的局限 ,利用证据理论是对概率论的扩展 ,将置信函数与概率的上下值相联系 ,可用于不确定数据的表达这个有力工具 ,把决策树分类技术扩展到含有不确定数据的环境中 ,提出了 D- S决策树分类算法。实验结果表明 D- S决策树分类算法能有效的对不确定数据进行分类。  相似文献   

9.
根据就业数据的特点,采用C4.5决策树算法对就业数据进行预处理,选取决策属性,实现挖掘算法并抽取规则知识,由规则知识指出哪些决策属性决定了就业单位的类别.挖掘结果表明,该算法能够正确将就业数据分类,并得到若干有价值的结论,供决策分析.  相似文献   

10.
针对第5代移动通信系统(5G)环境下海量网管数据溯源难、关联挖掘冗余度大的问题,结合时间约束、滑动时间窗和分类层次技术,提出了一种基于网络拓扑的时序告警关联挖掘算法.该算法可以有效缩减候选集,实现对海量网管数据高效压缩和快速溯源.仿真结果表明,改进后的故障溯源候选集在拓扑上具有实际关联性,对比其他关联算法更有效.  相似文献   

11.
提出了C4.5决策树算法的一种并行算法,使传统的串行分类算法能在多台PC机和服务器组成的数据挖掘网格上并行数据挖掘. 采用数据纵横剖分,结合递归过程的并行化,实现了可扩展的高性能并行计算,解决了处理海量数据时没有较好并行分类算法的问题. 并给出了指导该并行算法高效计算的方法. 数据运行试验和算法分析表明,该并行算法的性能受多个因素影响,并具有高效的并行效率计算加速比.  相似文献   

12.
决策树方法是一种重要的可完成分类任务的知识发现技术,目的是通过构造一个分类模型,把数据库中的元组映射到给定类别中的某一个。决策树分类算法效率高且应用广泛,但是不能处理在决策树的构建和分类过程中的不确定数据。针对决策树分类算法的局限,利用证据理论是对概率论的扩展,将置信函数与概率的上下值相联系,可用于不确定数据的表达这个有力工具,把决策树分类技术扩展到含有不确定数据的环境中,提出了D-S决策树分类算法。实验结果表明D-S决策树分类算法能有效的对不确定数据进行分类。  相似文献   

13.
提出了C4.5决策树算法的一种并行算法,使传统的串行分类算法能在多台PC机和服务器组成的数据挖掘网格上并行数据挖掘. 采用数据纵横剖分,结合递归过程的并行化,实现了可扩展的高性能并行计算,解决了处理海量数据时没有较好并行分类算法的问题. 并给出了指导该并行算法高效计算的方法. 数据运行试验和算法分析表明,该并行算法的性能受多个因素影响,并具有高效的并行效率计算加速比.  相似文献   

14.
针对传统单点串行的分类算法在面对新闻数据规模较大、分类属性较多时存在效率低的问题,本文研究了朴素贝叶斯分类算法在MapReduce下的并行实现方法.首先对新闻信息进行分词、格式转换等预处理,然后进行特征提取、分类模型构造;最后进行了分类测试.测试结果表明,在大数据量的情况下,并行化的贝叶斯算法较传统的贝叶斯算法具有更好的执行效率和较高的扩展性.  相似文献   

15.
针对传统FP-Growth算法在大规模数据环境下挖掘效率低下的问题,提出了一种改进的FP-Growth算法.该算法主要是通过基于频繁闭项集策略对完备模式树进行剪枝进而减小搜索空间规模,达到提高算法挖掘效率的目的 .并将改进后的FP-Growth算法的分治策略与分布式计算框架Hadoop的MapReduce编程模式有机结合,进一步提高了大数据环境下的挖掘效率.实验证明,基于Hadoop的改进FP-Growth算法的效率较传统FP-Growth算法有所提高.  相似文献   

16.
基于ID3算法的考试成绩分析决策树的构造   总被引:1,自引:0,他引:1  
决策树是数据挖掘任务中分类的常用算法,ID3算法是决策树学习的核心算法.论述了ID3算法的基本思想和实现方法,分析了节点选择的方法,并根据ID3算法构造了考试成绩分析决策树,同时针对算法的缺点提出了改进意见.  相似文献   

17.
数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术.本文研究数据挖掘中的决策树算法,并利用经典的C4.5算法对网通公司业务数据进行挖掘,针对小灵通客户流失问题建立了客户流失预警模型并予以具体实现,以便为公司提供决策依据.  相似文献   

18.
一种改进的PEP决策树剪枝算法   总被引:1,自引:0,他引:1  
剪枝过程是决策树分类学习中的重要环节,能够简化决策树并提高决策树的泛化能力,避免对训练数据集的过适应。在PEP算法的基础上,本文提出了一种改进的决策树剪枝算法IPEP,实验结果表明,该算法剪枝效果较PEP算法更好。  相似文献   

19.
提出了一种改进的SLIQ决策树分类算法,克服了原有SLIQ算法需要大量计算决策树每个节点的吉尼指数(gini index)的缺点.改进的SLIQ算法能够有效地减少计算的复杂度.结合实例,将该算法与原有SLIQ算法和基于人工神经网络的分类算法应用结果进行比较,实验结果表明该算法的分类准确率远远高于SLIQ算法和基于人工神经网络的分类算法.  相似文献   

20.
针对云计算环境下多媒体资源分类检索准确性差的问题,提出一种新的多媒体资源分类检索方法,通过决策树算法对多媒体资源进行采集及属性划分.引入基于拉格朗日系数的拉格朗日算法对资源进行求解和预处理,以李雅普诺夫定理为基础,获取多媒体资源特征,并通过标注传播算法实现对多媒体资源的分类检索.实验结果表明,采用改进的方法可以有效增加多媒体资源分类检索的准确度和检索效率,具有一定的实用性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号