首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 609 毫秒
1.
分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型。该函数或模型能够把数据库中的数据记录映射到给定类别中的某一个,从而可以应用于数据预测。大部分数据挖掘工具采用规则发现或决策树分类技术来发现数据模式和规则,其核心是某种归纳算法。这类工具通常是对数据库的数据进行开采,生产规则和决策树,然后对新数据进行分析和预测。本文研究基于SLIQ的数据挖掘分类算法。  相似文献   

2.
徐枫 《信息与电脑》2011,(8):219-220
分类是数据挖掘的重要组成部分,分类可用于提取描述重要数据类的模型或预测未来的数据趋势,在众多的分类算法中决策树方法在可理解度和易使用等方面优于其他的分类方法。本文以高职院校学生信息与专业选择之间的关系分析为例,完整地给出了决策树分类ID3算法的理论基础和实践的全过程,实验结果表明了决策树分类ID3算法在学生信息分析中的有效性。  相似文献   

3.
决策树算法在天气评估中的应用   总被引:1,自引:0,他引:1  
巩固  张虹 《微计算机信息》2007,23(34):245-247
分类算法是数据挖掘中的一个最重要技术.本文分析了决策树分类算法中的ID3算法和C4.5算法.利用它们建立天气评估的决策树模型.研究了该决策树模型在天气评估中的应用,分析了决策树算法应用于数据分类和知识发现的过程和特点.同时文章中也指出了分类算法的不足之处和待解决的问题。  相似文献   

4.
决策树是数据挖掘中的一种分类算法,它是一种以实例为基础的归纳学习算法,来发现数据模式和规则.介绍了数据挖掘的定义及分类,详细介绍了决策树ID3算法.又根据ID3算法,对院校中收集的大量教学评价数据样本进行分析,获得不同属性上的信息增益,生成最终决策树,可将此树转换成一个if-then规则的集合.生成规则和决策树,然后对新数据进行分析和预测.通过数据建模以发现规律和模式,从而提取有价值的信息,避免目前教学质量评价中的不合理性,实例验证和分析的结果表示该方法的有效性.为教学质量评价提供合理、科学的决策支持,从而提高教学质量,改进教学成果.  相似文献   

5.
决策树(Decision Tree)曾在很长的时间里是非常流行的人工智能技术,随着数据挖掘技术的发展,决策树作为一个构建决策系统的强有力的技术在数据挖掘和数据分析过程中起到了非常重要的作用.决策树在数据挖掘中主要用于分类、预测以及数据的预处理等.  相似文献   

6.
基于决策树技术的高校研究生信息库数据挖掘研究   总被引:4,自引:0,他引:4  
对数据挖掘技术在研究生信息库中的应用进行了初步分析探讨。运用决策树中的C4.5 算法对所给数据进行分类和预测,通过一个实例给出了该算法选取决策属性的详细过程。  相似文献   

7.
ID3分类算法在银行客户流失中的应用研究   总被引:1,自引:1,他引:0  
决策树已被成功应用到许多分类问题上,其中ID3是决策树学习的典型算法.文中就该算法在银行客户流失中的应用做了实例研究.叙述了ID3分类算法的原理及其实现算法,并分析了银行客户流失的原因和分类,以一个具体案例详细讲解了ID3分类算法在银行客户流失分析的具体应用流程,包括:数据采样、数据分析、建立模型和模型解释.文中实现ID3算法并作用于银行数据得到一个银行客户流失模型,通过提取模型中的规则对银行预测客户流失特征具有一定的辅助作用.  相似文献   

8.
新的决策树构造方法   总被引:3,自引:1,他引:2       下载免费PDF全文
决策树算法是数据挖掘中的一个比较活跃的研究领域,是对分类问题进行深入分析的一种方法。但构造最优决策树是一个NP难问题。首先介绍了ID3算法的基本思想,然后针对算法中存在的不足,引入了广义相关函数的概念,提出了一种以条件属性和决策属性之间的广义相关函数作为属性选择标准的决策树构造方法,并且与ID3算法进行了实验比较。实验表明,这种方法不但可以优化决策树模型,而且用该方法构造的决策树的预测精度也得到明显改善。  相似文献   

9.
本文针对交通数据挖掘领域的交通流预测问题进行研究和实现.主要对数据挖掘技术应用于交通流数据的特征选择和交通流预测模型的建立提出算法.在对采样数据进行清洗后,以分类与回归决策树作为基学习器,采用梯度提升决策树进行回归拟合,计算出交通数据的特征重要度.并以此重要度作为自适应特征选择的依据.其次,采用聚类算法对选取后的特征数据进行聚类分析,缩小样本大小的同时,同类数据更加相似.最后,以实时数据匹配相应聚类作为训练数据集,使用经过人工鱼群算法优化参数后的支持向量机进行交通流预测.本文结尾通过实验数据论证本文所提出的算法和模型.  相似文献   

10.
数据库、数据仓库以及其他存储信息库中潜藏着很多与商业、科学研究等活动的决策有关的数据和知识。对于数据挖掘中的数据分析,通常有两种常见的方法,即分类和预测,首先对数据库中的数据进行分类归纳,然后根据分类规则可以得到比较有价值的数据,然后我们可以根据这个数据来预测得到一些包含未来趋势的信息。在常见的分类算法中,决策树算法是一个有着很好扩展性的算法,可以应用到大型数据库中,可以对多种数据类型进行处理,分类模式容易转化为分类规则,结果也十分的浅显易懂易于理解。该文主要先介绍了几种常用的分类算法,然后具体介绍决策树算法的过程以及在分类算法实际应用中的优缺点。  相似文献   

11.
可靠的电力供应对于工业生产和居民日常生活至关重要,通过对电力数据平台中的停电数据进行分析和挖掘,可以更好地了解配电网停电的潜在规律。分类预测是数据挖掘和分析中的常见技术,停电分类预测可以为企事业单位的停电规划安排提供决策参考。针对停电分类预测问题,提出一种基于因子分解机(FM)的停电数据分类预测模型。利用决策树算法计算停电数据中不同特征的基尼系数以得出重要性得分,从中筛选与停电预测关联度较大的非稀疏特征。根据不同地区的地理位置关系构建不同地区间的空间位置矩阵,并通过矩阵分解的方式构造不同地区在空间上的地理位置关联特征。为防止FM模型出现过拟合问题,在模型中加入L2-范数正则化。在此基础上,利用随机梯度下降的方法训练FM模型,通过训练完成的FM模型对停电数据进行分类预测。在真实停电数据集上的实验结果表明,该模型在训练数据集和测试数据集上的F1值和准确率分别高达0.90和0.89,优于DNN、SVM、XGBoost等模型。  相似文献   

12.
决策树C4.5算法在数据挖掘中的分析及其应用   总被引:5,自引:0,他引:5  
决策树是归纳学习和数据挖掘的重要方法,通常用来形成分类器和预测模型。分类器是数据挖掘的一种基本方法。本文对分类器的基本概念、C4.5算法、决策树的构建和剪枝进行了介绍,然后将C4.5算法应用于篮球比赛的技术统计分析中,通过对这些数据分析从而得到一些较实用的预测胜负规则。  相似文献   

13.
针对SQL数据挖掘在复杂动力学系统故障诊断中的模式分类问题,以决策树参数优化为例,开展SQL数据挖掘分类算法参数优化研究。目前数据挖掘中的各类算法参数往往根据经验值设定,预测精度不高;只用遗传算法进行参数优化,分类预测结果容易发生振荡和早熟现象。采用改进的退火遗传算法对SQL数据挖掘中的决策树算法参数进行优化,解决了人工经验设置参数效率低下、精度不高的问题,同时实现了全局搜索,快速收敛到全局最优解。  相似文献   

14.
A set of classification rules can be considered as a disjunction of rules, where each rule is a disjunct. A small disjunct is a rule covering a small number of examples. Small disjuncts are a serious problem for effective classification, because the small number of examples satisfying these rules makes their prediction unreliable and error-prone. This paper offers two main contributions to the research on small disjuncts. First, it investigates six candidate solutions (algorithms) for the problem of small disjuncts. Second, it reports the results of a meta-learning experiment, which produced meta-rules predicting which algorithm will tend to perform best for a given data set. The algorithms investigated in this paper belong to different machine learning paradigms and their hybrid combinations, as follows: two versions of a decision-tree (DT) induction algorithm; two versions of a hybrid DT/genetic algorithm (GA) method; one GA; one hybrid DT/instance-based learning (IBL) algorithm. Experiments with 22 data sets evaluated both the predictive accuracy and the simplicity of the discovered rule sets, with the following conclusions. If one wants to maximize predictive accuracy only, then the hybrid DT/IBL seems to be the best choice. On the other hand, if one wants to maximize both predictive accuracy and rule set simplicity -- which is important in the context of data mining -- then a hybrid DT/GA seems to be the best choice.  相似文献   

15.
对于高校就业管理信息系统中积累的大量数据,运用数据挖掘算法中的决策村方法挖掘出潜在的有用的信息,为高校开展就业工作提供决策支持.根据就业数据的特点,采用C4.5决策树算法,对就业数据进行预处理,选取决策属性,实现挖掘算法并抽取规则知识,由规则知识指出哪些决策属性决定了就业单位的类别.挖掘结果表明,该算法能够正确将就业数据分类,并得到若干有价值的结论,供决策分析.  相似文献   

16.
在分布式环境下,实现隐私保护的数据挖掘,已成为该领域的研究热点。文中着重研究在垂直分布数据中,实现隐私保护的决策树分类模型。该模型创建新型的隐私保护决策树,即由在茫然半诚实方存储的全局决策表和各站点存储的局部决策树组成,并结合索引数组和秘密数据比较协议,实现在不泄漏原始信息的前提下决策树的生成和分类。经过理论分析和实验验证,证明该模型具有较好的安全性、准确性和适用性。  相似文献   

17.
基于GA和KNN的SVM决策树分类方法研究   总被引:1,自引:0,他引:1  
文章提出了一种基于遗传算法和K近邻的SVM决策树方法,并将其应用于解决SVM多分类问题。算法以基于类分布的类间分离性测度为准则,利用遗传算法对传统的SVM决策树进行优化,生成最优(较优)决策树。在分类阶段,对容易分的节点利用SVM进行分类,而对可分离性差的节点采用SVM和K近邻相结合的分类方法,最终实现多类别分类。实验结果表明,与传统的分类方法相比,该算法的实验效果较好,是一种有效的分类方法。  相似文献   

18.
C4.5算法是基于信息熵理论进行数据分类分析的经典决策树数据挖掘算法,它主要包括数据预处理、决策树生成、决策树修剪、决策树规则提取等步骤。将C4.5算法应用于高校财务预警系统的数据分析中,通过对调查数据挖掘分析表明,数据挖掘在高校财务预警调查数据分析中具有广泛的应用前景。  相似文献   

19.
司贯中  刘旸 《微处理机》2013,34(2):35-38
简要介绍了数据挖掘技术产生的背景及其分类,阐述了数据挖掘技术中的一个重要分支-关联规则挖掘,研究分析了Apriori算法的不足。利用分组技术对原算法改进,然后把分组Apriori算法应用到数字化图书馆借阅系统中,对读者提供个性化的图书推荐服务。利用某高校已有的图书借阅历史信息,对分组Apriori算法和Apriori算法测试,证明分组Apriori算法相比于Apriori算法确实提高了数据挖掘效率。  相似文献   

20.
一种面向周期性概念漂移的数据流分类算法   总被引:1,自引:0,他引:1  
数据流挖掘已在许多领域得到应用,概念漂移检测是数据流挖掘研究中的一个重点.目前关于数据流中的概念检测的研究虽然取得了很多成果,却没有充分考虑到数据流概念"周期性"出现的特点.针对周期性概念漂移的特点,提出了当"历史概念"重现时,利用对应的模型来对数据流进行分类的方法,从而减小模型更新的代价,加快分类预测的速度.实验证明这种方法提高了运行效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号