首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
郭鹏  葛玮 《计算机工程》2009,35(24):75-77
提出一种针对客户离网问题的改进决策树分类算法——M-AdaBoost级联决策树。采用级联式的思想构造多个基于AdaBoost决策树分类器,通过设定子分类器的判决信息,组合成级联式决策树。实验结果表明,该方法相对于单一的C4.5决策树、传统的AdaBoost决策树以及随机森林具有更好的分类效果。  相似文献   

2.
阐述了饰品企业营销的现状,提出了将数据挖掘技术应用到饰品营销中的方案.在分析决策树算法的基础上,介绍了决策树算法及决策树的构造,并使用该算法对企业客户进行分类及对新客户类型预测,实现对商业数据中隐藏信息的挖掘,且对该挖掘模型进行了验证.  相似文献   

3.
决策树已被成功应用到许多分类问题上,其中ID3是决策树学习的典型算法.文中就该算法在银行客户流失中的应用做了实例研究.叙述了ID3分类算法的原理及其实现算法,并分析了银行客户流失的原因和分类,以一个具体案例详细讲解了ID3分类算法在银行客户流失分析的具体应用流程,包括:数据采样、数据分析、建立模型和模型解释.文中实现ID3算法并作用于银行数据得到一个银行客户流失模型,通过提取模型中的规则对银行预测客户流失特征具有一定的辅助作用.  相似文献   

4.
陈治平 《计算机应用》2008,28(6):1417-1419
基于实际应用中的客户流失样本分布多样性的特点,提出了一种基于多模式的分类算法。利用聚类算法对流失客户分析群数据进行划分,得到相应的类群,在此基础上利用分类算法对各划分样本数据类群建立相应的分类模型,同时通过过滤低精确度的分类模型以确保提高分类预测精度。通过与Logistic、决策树、神经网络等方法的实践应用结果表明,新算法在客户流失预测精度上得到了较大的提高。  相似文献   

5.
基于代价敏感的决策树的电信离网分析模型   总被引:1,自引:0,他引:1  
随着电信行业竞争的加剧,客户流失率日益攀升,因此提高客户流失的预测精度将直接关系到电信企业的生存和发展.而电信客户数据集中存在严重的数据不平衡问题,会导致两类错分代价明显不等同.而基于传统决策树的客户流失模型却是在两类错分代价相等的前提下建立的,与实际情况不符.因此引入代价敏感学习理论,该理论将不同的错分代价纳入建模过程,以建立一个基于代价敏感的决策树的电信客户离网分析模型.该方法有效地提高了模型对流失客户的预测性能.这对促进电信业的发展具有相当重要的意义.  相似文献   

6.
在电信运营商领域,离网预测模型是企业决策者用来发现潜在离网用户(即停用运营商服务)的主要手段。目前离网预测模型都是基于逻辑回归、决策树、神经网络及随机森林等浅层机器学习算法,但是在大数据的背景下,这些浅层算法在预测问题上很难取得更高的精度。因此,提出了一种新型的深层结构模型——深度随机森林,通过将传统浅层随机森林堆积成深层结构模型,获得更高的预测精度。在运营商真实数据上进行了大量实验,结果证明深层随机森林模型比传统浅层机器学习算法在离网预测问题上可以得到更好的效果。同时,增大训练数据量可以进一步提升深层随机森林的预测能力,从而证明了在大数据环境下深层模型的潜力。  相似文献   

7.
移动通信在高速发展的同时,出现了大量用户离网的现象,基于客户信息、消费行为等历史数据,进行客户离网预测分析成为各个运营商普遍关注的问题。文章基于客户的历史数据和短期偶发数据,提出了链型数据挖掘方法,并结合决策树,形成了一个综合的链型树分类器(Chain Tree Classifier,CTC)和用户行为预测模型,实验结果显示,该分类器对移动通信运营商感兴趣的单个事件发生具有良好的预测能力,可被应用到客户离网预测中,从而帮助运营商提前发现具有离网倾向的用户,进而获得更高的利润。  相似文献   

8.
食品安全决策是食品安全问题研究的一项重要内容。为了对食品安全状况进行分析,基于粗糙集变精度模型,提出了一种包含规则置信度的构造决策树新方法。这种新方法针对传统加权决策树生成算法进行了改进,新算法以加权平均变精度粗糙度作为属性选择标准构造决策树,用变精度近似精度来代替近似精度,可以在数据库中消除噪声冗余数据,并且能够忽略部分矛盾数据,保证决策树构建过程中能够兼容部分存在冲突的决策规则。该算法可以在生成决策树的过程中,简化其生成过程,提高其应用范围,并且有助于诠释其生成规则。验证结果表明该算法是有效可行的。  相似文献   

9.
针对电信企业客户流失问题,提出采用贝叶斯决策树算法的预测模型,将贝叶斯分类的先验信息方法与决策树分类的信息熵增益方法相结合,应用到电信行业客户流失分析中,分别将移动公司的客户数据以及UCI数据纳入到模型中得出相应的结果。加入贝叶斯节点弥补决策树不能处理缺失值以及二义性数据的缺点。检验结果表明,基于贝叶斯推理的决策树算法在牺牲了较小的训练时间与分类时间的情况下,得到了比仅基于决策树算法更高的覆盖率与命中率。  相似文献   

10.
一种改进的决策树后剪枝算法磁   总被引:1,自引:0,他引:1  
当深度和节点个数超过一定规模后,决策树对未知实例的分类准确率会随着规模的增大而逐渐降低,需要在保证分类正确率的前提下,用剪枝算法对减小决策树的规模。论文在对现有决策树剪枝算法优缺点进行分析的基础上,提出了一种综合考虑分类精度、分类稳定性以及决策树规模的后剪枝改进算法,并通过实验证明了该算法在保证模型判别精度和稳定性的前提下,可以有效地减小了决策树的规模,使得最终的自动判别模型更加简洁。  相似文献   

11.
针对当前决策树算法较少考虑训练集的嘈杂程度对模型的影响,以及传统驻留内存算法处理海量数据困难的问题,提出一种基于Hadoop平台的不确定概率C4.5算法--IP-C4.5算法。在训练模型时,IP-C4.5算法认为用于建树的训练集是不可靠的,通过用基于不确定概率的信息增益率作为分裂属性选择标准,减小了训练集的嘈杂性对模型的影响。在Hadoop平台下,通过将IP-C4.5算法以文件分裂的方式进行MapReduce化程序设计,增强了处理海量数据的能力。与C4.5和完全信条树(CCDT)算法的对比实验结果表明,在训练集数据是嘈杂的情况下,IP-C4.5算法的准确率相对更高,尤其当数据嘈杂度大于10%时,表现更加优秀;并且基于Hadoop的并行化的IP-C4.5算法具有处理海量数据的能力。  相似文献   

12.
Decision trees have been widely used in data mining and machine learning as a comprehensible knowledge representation. While ant colony optimization (ACO) algorithms have been successfully applied to extract classification rules, decision tree induction with ACO algorithms remains an almost unexplored research area. In this paper we propose a novel ACO algorithm to induce decision trees, combining commonly used strategies from both traditional decision tree induction algorithms and ACO. The proposed algorithm is compared against three decision tree induction algorithms, namely C4.5, CART and cACDT, in 22 publicly available data sets. The results show that the predictive accuracy of the proposed algorithm is statistically significantly higher than the accuracy of both C4.5 and CART, which are well-known conventional algorithms for decision tree induction, and the accuracy of the ACO-based cACDT decision tree algorithm.  相似文献   

13.
WEB文本自动分类在很多方面都有着重要的应用,如信息检索,新闻分类等。决策树算法是一种简单并且广泛使用的分类方法,具有很多优点如:分类精度高,分类速度快等。主要研究了运用C4.5决策树构建Web页面分类器的基本方法和过程,并提出了一个基于C4.5决策树的Web页面分类器的框架。在此基础上实现了一个运用于网络爬虫的Web页面分类器,实验结果表明该算法是非常有效的。  相似文献   

14.
决策树是数据挖掘的分类应用中采用最广泛的模型之一,但是传统的ID3、C4.5和CART等算法在应用于超大型数据库的挖掘时,有效性会降得很低,甚至出现内存溢出的现象,针对此本文提出了一种基于属性加权的随机决策树算法,并通过实验证明该算法减少了对系统资源的占用,并且对高维的大数据集具有很高的分类准确率,非常适合被用于入侵检测的分类之中。  相似文献   

15.
从熵均值决策到样本分布决策   总被引:15,自引:0,他引:15       下载免费PDF全文
为了研究归纳学习的判决精度问题,分析了C4.5算法的不足以及标准算法与亚算法之间争论和妥协的根本原因,从估计训练样本的概率分布的角度出发,给出了一种简单而新颖的决策树算法.基于UCI数据的实验结果表明,与C4.5算法相比,该方法不仅具有比较好的判决精度,而且具有更快的计算速度.  相似文献   

16.
针对现有关联分类算法资源消耗大、规则剪枝难、分类模型复杂的缺陷,提出了一种基于分类修剪的关联分类算法改进方案ACCP.根据分类属性值的不同对分类规则前项进行分块挖掘,并对频繁项集挖掘过程和规则修剪进行了改进,有效提高了分类准确率和算法运行效率.实验结果表明,此算法改进方案相比传统CBA算法和C4.5决策树算法有着更高的分类准确率,取得了较好的应用效果.  相似文献   

17.
样本的不均衡性直接影响分类器的精度,基于C4.5算法提出一种改进算法——PC4.5,并应用于MIT数据集.实验表明该算法能很好地处理训练集的不均衡性,并降低决策树的规模.  相似文献   

18.
Lim  Tjen-Sien  Loh  Wei-Yin  Shih  Yu-Shan 《Machine Learning》2000,40(3):203-228
Twenty-two decision tree, nine statistical, and two neural network algorithms are compared on thirty-two datasets in terms of classification accuracy, training time, and (in the case of trees) number of leaves. Classification accuracy is measured by mean error rate and mean rank of error rate. Both criteria place a statistical, spline-based, algorithm called POLYCLSSS at the top, although it is not statistically significantly different from twenty other algorithms. Another statistical algorithm, logistic regression, is second with respect to the two accuracy criteria. The most accurate decision tree algorithm is QUEST with linear splits, which ranks fourth and fifth, respectively. Although spline-based statistical algorithms tend to have good accuracy, they also require relatively long training times. POLYCLASS, for example, is third last in terms of median training time. It often requires hours of training compared to seconds for other algorithms. The QUEST and logistic regression algorithms are substantially faster. Among decision tree algorithms with univariate splits, C4.5, IND-CART, and QUEST have the best combinations of error rate and speed. But C4.5 tends to produce trees with twice as many leaves as those from IND-CART and QUEST.  相似文献   

19.
现有的Web信息搜索方式是基于关键词匹配来进行的,其准确性和可靠性有限。本文以用户需求为中心,收集用户偏好,应用后台软件采用C4.5决策树算法构建文件过滤规则,结合基于主观Bayes方法的不确定性推理为过滤规则追加可信度支持,并用模糊规则来描述,确保Web信息搜索的查全率和查准率全面提升。  相似文献   

20.
决策树分类技术研究   总被引:28,自引:1,他引:28  
栾丽华  吉根林 《计算机工程》2004,30(9):94-96,105
决策树分类是一种重要的数据分类技术。ID3、C4.和EC4.5是建立决策树的常用算法,但目前国内对一些新的决策树分类算法研究较少。为此,在消化大量文献资料的基础上,研究了CART、SLIQ、SPRINT、PUBLIC等新算法,对各种决策树分类算法的基本思想进行阐述,并分析比较了各种算法的主要特性,为数据分类研究者提供借鉴。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号