首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 351 毫秒
1.
张坤  穆志纯  常晓辉 《控制工程》2008,15(1):103-106
决策树算法训练速度快、结果易于解释,但在实际应用中其分类精度难以满足业务要求。为了提高决策树算法的精度,基于LogitBoost算法的优点,对决策树C4.5算法进行了改进。在决策树的叶节点上应用LogitBoost算法建立叠加回归模型,得到一种新型的模型树算法-LCTree算法。通过11组UCI数据集试验,经分析比较,证明LCTree算法比其他算法更有效。将该算法应用于电信客户离网预警系统建模,结果表明,该算法可有效地分析客户特征,精确地预测离网客户。  相似文献   

2.
目前,对小规模数据集进行预测时,主要使用传统机器学习算法,但传统单一模型预测效果不能达到预期准确率,且无法兼顾多项评价指标。因此,文中以小规模数据集为研究对象,融合决策树、逻辑回归、支持向量机三类模型,提出了一种多模型融合算法,并分析了其在小规模数据集上的应用效果。首先,简述了决策树、逻辑回归和支持向量机的算法原理;其次,使用决策树、逻辑回归和支持向量机作为基学习器并完成单独训练,将各模型输出结果用于下一阶段模型输入,同时使用最大似然估计迭代优化参数,从而完成多模型融合过程;最后,对数据集进行分析和处理,通过实验与单一模型进行指标对比。实验结果表明,多模型融合算法在预测精确率、召回率、准确率等方面有明显提升。  相似文献   

3.
训练集容量对决策树分类错误率的影响研究   总被引:1,自引:0,他引:1  
数据挖掘算法必须在实际数据集上进行验证,而数据集容量是有限的,训练集比例过低会导致训练不足,训练集比例过高会导致算法评价过于乐观。针对训练集容量对评价效果的影响问题,对25个UCI数据集的不同比例训练集运用决策树算法C4.5,得出不同训练集容量对决策树分类错误率的影响关系。实验结果表明,训练集比例至少为50%时才能使分类错误率达到相对平稳。  相似文献   

4.
乔梅  韩文秀 《计算机应用》2005,25(5):989-991
噪音数据是影响决策树训练效率和结果集质量的重要因素。目前的树剪枝方法不能消除噪音数据对选择决策树测试节点属性的影响。为改变这种状况,基于变精度Rough集(VPRS)模型,提出了一个在决策树算法中处理噪音数据的新方法---预剪枝法,该方法在进行选择属性的计算之前基于变精度正区域求取属性修正的分类模式,来消除噪音数据的对选择属性以及生成叶节点的影响。利用该方法对基本ID3决策树算法进行了改进。分析和实验表明,与先剪枝方法相比,该方法能进一步减小决策树的规模和训练时间。  相似文献   

5.
王蓉  刘遵仁  纪俊 《计算机科学》2017,44(Z11):129-132
传统的ID3决策树算法存在属性选择困难、分类效率不高、抗噪性能不强、难以适应大规模数据集等问题。针对该情况,提出一种基于属性重要度及变精度粗糙集的决策树算法,在去除噪声数据的同时保证了决策树的规模不会太庞大。利用多个UCI标准数据集对该算法进行了验证,实验结果表明该算法在所得决策树的规模和分类精度上均优于ID3算法。  相似文献   

6.
针对化工生产过程中软测量模型估计精度的问题,提出一种基于改进的局部保持投影算法的多模型建模方法。该方法通过有监督自适应权值的局部保持投影算法对输入数据空间进行特征提取,并结合最近邻分类器算法进行输入空间的划分,最后融合支持向量机实现多模型建模。仿真应用结果表明:将改进的局部保持投影算法应用在UCI数据库的Iris数据集的分类中,其分类精度高于基本的局部保持投影算法的分类精度;同时将改进的局部保持投影算法的多模型建模方法应用于双酚A生产的软测量多模型建模中,该方法能够有效的进行输入空间地划分,构建回归模型的数据更加合理,使得模型估计精度得到了提高,并具有更强的泛化能力。  相似文献   

7.
随着序列数据在实际中的广泛应用,序列数据质量评价成为学术、工业等众多领域的热门研究问题。目前主流的序列数据质量评价方法是基于概率后缀树模型进行数据质量评价,然而这种方法难以实现对大规模数据的处理。为解决此问题,提出了基于Spark的序列数据质量评价算法STALK(sequential data quality evaluation with Spark),并且采用了改进的剪枝策略来提高算法效率。具体地,在Spark平台下,利用大规模序列数据高效建立生成模型,并根据生成模型对查询序列的数据质量进行快速评价。最后通过真实序列数据集验证了STALK算法的有效性、执行效率和可扩展性。  相似文献   

8.
孙继红 《计算机仿真》2010,27(7):179-182
研究统计方法分析问题,针对在实际应用外特性模型的输入普遍为混合变量,既包括连续随机变量,也包括离散随机变量.目前已有混合多元回归学习模型大多只处理连续随机变量,且有着多重共线性的缺陷.针对上述问题,研究了基于贝叶斯网络的回归树学习模型.基于贝叶斯网络的回归树学习模型的研究方法建立在朴素贝叶斯网络模型基础上,采用分而治之的原则构造决策树,以朴素贝叶斯取代叶节点.在2个UCI机器学习数据集上的仿真实验结果表明模型性能良好.基于贝叶斯网络的回归树学习模型可以有效减小预测误差.  相似文献   

9.
为提高智能模型的识别精度,增强其泛化能力,需要对用于智能建模的数据集中的对象类别异常进行检测和修正。在进行数据集和决策树形式化描述的基础上,将基尼指数增益率作为确定连续条件属性最优二分原则,采用递归算法生成叶节点中对象为同一类别的二叉决策树。利用信息熵评价决策树剪除叶节点中对象的类别分布效果,实现数据集类别异常的类别修正。决策树的生成和剪枝本质上是完成基于基尼指数和信息熵的连续条件属性数据空间分割和合并类别修正。实验和实际应用验证了决策树生成和剪枝是数据集类别优化的有效方法。  相似文献   

10.
基于广义信息论的决策森林多重子模型集成方法   总被引:1,自引:0,他引:1  
为提高传统决策树学习方法的扩展性和自适应性,基于广义信息论提出决策森林多重子模型集成方法.采用从下至顶的学习策略,将离散化处理和决策树的逻辑表达有机结合在一起,整个学习过程不需要任何人为参与,能自动确定子树数目和子树结构.在UCI机器学习数据集上的实验结果和样例分析验证了本文方法的可行性和有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号