首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
提出了一个基于决策树理论的数据挖掘模型,该模型是数据挖掘中对样本进行分类的一种有效方法,它通过采用分级的形式,可以使复杂的分类问题逐步得到解决。在应用模型进行决策分析时,用给定的训练集构造一棵性能良好的决策树,然后选取合适的决策原则得出结论。在本文的最后给出了模型应用于交通领域的一个例子,说明如何在实际中运用该数据挖掘模型。  相似文献   

2.
胡小生  张润晶  钟勇 《计算机科学》2013,40(11):271-275
类别不平衡数据分类是机器学习和数据挖掘研究的热点问题。传统分类算法有很大的偏向性,少数类分类效果不够理想。提出一种两层聚类的类别不平衡数据级联挖掘算法。算法首先进行基于聚类的欠采样,在多数类样本上进行聚类,之后提取聚类质心,获得与少数类样本数目相一致的聚类质心,再与所有少数类样例一起组成新的平衡训练集,为了避免少数类样本数量过少而使训练集过小导致分类精度下降的问题,使用SMOTE过采样结合聚类欠采样;然后在平衡的训练集上使用K均值聚类与C4.5决策树算法相级联的分类方法,通过K均值聚类将训练样例划分为K个簇,在每个聚类簇内使用C4.5算法构建决策树,通过K个聚簇上的决策树来改进优化分类决策边界。实验结果表明,该算法具有处理类别不平衡数据分类问题的优势。  相似文献   

3.
决策树算法采用递归方法构建,训练效率较低,过度分类的决策树可能产生过拟合现象.因此,文中提出模型决策树算法.首先在训练数据集上采用基尼指数递归生成一棵不完全决策树,然后使用一个简单分类模型对其中的非纯伪叶结点(非叶结点且结点包含的样本不属于同一类)进行分类,生成最终的决策树.相比原始的决策树算法,这样产生的模型决策树能在算法精度不损失或损失很小的情况下,提高决策树的训练效率.在标准数据集上的实验表明,文中提出的模型决策树在速度上明显优于决策树算法,具备一定的抗过拟合能力.  相似文献   

4.
本文针对交通数据挖掘领域的交通流预测问题进行研究和实现.主要对数据挖掘技术应用于交通流数据的特征选择和交通流预测模型的建立提出算法.在对采样数据进行清洗后,以分类与回归决策树作为基学习器,采用梯度提升决策树进行回归拟合,计算出交通数据的特征重要度.并以此重要度作为自适应特征选择的依据.其次,采用聚类算法对选取后的特征数据进行聚类分析,缩小样本大小的同时,同类数据更加相似.最后,以实时数据匹配相应聚类作为训练数据集,使用经过人工鱼群算法优化参数后的支持向量机进行交通流预测.本文结尾通过实验数据论证本文所提出的算法和模型.  相似文献   

5.
基于数据挖掘的工艺参数优化研究   总被引:3,自引:0,他引:3  
提出了基于数据挖掘的机械加工工艺参数寻优方法,根据已有的样本训练数据建立决策树分类器和神经网络模型,针对要求的加工目标,通过对决策树的分类规则进行提取,生成预测数据集,结合建立的神经网络模型,迅速准确的预测出对应的加工工艺参数,并通过磨削实验验证了此方法的可行性。  相似文献   

6.
为了克服偏标记学习中监督信息缺失的问题,根据偏标记样本的性质设计决策树生成过程中的样本分裂规则,改造决策树的建立算法.文中算法首先对样本进行bootstrap采样并建立多棵决策树,然后对各决策树结果进行投票得出最终预测结果.在人工数据集和真实数据集上的实验表明,文中算法具有较好的分类性能.  相似文献   

7.
针对随机森林分类效果受样本集类间不平衡、类内不规则的影响,提出一种聚类欠采样策略的随机森林优化方法。该方法对原始数据大类样本聚类,得到与小类样本个数相同的子类簇;从每个子类簇中随机有放回抽取一个样本与小类样本合并,形成平衡样本集;对平衡样本集进行有放回随机抽样,形成单棵决策树的训练样本集并完成建树;将两次未被抽中的样本作为袋外数据,用于模型测试;重复上述过程多次,形成随机森林。使用10组非平衡数据集进行实验验证,结果表明,该方法在这10组数据集上的分类能力及稳定性均优于传统随机森林。  相似文献   

8.
随机森林(RF)具有抗噪能力强,预测准确率高,能够处理高维数据等优点,因此在机器学习领域得到了广泛的应用。模型决策树(MDT)是一种加速的决策树算法,虽然能够提高决策树算法的训练效率,但是随着非纯伪叶结点规模的增大,模型决策树的精度也在下降。针对上述问题,提出了一种模型决策森林算法(MDF)以提高模型决策树的分类精度。MDF算法将MDT作为基分类器,利用随机森林的思想,生成多棵模型决策树。算法首先通过旋转矩阵得到不同的样本子集,然后在这些样本子集上训练出多棵不同的模型决策树,再将这些树通过投票的方式进行集成,最后根据得到的模型决策森林给出分类结果。在标准数据集上的实验结果表明,提出的模型决策森林在分类精度上明显优于模型决策树算法,并且MDF在树的数量较少时也能取到不错的精度,避免了因树的数量增加时间复杂度增高的问题。  相似文献   

9.
基于决策树的高光谱遥感影像分类方法研究   总被引:1,自引:0,他引:1  
为了验证将决策树算法用于高光谱遥感影像分类的可行性,提出了一种二叉决策树自动构建算法用于高光谱遥感影像分类.通过对高光谱遥感影像进行现场采样、对样本进行统计和训练,生成了一棵二叉决策树,从决策树中提取出分类规则,并对高光谱遥感影像进行分类.生成的决策树简单明了,分类规则易于理解,分类效率和精度都比较高,实现了高光谱遥感影像从数据降维、样本选择、样本训练、决策树生成、影像分类的“一体化”和“自动化”.  相似文献   

10.
基于遗传算法的多属性模糊决策树的优化   总被引:1,自引:0,他引:1       下载免费PDF全文
决策树是数据挖掘中的一种高效方法,但是当训练数据的属性很多时,构建的决策树的规模会随属性个数增加而指数级增长,进而会产生海量的规则。针对该问题,提出了一种基于遗传算法的优化方法。首先根据信息增益利用轮盘赌方法选取若干组属性,构建多棵决策树,然后利用遗传算法对多棵决策树进行组合,并最终形成规则集。最后给出了实验结果,证明了该方法的可行性和有效性。  相似文献   

11.
师彦文  王宏杰 《计算机科学》2017,44(Z11):98-101
针对不平衡数据集的有效分类问题,提出一种结合代价敏感学习和随机森林算法的分类器。首先提出了一种新型不纯度度量,该度量不仅考虑了决策树的总代价,还考虑了同一节点对于不同样本的代价差异;其次,执行随机森林算法,对数据集作K次抽样,构建K个基础分类器;然后,基于提出的不纯度度量,通过分类回归树(CART)算法来构建决策树,从而形成决策树森林;最后,随机森林通过投票机制做出数据分类决策。在UCI数据库上进行实验,与传统随机森林和现有的代价敏感随机森林分类器相比,该分类器在分类精度、AUC面积和Kappa系数这3种性能度量上都具有良好的表现。  相似文献   

12.
数据挖掘是一种重要的数据分析方法,决策树是数据挖掘中的一种主要技术,如何构造出最优决策树是许多研究者关心的问题。本文通过Rough集方法对决策表进行属性约简和属性值约简,去除决策表中与决策无关的冗余信息。在简化的决策表基础上构造近似最优决策树,本文给出了近似最优决策树的生成算法,并通过实例说明。  相似文献   

13.
数据挖掘是一种重要的数据分析方法,决策树是数据挖掘中的一种主要技术,如何构造出最优决策树是许多研究者关心的问题。本文通过Rough集方法对决策表进行属性约简和属性值约简,去除决策表中与决策无关的冗余信息。在简化的决策表基础上构造近似最优决策树,本文给出了近似最优决策树的生成算法,并通过实例说明。  相似文献   

14.
人乳头瘤病毒(HPV)是导致宫颈癌的一大要素。利用Weka这个数据挖掘平台,对中国肿瘤防治数据库山西子宫颈癌医学数据集进行C4.5决策树分类研究,从决策树中提取了一些比较有意义的规则,发现一些容易导致感染HPV病毒的因素。  相似文献   

15.
We explore in this paper a novel sampling algorithm, referred to as algorithm PAS (standing for proportion approximation sampling), to generate a high-quality online sample with the desired sample rate. The sampling quality refers to the consistency between the population proportion and the sample proportion of each categorical value in the database. Note that the state-of-the-art sampling algorithm to preserve the sampling quality has to examine the population proportion of each categorical value in a pilot sample a priori and is thus not applicable to incremental mining applications. To remedy this, algorithm PAS adaptively determines the inclusion probability of each incoming tuple in such a way that the sampling quality can be sequential/preserved while also guaranteeing the sample rate close to the user specified one. Importantly, PAS not only guarantees the proportion consistency of each categorical value but also excellently preserves the proportion consistency of multivariate statistics, which will be significantly beneficial to various data mining applications. For better execution efficiency, we further devise an algorithm, called algorithm EQAS (standing for efficient quality-aware sampling), which integrates PAS and random sampling to provide the flexibility of striking a compromise between the sampling quality and the sampling efficiency. As validated in experimental results on real and synthetic data, algorithm PAS can stably provide high-quality samples with corresponding computational overhead, whereas algorithm EQAS can flexibly generate samples with the desired balance between sampling quality and sampling efficiency  相似文献   

16.
一种多变量决策树的构造与研究   总被引:3,自引:0,他引:3       下载免费PDF全文
单变量决策树算法造成树的规模庞大、规则复杂、不易理解,而多变量决策树是一种有效用于分类的数据挖掘方法,构造的关键是根据属性之间的相关性选择合适的属性组合构成一个新的属性作为节点。结合粗糙集原理中的知识依赖性度量和信息系统中条件属性集的离散度概念,提出了一种多变量决策树的构造算法(RD)。在UCI上部分数据集的实验结果表明,提出的多变量决策树算法的分类效果与传统的ID3算法以及基于核方法的多变量决策树的分类效果相比,有一定的提高。  相似文献   

17.
一种集成数据挖掘的自动视频分类方法   总被引:1,自引:0,他引:1  
针对自动视频分类工作中分类预测精度低的问题,提出了一种集成数据挖掘技术的自动视频分类方法。首先进行视频分割,形成了一个视频属性数据库;然后分别使用决策树、分类关联规则等技术对视频属性数据库进行数据挖掘,提取出决策树分类规则集和分类关联规则集;最后利用一个规则集的合并裁减算法来合并这两个分类预测规则集,形成最终的具有更高精度的视频分类规则集。通过实验验证了决策树分类预测规则和分类关联规则具有分类预测的一致性;同时实验表明,使用合并后的规则集比单独使用一个规则集来预测视频具有更高的预测准确率。  相似文献   

18.
The decision tree method has grown fast in the past two decades and its performance in classification is promising. The tree-based ensemble algorithms have been used to improve the performance of an individual tree. In this study, we compared four basic ensemble methods, that is, bagging tree, random forest, AdaBoost tree and AdaBoost random tree in terms of the tree size, ensemble size, band selection (BS), random feature selection, classification accuracy and efficiency in ecological zone classification in Clark County, Nevada, through multi-temporal multi-source remote-sensing data. Furthermore, two BS schemes based on feature importance of the bagging tree and AdaBoost tree were also considered and compared. We conclude that random forest or AdaBoost random tree can achieve accuracies at least as high as bagging tree or AdaBoost tree with higher efficiency; and although bagging tree and random forest can be more efficient, AdaBoost tree and AdaBoost random tree can provide a significantly higher accuracy. All ensemble methods provided significantly higher accuracies than the single decision tree. Finally, our results showed that the classification accuracy could increase dramatically by combining multi-temporal and multi-source data set.  相似文献   

19.
刘晓平 《计算机仿真》2005,22(12):76-79
用于知识发现的大部分数据挖掘工具均采用规则发现和决策树分类技术来发现数据模式和规则。该文通过采用基于仿真属性的离散化方法,基于概率统计的未知属性与噪声数据处理方法以及基于误差的剪枝算法,实现了用于自动生成决策树的通用算法模板。利用该模板,决策树算法的设计者可以快速验证为解决特定决策问题而设计的新算法。构造决策树的基本机制是算法的设计者利用其自己定义的公式来初始化通用算法模板。然后利用该系统提供的交互式图形环境,针对不同的决策问题测试该算法,从而找出适合特定问题的算法。  相似文献   

20.
随着中国加入WTO,我国寿险市场的竞争日益白热化.我国寿险行业经过近二十年的发展,取得长足进步,积累了大量客户数据.本文的目的就是希望在这些公司所积累的寿险客户对产品的购买记录上,通过数据挖掘的方法,发现客户对险种类型选择的模式.在数据挖掘中,通过对客户的数据进行抽取、清洗和预处理,生成数据挖掘库,并使用SPSS Clementine数据挖掘工具,利用C5.0算法建立决策树模型,并对不同的模型进行了分析和对比,以发现客户在寿险产品选择上的一些模式.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号