共查询到20条相似文献,搜索用时 78 毫秒
1.
2.
分类是数据挖掘中的重要任务之一,稀有类分类问题是分类中的一个重要分支,可以描述为从一个分布极不平衡的数据集中标识出那些具有显著意义却很少发生的实例,在现实生活中的很多领域都有广泛的应用.详细地介绍了稀有类分类的问题,探讨了稀有类分类的一些特征、影响稀有类分类的一些因素和对稀有类分类进行评估的标准,介绍了当前分类稀有类的主要方法:基于数据集的方法和基于算法的方法.介绍了当前几种流行的稀有类分类算法. 相似文献
3.
提出了一种新的稀有类分类方法,称作VeEPRC.该方法使用一种特殊的EP(基本显露模式,eEP)构造基于eEP的分类器,并对它们"装袋",建立有效的组合分类器VeEPRC.在UCI机器学习数据库的基准数据集上的实验表明,VeEPRC不仅对稀有类具有较高的召回率和精度,而且具有较高的分类准确率. 相似文献
4.
分类稀有类在现实生活中的很多领域都有广泛的应用。文中给出一种分类框架,将两阶段思想与基于eEP的分类方法结合起来对稀有类分类。在UCI机器学习库的几个稀有类数据集上的实验表明:文中的算法不仅能够取得很好的分类准确率,而且在分类稀有类时可以达到较高的召回率和精确率。可以将本算法应用于现实生活的领域中进行稀有数据的分类。 相似文献
5.
分类稀有类在现实生活中的很多领域都有广泛的应用.文中给出一种分类框架,将两阶段思想与基于eEP的分类方法结合起来对稀有类分类.在UCI机器学习库的几个稀有类数据集上的实验表明:文中的算法不仅能够取得很好的分类准确率,而且在分类稀有类时可以达到较高的召回率和精确率.可以将本算法应用于现实生活的领域中进行稀有数据的分类. 相似文献
6.
样本大小对稀有类分类的影响 总被引:1,自引:0,他引:1
分类稀有类在现实生活中的很多领域都有广泛的应用,但普通的分类算法在分类稀有类时往往失效.探讨了影响稀有类分类的各个因素,针对影响稀有类中的一个因素,样本大小对稀有类的影响进行了研究.对于UCI学习库中的三个数据集,在weka平台上使用Roration Forest进行实验,对于相同的类比率,使用unsupervised resample数据预处理方法使样本由小变大.结果表明在特定的类比率下,使样本变大,由数据的不平衡分布造成的分类错误下降,普通的分类算法在分类稀有类时往往也可以取得很好的分类结果. 相似文献
7.
稀有类识别问题在现实生活的很多方面都有广泛应用.由于数据的高度倾斜,很多传统分类算法在稀有类上效果不佳.使用一种新的集成方法,称为EDKC(ensemble of different kind of classifiers)用来分类稀有类. EDKC集成不同的分类器形成组合分类器,并且通过加权投票表决对未知样本进行分类.在UCI机器学习数据库的多个稀有类数据集上的实验结果表明,EDKC对稀有类分类不仅具有较高的F-度量值,能达到目标类召回率和精度的平衡,而且能够取得很高的分类准确率. 相似文献
8.
《模式识别与人工智能》2014,(6)
稀有类挖掘是数据挖掘的一个重要研究领域,具有广泛的应用背景.文中针对传统稀有类识别算法存在的缺陷,提出一种基于密度差异与簇间分离性判据相结合的稀有类识别算法(RDACS).该算法以特征权重相似度作为稀有类簇与周围数据样本间分离性的判据,并辅以积极学习的方法实现稀有类识别.在UCI公共数据集和KDD99数据集上的实验表明,与现有的同类算法相比,RDACS在询问次数指标上有较明显优势,能提高效率并减少人为误差,是现有稀有类识别方法的一种补充算法. 相似文献
9.
10.
随着数据挖掘技术的日趋成熟,其在生活中的作用也越来越重要。本文首先介绍了数据挖掘,聚类分析和分类分析的相关知识,然后将层次聚类应用到分类规则挖掘中。 相似文献
11.
SUN Juan 《数字社区&智能家居》2008,(35)
数据挖掘技术是一个年轻且充满希望的研究领域,商业利益的强大驱动力将会不停地促进它的发展。随着数据库应用的不断深化,数据库的规模急剧膨胀,数据挖掘已成为当今研究的热点,每年都有新的数据挖掘方法和模型问世,特别是其中的分类问题,引起了越来越多的关注。 相似文献
12.
组织协同进化分类算法 总被引:17,自引:3,他引:17
提出了一种有效的用于数据挖掘分类任务的方法——组织协同进化分类算法(Organizational CoEvolu-tionary algorithm for Classification,OCEC),与现有遗传分类方法的运行机制不同,它的进化操作直接作用于数据而不是规则,进化结束后再从各组织中提取规则,这样有利于避免在进化过程中产生无意义的规则。提出了三种组织进化算子——增减算子、交换算子与合并算子和一种组织选择机制,给出了属性重要度的进化方式并基于此定义了组织适应度,作者将算法用于UCI数据集,并与现有的基于遗传和非遗传的分类方法进行了比较。实验结果表明该文方法获得了更高的预测准确率,产生了更小的规则集;对同一数据集进行k—次交叉验证,其预测准确率的波动较小,因此本文算法具有更加稳定的性能。 相似文献
13.
分类问题的一种可伸缩特征选择算法 总被引:4,自引:0,他引:4
特征选择是数据挖掘分类中的一个重要问题.该文推导出一种新的衡量特征与类别相关度的测度SCD即描述特征取值序列类分布的CV系数,利用该测度给出一种线性的可伸缩特征选择算法StaFSOS,并证明了在类别数为2时,SCD测度满足分支界限法的单调性;给出了StaFSOS的一个完备形式——BBStaFS.在12个标准数据集中,StaFSOS算法得出的结果和目标集几乎一致,而StaFSOS的效率高于其它算法;而在另1个中,BBStaFS算法得出了准确结果.在用1000个样本20个特征的真实数据进行的测试中,StaFSOS运行时间是目前较快的GRSR的1/2,得出的特征集准确有效. 相似文献
14.
15.
一种新的基于遗传算法的数据分类方法 总被引:5,自引:0,他引:5
当前分类算法还存在诸如伸缩性不强、可调性差、缺乏全局优化能力等问题.通过构造完全分类规则集,设计了一种有效的遗传编码方法,使得遗传算法的各种优良特性在数据分类中得到充分的运用,从而提出了一种新的数据分类算法,新算法有效提高了数据分类的准确性,较好克服了当前存在的缺点.最后,给出了实验结果,证实了算法的有效性. 相似文献
16.
17.
急切分类与懒散分类的研究 总被引:1,自引:0,他引:1
本文主要以决策树归纳算法和 k-最近邻分类算法为例 ,对数据挖掘中的急切分类算法和懒散分类算法进行了比较 ,并介绍了一种具有这两类分类算法优点的新的分类算法及该算法的实现方法 相似文献
18.
数据库、数据仓库以及其他存储信息库中潜藏着很多与商业、科学研究等活动的决策有关的数据和知识。对于数据挖掘中的数据分析,通常有两种常见的方法,即分类和预测,首先对数据库中的数据进行分类归纳,然后根据分类规则可以得到比较有价值的数据,然后我们可以根据这个数据来预测得到一些包含未来趋势的信息。在常见的分类算法中,决策树算法是一个有着很好扩展性的算法,可以应用到大型数据库中,可以对多种数据类型进行处理,分类模式容易转化为分类规则,结果也十分的浅显易懂易于理解。该文主要先介绍了几种常用的分类算法,然后具体介绍决策树算法的过程以及在分类算法实际应用中的优缺点。 相似文献
19.
WANG Jun-yan 《数字社区&智能家居》2008,(15)
分类是数据挖掘的重要任务之一,分类在实际应用中有广泛的应用,如医疗事业、信用等级等。近年来,分类方法得到了发展,本文对这些方法进行了归纳分析,总结了今后分类方法发展的方向。 相似文献
20.
基于规则分类算法提取的规则集通常存在3个问题:首先,提取的分类规则集中短规则过少,致使高质量的规则不多;其次,规则集中规则数量少,训练数据中几乎所有实例仅被规则覆盖一次;第三,虽然提取大量的规则,但是训练数据中存在一些小类样本的实例不能被任何一条规则覆盖。本文提出一种改进的基于规则的实例多覆盖分类算法(Rule-based classification with instances covered by multiple rules, RCIM),其特点是:(1)为了提高规则的质量,在选择生成规则的第1项时不仅考虑属性值的好坏,而且还考虑了属性值补的好坏;(2)一次产生尽量多,高质量的规则,而且当训练数据的实例至少被两条规则覆盖后才将其删除;(3)当遇上难以判断的测试数据时,对测试数据的各个属性值进行二次学习提取规则。算法RCIM不仅可以有效地提取大量的规则,而且较大程度地提高了规则的质量。通
过在大量数据上实验结果表明,RCIM比许多其他算法取得了更高的分类准确率。 相似文献