首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
基于支持度与置信度阈值优化技术的关联分类算法   总被引:1,自引:0,他引:1  
张健  王蔚 《计算机应用》2007,27(12):3032-3035
基于关联规则的分类算法中,支持度和置信度阈值的设置会影响分类器的准确率。以往的关联分类算法都根据经验人为地设置支持度和置信度的阈值,很难保证分类器总能达到较好的分类效果。为了解决该问题,可以将优化求解策略引入到关联分类过程中。通过利用爬山法搜索技术来获得使分类准确率最高的支持度与置信度阈值,对Apriori_TFP_CMAR关联分类算法进行改进,避免了阈值设置不合理影响最终分类效果的问题,提高了关联分类算法的分类准确率。  相似文献   

2.
《计算机工程与科学》2017,(10):1966-1970
基于支持度-置信度的关联分类是一项重要的分类算法,这种关联分类算法先构建频繁项集,然后通过置信度的阈值来选取规则,容易产生质量不高的规则。针对这个问题,提出了一种改进关联分类算法:首先,选取大量的属性值对建立起条件小训练集;其次,每条规则主体通过选取条件小训练集中最好属性值对连接生成;最后,采用实例覆盖技术覆盖小训练集的每个实例,构建具有较高质量的分类器。在25个UCI数据集上的实验结果表明,所提出的改进关联分类算法的准确率得到了显著提高。  相似文献   

3.
传统关联分类算法使用单一最小项目支持度挖掘关联规则,导致稀有项关联规则无法被发现,从而影响分类的准确性和实用性。提出一种多支持度关联规则分类算法MS-CBAR(Multiple Supports-Classification Based on Association Rules),将多最小项目支持度模型应用于关联分类,以有效挖掘稀有项。该算法为数据库中的规则项提供了用户可定义的最小项目支持度。MS-CBAR算法使用项的最小项支持度阈值、类的最小类支持度值和规则项的最小支持度值决定分类规则是否频繁。生成分类规则集后,使用最高优先度规则覆盖法基于规则集建立分类器。实验表明,所提算法在包含稀有项目及稀有类的数据集中准确率高于传统关联分类算法及其相关算法,表现更稳定。  相似文献   

4.
黄再祥  周忠眉  何田中 《计算机科学》2014,41(2):111-113,122
许多研究表明关联分类具有较高的分类准确率,然而,大多数关联分类基于"支持度-置信度"框架,在不平衡数据集中,置信度和支持度都偏向产生多数类的规则,因此,少数类的实例容易被错误分类。针对上述问题,提出了一种基于相关规则的不平衡数据的关联分类算法。该算法挖掘频繁且互关联的项集,在以该项集为前件的分类规则中选取提升度最大的规则。规则按结合了提升度、置信度和补类支持度(CCS)的规则强度进行排序。实验表明,该算法取得了较高的平均分类准确率且在分类少数类的实例时具有更高的准确率。  相似文献   

5.
基于粗糙集的分类关联规则挖掘算法研究   总被引:1,自引:0,他引:1  
本文给出了一种将属性约简和分类关联规则挖掘相结合的新型分类挖掘系统的算法(CARMA)。它运用粗糙集理论把关系数据库按属性值分成若干等价类、约简冗余属性及依赖属性,然后对数据约简后的目标关系表求取分类支持度大于阈值的强类和特征置信度大于阈值的强特征,从而有效获取强类中的强特征的决策关联规则。实验结果表明,CARMA对于数据的分类是有效的,比其它算法具有更高的分类精度和效率。它能够有效地克服ID3系列算法的冗余性、复杂性和对大数据量的不适应性,对增量数据能够达到较好的分类效果和具有广泛的应用前景。本文关键讨论了具体的算法、系统框架和实例。  相似文献   

6.
关联分类是一项重要的分类技术,目前普遍采用基于支持度和置信度的关联分类模式。但是,用支持度度量项集的分类能力过于简单,且置信度不能度量项集与类的相关性,所以利用支持度和置信度容易产生质量不好的规则。提出改进的关联分类算法—ACSER。ACSER不仅考虑项集到本类的支持度,也考虑项集到补类的支持度。首先,提取频繁增比模式作为分类候选规则集;其次,利用置信度和增比率度量规则的强度,按照其强度进行排序和剪枝;最后,选择k条最优的规则进行预测。在16个UCI数据集上的实验结果表明,改进的分类算法ACSER与传统的分类算法相比有更高的分类准确率。  相似文献   

7.
基于信息增益的中文文本关联分类   总被引:1,自引:0,他引:1  
关联分类是一种通过挖掘训练集中的关联规则,并利用这些规则预测新数据类属性的分类技术。最近的研究表明,关联分类取得了比传统的分类方法如C4.5更高的准确率。现有的基于支持度-置信度架构的关联分类方法仅仅是选择频繁文字构建分类规则,忽略了文字的分类有效性。本文提出一种新的ACIG算法,结合信息增益与FoilGain在中文文本中选择规则的文字,以提高文字的分类有效性。实验结果表明,ACIG算法比其他关联分类算法(CPAR)有更高的准确率。  相似文献   

8.
关联分类具有较高的分类精度和较强的适应性,然而由于分类器是由一组高置信度的规则构成,有时会存在过度拟合问题。提出了基于规则兴趣度的关联分类(ACIR)。它扩展了TD-FP-growth算法,使之有效地挖掘训练集,产生满足最小支持度和最小置信度的有趣的规则。通过剪枝选择一个小规则集构造分类器。在规则剪枝过程中,采用规则兴趣度来评价规则的质量,综合考虑规则的预测精度和规则中项的兴趣度。实验结果表明该方法在分类精度上优于See5、CBA和CMAR,并且具有较好的可理解性和扩展性。  相似文献   

9.
关联规则挖掘是数据挖掘中的重要方法。本文结合多维关联规则基于支持度和置信度的挖掘算法,提出基于权值的关联规则挖掘改进算法,比较几种定义权值的方法的差别,并通过示例论证了算法的有效性。  相似文献   

10.
针对以频繁项集产生?规则产生为核心的两阶段关联规则挖掘,存在需要人工以先验知识指定最小支持度和最小置信度阈值的缺陷。本文提出以支持数和置信度为依据,采用曲线拟合技术,根据可决系数自动确定曲线的次数及对应多项式的算法AARM_BR(Adaptation Association Rule Mining Based on Determination Coefficient R2),从而确定支持度和置信度阈值。在标准数据集Trolley和Groceries上进行关联规则挖掘实验,结果表明本算法更具有数据依赖性,在用户不具备先验知识的情况下,无须人为指定多项式阶次、支持度和置信度阈值的优点。  相似文献   

11.
分类是数据挖掘的重要任务之一.训练分类器的训练集可能是偏斜数据.传统分类算法处理偏斜训练集,通常会使少数类别样例的分类精度很低.已有的偏斜训练集平衡算法都是针对只有两种目标类的情况.为平衡拥有多种目标类的偏斜训练集,基于同类样例差异较小的思想给出SSGP算法,在同类样例附近增加少数类别样例,且使多种少数类别样例同速增加.并证明SSGP算法不会向数据集中添加噪声样例.为提高效率,用样例取模取代大量相异度计算.实验表明,只需执行一遍SSGP算法就能同时提高多种少数类别样例的分类精度.  相似文献   

12.
遥感图像分类是遥感领域的研究热点之一.提出了一种基于自适应区间划分的模糊关联遥感图像分类方法(fuzzy associative remote sensing classification,FARSC).算法根据遥感图像分类的特点,利用模糊C均值聚类算法自适应地建立连续型属性模糊区间,使用新的剪枝策略对项集进行筛选从而避免生成无用规则,采用一种新的规则重要性度量方法对多模糊分类规则进行融合,从而有效地提高分类效率和精确度.在UCI数据和遥感图像上所作实验结果表明,算法具有较高的分类精度以及对样本数量变化的不敏感性,对于解决遥感图像分类问题,FARSC算法具有较高的实用性,是一种有效的遥感图像分类方法.  相似文献   

13.
Each type of classifier has its own advantages as well as certain shortcomings. In this paper, we take the advantages of the associative classifier and the Naïve Bayes Classifier to make up the shortcomings of each other, thus improving the accuracy of text classification. We will classify the training cases with the Naïve Bayes Classifier and set different confidence threshold values for different class association rules (CARs) to different classes by the obtained classification accuracy rate of the Naïve Bayes Classifier to the classes. Since the accuracy rates of all selected CARs of the class are higher than that obtained by the Naïve Bayes Classifier, we could further optimize the classification result through these selected CARs. Moreover, for those unclassified cases, we will classify them with the Naïve Bayes Classifier. The experimental results show that combining the advantages of these two different classifiers better classification result can be obtained than with a single classifier.  相似文献   

14.
针对网络流量分类过程中,传统模型在小类别上的分类性能较差和难以实现频繁、及时更新的问题,提出一种基于集成学习的网络流量分类模型(ELTCM)。首先,根据类别分布信息定义了偏向于小类别的特征度量,利用加权对称不确定性和近似马尔可夫毯(AMB)对网络流量特征进行降维,减小类不平衡问题带来的影响;然后,引入早期概念漂移检测增强模型应对流量特征随网络变化而变化的能力,并通过增量学习的方式提高模型更新训练的灵活性。利用真实流量数据集进行实验,仿真结果表明,与基于C4.5决策树的分类模型(DTITC)和基于错误率的概念漂移检测分类模型(ERCDD)相比,ELTCM的平均整体精确率分别提高了1.13%和0.26%,且各小类别的分类性能皆优于对比模型。ELTCM有较好的泛化能力,能在不牺牲整体分类精度的情况下有效提高小类别的分类性能。  相似文献   

15.
针对SMOTE(Synthetic Minority Over-sampling Technique)等传统过采样算法存在的忽略类内不平衡、扩展少数类的分类区域以及合成的新样本高度相似等问题,基于综合考虑类内不平衡和合成样本多样性的思想,提出了一种整合DBSCAN和改进SMOTE的过采样算法DB-MCSMOTE(DBSCAN and Midpoint Centroid Synthetic Minority Over-sampling Technique)。该算法对少数类样本进行DBSCAN聚类,根据提出的簇密度分布函数,计算各个簇的簇密度和采样权重,在各个簇中利用改进的SMOTE算法(MCSMOTE)在相距较远的少数类样本点之间的连线上进行过采样,提高合成样本的多样性,得到新的类间和类内综合平衡数据集。通过对一个二维合成数据集和九个UCI数据集的实验表明,DB-MCSMOTE可以有效提高分类器对少数类样本和整体数据集的分类性能。  相似文献   

16.
针对KNN算法在中文文本分类时的两个不足:训练样本分布不均,分类时计算开销大的问题,在已有改进算法的基础上进行了更深入的研究,提出多级分类KNN算法。算法首先引入基于密度的思想对训练样本进行调整,通过样本裁减技术使样本分布更趋于理想的均匀状态,同时计算各类别的类中心向量。在保证类中心向量准确性的前提条件下,使分类阶段的复杂计算提前到分类器的训练过程中。最后一级选用合适的m值(预选类别个数),根据最近邻思想对待分类文本进行所属类别判定。实验结果表明,该算法在不损失分类精度的情况下,不仅降低了计算复杂度,而且显著提高了分类速度。  相似文献   

17.
针对传统单个分类器在不平衡数据上分类效果有限的问题,基于对抗生成网络(GAN)和集成学习方法,提出一种新的针对二类不平衡数据集的分类方法——对抗生成网络-自适应增强-决策树(GAN-AdaBoost-DT)算法。首先,利用GAN训练得到生成模型,生成模型生成少数类样本,降低数据的不平衡性;其次,将生成的少数类样本代入自适应增强(AdaBoost)模型框架,更改权重,改进AdaBoost模型,提升以决策树(DT)为基分类器的AdaBoost模型的分类性能。使用受测者工作特征曲线下面积(AUC)作为分类评价指标,在信用卡诈骗数据集上的实验分析表明,该算法与合成少数类样本集成学习相比,准确率提高了4.5%,受测者工作特征曲线下面积提高了6.5%;对比改进的合成少数类样本集成学习,准确率提高了4.9%,AUC值提高了5.9%;对比随机欠采样集成学习,准确率提高了4.5%,受测者工作特征曲线下面积提高了5.4%。在UCI和KEEL的其他数据集上的实验结果表明,该算法在不平衡二分类问题上能提高总体的准确率,优化分类器性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号