首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
结合类频率的关联中文文本分类   总被引:6,自引:2,他引:6  
该文提出一种词类频率和关联中文文本分类相结合的算法ARCTC。此算法将文档视作事务,关键词视作项,并针对文本事务的特性,提出利用词的类频率筛选与分类相关性不大的词汇,然后将改进的关联规则挖掘算法用于挖掘项和类别间的相关关系。挖掘出的规则用于形成类别特征词的集合,可用来和类标号未知文档的词的集合求交集,交集元素个数最多者即为所分类别。实验证明,该算法在提高训练时间和测试时间的同时具有较好的召回率、准确率和F-Measure。  相似文献   

2.
基于模糊分类关联规则的分类系统   总被引:9,自引:0,他引:9  
为了构建高性能的分类系统,应用模糊集软化数量型属性的划分边界,提出了模糊分类关联规则的挖掘算法。由于模糊集能很好地贴近人类的思维方式,因此挖掘得到的模糊分类关联规则易于被人理解.接着提出了基于模糊分类关联规则的分类系统,并采用遗传优化算法训练分类系统.实例分析的结果表明,基于模糊分类关联规则的分类系统具有较好的精度和可解释性.  相似文献   

3.
一个最优分类关联规则算法   总被引:1,自引:0,他引:1  
分类和关联规则发现是数据挖掘中的两个重要领域。使用关联规则算法挖掘分类规则被叫做分类关联规则算法,是一个有较好前景的方法。本文提出了一个最优分类关联规则算法——OCARA。该算法使用最优关联规则挖掘算法挖掘分类规则,并对最优规则集排序,从而获得一个分类精度较高的分类器。将OCARA与传统分类算法C4.5和一般分类关联规则算法CBA、RMR在8个UCI数据集上进行实验比较,结果显示OCARA具有更好的性能,证明OCARA是一个有效的分类关联规则挖掘算法。  相似文献   

4.
传统关联分类算法使用单一最小项目支持度挖掘关联规则,导致稀有项关联规则无法被发现,从而影响分类的准确性和实用性。提出一种多支持度关联规则分类算法MS-CBAR(Multiple Supports-Classification Based on Association Rules),将多最小项目支持度模型应用于关联分类,以有效挖掘稀有项。该算法为数据库中的规则项提供了用户可定义的最小项目支持度。MS-CBAR算法使用项的最小项支持度阈值、类的最小类支持度值和规则项的最小支持度值决定分类规则是否频繁。生成分类规则集后,使用最高优先度规则覆盖法基于规则集建立分类器。实验表明,所提算法在包含稀有项目及稀有类的数据集中准确率高于传统关联分类算法及其相关算法,表现更稳定。  相似文献   

5.
关联规则挖掘算法在分类中的应用研究   总被引:1,自引:0,他引:1  
提出了一个基于关联规则挖掘算法的医疗数据分类方法。介绍了关联规则的理论基础、关联规则挖掘算法及其在医疗数据挖掘中的应用方法,并利用介绍的算法对乳腺癌数据进行挖掘。获得了分类的实验结果,该模型系统达到了较高的分类准确率,证明了数据挖掘在辅助医疗诊断中有着广泛的应用前景。  相似文献   

6.
黄再祥  周忠眉  何田中 《计算机科学》2014,41(2):111-113,122
许多研究表明关联分类具有较高的分类准确率,然而,大多数关联分类基于"支持度-置信度"框架,在不平衡数据集中,置信度和支持度都偏向产生多数类的规则,因此,少数类的实例容易被错误分类。针对上述问题,提出了一种基于相关规则的不平衡数据的关联分类算法。该算法挖掘频繁且互关联的项集,在以该项集为前件的分类规则中选取提升度最大的规则。规则按结合了提升度、置信度和补类支持度(CCS)的规则强度进行排序。实验表明,该算法取得了较高的平均分类准确率且在分类少数类的实例时具有更高的准确率。  相似文献   

7.
在信息化评估过程中,传统关联分类算法无法优先发现短规则,且分类精度对规则次序的依赖较强。为此,提出基于子集支持度和多规则分类的关联分类算法,将训练集按待分类属性归类,利用子集支持度挖掘关联规则,通过计算类平均支持度对测试集进行分类。实验结果表明,该算法发现规则的能力和分类精度均优于传统方法。  相似文献   

8.
关联规则挖掘与分类规则挖掘的比较研究   总被引:1,自引:0,他引:1  
关联规则挖掘与分类规则挖掘都是数据挖掘,领域中很重要的技术。本文首先简要介绍了关联规则挖掘和分类规则挖掘的基本知识,主要从挖掘目的、发现规则算法的方法、算法的设计思想等几个方面对它们进行了比较,最后介绍了它们之间的联系。  相似文献   

9.
关联分类及较多的改进算法很难同时既具有较高的整体准确率又有较好的小类分类性能。针对此问题,提出了一种基于类支持度阈值独立挖掘的关联分类改进算法—ACCS。ACCS算法的主要特点是:(1)根据训练集中各类数量大小给出每个类类支持度阈值的设定方法,并基于各类的类支持度阈值独立挖掘该类的关联分类规则,尽量使小类生成更多高置信度的规则;(2)采用类支持度对置信度相同的规则排序,提高小类规则的优先级;(3)用综合考虑置信度和提升度的新的规则度量预测未知实例。在多个数据集上的实验结果表明,相比多种关联分类改进算法,ACCS算法有更高的整体分类准确率,且在不平衡数据上也能取得较好的小类分类性能。  相似文献   

10.
一种高效的多层和概化关联规则挖掘方法   总被引:4,自引:1,他引:3  
毛宇星  陈彤兵  施伯乐 《软件学报》2011,22(12):2965-2980
通过对分类数据的深入研究,提出了一种高效的多层关联规则挖掘方法:首先,根据分类数据所在的领域知识构建基于领域知识的项相关性模型DICM(domain knowledge-based item correlation model),并通过该模型对分类数据的项进行层次聚类;然后,基于项的聚类结果对事务数据库进行约简划分;最后,将约简划分后的事务数据库映射至一种压缩的AFOPT树形结构,并通过遍历AFOPT树替代原事务数据库来挖掘频繁项集.由于缩小了事务数据库规模,并采用了压缩的AFOPT结构,所提出的方法有效地节省了算法的I/O时间,极大地提升了多层关联规则的挖掘效率.基于该方法,给出了一种自顶向下的多层关联规则挖掘算法TD-CBP-MLARM和一种自底向上的多层关联规则挖掘算法BU-CBP-MLARM.此外,还将该挖掘方法成功扩展至概化关联规则挖掘领域,提出了一种高效的概化关联规则挖掘算法CBP-GARM.通过大量人工随机生成数据的实验证明,所提出的多层和概化关联规则挖掘算法不仅可以确保频繁项集挖掘结果的正确性和完整性,还比现有同类最新算法具有更好的挖掘效率和扩展性.  相似文献   

11.
基于粗糙集的多维关联规则挖掘方法   总被引:1,自引:0,他引:1  
海量的数据使得关联规则挖掘非常耗时,而并非所有的规则都是用户感兴趣的,应用传统的挖掘方法会挖掘出许多无关信息。此外,目前大部分算法是针对单维规则的。因此,定义了一种挖掘语言使得用户可以指定感兴趣的项以及关联规则的参数(如支持度,置信度等),并提出一种基于粗糙集理论的多维关联规则挖掘方法,动态生成频繁集和多维关联规则,减少频繁项集的生成搜索空间。实例分析验证该算法的可行性与有效性。  相似文献   

12.
关联规则挖掘的应用日益广泛,但已经提出的大多关联规则挖掘算法都是把数据仓库中各个项目按平等一致的方式加以处理的.然而,在现实世界中,不同的项目往往有着不同的重要性.现有的有关加权关联规则的研究中,大多采用的加权方法不太好,或挖掘算法效率不够高.为此,提出了一种新的挖掘加权关联规则的算法,该算法采用矩阵和位串技术,只需要对数据库扫描一遍,可快速挖掘出所有的加权频繁项集,并且存放辅助信息所需要的空间也较少.研究表明该算法比已有的算法更高效.  相似文献   

13.
基于关联规则与聚类算法的查询扩展算法   总被引:2,自引:0,他引:2       下载免费PDF全文
针对信息检索中查询关键词与文档用词不匹配的问题,提出一种基于关联规则与聚类算法的查询扩展算法。该算法在第1阶段对初始查询结果的前N篇文档进行关联规则挖掘,提取含有初始查询项的关联规则构建规则库,并从中选取与查询用词关联度最大的置个词作为扩展词,与初始查询组成新查询后再次查询,在第2阶段将新查询结果进行聚类分析并计算结果中每篇文档的最终相关度,按最终相关度大小重新排序。实验结果表明,该算法比单独使用关联规则算法或是单独使用聚类算法均有更优的检索性能。  相似文献   

14.
王明  宋顺林 《计算机应用》2010,30(9):2332-2334
发现频繁项集是关联规则挖掘的主要途径,也是关联规则挖掘算法研究的重点。关联规则挖掘的经典Apriori算法及其改进算法大致可以归为基于SQL和基于内存两类。为了提高挖掘效率,在仔细分析了基于内存算法存在效率瓶颈的基础上,提出了一种发现频繁项集的改进算法。该算法使用了一种快速产生和验证候选项集的方法,提高了生成项目集的速度。实验结果显示该算法能有效提高挖掘效率。  相似文献   

15.
一个基于关联规则的多层文档聚类算法   总被引:3,自引:0,他引:3  
提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高;使用新的文档特征抽取方法还解决了由于文档关键字过多而导致文档特征向量的维数过高的问题。  相似文献   

16.
完全加权数据模型的特点是其项目权值分布在各个事务记录中,随着事务记录的不同而变化。现有的加权负关联规则挖掘算法不能适用于完全加权数据模型。该文提出一种新颖的基于概率比和兴趣度的完全加权正负关联规则的挖掘算法,探讨了算法在教育信息化数据中的应用。算法以概率比代替传统的置信度,采用支持度-概率比-兴趣度架构衡量完全加权正负关联规则,获得很好的挖掘效果。以真实的教育数据和文本数据为实验测试集,与现有正负关联规则挖掘算法比较,该文提出的算法更有效、更合理,具有较高的理论价值和应用前景。  相似文献   

17.
一种新的加权关联规则模型   总被引:5,自引:3,他引:5  
关联规则挖掘可以发现大量数据项集之间隐含的关系,在许多领域得到了广泛应用。目前很多关联规则挖掘算法已经被提出,这些算法一般都认为每个数据项的重要性相同。然而在现实中各个项目的重要性往往不同,从决策者角度出发,他们往往会优先考虑利润较高的项目,而忽略利润较低的项目。论文分析了现有加权关联规则文献中存在的问题,提出了一种新的加权关联规则模型,给出了有效挖掘加权频繁项集的MWFI算法。  相似文献   

18.
在多次挖掘结果上进行增量更新可以显著地降低对原始交易数据库的访问,但一般都认为这是一种以空间换时间的方法。文章指出,只需要增加极少量的存储空间就可以存储同一交易数据库多个最小支持度下的所有频繁项目集,并给出相应的表示模型。在此基础上系统地研究了在已有的多次挖掘结果上的增量更新问题。理论分析和实验结果都表明,该文的方法充分利用已有的多次挖掘结果,降低了算法的复杂度。  相似文献   

19.
许多现实数据库都存在时态语义问题,因此在挖掘关联规则时附加上时态约束会使规则更具有实际意义。但目前提出的大多数时态关联规则挖掘算法,一般都认为每个数据项的重要性相同,而从决策者角度出发,往往会优先考虑利润较高的项目。提出了一种加权时态关联规则挖掘算法,以项目的生命周期作为时间特征,允许用户设定不同的项目权重。实验结果证明,该算法不仅能有效地发现加权时态关联规则,而且挖掘出的规则更有价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号