首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
基于关联规则挖掘的中文文本自动分类   总被引:7,自引:0,他引:7  
随着电子出版物和互联网文档的飞速增加,自动文档分类工作正变得日渐重要.提出一种基于关联规则的中文文本自动分类方法.该算法将文档视作事务.关键词视作项,利用改进的关联规则挖掘算法挖掘项和类剐间的相关关系.挖掘出的规则形成分类器,可用于类标号未知的文档的区分.实验证明,该算法能较快地获得可理解的规则并且具有较好的召回率和准确率.  相似文献   

2.
基于自适应加权的文本关联分类   总被引:1,自引:0,他引:1  
在文本关联分类研究中,训练样本特征词的分布情况对分类结果影响很大.即使是同一种关联分类算法,在不同的样本集上使用,分类效果也可能明显不同.为此,本文利用加权方法改善文本关联分类器的稳定性,设计实现了基于规则加权的关联分类算法(WARC)和基于样本加权的关联分类算法(SWARC).WARC算法通过规则自适应加权调整强弱不均的分类规则;SWARC算法则自适应地调整训练样本的权重,从根本上改善不同类别样本特征词分布不均的情况.实验结果表明,无论是WARC还是SWARC算法,经过权重调整后的文本分类质量明显提高,特别是SWARC算法分类质量的提高极为显著.  相似文献   

3.
基于最大关联规则的文本分类   总被引:1,自引:0,他引:1  
我们提出了一种新颖的、基于最大关联的文本分类方法—SAT-MOD 。在文本分类中,以往的方法在挖掘频繁项集和关联规则的时候,往往是将整个文本看作一个事务来处理的,然而文本的基本的语义单元实际上是句子。那些同时出现在一个句子里的一组单词比仅仅是同时出现在同一篇文档中的一组单词有更强的语义上的联系。基于以上的考虑,SAT-MOD 把一篇文档里的某些句子作为一个单独的事务。通过在标准的文本集上的大量实验,证明了SAT-MOD 的有效性。  相似文献   

4.
基于规则置信度调整的关联文本分类   总被引:1,自引:0,他引:1  
基于关联规则的文本分类方法ARC-BC是目前已知的分类效果最好的关联规则分类算法.本文提出了利用ARC-BC分类器的封闭测试的结果对分类器进行调整规则置信度的算法RCA(Rules Confidence Adjustment),参与正确分类行为次数多于参与错误分类行为次数(即"威信"较高)的规则应该拥有更高的置信度,反之,就赋予更低的置信度.实验结果表明,经过RCA算法调整的关联文本分类器的分类效果得到显著提高.  相似文献   

5.
KNN算法在数据挖掘的分支-文本分类中有重要的应用。在分析了传统KNN方法不足的基础上,提出了一种基于关联分析的KNN改进算法。该方法首先针对不同类别的训练文本提取每个类别的频繁特征集及其关联的文本,然后基于对各个类别文本的关联分析结果,为未知类别文本确定适当的近邻数k,并在已知类别的训练文本中快速选取k个近邻,进而根据近邻的类别确定未知文本的类别。相比于基于传统KNN的文本分类方法,改进方法能够较好地确定k值,并能降低时间复杂度。实验结果表明,文中提出的基于改进KNN的文本分类方法提高了文本分类的效率和准确率。  相似文献   

6.
传统的关联规则文本分类一般以规则的置信度作为分类准则,完全忽略了特征词的词频对分类的影响.这就导致了关联文本分类算法的性能较差,针对这个问题,在ARC-BC算法的基础上,提出了基于词频向量的关联规则文本分类算法TFARC(term frequency-based ARC),该算法引入了词频向量,重新定义了规则和文本的可信度作为分类器的分类准则,用迭代的方法求出每条规则的最佳调整因子.实验结果表明,词频的引入确实提高了关联规则文本分类的准确率.  相似文献   

7.
关联文本分类的规则修正策略   总被引:2,自引:0,他引:2  
通过分析基于关联规则的文本分类,发现在保持分类规则对正例样本正确分类的同时减少对反例样本的错误分类可以提高分类的精确度.基于否定选择算法的思想提出了分类规则修正策略,用反例样本集合对分类规则进行耐受,从分类规则错误判别的反例样本中再产生规则,与原来的规则组成新规则,称为增强关联规则.基于修正策略产生的增强关联规则可以大幅度地减少对反例样本的错误分类,从而提高分类的精确度.通过形式化证明和实验,分类规则修正策略的有效性得到验证.  相似文献   

8.
研究了现有的关联分类算法在文本分类中的应用,发现对于有结构的文本数据,关联分类算法未考虑文本的语义信息导致分类精度不够理想,为此提出了基于规则重构的关联文本分类方法.该方法利用词共现模型,在已挖掘的分类规则基础上,将具有高共现程度的词对组合在一起进行规则重构,形成了有结构的带有文本语义信息的分类规则,再利用它们对新文本进行分类.实验结果表明,该方法在分类精度上优于其它的关联文本分类方法(ARC).  相似文献   

9.
基于关联规则的Web文档分类   总被引:5,自引:2,他引:5  
在现有的Web文档分类器中,有的分类器产生比较精确的分类结果,有的分类器产生更易解释的分类模型,但还没有分类器可以将两个方面的优点结合起来.有鉴于此,论文提出一种基于关联规则的Web文档分类方法.该方法采用事务概念,主要考虑两方面的问题:①在文档训练集中发现最优的词条关联规则;②用这些规则构建一个Web文档分类器.试验表明该分类器性能良好,训练速度快,产生的规则易于被人理解,而且容易更新和调整.  相似文献   

10.
分析、比较了当前具有代表性的分类关联算法,总结了关联规则分类存在的问题,便于使用者根据需要选择合适的算法,也便于研究者对算法进行研究改进,提出性能更好的分类算法。  相似文献   

11.
关联规则挖掘与分类规则挖掘的比较研究   总被引:1,自引:0,他引:1  
关联规则挖掘与分类规则挖掘都是数据挖掘,领域中很重要的技术。本文首先简要介绍了关联规则挖掘和分类规则挖掘的基本知识,主要从挖掘目的、发现规则算法的方法、算法的设计思想等几个方面对它们进行了比较,最后介绍了它们之间的联系。  相似文献   

12.
关联规则挖掘算法在分类中的应用研究   总被引:1,自引:0,他引:1  
提出了一个基于关联规则挖掘算法的医疗数据分类方法。介绍了关联规则的理论基础、关联规则挖掘算法及其在医疗数据挖掘中的应用方法,并利用介绍的算法对乳腺癌数据进行挖掘。获得了分类的实验结果,该模型系统达到了较高的分类准确率,证明了数据挖掘在辅助医疗诊断中有着广泛的应用前景。  相似文献   

13.
基于模糊分类关联规则的分类系统   总被引:9,自引:0,他引:9  
为了构建高性能的分类系统,应用模糊集软化数量型属性的划分边界,提出了模糊分类关联规则的挖掘算法。由于模糊集能很好地贴近人类的思维方式,因此挖掘得到的模糊分类关联规则易于被人理解.接着提出了基于模糊分类关联规则的分类系统,并采用遗传优化算法训练分类系统.实例分析的结果表明,基于模糊分类关联规则的分类系统具有较好的精度和可解释性.  相似文献   

14.
论文先介绍数据挖掘中关联规则理论知识,包括Apriori经典算法、支持度、可信度等概念。以一个超市的销售模型系统为例,建立一个sales数据库系统,由关系数据库管理系统和数据仓库挖掘工具进行单维及多维关联规则挖掘。  相似文献   

15.
基于项目集加权的增量关联规则算法研究   总被引:2,自引:0,他引:2  
针对最小支持度,最小置信度不变的情况下,新增数据库db时的关联规则更新问题,进行了分析和研究。考虑到新增数据库的新颖性、以及生成规则的有趣性等问题,本文提出了基于项目集加权的增量更新算法,并分析了其可行性。  相似文献   

16.
加权关联规则的改进算法   总被引:9,自引:2,他引:7  
论文讨论了加权关联规则问题,针对布尔类型的加权关联规则问题提出一种改进算法。该算法首先利用普通的关联规则算法产生频繁集,然后在该频繁集的基础上产生加权频繁集。同时,给出了最优的最小支持度设定方法,保证了普通关联规则算法所产生的频繁集为加权频繁集的超集。该算法有较高的效率,并且能够有效利用已有的关联规则算法。  相似文献   

17.
首先介绍了关联规则的基本概念,然后详细地介绍了Apriori算法,同时也指出了Apriori算法的一些不足。针对这些不足提出了解决方法,描述了几种优化算法。最后对关联规则研究范围进行了拓展。  相似文献   

18.
针灸腧穴规律在针灸临床治疗中起着十分重要的作用,针对古今针灸临床治疗方案数据量大、关联性强的特点,运用关联分析中的Apriori算法,结合针灸学科特点和临床诊治规律,将经过筛选转换的数据在Weka平台中分析,充分利用其中的类和可视化功能,得出用穴规律、腧穴配伍规律等的分析结果。实验结果表明,基于WEKA的关联规则挖掘技术能有效的为针灸腧穴规律研究提供信息支持。  相似文献   

19.
关联规则挖掘是数据挖掘的一项重要技术,它主要是通过频繁项集挖掘得到关联规则。基于云计算的MapReduce模型的数据挖掘算法可以提高挖掘的效果及性能。  相似文献   

20.
王妍  王丽君  方芸 《微机发展》2012,(1):137-139,156
为了解决商品进货无关联的现状,找到商品间的关联规则,更好地进行商品的搭配进货,从而提高进货效率,文中引入了关联规则的思想,并利用规则进行了商品关联规则的挖掘。在分析了关联规则挖掘的算法后,将其应用到超市商品数据库中,利用关联规则挖掘出大量数据中项集即商品之间的相互关联,并抽取出有价值的商品关联规则,利用支持度和平衡度这两个度量概念,优化出强规则集,并用这一思想成功设计了PLM即产品全生命周期管理中的搭配进货系统。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号