首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
基于自适应加权的文本关联分类   总被引:1,自引:0,他引:1  
在文本关联分类研究中,训练样本特征词的分布情况对分类结果影响很大.即使是同一种关联分类算法,在不同的样本集上使用,分类效果也可能明显不同.为此,本文利用加权方法改善文本关联分类器的稳定性,设计实现了基于规则加权的关联分类算法(WARC)和基于样本加权的关联分类算法(SWARC).WARC算法通过规则自适应加权调整强弱不均的分类规则;SWARC算法则自适应地调整训练样本的权重,从根本上改善不同类别样本特征词分布不均的情况.实验结果表明,无论是WARC还是SWARC算法,经过权重调整后的文本分类质量明显提高,特别是SWARC算法分类质量的提高极为显著.  相似文献   

2.
传统的关联规则文本分类一般以规则的置信度作为分类准则,完全忽略了特征词的词频对分类的影响.这就导致了关联文本分类算法的性能较差,针对这个问题,在ARC-BC算法的基础上,提出了基于词频向量的关联规则文本分类算法TFARC(term frequency-based ARC),该算法引入了词频向量,重新定义了规则和文本的可信度作为分类器的分类准则,用迭代的方法求出每条规则的最佳调整因子.实验结果表明,词频的引入确实提高了关联规则文本分类的准确率.  相似文献   

3.
基于规则置信度调整的关联文本分类   总被引:1,自引:0,他引:1  
基于关联规则的文本分类方法ARC-BC是目前已知的分类效果最好的关联规则分类算法.本文提出了利用ARC-BC分类器的封闭测试的结果对分类器进行调整规则置信度的算法RCA(Rules Confidence Adjustment),参与正确分类行为次数多于参与错误分类行为次数(即"威信"较高)的规则应该拥有更高的置信度,反之,就赋予更低的置信度.实验结果表明,经过RCA算法调整的关联文本分类器的分类效果得到显著提高.  相似文献   

4.
基于关联规则的文本聚类算法的研究*   总被引:1,自引:0,他引:1  
K-均值聚类算法是目前一种较好的文本分类算法,算法中的相似度计算通常基于词频统计,小文档或简单句子由于词频过小,使用该算法聚类效果较差。为此,提出了一种基于词语关联度的相似度计算算法,对简单文档集执行关联规则算法,得出基于关键词的关联规则,并根据这些规则求得词语关联度矩阵,然后由权重对文本进行文本特征向量表示,最后借助于关联度矩阵和文本特征向量,并按一定算法计算出句子相似度。实验证明该算法可得到较好的聚类结果,且其不仅利用词频统计的方法而且考虑了词语间的关系。  相似文献   

5.
研究了现有的关联分类算法在文本分类中的应用,发现对于有结构的文本数据,关联分类算法未考虑文本的语义信息导致分类精度不够理想,为此提出了基于规则重构的关联文本分类方法.该方法利用词共现模型,在已挖掘的分类规则基础上,将具有高共现程度的词对组合在一起进行规则重构,形成了有结构的带有文本语义信息的分类规则,再利用它们对新文本进行分类.实验结果表明,该方法在分类精度上优于其它的关联文本分类方法(ARC).  相似文献   

6.
基于类别分布特征的快速文本分类方法   总被引:2,自引:1,他引:1  
中心和边界是类别分布的重要特征.利用训练样本类别分布特征,提出了一种基于类别分布特征的快速文本分类算法.依据类别分布特征调整文本与类别的相似度,克服了数据集类别间样本分布不均衡和类别中样本密度不均的缺点,提高分类的性能.实验结果表明,该算法提高了文本分类的效果,显示出了较好的鲁棒性,并显著提高了文本分类效率.  相似文献   

7.
《计算机工程》2017,(3):193-199
针对K最近邻(KNN)算法在文本分类决策规则上由于样本重要性相同而导致分类效果不佳的问题,提出一种基于文本加权的KNN文本分类算法,并将其应用于垃圾短信的分类问题。在提取出特征词之后,考虑到特征词在文本中出现的频率对文本重要性的影响,引入第1个加权公式,同时针对垃圾短信数据集,采用关联规则算法挖掘出在垃圾短信中频繁出现的共现词组,并以此引入第2个加权公式,最后将引入的2种文本权重计算公式对每个短信文本进行复合加权处理,以区分各个训练样本对于判定隶属类别的影响程度,从而在分类决策规则上作出改进。实验结果表明,与未经过文本加权的KNN算法相比,该算法对垃圾短信和正常短信在分类准确率、召回率、F1值等指标上都有较大的提升。  相似文献   

8.
罗军  况夯 《计算机应用》2008,28(9):2386-2388
提出一种新颖的基于Boosting模糊分类的文本分类方法。首先采用潜在语义索引(LSI)对文本特征进行选择;然后提出Boosting算法集成模糊分类器学习,在每轮迭代训练过程中,算法通过调整训练样本的分布,利用遗传算法产生分类规则。减少分类规则能够正确分类样本的权值,使得新产生的分类规则重点考虑难于分类的样本。实验结果表明,该文本分类算法具有良好分类的性能。  相似文献   

9.
一种改进的特征权重算法   总被引:1,自引:0,他引:1       下载免费PDF全文
张瑜  张德贤 《计算机工程》2011,37(5):210-212
特征权重算法对文本分类系统的精确度有很大影响,传统的TFIDF算法未能考虑特征项在类间和类内的分布情况。为此,在对传统算法和相关改进算法进行分析的基础上,引入类间偏斜度、类内离散度和权重调整因子的改进思路,提出一种基于WA-DI-SI的特征权重改进算法,分别采用支持向量机和朴素贝叶斯2种分类算法进行测试。测试结果表明,与其他改进算法相比,该算法能够获得更好的分类效果。  相似文献   

10.
为了提高垃圾邮件分类精确,提出一种基于关联规则的垃圾邮件分类模型。首先通过改进的FP-grow算法挖掘垃圾邮件关联规则集,以关联规则集为基础构建垃圾邮件分类器模型,然后考虑垃圾邮件特征词权重对邮件进行分类,最后采用仿真实验测试模型的性能。结果表明,该方法提高了垃圾邮件分类精度,可以较好地对垃圾邮件进行分类。  相似文献   

11.
结合类频率的关联中文文本分类   总被引:6,自引:2,他引:6  
该文提出一种词类频率和关联中文文本分类相结合的算法ARCTC。此算法将文档视作事务,关键词视作项,并针对文本事务的特性,提出利用词的类频率筛选与分类相关性不大的词汇,然后将改进的关联规则挖掘算法用于挖掘项和类别间的相关关系。挖掘出的规则用于形成类别特征词的集合,可用来和类标号未知文档的词的集合求交集,交集元素个数最多者即为所分类别。实验证明,该算法在提高训练时间和测试时间的同时具有较好的召回率、准确率和F-Measure。  相似文献   

12.
以短文本为主体的微博等社交媒体,因具备文本短、特征稀疏等特性,使得传统文本分类方法不能够高精度地对短文本进行分类。针对这一问题,文章提出了基于词项关联的短文本分类方法。首先对训练集进行强关联规则挖掘,将强关联规则加入到短文本的特征中,提高短文本特征密度,进而提高短文本分类精度。对比实验表明,该方法一定程度上减缓了短文本特征稀疏特点对分类结果的影响,提高了分类准确率、召回率和F1值。  相似文献   

13.
文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。概念格是规则提取和数据分析的有效工具,然而概念格的构造效率始终是概念格应用的一大难题。本文研究了基于扩展概念格模型的文本分类规则提取,利用粗糙集和扩展概念格模型来进行分类规则提取。该方法利用概念树,极大地除去了冗余的概念,只需要建造很少的概念就能够提取出全部的分类规则,不仅效率较高,而且同时提取的分类规则与概念格相同。本文算法在MATLAB7.0的环境中运行的实验表明,查全率比KNN算法和SVM算法稍低,但是查准率比它们都高,因此该分类规则用于文本分类时效果与KNN和SVM相当。  相似文献   

14.
关联文本分类的规则修正策略   总被引:2,自引:0,他引:2  
通过分析基于关联规则的文本分类,发现在保持分类规则对正例样本正确分类的同时减少对反例样本的错误分类可以提高分类的精确度.基于否定选择算法的思想提出了分类规则修正策略,用反例样本集合对分类规则进行耐受,从分类规则错误判别的反例样本中再产生规则,与原来的规则组成新规则,称为增强关联规则.基于修正策略产生的增强关联规则可以大幅度地减少对反例样本的错误分类,从而提高分类的精确度.通过形式化证明和实验,分类规则修正策略的有效性得到验证.  相似文献   

15.
传统关联规则挖掘在面临分类决策问题时,易出现非频繁规则遗漏、预测精度不高的问题。为得到正确合理且更为完整的规则,提出了一种改进方法 DT-AR(decision tree-association rule algorithm),利用决策树剪枝策略对关联规则集进行补充。该方法利用FP-Growth(frequent pattern growth)算法得到关联规则集,利用C4.5算法构建后剪枝决策树并提取分类规则,在进行置信度迭代筛选后与关联规则集取并集修正,利用置信度作为权重系数采取投票法进行分类。实验结果表明,与传统关联规则挖掘和决策树剪枝方法相比,该方法得到的规则在数据集分类结果上更准确。  相似文献   

16.
基于排序的关联分类算法   总被引:1,自引:0,他引:1  
提出了一种基于排序的关联分类算法.利用基于规则的分类方法中择优方法偏爱高精度规则的思想和考虑尽可能多的规则,改进了CBA(Classification Based on Associations)只根据少数几条覆盖训练集的规则构造分类器的片面性.首先采用关联规则挖掘算法产生后件为类标号的关联规则,然后根据长度、置信度、支持度和提升度等对规则进行排序,并在排序时删除对分类结果没有影响的规则.排序后的规则加上一个默认分类便构成最终的分类器.选用20个UCI公共数据集的实验结果表明,提出的算法比CBA具有更高的平均分类精度.  相似文献   

17.
为提高中文文本分类的效果,提出了一种基于粗糙集理论的规则匹配方法.在对文本特征的提取过程中,对CHI统计方法进行了适当的改进,并对特征项的权值进行了缩放和离散化.结合区分矩阵实现关于粗糙集理论的属性约简和规则提取,并采用规则预检验的方法对规则匹配的决策参数进行优化,以提高中文文本分类的效果.实验结果表明改进后的规则匹配方法分类准确率更高,同时在训练数据较少的情况下也可以取得不错的效果.  相似文献   

18.
针对监控视频下的行人多属性识别问题,提出一种结合神经网络与关联规则的多分类方法。首先通过Faster-RCNN检测算法与改进的AlexNet多分类网络得到监控视频下行人各个属性的置信度,再采用关联规则Apriori算法对训练数据进行处理,进而结合神经网络分类的置信度和关联规则的处理结果,提出一种对分类置信度进行优化的算法。最后,统计关联规则优化后的某些行人属性准确率。结果表明,将神经网络与关联规则有效结合后可以提升某些属性识别的准确率。  相似文献   

19.
基于关联规则的裙带菜筏式养殖遥感识别方法   总被引:2,自引:0,他引:2  
筏式养殖裙带菜监测是大连地区遥感监测的重要应用之一,寻求一种快速准确的识别方法从而及时掌握裙带菜养殖的分布范围、面积、数量等基础信息,对地方政府调控产业发展起到关键作用。引入数据挖掘技术,利用Landsat TM数据源,开展基于关联规则的裙带菜筏式养殖信息提取方法研究,并在大连金石滩附近海域进行实验论证。应用数据挖掘关联规则分析方法,找出筏式养殖区和海水分类的知识规则,并通过该规则构建分类树提取养殖信息,最后结合筏式养殖形态特征对得到的分类结果进行噪声去除后,得到最终的分类结果。结果表明:该方法的总体识别准确度可达80%,与最大似然分类结果相比识别准确度提高11.64%,该方法能够满足监测基本需求,具备一定的可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号