首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
提出了一种基于支持向量且能识别噪音特征的文本特征评估方法,以及一种具有自我反馈学习能力的文本分类系统。该系统能够根据分类结果识别样本噪音句子、调整分类器参数、维护和优化文本库、提高分类器性能并使分类器能适应实际情况的不断变化。实验结果表明该方法能有效改善自动文本分类系统的性能。  相似文献   

2.
樊康新 《计算机工程》2009,35(24):191-193
针对朴素贝叶斯(NB)分类器在分类过程中存在诸如分类模型对样本具有敏感性、分类精度难以提高等缺陷,提出一种基于多种特征选择方法的NB组合文本分类器方法。依据Boosting分类算法,采用多种不同的特征选择方法建立文本的特征词集,训练NB分类器作为Boosting迭代过程的基分类器,通过对基分类器的加权投票生成最终的NB组合文本分类器。实验结果表明,该组合分类器较单NB文本分类器具有更好的分类性能。  相似文献   

3.
特征选择是文本分类中一种重要的文本预处理技术,它能够有效地提高分类器的精度和效率。文本分类中特征选择的关键是寻求有效的特征评价指标。一般来说,同一个特征评价指标对不同的分类器,其效果不同,由此,一个好的特征评价指标应当考虑分类器的特点。由于朴素贝叶斯分类器简单、高效而且对特征选择很敏感,因此,对用于该种分类器的特征选择方法的研究具有重要的意义。有鉴于此,提出了一种有效的用于贝叶斯分类器的多类别文本特征评价指标:CDM。利用贝叶斯分类器在两个多类别的文本数据集上进行了实验。实验结果表明提出的CDM指标具有比其它特征评价指标更好的特征选择效果。  相似文献   

4.
采用向量空间模型(V SM)描述文本,利用隐性语义索引(LSI)技术进行特征重构与降维,构造了BP神经网络文本分类器。将贝叶斯分类技术与前者结合构造了一种混合文本分类器。实验结果表明混合分类器分类准确度和分类速度得到提高。  相似文献   

5.
特征权对贝叶斯分类器文本分类性能的影响   总被引:1,自引:0,他引:1  
高秀梅  陈芳  宋枫溪  金忠 《计算机应用》2008,28(12):3080-3083
在文本分类研究中,人们希望用特征权来改善文本分类效果。以最优分类器——贝叶斯分类器为基准分类器,研究了特征权对文本分类性能的可能影响。理论推导表明,就最优分类器而言,特征权不能有效提高文本分类效果。  相似文献   

6.
研究了一种基于散度差准则的文本特征抽取方法。首先讨论了文本分类中特征降维的主要方法及其特点,然后分析了一种基于散度差的准则用于特征降维的原理和方法,从理论上对该方法的相关步骤进行了数学论证。在中文文本分类实验中,对KNN分类器进行了基于密度的改进,消除了由于文本分布倾斜对分类器产生的影响。实验结果表明,这种方法在文本分类的准确性方面效果较为理想。  相似文献   

7.
分析了文本分类过程中存在的混淆类现象,主要研究混淆类的判别技术,进而改善文本分类的性能.首先,提出了一种基于分类错误分布的混淆类识别技术,识别预定义类别中的混淆类集合.为了有效判别混淆类,提出了一种基于判别能力的特征选取技术,通过评价某一特征对类别之间的判别能力实现特征选取.最后,通过基于两阶段的分类器设计框架,将初始分类器和混淆类分类器进行集成,组合了两个阶段的分类结果作为最后输出.混淆类分类器的激活条件是:当测试文本被初始分类器标注为混淆类类别时,即采用混淆类分类器进行重新判别.在比较实验中采用了Newsgroup和863中文评测语料,针对单标签、多类分类器.实验结果显示,该技术有效地改善了分类性能.  相似文献   

8.
介绍中文文本分类的流程及相关技术。在分析传统的文本特征选择不足的基础上,提出了基于粗糙集与集成学习结合的文本分类方法,通过粗糙集进行文本的特征选择,采用一种集成学习算法AdaBoost.M1来提高弱分类器的分类性能,对中文文本进行分类。实验证明,这种算法分类结果的F1值比C4.5、kNN分类器都高,具有更加优良的分类性能。  相似文献   

9.
崔彩霞  王素格 《计算机工程与设计》2007,28(17):4249-4251,4265
随着计算机技术和WWW的飞速发展,文本分类已经成为信息检索的关键技术之一,而特征选择对分类效果起着至关重要的作用.对文本分类的4种常用特征选择方法进行了介绍和分析,提出了一种基于类内频率的特征选择方法.选用kNN法和支持向量机作为分类器,利用以上5种文本特征选择方法在平衡语料和非平衡语料上进行了测试.实验结果表明,该方法能够有效选出真正对分类有意义的特征,分类效果较好,尤其适合支持向量机分类器.  相似文献   

10.
一种基于扩展的两步文本倾向性分析方法   总被引:1,自引:0,他引:1  
提出一种基于扩展的两步文本倾向性分析方法,该方法利用包含倾向性词表、否定词表、程度词表在内的情感词语对训练文本进行特征扩展,按照将情感词语和内容词语是否同等对待来构造两个分类器CF1和CF2;在分类时,对测试文本进行和训练文本类似的特征扩展,使用分类器CF1对其进行分类,对分类结果中的可靠部分直接做出判定,对分类结果中的不可靠部分利用分类器CF2进行二次分类并做出判定。实验结果验证了该方法的有效性。  相似文献   

11.
该文基于朴素贝叶斯分类器对朝鲜语文本分类进行了研究。首先,利用基于类别选择的特征选择方法对朝鲜语文本进行特征选择,并使用类TF-IDF估算方法计算权重;其次,构造朴素贝叶斯分类器;最后,利用分类器实现对朝鲜语文本的分类。实验表明,该方法在朝鲜语文本分类中具有较好的效果,为朝汉结合文本分类提供了一定的依据。  相似文献   

12.
传统的文本分类方法大多数使用单一的分类器,而不同的分类器对分类任务的侧重点不同,就使得单一的分类方法有一定的局限性,同时每个特征提取方法对特征词的考虑角度不同。针对以上问题,提出了多类型分类器融合的文本分类方法。该模型使用了word2vec、主成分分析、潜在语义索引以及TFIDF特征提取方法作为多类型分类器融合的特征提取方法。并在多类型分类器加权投票方法中忽略了类别信息的问题,提出了类别加权的分类器权重计算方法。通过实验结果表明,多类型分类器融合方法在二元语料库、多元语料库以及特定语料库上都取得了很好的性能,类别加权的分类器权重计算方法比多类型分类器融合方法在分类性能方面提高了1.19%。  相似文献   

13.
情感分类是观点挖掘的一个重要的方面.提出了一种基于情感特征聚类的半监督式情感分类方法,该方法只需要对少量训练数据实例进行情感类别标注.首先从消费者评论中提取普通分类特征和情感特征,普通分类特征可以用来训练一个情感分类器.然后使用spectral聚类算法把这些情感特征映射成扩展特征.普通分类特征和扩展特征一起通过训练得到另一个情感分类器.2个分类器再从未标签数据集中选择实例放入到训练集合中,并通过训练得到最终的情感分类器.实验结果表明,在同样的数据集上该方法的情感分类准确度比基于self-learning SVM的方法和基于co-training SVM的方法的情感分类准确度要高.  相似文献   

14.
基于词频分类器集成的文本分类方法   总被引:8,自引:0,他引:8  
提出了一种基于词频分类器集成的文本分类方法.词频分类器是在对文本中的单词和它在每个文本中出现的频率进行统计后得到的简单分类器.虽然词频分类器本身泛化能力不强,但它不仅计算代较小,而且在训练样本甚至类别增加时易于进行更新,而整个学习系统的泛化能力可以由集成学习机制来提高,因此,词频分类器很适合用做集成学习的基分类器.在集成时,使用了改进的AdaBoost算法,加入了一种强制重新分布权的机制,避免算法过早停止,更加适合文本分类任务.在标准文集Reuters-21578上的实验结果表明,该方法能取得很好的效果.  相似文献   

15.
使用Logistic回归模型进行中文文本分类,通过实验,比较和分析了不同的中文文本特征、不同的特征数目、不同文档集合的情况下,基于Logistic回归模型的分类器的性能。并将其与线性SVM文本分类器进行了比较,结果显示它的分类性能与线性SVM方法相当,表明这种方法应用于文本分类的有效性。  相似文献   

16.
针对传统的文本分类算法存在着各特征词对分类的结果影响相同、分类准确率较低、造成算法时间复杂度增加的问题,提出了一种改进的最大熵C-均值聚类文本分类方法。该方法充分结合了C-均值聚类和最大熵值算法的优点,以香农熵作为最大熵模型中的目标函数,简化分类器的表达形式,然后采用C-均值聚类算法对最优特征进行分类。仿真实验结果表明,与传统的文本分类方法相比,提出的方法能够快速得到最优分类特征子集,大大提高了文本分类准确率。  相似文献   

17.
微博、脸书等社交网络平台涌现的短文本数据流具有海量、高维稀疏、快速可变等特性,使得短文本数据流分类面临着巨大挑战。已有的短文本数据流分类方法难以有效地解决特征高维稀疏问题,并且在处理海量数据流时时间代价较高。基于此,提出一种基于Spark的分布式快速短文本数据流分类方法。一方面,利用外部语料库构建Word2vec词向量模型解决了短文本的高维稀疏问题,并构建扩展词向量库以适应文本的快速可变性,提出一种LR分类器集成模型用于短文本数据流分类,该分类器使用一种FTRL方法实现模型参数的在线更新,并引入时间因子加权机制以适应概念漂移环境;另一方面,所提方法的使用分布式处理提高了海量短文本数据流的处理效率。在3个真实短文本数据流上的实验表明:所提方法在提高分类精度的同时,降低了时间消耗。  相似文献   

18.
在自动文本分类系统中,特征选择是有效降低文本向量维数的一种方法.朴素贝叶斯文本分类模型是一种简单而高效的文本分类模型.提出一个新的评价函数,即互信息差值.特其用于改进的贝叶斯文本分类模型"树桩网络".结果表明,在大多数数据集上该方法具有良好的分类效果.  相似文献   

19.
传统文本分类中的文档表示方法一般基于全文本(Bag-Of-Words)的分析,由于忽略了领域相关的语义特征,无法很好地应用于面向特定领域的文本分类任务.本文提出了一种基于语料库对比领域相关词汇提取的特征选择方法,结合SVM分类器实现了适用于特定领域的文本分类系统,能轻松应用到各个领域.该系统在2005年文本检索会议(TREC,Text REtrieval Conference)的基因领域文本分类任务(Genomics Track Categorization Task)的评测中取得第一名.  相似文献   

20.
为利用情感文本不同侧面的信息,提出一种基于状态和行为描述的情感分类方法。将情感文本的描述分为情感的状态和行为2个视图,并利用2个视图的融合进行情感分类。为自动获得2个视图,人工标注了相应的语料,通过二元分类器构建状态和行为检测系统。在此基础上采用组合分类器方法融合2个不同的视图。实验结果证明,该方法在3个领域中文情感分类任务上的分类效果均有所提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号