首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 46 毫秒
1.
目前有多种特征提取方法用于文本自动分类,其中CHI方法效果较好,研究发现CHI方法存在着词与类别的无独立性假设及计算复杂度高等缺点,提出一种改进了的CHI方法ICHI(ImprovedCHI),通过分类实验仿真数据显示,在SVM与KNN分类中这种改进后的特征提取方法ICHI特征提取效果优于传统的CHI方法,改进后的方法ICHI能提高文本分类的准确率,适合局部特征提取.  相似文献   

2.
中文文本分类中基于词性的特征提取方法研究   总被引:6,自引:0,他引:6  
在介绍常用的文本分类中特征词提取方法的基础上,提出了一种全新的,适用于中文文本分类的特征提取方法——基于词性的特征提取方法,实验结果显示,这种基于词性的特征提取方法在提高特征提取效率和降低特征向量维数方面都有显著改善。  相似文献   

3.
介绍了IG(Informationgain)信息增益,MI(Mutualinformation)互信息值,CHI(X2统计法)、DF(Documentfrequency)文档频率4种常用的文本特征提取方法,然后针对CHI方法提出了改进方法,并对改进的方法进行了实验分析,结果表明改进的方法提高了文本分类的正确率.  相似文献   

4.
文本分类中一种新的特征选择方法   总被引:2,自引:2,他引:0  
文本分类面临的一个主要问题就是如何降低文本巨大的特征维数,并且保持分类精度甚至提高分类精度。针对该问题,提出了一种基于信息论的特征再提取方法,旨在删除稀疏分布的特征、保留有利于分类的特征。使用该方法时配合特征选择方法,可进一步降低特征维数。实验结果表明,该方法能将特征维数降低到几百维,而且能提高分类器的性能。  相似文献   

5.
阐述了中文文本自动分类技术在法制领域中对描述案情的法律文本自动分类的改进及应用,并初步构建了一个中文法律案情文本分类系统.该系统在Visual C 环境上编程实现,通过对测试集中文本实验结果的分析,表明该方法具有一定的分类功能.  相似文献   

6.
提出了一种改进的基于特征提取的二级文本分类方法.通过提取出文本的特征项并计算其权重值,将文本表示成由特征项和权重值组成的向量,利用向量的夹角余弦计算二级分类模型下文本之间的相似度,可以更准确快速地定位海量信息.实验结果表明本文提出的分类方法的准确率优于传统的类中心分类法,提高了系统的适应性和分类能力.  相似文献   

7.
基于SVM的中文文本分类算法   总被引:1,自引:0,他引:1  
提出了一种基于支持向量机的中文文本分类算法,介绍了文本分类过程中的文本表示、特征提取和SVM算法等关键技术.最后进行了实验和分析,由实验结果可以看出,该方法在精确率和召回率等方面能够达到比较好的效果.  相似文献   

8.
针对中文网页分类技术中的一些特征选择方法存在的问题.分析了常用的网页分类特征选择方法,提出了一种比较适合中文网页分类的特征选择方法.该方法将已有的X2统计方法进行了一些变形处理,并把该方法应用到后续的网页分类中,分类实验结果表明,准确率得到了一定的提高.  相似文献   

9.
一种改进的文本特征选择方法的研究与设计   总被引:1,自引:0,他引:1  
特征选择是文本挖掘技术的一个重要环节。在中文分词的基础上,通过设计一个简单的应用程序,对文本进行预处理。然后,在分析比较几种用于文本分类的特征选择方法的基础上,提出了一种基于信息增益和互信息相结合的特征选择方法。利用它对文本文档进行特征选择,抽取代表其特征的元数据或特征词条构成特征向量,降低噪音。最后通过实验来和其他几种特征选择方法作比较,分析这种方法获取文本特征的精度。  相似文献   

10.
中文文本分类的特征选取评价   总被引:9,自引:0,他引:9  
在对中文文本分类的特征选取方法进行综合评价的基础上,对目前比较流行的5种特征选取方法(文档频度DF、互信息MI、信息增益IG、x^2统计X^2、术语强度TS)进行评价,选用Naive Bayes作为文本分类器,对一个中文文本分类语料库进行分类评测.实验结果表明,DF和x^2的分类性能十分接近,处于较好水平;而TS分类性能稍差一些;IG和MI的分类性能与其他相比都有较大的差距.特别是在特征数目少的情况下,MI和IG的结果较差.在特征数目为1000时,MI的F1值为64.60%;IG为69.36%,而DF则达到87.01%.  相似文献   

11.
主要介绍了文本分类问题,讨论了文本分类所涉及的关键技术,包括中文分词,文本表示,特征选取方法,以及Rocchio、朴素贝叶斯、K近邻、决策树、神经网络和支持向量机等文本分类算法的原理和方法.最后,给出了基于文本分类技术的中文垃圾短信过滤方法的实验和结果.  相似文献   

12.
KNFL算法是一种近年来在人脸识别领域得到广泛应用的算法,这种算法认为类中两点的连线也可以近似代表类的特征,把它应用于文本分类领域可以得到较好的分类效果,但是由于时间复杂度比较高,影响了其实用价值.本文提出了一种应用于文本分类的改进的KNFL算法,计算出类的中心点后再进行两次过滤,分别将离类中心点较远的特征点和特征线过滤掉,减少了训练集样本数目,在对分类精确度影响不大的情况下,改善了KNFL算法的分类效率,最后用实验验证了该算法的有效性.  相似文献   

13.
文本分类是当今信息检索和数据挖掘等领域的研究热点,而特征加权是文本分类过程中的重要步骤.为了提高分类质量,文章通过深入分析粗糙集理论和逆文本频率加权的思想,提出了一种基于粗糙集的特征加权方法,从近似分类精度和近似分类质量两个方面考虑特征词对分类的全局作用,将文本的类别属性信息引入到权重中.通过文本分类实验证明,该加权方法有助于提高分类系统的分类效果.  相似文献   

14.
针对文本分类中信息增益降维方法的不足,提出了一种基于相对文档频的平衡信息增益(RDFBIG)降维方法.实验结果表明,RDFBIG能有效消除不同类别之间语料规模对分类精度的影响,取得了较好的分类效果.  相似文献   

15.
基于特征信息增益权重的文本分类算法   总被引:8,自引:0,他引:8  
为了在分类精度不受损失的情况下提高训练速度,设计了3种基于信息增益(information gain,简称IG)特征权重的分类算法,分别被命名为:IG-C1、IG-C2、IG-C.它们根据特征对IG贡献的大小及在新文本中出现的次数进行分类.这3种算法都具有较低的时间复杂度和实现简单的特点.实验结果表明,其中IG-C的分类效果最为理想.  相似文献   

16.
文本自动分类是组织和管理文本信息的有力手段,可以在较大程度上解决信息杂乱无章的问题,使用户更容易更准确地定位所需的信息.目前,文本自动分类是信息检索领域中最前沿的研究热点之一,国内外均有大量学者从事这方面的研究.研究组对文本自动分类进行了深入细致的研究,针对文本自动分类目前存在的问题,提出了一些新的模型,大规模数据集上的实验表明该模型性能优异,表现优于很多方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号