首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于TFIDF的文本特征选择方法   总被引:12,自引:3,他引:12  
本文在分析比较几种用于文本分类的特征选择方法的基础上,提出了一种基于术语频率和逆文档频率的特征选择方法TDF。采用KNN和NaiveBayes两种分类算法对该方法进行了测试。实验结果表明,TDF方法较其他几种方法有较好的分类精度。  相似文献   

2.
特征选择是中文文本分类过程中的一个重要过程,特征项选择的优劣直接影响文本分类的准确率。在分析几种特征选择方法的基础上,提出一种类别区分词的特征选择方法。实验结果表明,类别区分词的特征选择方法的分类效率高于传统方法,从而验证了该方法的有效性。  相似文献   

3.
雷军程  黄同成  柳小文 《计算机科学》2012,39(7):250-252,275
在分析比较几种常用的特征选择方法的基础上,提出了一种引入文本类区分加权频率的特征选择方法TFIDF_Ci。它将具体类的文档出现频率引入TFIDF函数,提高了特征项所在文档所属类区分其他类的能力。实验中采用KNN分类算法对该方法和其他特征选择方法进行了比较测试。结果表明,TFIDF_Ci方法较其他方法在不同的训练集规模情况下具有更高的分类精度和稳定性。  相似文献   

4.
罗勇 《福建电脑》2009,25(4):82-83
特征选择是文本分类的重要环节,评估函数直接影响特征选择的质量,互信息是几种常用的评估函数之一。也是一种分类精度相对较低的特征选择方法。本文在分析传统互信息方法缺陷的基础上,提出了一个改进方案。改进了互信息的计算公式,在其中引入了频度因子和分散度因子,并通过理论和实验证明了这一改进的有效性。  相似文献   

5.
文本自动分类是指将文本按照一定的策略归于一个或多个类别中的应用技术。文本分类是文本挖掘的基础,而特征选择又是文本分类中的核心。论文分析了以前特征选择方法中由于特征数目过多而造成分类时间和精度不高的缺点,提出了一种基于粗糙集的特征选择方法,其特点是以特征在文本分类中的重要性对特征进行选择。最后通过实验验证了该算法,证明该方法是可行的。  相似文献   

6.
特征项权重的计算方法是文本分类的一个重要问题,计算方法的选择关系到分类的效果。使用句子的重要度对特征项权重进行计算,并与其他几种传统的权重计算方法进行了比较。该方法能够有效地提高分类的准确度。  相似文献   

7.
刘逵  周竹荣 《计算机应用》2012,32(8):2245-2249
为了更全面地对文本进行特征选择,提高文本特征选择的准确率,提出一种基于野草算法的文本特征选择方法,利用野草算法中子代个体按正态分布的方式分布于父代个体周围,在进化过程中通过动态调整子代个体正态分布的标准差,使算法在早期与中期充分保持种群多样性的优势,对文本进行比较全面的特征选择;在算法后期加强对优秀个体的特征选择,保证算法稳健地收敛到全局最优解,提高文本特征选择的准确率。实验结果表明,这种方法可以给予权重值低的词条进行特征选择的机会,并且保证权重值高的词条特征选择优势,从而提高文本特征选择的全面性和准确性。  相似文献   

8.
文本挖掘中采用向量空间模型(VSM)来表达文本特征,表现出巨大的维数,从而导致处理过程计算复杂,为此,需要先对文本特征矩阵进行合理的降维处理。隐含语义分析(LSA)、概念索引(CI)、非负矩阵分解(NMF)和随机映射(RP)是几种有效的降维方法,在分析降维空间的含义和计算复杂度后,通过文本聚类实验比较和分析了这几种降维方法的差异,实验表明,这些方法不仅可以对文本特征空间作有效的降维处理,还能在不同程度上凸现文本和词条之间的语义关系,从而提高文本挖掘的效率和准确率。  相似文献   

9.
该文主要对文本自动分类的特征选择方法进行了讨论,分析了几种常见方法存在的缺陷,指出影响出文本特征选择的两个重要因素——特征项在类别内的文档频率和在类别间的分布差异,并以这两个因素为影响因子分别对TF-IDF和IG方法进行了改进。另外还介绍了朴素贝叶斯分类模型,并基于此模型对改进的特征选择方法的分类效果进行评估。实验结果表明,改进后的方法能够强化特征项在特定类别中的影响力,提高文本分类效果。  相似文献   

10.
一种改进的文本网页分类特征选择方法   总被引:6,自引:0,他引:6  
李粤  李星  刘辉  许静芳 《计算机应用》2004,24(7):119-121
网页分类是网络信息检索研究的关键技术之一。文中针对分类技术中的特征选择方法展开研究。在分析、比较常用的文本分类特征选择方法基础上,提出了一种联合特征选择方法。该方法将已有的X^2统计方法和互信息方法综合起来,在标准文本网贞数据集分类实验中,综合查全率和查准率得到明显的提高。该选择方法已应用于“网络指南针”系统大规模文本网页分类中。  相似文献   

11.
介绍中文文本分类的流程及相关技术。在分析传统的文本特征选择不足的基础上,提出了基于粗糙集与集成学习结合的文本分类方法,通过粗糙集进行文本的特征选择,采用一种集成学习算法AdaBoost.M1来提高弱分类器的分类性能,对中文文本进行分类。实验证明,这种算法分类结果的F1值比C4.5、kNN分类器都高,具有更加优良的分类性能。  相似文献   

12.
一种基于信息增益的特征优化选择方法   总被引:3,自引:0,他引:3       下载免费PDF全文
特征选择是文本分类的一个重要环节,它可以有效提高分类精度和效率。在研究文本分类特征选择方法的基础上,分析了信息增益方法的不足,将频度、集中度、分散度应用到信息增益方法上,提出了一种基于信息增益的特征优化选择方法。实验表明,该方法在分类效果与性能上都优于传统方法。  相似文献   

13.
对高维特征集的降维是文本分类的一个主要问题。在分析现有特征降维方法的基础上,借助《知网》提出一种新的二次降维方法:采用传统的特征选择方法提取一个候选特征集合;利用《知网》对候选集合中的特征项进行概念映射,把大量底层分散的原始特征项替换成少量的高层概念进行第二次特征降维。实验表明,这种方法可以在减少文本语义信息丢失的前提下,有效地降低特征空间维数,提升文本分类的准确度。  相似文献   

14.
结合新型文档频和二进制可辨矩阵的特征选择   总被引:1,自引:0,他引:1  
马春华  朱颢东  钟勇 《计算机应用》2009,29(8):2268-2271
特征选择是文本分类的一个核心研究课题。分析了几种经典特征选择方法并总结了它们的不足,提出了一个新型文档频,引入粗糙集理论,并给出了一个基于二进制可辨矩阵的属性约简算法,最后把该属性约简算法同新型文档频结合起来,提供了一个综合的特征选择方法。该方法首先利用新型文档频进行特征初选以过滤掉一些词条,然后利用所提属性约简算法消除冗余。通过对人民网的8类新闻组,每类300篇文档的分类实验,结果表明此种特征选择方法在分类准确率和召回率上优于互信息、CHI和信息增益方法。  相似文献   

15.
维吾尔文Bigram文本特征提取   总被引:1,自引:0,他引:1  
文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。在维吾尔文文本分类中,对于单词特征不能更好地表征文本内容特征的问题,在分析了维吾尔文Bigram对文本分类作用的基础上,构造了一个新的统计量CHIMI,并在此基础上提出了一种维吾尔语Bigram特征提取算法。将抽取到的Bigram作为文本特征,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,Bigram作为文本特征能够提高维吾尔文文本分类的准确率和召回率并且通过实验验证了该算法的有效性。  相似文献   

16.
董梅  胡学钢 《微机发展》2007,17(7):117-119
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

17.
文本分类中一种新的特征选择方法   总被引:11,自引:0,他引:11  
在自动文本分类系统中,特征选择是有效降低文本向量维数的一种方法。在分析了常用的一些特征选择的评价函数的基础上,提出了一个新的评价函数,即互信息比值。实验证明这一方法简单可行,有助于提高所选特征子集的有效性。  相似文献   

18.
基于文本表示的特征项权值计算方法   总被引:3,自引:0,他引:3  
文本表示中特征项的权值计算方法决定了文本特征的提取,在很大程度上影响了文本聚类的准确率。通过系统总结常用的几种特征项权值计算方法,并逐一比较分析和研究,提出了一种性能较好的计算方法——,多重因子加权的特征项权值计算方法,经实验证明该计算方法确实能够有效地提高文本聚类的准确性。  相似文献   

19.
文本特征选择是在文本自动分类中最重要的一个环节。为了更好地解决维吾尔文文本分类中特征空间的高维性和文档表示向量的稀疏性问题, 提出一种基于特征的类别分布差异和信息熵的维吾尔文文本特征选择方法。该方法不仅要考虑特征在类别间的分布情况, 而且也要考虑特征在类别内的分布情况。采用本方法对维吾尔文文本语料进行了分类实验, 并与一些传统的特征选择方法进行了比较。从结果来看, 本方法在所选特征数更少的情况下, 达到了比其他方法更高的分类MacroF1值853%, 比传统的IG和CHI等方法在MacroF1值上分别高出了43%和61%。  相似文献   

20.
基于多特征选择的中文文本分类   总被引:1,自引:0,他引:1  
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号