共查询到20条相似文献,搜索用时 160 毫秒
1.
为了提高文本自动分类准确率,提出一种改进的蜂群优化神经网络的选择特征的文本数据挖掘算法.该算法将文本特征选择转换成一个多目标优化问题,以特征维数最少、分类正确率最高为选择标准,采用蚁群算法找到最优特征子集,最后神经网络建立文本自动分类器,进行仿真实验测试算法性能.仿真实验结果表明,提出的方法从高维文本最优文本特征,提高了文本自动分类的正确率和识别效率,是一种有效的网络文本挖掘算法. 相似文献
2.
3.
基于改进的互信息特征选择的文本分类 总被引:1,自引:0,他引:1
使用传统的互信息评估函数进行特征选择方法,得到的分类精度并不高.提出了一种考虑词频作用的互信息评估函数,并采用了K-近邻算法进行文本分类测试,通过分析测试结果,使用改进的互信息评估函数进行特征选择,提高了文本分类的精度. 相似文献
4.
特征选择算法(TFFS)存有一定的不足:集中度难于正确衡量低频繁特征项的权值;分散度忽略了互信息为负数的特征项对文本分类的影响。提出一种改进的特征选择算法(TFFSL),TFFSL对集中度、分散度做了一定的改进,避免了TFFS的缺陷,同时TFFSL结合特征项长度信息,提高了短语和词语在分类中的作用。SVM分类实验结果表明:与TFFS相比,TFFSL有更高的文本分类性能和剔除无关特征项的能力。 相似文献
5.
6.
基于改进TFIDF算法的文本分类研究 总被引:1,自引:0,他引:1
由于文本分类在信息检索、邮件过滤、网页分类、个性化推荐等领域有着广泛的应用价值,所以自文本分类的概念提出以来,受到了学者们的广泛关注。在文本分类的研究中,学者们运用了很多方法,其中TFIDF是文档特征权重计算的最常用算法之一,但是传统的TFID算法忽略了特征项在类内和类间的分布,导致很多区分度不大的特征项被赋予了较大的权重。针对传统TFIDF算法的不足,本文在IDF的计算过程中,用词条在类内与类间的文档占比来考虑词条在类内与类间的分布。在实验中,用改进的权重算法表示文本向量,通过考察分类的效果,验证了改进算法的有效性。 相似文献
7.
特征选择是中文文本自动分类领域中极其重要的研究内容,其目的是为了解决特征空间高维性和文档表示向量稀疏性之间的矛盾。针对互信息(MI)特征选择方法分类效果较差的现状,提出了一种改进的互信息特征选择方法IMI。该方法考虑了特征项在当前文本中出现的频率以及互信息值为负数情况下的特征选取,从而能更有效地过滤低频词。通过在自动分类器KNN上的实验表明,改进后的方法极大地提高了分类精度。 相似文献
8.
9.
文本分类中特征选择的约束研究 总被引:7,自引:0,他引:7
特征选择在文本分类中起重要的作用.文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评估均是通过实验验证的方法,即完全是基于经验的方法,为此提出了一种定性地评估特征选择函数性能的方法,并且定义了一组与分类信息相关的基本的约束条件.分析和实验表明,IG完全满足该约束条件,DF不能完全满足,MI和该约束相冲突,即一个特征选择算法的性能在实验中的表现与它是否满足这些约束条件是紧密相关的. 相似文献
10.
提出了一种优化互信息文本特征选择方法。针对互信息模型的不足之处主要从三方面进行改进:用权重因子对正、负相关特征加以区分;以修正因子的方式在MI中引入词频信息对低频词进行抑制;针对特征项在文本里的位置差异进行基于位置的特征加权。该方法改善了MI模型的特征选择效率。文本分类实验结果验证了提出的优化互信息特征选择方法的合理性与有效性。 相似文献
11.
基于模糊认知图的文本分类推理算法 总被引:3,自引:0,他引:3
文本分类是信息处理的重要研究方向,现在应用较多的是基于统计计算的分类方法。介绍了利用模糊认知图的文本分类推理理论与算法,该方法是基于数值推理的,实现将统计与规则融合推理,灵活性较大,不需要语料的多次训练,适合于训练不充分和新主题的文本分类和多类分类,并具有一定的鲁棒性。 相似文献
12.
文本自动分类系统是信息处理的重要研究方向。针对文本分错类和相似度低找不到合适类别等两种错误 ,提出一种迭代的学习算法 ,它利用分错的文本向量来提高或降低相应类别向量的权重 ,从而纠正分类错误 ,提高了分类准确率 ,并且最终得到了较精确的类别描述向量和较优的分类器。 相似文献
13.
贝叶斯算法在文本自动分类系统中的应用 总被引:3,自引:0,他引:3
文本自动分类系统是信息处理的重要研究方向。它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。本文将基于贝叶斯算法的文本分类技术。应用于Web文档进行自动分类,实验结果表明效果显著。 相似文献
14.
KNN算法是一种常用的效果较好的文本分类算法。但是标准KNN算法中,近邻的数目K对所有处理文本都是一样的,而判断类别时加权的仅仅是文本之间的相似度。基于近邻序列的排序,提出了变K算法,并且结合效果较好权重算法,形成了柔性的KNN算法,提高了分类的效果。 相似文献
15.
16.
文本分类作为机器学习和信息检索之间的交叉学科,涉及到多个领域的技术。它的完善有赖于各个相关领域的技术发展和提高,该文介绍了文本分类过程中的各个关键技术和存在的问题,讨论了文本表示模型、分类算法、分类器性能评价原理和方法,最后并对今后的发展进行了展望。 相似文献
17.
信息检索的一个核心问题是自动文本分类。基于分类体系的文本分类需要全文抽取主题词、计算权重,再根据分类体系对文献进行分类。文中构建一种基于Agent技术的文本自动分类系统,仅需要对文档头进行信息处理就可以进行快速文本分类,有效地减少了文本分类过程中的时间和空间的消耗。 相似文献
18.
19.
20.
在以往的自动文本分类研究中,大多比较流行的分类技术都是在一个层次上将文本分成几个类别。但随着信息检索的量越来越大,文本的种类将越来越多,仅仅通过一层对海量信息进行组织分类越来越不适合海量信息的检索工作,这种平坦式的分类组织难以进一步提高信息检索的速度。论文将SMO分类算法结合到文本分类研究中,通过构建多层支持向量机文本分类树,实现了基于SMO的多层次文本分类系统。 相似文献