首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 312 毫秒
1.
提出了一种基于散度差的组合型文本特征抽取方法.首先讨论了文本分类中特征降维的主要方法及其特点,然后分析了基干散度差的准则的特征降维的原理和方法,在避开求逆矩阵问题的同时,通过对文本特征进行选择对文本特征集进行了第一次压缩,借助于加权散度差原理对特征集进行了二次抽取,在最低限度减少信息损失的前提下实现了特征维数的大幅度降低.实验结果表明,该方法在文本分类上的效率较好.  相似文献   

2.
一种基于散度差组合型文本特征降维方法   总被引:2,自引:2,他引:0  
讨论了文本分类中特征降维的主要方法及其特点,分析了基于散度差准则的特征降维的原理和方法,在避开求逆矩阵问题的同时,通过对文本特征进行选择对文本特征集进行了第一次压缩,借助于加权散度差原理对特征集进行了二次抽取,在最低限度减少信息损失的前提下实现了特征维数的大幅度降低.试验结果表明,这种方法在文本分类上的效率较好.  相似文献   

3.
一种基于数据偏斜的改进KNN文本分类   总被引:2,自引:1,他引:1  
KNN是一种简单、有效、非参数的分类算法.针对样本分布偏斜的分类环境,首先提出了一种改进的特征选择方法进行特征降维,在此基础上进一步提出了一种基于分布的改进KNN方法用于文本分类,降低了分布偏斜问题对决策函数的影响.试验表明,所提出的改进KNN文本分类方法具有较好的分类性能.  相似文献   

4.
多数基于贪婪策略的特征选择往往只能得到次优解.对此提出了一种两阶段特征降维方法,首先设计条件乘积相对熵算法以选择文档的特征子集,然后在文档特征子集中使用提出的自适应LLE算法进行特征抽取以进一步降低文档特征维度.实验结果显示,两阶段降维方法可显著降低维数并提高文本挖掘性能.  相似文献   

5.
刘洺辛  陈晶  王麒媛 《电信科学》2018,34(10):85-95
提出了结合情感词典的改进信息增益特征选择方法。首先,针对现有的信息增益特征选择存在注重特征词的文档频率而忽视语料均衡等问题,提出了改进方法。其次,考虑情感词对文本分类的影响,提出了基于情感词典的特征选择(information gain combining sentiment classification,IGSC)算法进行文本分类。该算法通过对文本情感词进行匹配并结合情感词赋权重,实现了特征降维并解决了文本数据稀疏影响分类性能的问题;最后,针对旅游评论数据集对所提出的特征选择方法进行了实验验证及分析。实验结果表明,本文提出的改进文本情感分类特征选择方法在分类准确率、召回率和F值方面均得到了提升,并且具有较好的分类稳定性。  相似文献   

6.
基于词空间的分类方法很难处理文本的高维特性和复杂相关性,为此文中提出了基于核的主成分分析和径向基神经网络的文本分类算法.首先利用核主成分分析选择合适的核函数从高维特征空间中提取文本向量的主成分,实现了文本输入空间的降维和语义特征空间的抽取,然后在语义特征空间中训练径向基神经网络分类器,并利用训练得到的分类器进行文本分类工作.实验结果表明:核主成分分析不仅实现了降维,而且能在大幅减减少径向基神经网络训练时间的基础上显著提高其分类精度.  相似文献   

7.
一种基于改进K-means聚类的文本特征选择模型   总被引:1,自引:1,他引:1  
介绍了文本聚类中基于划分的方法,针对该算法对孤立点的过于敏感问题,提出了一种用于特征选择的算法改进模型,通过对特征集里孤立点的剔除改善了特征聚类效果.随后的文本分类试验表明,提出的改进的算法具有较好的特征选择效果,文本分类的效率较高.  相似文献   

8.
基于类别分布差异和VPRS特征选择的文本分类方法   总被引:3,自引:0,他引:3  
权值计算和特征降维是影响文本分类的精度和效率的两个重要步骤。该文首先根据特征词的类别分布差异进行特征过滤;然后,分析传统的权值公式TF-IDF的缺点,采用改进的权值计算公式简记为TF-CDF,依据TF-CDF公式计算每个特征词的权值,生成文档集的向量空间模型VSM;接着,提出了一种基于可变精度粗糙理论(VPRS)的特征选择进一步选择对分类贡献度大的特征,并用SQL实现。最后利用支持向量机LibSVM分类器进行实验,实验结果表明特征过滤和选择方法及TF-CDF权值公式有助于提高分类精度和分类效率。  相似文献   

9.
基于CHI与遗传算法的特征选择   总被引:1,自引:0,他引:1  
在基于Web文本信息过滤系统中通过特征选择找到的最优特征子集直接影响到分类的速度及精度。针对此问题,提出了综合CHI及遗传算法的特征选择方法。首先针对原始特征集,采用CHI统计法进行初始筛选,去除冗余特征及噪声后,对得到的特征子集再采用遗传算法进行第二次特征选择,从而得出代表问题空间的最优特征子集,实现降维并提高了分类精度。  相似文献   

10.
互信息是一种常用的特征选择评价函数,但研究表明它会导致分类精度相对较低.文中针对互信息倾向选择低频词的不足,提出了一种新的特征评价函数TFMIIE,将信息熵和改进互信息相结合,其中改进互信息能够避免偏向低频的生僻词,而特征熵有利于去除类别不确定的特征词.实验结果表明,采用TFMIIE进行特征选择,用得到的特征子集表示文本和构建分类器,文本分类的准确率与召回率比采用互信息的方法提高了约40%,验证了所提出的基于改进互信息和信息熵的文本特征选择方法是有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号