首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
文本分类中特征项权重的计算方法   总被引:4,自引:0,他引:4  
特征项权重的计算方法是基于向量空间模型的文本分类中一个核心问题,计算方法的选择关系到最终分类的效果.本文对文本分类中特征项权重的计算方法进行了说明,并根据实验对几种特征项权重的计算方法进行了比较。  相似文献   

2.
特征选择是文本分类过程的重要处理步骤,在其他分类预处理环节和分类算法确定的条件下,通过传统特征选择方法很难大幅度提高文本分类的准确率。针对此问题,介绍了一个基于改进蝙蝠优化的新的文本特征选择方法,即利用传统的特征选择方法对原始特征进行预选,在此基础上使用高斯局部扰动和自适应调节权重机制改进传统蝙蝠群算法,并以二进制编码形式对预选特征进行优选,分类准确率作为个体的适应度,提出了多策略改进蝙蝠算法的文本特征选择算法MS-BA,实现对文本特征选择优化模型的高效求解。结果表明,采用MS-BA进行特征优选后,其分类准确率得到有效提高。  相似文献   

3.
Web文本分类是Web文本挖掘的一个重要研究领域.Web文本分类中通常采用向量空间模型(VSM)来表达文本特征,但是所产生的维数是巨大的,从而导致处理过程非常复杂,所以需要先对文本特征进行合理的降维处理.本文对常见的特征选择算法进行了介绍,并对它们进行了比较,最后结合当前的研究成果分析特征选择的发展趋势.  相似文献   

4.
特征选择是文本分类过程中极其重要的一个环节。本文提出了一种新的特征选择算法,该算法基于一个特征频度相对于其它特征频度的差值的总和衡量其相对贡献率的大小,从而进行特征选择。本文使用了基准数据集20-Newgroups,在朴素贝叶斯和支持向量机两个分类器上对该方法进行了验证。实验结果表明,与信息增益、互信息,几率比和DIA相关因子等四种流行的特征选择算法相比,该算法有效降低了文本的特征维数,提高了分类精度。  相似文献   

5.
为了在面向旅游领域的文本分类系统中选择有效的分类特征,提高分类性能,本文根据系统采用的训练集、训练过程及分类算法等因素重新对各常用的特征选择方法进行了综合实验评测,比较了五种常用的特征选择方法,对于评测结果最好的三种函数:期望交叉熵、信息增益和互信息,通过理论分析和科学实验,分别提出了不同的改进方法.实验结果表明改进的期望交叉熵方法在本应用中能够最有效地提高系统的分类性能.  相似文献   

6.
在不均衡大数据集情况下,传统特征处理方法偏重大类而忽略小类,影响分类性能。该文提出了一种文本特征基因提取方法。首先,基于样本类别分布不均衡对特征选择的影响,给出了一种结合信息熵的CHI统计矩阵特征选择方法,以强化小类的特征;然后,在探究多维统计数据高阶相关性的基础上,采取独立成分分析手段,设计了文本特征基因提取方法,用以增强特征项的泛化能力;最后,将这两种方法相融合,实现了在不均衡大数据集下的文本特征基因提取新方法。实验结果表明,所提方法具有较好的早熟性及特征降维能力,在小类的分类效果上优于常见特征选择算法。  相似文献   

7.
基于中文文本分类的定义和向量空间模型,本文分析了正确分类文本的关键所在.通过对传统的特征选择方法的分析,提出了新的特征选择方法.通过支撑向量机对中等规模语料库的实验,验证了此方法的有效性.  相似文献   

8.
在分析了传统特征选择方法构造的4项基本信息元素的基础上提出一种强类别信息的度量标准,并在此基础上,提出一种适用于不平衡文本的特征选择方法。该方法综合考虑了类别信息因子、词频因子,分别用于提高少数类和多数类类别分类精度。该方法在reuter-21578数据集上进行了实验,实验结果表明,该特征选择方法比IG、CHI方法都更好,不但微平均指标有一定程度的提高,而且宏平均指标也有一定程度的提高。  相似文献   

9.
对文本特征提取中的统计量方法进行了介绍,并且指出了该方法在分类中的不足之处;在此基础上,提出了一种改进的特征选择方法,并把该方法应用到后续的文本分类中.分类实验结果表明,分类准确率得到了一定的提高.  相似文献   

10.
对文本特征提取中的统计量方法进行了介绍,并且指出了该方法在分类中的不足之处;在此基础上,提出了一种改进的特征选择方法,并把该方法应用到后续的文本分类中.分类实验结果表明,分类准确率得到了一定的提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号