共查询到14条相似文献,搜索用时 187 毫秒
1.
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。首先简单分析了几种经典的特征选择方法,总结了它们的不足,然后提出了类内集中度的概念,紧接着把分层递阶的思想引入粗糙集并提出了一个改进的基于分层递阶的属性约简算法,最后把该约简算法同类内集中度结合起来,提出了一个综合的特征选择方法。该方法首先利用类内集中度进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用所提约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明此种特征选择方法效果良好。 相似文献
2.
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。在分析词频方法和文档频方法不足的基础上提出了特征辨别能力,把元信息引入粗糙集并提出了一个基于元信息的属性约简算法,给出了一个综合性特征选择方法。该方法利用特征辨别能力进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,使用所提属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明:所提特征选择方法在一定程度上具有一定的优势。 相似文献
3.
在文本分类中,特征空间的维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普遍现象.为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,必须使用特征选择算法.首先给出了一个基于最小词频的文档频方法,然后把粗糙集引入进来并提出了一个基于Beam搜索的属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择算法.该算法首先利用基于最小词频的文档频方法进行特征选择,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明该算法是有效的. 相似文献
4.
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果.分析了词频法和文档频法并总结了其缺陷,给出了一个改进的文档频方法;引进粗糙集理论,提出了一个属性约简算法;最后提出了一个新的特征选择方法.该特征选择方法使用改进的文档频初选特征并用所提属性约简算法消除冗余.仿真结果表明该特征选择方法性能较好. 相似文献
5.
在文本特征空间中,特征维数通常高达几万,这大大限制了分类算法的选择,降低了分类算法的性能,影响了分类器的设计,为此需要进行特征选择以避免“维数灾难”。提出了一个综合性的特征选择方法,该方法首先利用一个优化的文档频进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用一个基于粗糙集和灰色关联度的属性约简算法来消除冗余,从而获得较具代表性的特征子集。实验结果表明该综合性方法效果良好。 相似文献
6.
7.
为了提高分类算法的运行速度,降低占用的内存空间,必须使用特征选择算法.首先分析了几种经典特征选择方法并总结了它们的不足,然后提出了特征辨别能力的概念,紧接着把粗糙集引进来并给出了一个基于二进制可辨矩阵的属性约简算法,最后把该属性约简算法同所提特征辨别能力结合起来,给出了一个综合的特征选择方法.该方法首先利用所提特征辨别能力进行特征初选以过滤掉一些词条,然后利用所提属性约简算法消除冗余.实验结果表明此种特征选择方法效果良好. 相似文献
8.
特征选择是文本分类中的核心研究课题之一。简单分析了词频和文档频,在此基础上提出了类内集中度,把集合覆盖的思想引入粗糙集并提出了一个基于最小集合覆盖的属性约简算法,把该属性约简算法同类内集中度结合起来,提出了一个新的特征选择方法。该方法利用类内集中度进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,利用所提约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明此种特征选择方法效果良好。 相似文献
9.
结合新型文档频和二进制可辨矩阵的特征选择 总被引:1,自引:0,他引:1
特征选择是文本分类的一个核心研究课题。分析了几种经典特征选择方法并总结了它们的不足,提出了一个新型文档频,引入粗糙集理论,并给出了一个基于二进制可辨矩阵的属性约简算法,最后把该属性约简算法同新型文档频结合起来,提供了一个综合的特征选择方法。该方法首先利用新型文档频进行特征初选以过滤掉一些词条,然后利用所提属性约简算法消除冗余。通过对人民网的8类新闻组,每类300篇文档的分类实验,结果表明此种特征选择方法在分类准确率和召回率上优于互信息、CHI和信息增益方法。 相似文献
10.
11.
特征选择是文本分类的一个重要步骤。分析了互信息,针对其不足引进了粗糙集给出了一个基于关系积的属性约简算法,并以此为基础提出了一个新的适用于海量文本数据集的特征选择方法。该方法使互信息进行特征初选,利用基于关系积的属性约简算法消除冗余词。实验结果表明此种特征选择方法的微平均F1和宏平均F1较高。 相似文献
12.
基于分形维数的属性约简算法与特征辨别能力相结合,提出了一个综合的特征选择方法.该方法利用特征辨别能力进行特征初选,过滤掉一些词条来降低特征空间的稀疏性,以利用所提约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,此种特征选择方法效果良好. 相似文献
13.
自动文本分类的效果在很大程度上依赖于属性特征的选择。针对传统基于频率阈值过滤的特征选择方法会导致有效信息丢失,影响分类精度的不足,提出了一种基于粗糙集的文本自动分类算法。该方法对加权后的特征属性进行离散化,建立一个决策表;根据基于依赖度的属性重要度对决策表中条件属性进行适当的筛选;采用基于条件信息熵的启发式算法实现文本属性特征的约简。实验结果表明,该方法能约简大量冗余的特征属性,在不降低分类精度的同时,提高文本分类的运行效率。 相似文献
14.
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。 相似文献