首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。首先简单分析了几种经典的特征选择方法,总结了它们的不足,然后提出了特征分辨率的概念,并提出了一个基于差别对象对集的属性约简算法,最后把该属性约简算法同特征分辨率结合起来,提出了一个新的特征选择方法。该方法首先利用特征分辨率进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明此种特征选择方法效果良好。  相似文献   

2.
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果.分析了词频法和文档频法并总结了其缺陷,给出了一个改进的文档频方法;引进粗糙集理论,提出了一个属性约简算法;最后提出了一个新的特征选择方法.该特征选择方法使用改进的文档频初选特征并用所提属性约简算法消除冗余.仿真结果表明该特征选择方法性能较好.  相似文献   

3.
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。在分析词频方法和文档频方法不足的基础上提出了特征辨别能力,把元信息引入粗糙集并提出了一个基于元信息的属性约简算法,给出了一个综合性特征选择方法。该方法利用特征辨别能力进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,使用所提属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明:所提特征选择方法在一定程度上具有一定的优势。  相似文献   

4.
特征选择是文本分类中的核心研究课题之一。简单分析了词频和文档频,在此基础上提出了类内集中度,把集合覆盖的思想引入粗糙集并提出了一个基于最小集合覆盖的属性约简算法,把该属性约简算法同类内集中度结合起来,提出了一个新的特征选择方法。该方法利用类内集中度进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,利用所提约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明此种特征选择方法效果良好。  相似文献   

5.
特征选择是文本分类的一个重要步骤。分析了互信息,针对其不足引进了粗糙集给出了一个基于关系积的属性约简算法,并以此为基础提出了一个新的适用于海量文本数据集的特征选择方法。该方法使互信息进行特征初选,利用基于关系积的属性约简算法消除冗余词。实验结果表明此种特征选择方法的微平均F1和宏平均F1较高。  相似文献   

6.
文本分类是根据未知文本的内容将其划分到一个或多个预先定义的类别的过程,是许多基于内容的信息管理任务的重要组成部分.文本分类问题的难点是特征空间的高维性,通常采用特征选择作为降维的重要方法.将属性约简和文本分类的特点相结合,提出了一种基于粗糙集的特征选择算法即改进的快速约简算法.实验表明该算法是有效的,不仅可以降低特征空间的维度,而且能够维持高精度.  相似文献   

7.
基于粗糙集的特征选择方法的研究   总被引:1,自引:1,他引:0  
文本自动分类是指将文本按照一定的策略归于一个或多个类别中的应用技术。文本分类是文本挖掘的基础,而特征选择又是文本分类中的核心。论文分析了以前特征选择方法中由于特征数目过多而造成分类时间和精度不高的缺点,提出了一种基于粗糙集的特征选择方法,其特点是以特征在文本分类中的重要性对特征进行选择。最后通过实验验证了该算法,证明该方法是可行的。  相似文献   

8.
介绍了基于辨识集的属性约简算法,把该属性约简算法同类别相关性结合起来,提出了一个综合的特征选择方法.该综合方法使用类别相关性进行特征初选,并用所提属性约简算法消除冗余.实验结果表明此种特征选择方法能够获得较具代表性的特征子集.  相似文献   

9.
人工智能、大数据技术日新月异,快速更迭,粗糙集是众多提供决策支持的方法之一。集成部分粗糙集属性约简算法,合并决策表预处理方法,设计了RSLibrary,在这个基础上实现了基于粗糙集的特征选择系统,包括不同度量条件下的基本约简和三类加速约简算法。  相似文献   

10.
研究互信息理论,针对其不足引进粗糙集并给出一个基于关系积理论的属性约简算法,以此为基础提出一个适用于海量文本数据集的特征选择方法。该方法使用互信息进行特征初选,利用所给的属性约简算法消除冗余,从而获得具有代表性的特征子集。实验结果表明,该特征选择方法效果良好。  相似文献   

11.
近来一些学者用差别矩阵或差别矩阵的思想设计了基于正区域的属性约简算法.由于计算差别矩阵是一个既消耗时间又消耗空间的过程,故这些算法的效率并不好.为了降低这类属性约简算法的复杂度,文中利用基于区分对象对的属性约简的思想,在简化决策表的基础上,定义了一个函数,该函数能度量简化决策表中条件属性集产生的区分对象对的个数,并用该函数设计了一个启发函数,同时给出了计算该启发函数的快速算法,经分析其时间和空间复杂度均为O(|U/C|).最后用该启发函数设计了一个有效的基于正区域的属性约简算法,该算法的时间复杂度降为O(|C||U|),空间复杂度降为O(|U|).文中还用一个具体实例说明了新算法的有效性.经实验证明,新算法具有较高的效率.  相似文献   

12.
特征选取技术主要目的之一是选取代表问题域的最优特征子集,提高分类的有效性和可伸缩性。文章在粗糙集理论框架下,提出了一种能处理不相容数据的特征选取算法,它以属性重要性和平均规则支持度作为特征选取的启发式信息,并且通过实验验证该算法的有效性。最后,将该算法应用到客户满意度特征选取中,对于识别和保留客户具有重要现实意义。  相似文献   

13.
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。论文首先定义了两种特征分类能力:一种是特征对类间文档的分散程度,该分散度越大越好;另一种是特征对类内文档的聚集程度,该集中度越大越好。然后把这两种特征影响度有机地结合起来设计了一个新的特征选择方法,该方法能够对所选特征进行综合考虑,从而使获得的特征集具有较好的代表性。仿真实验表明所提特征选择方法在一定程度上能够提高文本分类性能。  相似文献   

14.
特征选择作为多标记学习任务中关键预处理步骤,能够有效地解决高维多标记数据存在的维度灾难问题。在现有大部分的多标记学习中,标记是以逻辑分布的形式刻画,即示例中相关标记的重要性相同;然而,在许多现实生活中,每个示例的标记重要程度呈现差异性。本文提出了一种基于模糊相似性的标记增强算法,通过衡量示例中标记的模糊相关性,将传统的多标记数据转换为标记分布数据;分析了标记分布数据中在标记上的标记差异性和在特征上的模糊相对辨识关系,给出了在标记空间和特征空间上的模糊辨识度,并构造了衡量特征辨识能力的特征重要度;在此基础上,构建面向标记分布数据的特征选择算法,能获得按特征重要度降序的特征选择结果。最后通过在多个多标记数据集上实验对比和分析,进一步验证了算法的有效性和可行性。  相似文献   

15.
基于文本集密度的特征词选择与权重计算方法   总被引:3,自引:0,他引:3  
根据汉语语言自身的特点,在基于原有的特征项提取方法基础之上,提出了基于文本集密度的特征词选择的思想,对于特征项个数和选择进行了界定,找出了不损失文本有效信息的最小特征词语集,并且利用其中的中间值作为词语权重计算的一部分,创造出更为合理的权重计算方案。最后利用一种新的衡量权重好坏的标准——元打分法,对文中所提出的方法的正确性和有效性进行了实验和证明。  相似文献   

16.
朱颢东  钟勇 《计算机工程》2010,36(19):39-41
传统特征选择方法选出的特征子集存在冗余,并且不具备较好的代表性。针对该问题,提出基于粗糙集与泛系等价算子的特征选择方法。利用基于最小词频的文档频提取初始特征,通过泛系等价算子对粗糙集进行扩展,并给出属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明,该方法具有较高的准确率和召回率。  相似文献   

17.
在多标记学习中,数据降维是一项重要且具有挑战性的任务,而特征选择又是一种高效的数据降维技术。在邻域粗糙集理论的基础上提出一种多标记专属特征选择方法,该方法从理论上确保了所得到的专属特征与相应标记具有较强的相关性,进而改善了约简效果。首先,该方法运用粗糙集理论的约简算法来减少冗余属性,在保持分类能力不变的情况下获得标记的专属特征;然后,在邻域精确度和邻域粗糙度概念的基础上,重新定义了基于邻域粗糙集的依赖度与重要度的计算方法,探讨了该模型的相关性质;最后,构建了一种基于邻域粗糙集的多标记专属特征选择模型,实现了多标记分类任务的特征选择算法。在多个公开的数据集上进行仿真实验,结果表明了该算法是有效的。  相似文献   

18.
张姣  曾艳燕  王驹  徐章艳 《计算机工程》2012,38(19):179-182,187
在不完备决策表中对求核算法的研究较少,且时间复杂度都相对较高.为此,根据不完备决策表中差别矩阵及其核的定义,给出条件属性的区分对象对集的定义,并得出其与决策表核属性的关系,从理论上证明求解不完备决策表的核可以转化到求条件属性的区分对象对集上.结合不完备决策表差别矩阵核的性质,提出一种基于区分对象对集的不完备决策表求核算法.实验结果表明,该算法的时间复杂度优于同类算法的时间复杂度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号