首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 171 毫秒
1.
为了提高分类算法的运行速度,降低占用的内存空间,必须使用特征选择算法.首先分析了几种经典特征选择方法并总结了它们的不足,然后提出了特征辨别能力的概念,紧接着把粗糙集引进来并给出了一个基于二进制可辨矩阵的属性约简算法,最后把该属性约简算法同所提特征辨别能力结合起来,给出了一个综合的特征选择方法.该方法首先利用所提特征辨别能力进行特征初选以过滤掉一些词条,然后利用所提属性约简算法消除冗余.实验结果表明此种特征选择方法效果良好.  相似文献   

2.
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。首先简单分析了几种经典的特征选择方法,总结了它们的不足,然后提出了特征分辨率的概念,并提出了一个基于差别对象对集的属性约简算法,最后把该属性约简算法同特征分辨率结合起来,提出了一个新的特征选择方法。该方法首先利用特征分辨率进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明此种特征选择方法效果良好。  相似文献   

3.
基于分形维数的属性约简算法与特征辨别能力相结合,提出了一个综合的特征选择方法.该方法利用特征辨别能力进行特征初选,过滤掉一些词条来降低特征空间的稀疏性,以利用所提约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,此种特征选择方法效果良好.  相似文献   

4.
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果.分析了词频法和文档频法并总结了其缺陷,给出了一个改进的文档频方法;引进粗糙集理论,提出了一个属性约简算法;最后提出了一个新的特征选择方法.该特征选择方法使用改进的文档频初选特征并用所提属性约简算法消除冗余.仿真结果表明该特征选择方法性能较好.  相似文献   

5.
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。首先简单分析了几种经典的特征选择方法,总结了它们的不足,然后提出了类内集中度的概念,紧接着把分层递阶的思想引入粗糙集并提出了一个改进的基于分层递阶的属性约简算法,最后把该约简算法同类内集中度结合起来,提出了一个综合的特征选择方法。该方法首先利用类内集中度进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用所提约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明此种特征选择方法效果良好。  相似文献   

6.
特征选择是文本分类中的核心研究课题之一。简单分析了词频和文档频,在此基础上提出了类内集中度,把集合覆盖的思想引入粗糙集并提出了一个基于最小集合覆盖的属性约简算法,把该属性约简算法同类内集中度结合起来,提出了一个新的特征选择方法。该方法利用类内集中度进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,利用所提约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明此种特征选择方法效果良好。  相似文献   

7.
朱颢东  钟勇 《计算机科学》2009,36(11):196-199
在文本分类中,特征空间的维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普遍现象.为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,必须使用特征选择算法.首先给出了一个基于最小词频的文档频方法,然后把粗糙集引入进来并提出了一个基于Beam搜索的属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择算法.该算法首先利用基于最小词频的文档频方法进行特征选择,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明该算法是有效的.  相似文献   

8.
结合新型文档频和二进制可辨矩阵的特征选择   总被引:1,自引:0,他引:1  
马春华  朱颢东  钟勇 《计算机应用》2009,29(8):2268-2271
特征选择是文本分类的一个核心研究课题。分析了几种经典特征选择方法并总结了它们的不足,提出了一个新型文档频,引入粗糙集理论,并给出了一个基于二进制可辨矩阵的属性约简算法,最后把该属性约简算法同新型文档频结合起来,提供了一个综合的特征选择方法。该方法首先利用新型文档频进行特征初选以过滤掉一些词条,然后利用所提属性约简算法消除冗余。通过对人民网的8类新闻组,每类300篇文档的分类实验,结果表明此种特征选择方法在分类准确率和召回率上优于互信息、CHI和信息增益方法。  相似文献   

9.
介绍了基于辨识集的属性约简算法,把该属性约简算法同类别相关性结合起来,提出了一个综合的特征选择方法.该综合方法使用类别相关性进行特征初选,并用所提属性约简算法消除冗余.实验结果表明此种特征选择方法能够获得较具代表性的特征子集.  相似文献   

10.
研究互信息理论,针对其不足引进粗糙集并给出一个基于关系积理论的属性约简算法,以此为基础提出一个适用于海量文本数据集的特征选择方法。该方法使用互信息进行特征初选,利用所给的属性约简算法消除冗余,从而获得具有代表性的特征子集。实验结果表明,该特征选择方法效果良好。  相似文献   

11.
自动文本分类的效果在很大程度上依赖于属性特征的选择。针对传统基于频率阈值过滤的特征选择方法会导致有效信息丢失,影响分类精度的不足,提出了一种基于粗糙集的文本自动分类算法。该方法对加权后的特征属性进行离散化,建立一个决策表;根据基于依赖度的属性重要度对决策表中条件属性进行适当的筛选;采用基于条件信息熵的启发式算法实现文本属性特征的约简。实验结果表明,该方法能约简大量冗余的特征属性,在不降低分类精度的同时,提高文本分类的运行效率。  相似文献   

12.
基于互信息和粗糙集理论的特征选择   总被引:2,自引:0,他引:2       下载免费PDF全文
朱颢东  李红婵 《计算机工程》2011,37(15):181-183
针对互信息方法在精度方面的不足,通过引入粗糙集,给出一种基于关系积理论的属性约简算法,以此为基础提出一个适用于海量文本数据集的特征选择方法。该方法采用互信息进行特征初选,利用提出的属性约简算法消除冗余,获得较具代表性的特征子集。实验结果表明,该特征选择方法能获得冗余度小且较具代表性的特征子集。  相似文献   

13.
特征选择是文本分类的一个重要步骤。分析了互信息,针对其不足引进了粗糙集给出了一个基于关系积的属性约简算法,并以此为基础提出了一个新的适用于海量文本数据集的特征选择方法。该方法使互信息进行特征初选,利用基于关系积的属性约简算法消除冗余词。实验结果表明此种特征选择方法的微平均F1和宏平均F1较高。  相似文献   

14.
文本挖掘之前首先要对文本集进行有效的特征选择,传统的特征选择算法在维数约减及文本表征方面效果有限,并且因需要用到文本的类别信息而不适用于无监督的文本聚类任务。针对这种情况,设计一种适用于文本聚类任务的特征选择算法,提出词条属性的概念,首先基于词频、文档频、词位置及词间关联性构建词条特征模型,重点研究了词位置属性及词间关联性属性的权值计算方法,改进了Apriori算法用于词间关联性属性权值计算,然后通过改进的k-means聚类算法对词条特征模型进行多次聚类完成文本特征选择。实验结果表明,与传统特征选择算法相比,该算法获得较好维数约减率的同时提高了所选特征词的文本表征能力,能有效适用于文本聚类任务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号