首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 64 毫秒
1.
分析了特征选择与特征抽取的特点与不足,针对Fisher线性鉴别准则存在问题,在一种加权散度差线性鉴别准则的基础上提出了一种基于散度差与SVD相结合的文本特征抽取方法.在解决了类内散布矩阵Sw的奇异性问题困扰同时,通过对低阶矩阵的奇异值分解取代了对高阶矩阵的特征值求解,计算量大大减少.在最低限度减少信息损失的前提下实现了特征维数的大幅度减缩.试验结果表明,这种方法在文本分类上的准确性较好.  相似文献   

2.
研究了一种基于核的最大散度差准则的文本特征抽取方法。首先回顾了文本分类中特征降维的主要方法、Fisher准则及其相关研究进展以及存在的问题;然后分析了基于散度差准则的线性鉴别方法的优点与不足,借助于核函数较好地解决了线性可分性较差的样本分类问题,在最低限度减少信息损失的前提下实现了特征维数的大幅度减缩。实验结果表明,该方法在文本分类上的效果较好。  相似文献   

3.
研究了一种基于核的最大散度差准则的文本特征抽取方法。首先回顾了文本分类中特征降维的主要方法、Fisher准则及其相关研究进展以及存在的问题;然后分析了基于散度差准则的线性鉴别方法的优点与不足,借助于核函数较好地解决了线性可分性较差的样本分类问题,在最低限度减少信息损失的前提下实现了特征维数的大幅度减缩。实验结果表明,该方法在文本分类上的效果较好。  相似文献   

4.
研究了文本挖掘中的高维特征选取问题,对常见的降维主要方法:特征选择和特征抽取等算法进行了理论分析与性能比较,评价了它们的优缺点和适用范围。  相似文献   

5.
文本挖掘中特征降维方法比较研究   总被引:1,自引:0,他引:1  
研究了文本挖掘中的高维特征选取问题.对常见的降维主要方法:特征选择和特征抽取等算法进行了理论分析与性能比较.评价了它们的优缺点和适用范围。  相似文献   

6.
本文提出了一种新的非线性特征抽取方法——基于散度差准则的隐空间特征抽取方法。该方法的主要思想就是首先利用一核函数将原始输入空间非线性变换到隐空间,然后,在该隐空间中,利用类间离散度与类内离散度之差作为鉴别准则进行特征抽取。与现有的核特征抽取方法不同,该方法不需要核函数满足Mercer定理,从而增加了核函数的选择范围。更为重要的是,由于采用了散度差作为鉴别准则,从根本上避免了传统的Fisher线性鉴别分析所遇到的小样本问题。在ORL人脸数据库和AR标准人脸库上的试验结果验证了本文方法的有效性。  相似文献   

7.
最大散度差分类器及其在文本分类中的应用   总被引:7,自引:0,他引:7  
提出的最大散度差分类器是在修正Fisher线性鉴别准则的基础上建立起来的,它与Rocchio和SVM分类器有着十分密切的联系,在国际标准语料库20Ncwsgroups上进行的仿真实验结果表明,最大散度差分类器具有良好的文本分类性能,其正确识别率明显高于Naive Bayes和Rochio,与SVM相当。  相似文献   

8.
本文讨论了一种基于正交变换的文本特征降维方法.分析了基于特征选择和特征抽取的特征降维方法各自特点,借助矩阵的分解论证了基于Fisher准则函数的特征降维模式的原理与理论基础,讨论了PCA与SVD两种模式的相互关系.实验结果表明这种特征降维模式在文本分类的准确性方面效果较好.  相似文献   

9.
目前常用向量空间模型VSM表示文档,造成的高维问题制约其实际应用的效果。在研究现有的特征降维技术的基础上,对部分常用的特征提取方法做简要的分析,综合类间集中度、类内分散度、反文档频率,提出一种新的特征选择方法,通过实验验证该特征选择方法的有效性。  相似文献   

10.
文本分类中基于位置和类别信息的一种特征降维方法*   总被引:2,自引:0,他引:2  
从文本特征项所处的位置角度提出了特征项基于位置的降维方法;同时结合特征的类别分布进行了二次特征降维。这种基于位置和类别相结合的特征降维方法在最大程度减少信息损失的条件下,实现了特征维数的有效压缩。实验表明,该方法有较高的文本分类效率。  相似文献   

11.
对高维特征集的降维是文本分类的一个主要问题。在分析现有特征降维方法的基础上,借助《知网》提出一种新的二次降维方法:采用传统的特征选择方法提取一个候选特征集合;利用《知网》对候选集合中的特征项进行概念映射,把大量底层分散的原始特征项替换成少量的高层概念进行第二次特征降维。实验表明,这种方法可以在减少文本语义信息丢失的前提下,有效地降低特征空间维数,提升文本分类的准确度。  相似文献   

12.
Text classification (TC) is a very crucial task in this century of high-volume text datasets. Feature selection (FS) is one of the most important stages in TC studies. In the literature, numerous feature selection methods are recommended for TC. In the TC domain, filter-based FS methods are commonly utilized to select a more informative feature subsets. Each method uses a scoring system that is based on its algorithm to order the features. The classification process is then carried out by choosing the top-N features. However, each method's feature order is distinct from the others. Each method selects by giving the qualities that are critical to its algorithm a high score, but it does not select by giving the features that are unimportant a low value. In this paper, we proposed a novel filter-based FS method namely, brilliant probabilistic feature selector (BPFS), to assign a fair score and select informative features. While the BPFS method selects unique features, it also aims to select sparse features by assigning higher scores than common features. Extensive experimental studies using three effective classifiers decision tree (DT), support vector machines (SVM), and multinomial naive bayes (MNB) on four widely used datasets named Reuters-21,578, 20Newsgroup, Enron1, and Polarity with different characteristics demonstrate the success of the BPFS method. For feature dimensions, 20, 50, 100, 200, 500, and 1000 dimensions were used. The experimental results on different benchmark datasets show that the BPFS method is more successful than the well-known and recent FS methods according to Micro-F1 and Macro-F1 scores.  相似文献   

13.
特征降维是文本分类过程中的一个重要环节。在现有特征选择方法的基础上,综合考虑特征词在正类和负类中的分布性质,综合四种衡量特征类别区分能力的指标,提出了一个新的特征选择方法,即综合比率(CR)方法。实验采用K-最近邻分类算法(KNN)来考查CR方法的有效性,实验结果表明该方法能够取得比现有特征选择方法更优的降维效果。  相似文献   

14.
斯琴  张力  廉德亮 《计算机应用》2009,29(9):2348-2350
基于格式的文本水印算法对格式攻击的鲁棒性比较差,而基于自然语言的文本水印算法相对难以实现,因此提出一种基于词频的文本零水印算法。对文本内容进行分词并计算每个分词的词频,根据设定的词频阈值范围依次提取分词序列作为文本特征,将文本特征、水印和密钥注册于版权保护(IPR)信息库。水印检测可实现盲检测。将该算法用于含有图像等多媒体信息的中英文文档,试验结果证明,该算法对剪切、粘贴、内容顺序颠倒等攻击有较强的鲁棒性。  相似文献   

15.
基于类信息的文本特征选择与加权算法研究   总被引:3,自引:1,他引:2  
文本自动分类中特征选择和加权的目的是为了降低文本特征空间维数、去除噪音和提高分类精度。传统的特征选择方案筛选出的特征往往偏爱类分布不均匀文档集中的大类,而常用的TF·IDF特征加权方案仅考虑了特征与文档的关系,缺乏对特征与类别关系的考虑。针对上述问题,提出了基于类别信息的特征选择与加权方法,在两个不同的语料集上进行比较和分析实验,结果显示基于类别信息的特征选择与加权方法比传统方法在处理类分布不均匀的文档集时能有效提高分类精度,并且降维程度有所提高。  相似文献   

16.
陈才扣  史骏  侯钰  姜敏 《计算机工程与设计》2011,32(7):2482-2484,2489
为了将局部信息有效地运用到特征抽取并提高算法的鲁棒性,同时考虑到在人脸识别应用中出现的高维小样本问题,提出了一种基于局部均值的广义散度差无监督鉴别分析。该方法利用样本的非局部均值散度与倍的局部均值散度之差作为鉴别函数,不仅保留了样本分布的局部信息,而且避免了局部均值散度可能奇异的问题,并给出了算法的识别率随模型参数变化的曲线。YALE和FERET人脸数据库上的实验结果表明了该方法的有效性。  相似文献   

17.
最大散度差无监督鉴别特征抽取与人脸识别   总被引:1,自引:0,他引:1  
最大散度差准则是对Fisher准则的改进,消除了小样本问题,但是该方法是基于整体特征的人脸识另q方?法,没有考虑到样本的局部特性.无监督的鉴别投影(UDP)技术,用于对高维数据进行维数缩减,它同时考虑到样本的局部特征和非局部特征,但是在人脸等高维图像识别的应用中,不可避免地会出现小样本问题.提出一种基于散度差的无监督鉴别特征抽取,避免了局部协方差奇异所产生的问题.在ORL人脸库和AR人脸库上的实验结果验证了该算法的有效性.  相似文献   

18.
基于量子遗传算法的文本特征选择方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
特征选择方法是文本自动分类中的一项关键技术,提出了一种基于量子遗传算法的文本特征选择新方法,该方法用量子比特对文本向量进行编码,用量子旋转门和量子非门对染色体进行更新,同时,针对信息过滤的特点,对适应度函数进行了改进,充分考虑了特征权值、文本相似度和向量维数等。实验证明,该方法可以极大地降低文本的维数,提高分类的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号