首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
张彪  刘贵全 《计算机工程》2010,36(22):184-186
提出一种在选取特征时考虑特征与特征之间联系的算法。对特征词之间的关联关系进行挖掘,找出那些对类别有重要影响的特征词组,而这些特征词组中的每个单词在传统单独打分策略的特征选择算法中很可能会因分值过低而被丢弃。在Ruters21578、20Newsgroup文本数据集上进行实验,将算法与广泛应用的特征选择算法(信息增益、CHI等)进行对比、分析。实验结果表明该方法是一种有特点、有效的特征选择方法。  相似文献   

2.
一种基于关联性的特征选择算法   总被引:1,自引:0,他引:1  
目前在文本分类领域较常用到的特征选择算法中,仅仅考虑了特征与类别之间的关联性,而对特征与特征之间的关联性没有予以足够的重视.提出一种新的基于关联分析的特征选择算法,该方法以信息论量度为基本工具,综合考虑了计算代价以及特征评估的客观性等问题.算法在保留类别相关特征的同时识别并摒弃了冗余特征,取得了较好的约简效果.  相似文献   

3.
在文本分类中,对高维的特征集进行降维是非常重要的,不但可以提高分类精度和效率,也可以找出富含信息的特征子集.而特征选择是有效降低特征向量维数的一种方法.目前常用的一些特征选择算法仅仅考虑了特征词与类别间的相关性,而忽略了特征词与特征词之间的相关性,从而存在特征冗余,影响了分类效果.为此,在分析了常用的一些特征选择算法之后,提出了一种基于mRMR模型的特征选择方法.实验表明,该特征选择方法有助于提高分类性能.  相似文献   

4.
提出了一种优化互信息文本特征选择方法。针对互信息模型的不足之处主要从三方面进行改进:用权重因子对正、负相关特征加以区分;以修正因子的方式在MI中引入词频信息对低频词进行抑制;针对特征项在文本里的位置差异进行基于位置的特征加权。该方法改善了MI模型的特征选择效率。文本分类实验结果验证了提出的优化互信息特征选择方法的合理性与有效性。  相似文献   

5.
Web文本挖掘及特征选择   总被引:11,自引:0,他引:11  
文章介绍了Web挖掘的有关理论,从Web文本挖掘的定义,Web文本挖掘任务的功能等方面加以阐述,然后重点分析了Web文本挖掘,文本的特征表示,特征选择,将多维文本分析与文本挖掘这两种技术有机地结合起来,快速,有效地挖掘Web上的HTML文档,最后,概述了Web文本挖掘的用途和前景。  相似文献   

6.
提出了一种主观性文本分析方法.方法采用多种不同策略表示文本,使用特征选择算法消除不相关特征及冗余特征后,训练SVM对文本按主观性和客观性进行分类.采用的特征选择算法以Simba为基础,通过实验对其迭代和相似度计算方法进行了改进,克服了在实际应用中出现的不稳定性问题.分别在中英文语料上进行了实验,结果表明该方法在实验语料...  相似文献   

7.
信息增益方法从整个训练集角度进行特征赋权,该模式不适合构造类别特征向量.通过改进的朴素贝叶斯方法选择类别特征用于构造类别向量,再利用词频信息改进信息增益模型用于文本特征选择,改善了信息增益模型对于中频词信息利用不足问题,提出一种基于类别的文本特征加权改进模型.随后的文本分类试验表明,提出的加权模型相比较于传统的信息增益方法具有较好的文本分类效果.  相似文献   

8.
该文主要对文本自动分类的特征选择方法进行了讨论,分析了几种常见方法存在的缺陷,指出影响出文本特征选择的两个重要因素——特征项在类别内的文档频率和在类别间的分布差异,并以这两个因素为影响因子分别对TF-IDF和IG方法进行了改进。另外还介绍了朴素贝叶斯分类模型,并基于此模型对改进的特征选择方法的分类效果进行评估。实验结果表明,改进后的方法能够强化特征项在特定类别中的影响力,提高文本分类效果。  相似文献   

9.
《个人电脑》2003,9(8):146-146
这台由微软和惠普公司开发的下一代PC被命名为雅典(Athens),它有一个宽屏显示器,视频摄像机和无线手机。该系统用不同颜色的闪光来表示有新来的语音通话或电子邮件。它的蓝牙和802.11无线链接功能降低了机箱内电缆的混乱程度。当你按下电源按钮时,它会在不到2秒钟内进入待机模式。  相似文献   

10.
袁轶  王新房 《计算机工程》2012,38(12):155-157
中文文本分类中传统特征选择算法在低维情况下分类效果不佳。为此,提出一种结合方差思想的评估函数,选出具有较强类别信息的词条,在保证整体分类性能不下降的同时,提高稀有类别的分类精度。采用中心向量分类器,在TanCorpV1.0语料上进行实验,结果表明,该方法在低维空间优势明显,与常用的文档频率、信息增益等9种特征选择算法相比,宏平均值均有较大提高。  相似文献   

11.
一种基于聚类的文本特征选择方法   总被引:6,自引:0,他引:6  
传统的文本特征选择方法存在一个共性,即通过某种评价函数分别计算单个特征对类别的区分能力,由于没有考虑特征间的关联性,这些方法选择的特征集往往存在着冗余。针对这一问题,提出了一种基于聚类的特征选择方法,先使用聚类的方法对特征间的冗余性进行裁减,然后使用信息增益的方法选取类别区分能力强的特征。实验结果表明,这种基于聚类的特征选择方法使得文本分类的正确性得到了有效的提高。  相似文献   

12.
特征降维是文本分类过程中的一个重要环节。在现有特征选择方法的基础上,综合考虑特征词在正类和负类中的分布性质,综合四种衡量特征类别区分能力的指标,提出了一个新的特征选择方法,即综合比率(CR)方法。实验采用K-最近邻分类算法(KNN)来考查CR方法的有效性,实验结果表明该方法能够取得比现有特征选择方法更优的降维效果。  相似文献   

13.
针对文本信息特征冗余多、噪声大问题,提出基于和声搜索机制的文本特征选择算法.以词频逆文本频率指数为目标函数评估特征词条;在初始文档集中通过和声搜索的记忆考虑、纵向倾角调整和随机选择3种特征选择新解更新规则,迭代搜索最优特征子集;以最优特征子集为基础,以K均值进行文本聚类.利用4种典型文档数据集进行仿真实验,实验结果表明...  相似文献   

14.
基尼指数在文本特征选择中的应用研究   总被引:1,自引:0,他引:1  
林永民  朱卫东 《计算机应用》2007,27(10):2584-2586
使用基尼指数原理进行了文本特征选择的研究,构造了基于基尼指数的适合于文本特征选择的评估函数。结合fkNN和SVM两种不同的分类方法,在两个不同的语料集上,与其他著名的文本特征选择方法进行比较和分析实验,结果显示它的性能与现有的特征选择方法不相上下,但在算法时间复杂上获得了良好的性能。  相似文献   

15.
基于类信息的文本特征选择与加权算法研究   总被引:3,自引:1,他引:2  
文本自动分类中特征选择和加权的目的是为了降低文本特征空间维数、去除噪音和提高分类精度。传统的特征选择方案筛选出的特征往往偏爱类分布不均匀文档集中的大类,而常用的TF·IDF特征加权方案仅考虑了特征与文档的关系,缺乏对特征与类别关系的考虑。针对上述问题,提出了基于类别信息的特征选择与加权方法,在两个不同的语料集上进行比较和分析实验,结果显示基于类别信息的特征选择与加权方法比传统方法在处理类分布不均匀的文档集时能有效提高分类精度,并且降维程度有所提高。  相似文献   

16.
一种改进的文本分类特征选择方法   总被引:1,自引:0,他引:1       下载免费PDF全文
文本分类中特征空间的高维问题是文本分类的主要障碍之一。特征选择(Feature Selection)是一种有效的特征降维方法。现有的特征选择函数主要有文档频率(DF),信息增益(IG),互信息(MI)等。基于特征的基本约束条件以及高性能特征选择方法的设计步骤,提出了一种改进的特征选择方法SIG。该特征选择方法在保证分类效果的同时,提高了对中低频特征的偏向。在语料集Reuters-21578上的实验证明,该方法能够获得较好的分类效果,同时有效提高了对具有强分类能力的中低频特征的利用。  相似文献   

17.
文本挖掘之前首先要对文本集进行有效的特征选择,传统的特征选择算法在维数约减及文本表征方面效果有限,并且因需要用到文本的类别信息而不适用于无监督的文本聚类任务。针对这种情况,设计一种适用于文本聚类任务的特征选择算法,提出词条属性的概念,首先基于词频、文档频、词位置及词间关联性构建词条特征模型,重点研究了词位置属性及词间关联性属性的权值计算方法,改进了Apriori算法用于词间关联性属性权值计算,然后通过改进的k-means聚类算法对词条特征模型进行多次聚类完成文本特征选择。实验结果表明,与传统特征选择算法相比,该算法获得较好维数约减率的同时提高了所选特征词的文本表征能力,能有效适用于文本聚类任务。  相似文献   

18.
为了有效消除声发射信号中的噪声,将广义S变换滤波方法应用于声发射信号去噪,分别采用广义S变换中的充零法、基于带通滤波器设计滤波算子法以及时频滤波法进行滤波比较,针对信号的不同时频特性设计了相应的时频滤波算子。结果表明,基于S变换的三种时频滤波法对声发射信号的去噪均有较好的效果,克服了传统滤波方法滤波因子不能随时间、频率变化而变化的缺陷。其中时频滤波法在高信噪比和低信噪比情况下都能更好地去除噪声,可以满足信号处理的要求。  相似文献   

19.
基于量子遗传算法的文本特征选择方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
特征选择方法是文本自动分类中的一项关键技术,提出了一种基于量子遗传算法的文本特征选择新方法,该方法用量子比特对文本向量进行编码,用量子旋转门和量子非门对染色体进行更新,同时,针对信息过滤的特点,对适应度函数进行了改进,充分考虑了特征权值、文本相似度和向量维数等。实验证明,该方法可以极大地降低文本的维数,提高分类的准确率。  相似文献   

20.
为了避免文本特征提取过程中负相关特征与弱相关特征产生的干扰,提出一个新的基于类别正相关和强相关(SP)的特征提取方法。通过结合正相关性因子和强相关因子,SP方法能够有效地区别特征与类别正负相关性和强弱相关程度,通过优先选择正相关和强相关特征,避免了负相关和弱相关特征的干扰,从而有效地提取高质量的文本特征。实验结果表明,该方法具有强降维能力和良好的分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号