首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
当前,常用文本分类特征选择算法主要通过某种评价函数来计算单个特征对类别的区分能力,由于仅考虑了特征和类别之间的关联性,忽略了特征与特征之间的相关性,从而导致特征集存在冗余。针对这一问题,本文提出了一种新的用于文本分类的特征选择算法,该算法可以帮助选出类别区分能力强,特征之间关联性弱的特征。实验证实,该算法的性能要优于传统的特征选择算法。  相似文献   

2.
在文本分类领域中.目前较常用到的特征选择算法都是通过某种评价函数分别计算单个特征对类别的区分能力,仅仅考虑了特征与类别之间的关联性,而对特征与特征之间的关联性没有予以足够的重视.这导致了特征集往往存在着冗余。针对这一问题,提出一种新的用于文本分类的特征选择算法.它可以帮助选出区分能力强、弱相关的特征。经实验验证.该方法比传统的特征选择算法具有更好的性能。  相似文献   

3.
一种基于关联性的特征选择算法   总被引:1,自引:0,他引:1  
目前在文本分类领域较常用到的特征选择算法中,仅仅考虑了特征与类别之间的关联性,而对特征与特征之间的关联性没有予以足够的重视.提出一种新的基于关联分析的特征选择算法,该方法以信息论量度为基本工具,综合考虑了计算代价以及特征评估的客观性等问题.算法在保留类别相关特征的同时识别并摒弃了冗余特征,取得了较好的约简效果.  相似文献   

4.
何玲  罗玉双 《福建电脑》2010,26(1):83-83,98
文本自动分类中,比较常用的特征选择算法是通过评估函数来计算特征对类别的区别能力.虽然对这些方法已有了大量的改进,但是特征选择还有进一步改进的空间。本文提出了一种新的文本自动分类特征选择算法——基于相对比较法,该方法考虑特征与特征之间的相关性,不仅选择出对文本区别度大的特征词作为特征词集.还减少了冗余的特征词,从而降低文本特征向量的维数,提高文本分类的效率。  相似文献   

5.
陈建华  王治和  蒋芸 《计算机工程》2012,38(9):186-188,192
提出一种基于类别区分度和关联性分析的综合特征选择算法。利用类别区分度提取具有较强类别区分能力的特征词,降低特征空间的稀疏性,通过特征的关联性分析衡量特征与类别的相关性及特征之间的冗余度,选出具有类别代表性且相互之间不存在冗余的特征词。实验结果表明,该算法能有效提高分类器性能。  相似文献   

6.
文本挖掘之前首先要对文本集进行有效的特征选择,传统的特征选择算法在维数约减及文本表征方面效果有限,并且因需要用到文本的类别信息而不适用于无监督的文本聚类任务。针对这种情况,设计一种适用于文本聚类任务的特征选择算法,提出词条属性的概念,首先基于词频、文档频、词位置及词间关联性构建词条特征模型,重点研究了词位置属性及词间关联性属性的权值计算方法,改进了Apriori算法用于词间关联性属性权值计算,然后通过改进的k-means聚类算法对词条特征模型进行多次聚类完成文本特征选择。实验结果表明,与传统特征选择算法相比,该算法获得较好维数约减率的同时提高了所选特征词的文本表征能力,能有效适用于文本聚类任务。  相似文献   

7.
张永  李晓红  樊斌 《计算机工程》2009,35(18):182-184
不等式最大熵模型较为成功地缓解了文本分类任务中的过拟合问题,但它使用的特征选择算法不能完全发挥不等式最大熵的最大优势。针对该问题提出采用改进的顺序前进式选择算法,提高文本分类任务中的识别率,试验结果证明该算法能够更准确地选出文本代表特征,对不等式最大熵模型的分类成绩有一定的改善。  相似文献   

8.
基于多特征选择的中文文本分类   总被引:1,自引:0,他引:1  
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

9.
文本分类中基于基尼指数的特征选择算法研究   总被引:14,自引:3,他引:14  
随着网络的发展,大量的文档数据涌现在网上,用于处理海量数据的自动文本分类技术变得越来越重要,自动文本分类已成为处理和组织大量文档数据的关键技术.对于采用矢量空间模型(VSM)的大多数分类器来说,文本预处理成为分类的瓶颈,高维的特征空间对于大多数分类器来说是难以忍受的,因此采用适当的文本特征选择算法降低原始文本特征空间的维数成为文本分类的首要任务.目前也有很多的文本特征选择算法,介绍了另一种新的基于基尼指数的文本特征选择算法,使用基尼指数原理进行了文本特征选择的研究,构造了基于基尼指数的适合于文本特征选择的特征选择评估函数.实验表明,基于基尼指数的文本特征选择能进一步提高分类性能,而且计算复杂度小.  相似文献   

10.
唐小川  邱曦伟  罗亮 《计算机应用》2018,38(7):1857-1861
针对文本分类中的特征选择问题,提出了一种考虑特征之间交互作用的文本分类特征选择算法——Max-Interaction。首先,通过联合互信息(JMI),建立基于信息论的文本分类特征选择模型;其次,放松现有特征选择算法的假设条件,将特征选择问题转化为交互作用优化问题;再次,通过最大最小法避免过高估计高阶交互作用;最后,提出一个基于前向搜索和高阶交互作用的文本分类特征选择算法。实验结果表明,Max-Interaction比交互作用权重特征选择(IWFS)的平均分类精度提升了5.5%,Max-Interaction比卡方统计法(Chi-square)的平均分类精度提升了6%,Max-Interaction在93%的实验中分类精度高于对比方法,因此,Max-Interaction能有效利用交互作用提升文本分类特征选择的性能。  相似文献   

11.
针对医学影像中高维特征的问题,提出一种用于影像组学的多级特征选择方法(MSOM-GA)。用组内相关系数过滤对边界敏感的特征。用混合F-Score和信息增益的方法,去除不相关特征。用遗传算法去除冗余特征,选择最优特征子集。该算法在河南省人民医院脑胶质瘤影像数据上进行验证,实验显示,特征选择算法能显著提升特征的质量,算法的auc、acc、敏感度、特异性分别为0.9756、92.29%、93.70%、89.26%,与对照组相比具体数值有较为显著的提升。结果表明,该特征选择方法能有效地去除肿瘤边界不稳定特征、冗余特征和不相关特征,提高模型的训练精度。  相似文献   

12.
面向分类特征的无监督特征选择方法研究   总被引:1,自引:0,他引:1  
针对分类特征数据给出一种新的特征重要性程度度量方法.以一趟聚类算法为基础,提出一种无监督特征选择方法.理论分析表明该方法时间复杂度与数据集的大小和特征个数成近似线性关系,适合于大规模数据集中的特征选择.在UC I数据集上的实验结果表明,与文献中的经典方法相比,本文方法具有较好的性能,说明提出的特征选择方法是有效可行的.  相似文献   

13.
In feature selection problems, strong relevant features may be misjudged as redundant by the approximate Markov blanket. To avoid this, a new concept called strong approximate Markov blanket is proposed. It is theoretically proved that no strong relevant feature will be misjudged as redundant by the proposed concept. To reduce computation time, we propose the concept of modified strong approximate Markov blanket, which still performs better than the approximate Markov blanket in avoiding misjudgment of strong relevant features. A new filter-based feature selection method that is applicable to high-dimensional datasets is further developed. It first groups features to remove redundant features, and then uses a sequential forward selection method to remove irrelevant features. Numerical results on four benchmark and seven real datasets suggest that it is a competitive feature selection method with high classification accuracy, moderate number of selected features, and above-average robustness.  相似文献   

14.
基于信息增益的多标签特征选择算法   总被引:1,自引:0,他引:1  
多标签特征选择是一种提高多标签分类器性能的技术。针对目前这类技术在给出合理特征子集合时无法同时兼顾计算复杂度和标签间的相关性的问题,提出一种基于信息增益的多标签分类算法。该算法假设特征之间相互独立,首先使用单个特征与整个标签集合之间的信息增益来度量这两者的关联程度,再根据阈值删除不相关的特征以得到最优特征子集合。实验表明,该算法能有效地提高多标签分类器的分类性能。  相似文献   

15.
随着互联网和物联网技术的发展,数据的收集变得越发容易。但是,高维数据中包含了很多冗余和不相关的特征,直接使用会徒增模型的计算量,甚至会降低模型的表现性能,故很有必要对高维数据进行降维处理。特征选择可以通过减少特征维度来降低计算开销和去除冗余特征,以提高机器学习模型的性能,并保留了数据的原始特征,具有良好的可解释性。特征选择已经成为机器学习领域中重要的数据预处理步骤之一。粗糙集理论是一种可用于特征选择的有效方法,它可以通过去除冗余信息来保留原始特征的特性。然而,由于计算所有的特征子集组合的开销较大,传统的基于粗糙集的特征选择方法很难找到全局最优的特征子集。针对上述问题,文中提出了一种基于粗糙集和改进鲸鱼优化算法的特征选择方法。为避免鲸鱼算法陷入局部优化,文中提出了种群优化和扰动策略的改进鲸鱼算法。该算法首先随机初始化一系列特征子集,然后用基于粗糙集属性依赖度的目标函数来评价各子集的优劣,最后使用改进鲸鱼优化算法,通过不断迭代找到可接受的近似最优特征子集。在UCI数据集上的实验结果表明,当以支持向量机为评价所用的分类器时,文中提出的算法能找到具有较少信息损失的特征子集,且具有较高的分类精度。因此,所提算法在特征选择方面具有一定的优势。  相似文献   

16.
一种特征选择的动态规划方法   总被引:8,自引:0,他引:8  
章新华 《自动化学报》1998,24(5):675-680
通过分析特征选择的机理,提出了一种特征选择性能指标和基于此指标的动态规 划特征选择方法.使复杂的多类特征信息选择的全局满意解寻求过程,转变成一个简单的阶 段性最优化问题.在一定条件下,由各阶段最优决策构成的整体策略等价于原问题的全局满 意解.本文法较好地应用于水声信号特征分析.  相似文献   

17.
Microarray experiments have raised challenging questions such as how to make an accurate identification of a set of marker genes responsible for various cancers. In statistics, this specific task can be posed as the feature selection problem. Since a support vector machine can deal with a vast number of features, it has gained wide spread use in microarray data analysis. We propose a stepwise feature selection using the generalized logistic loss that is a smooth approximation of the usual hinge loss. We compare the proposed method with the support vector machine with recursive feature elimination for both real and simulated datasets. It is illustrated that the proposed method can improve the quality of feature selection through standardization while the method retains similar predictive performance compared with the recursive feature elimination.  相似文献   

18.
针对复杂背景下的运动目标跟踪特征选择问题,提出了一种基于粒子群优化的目标跟踪特征选择算法。假设具有目标与背景间最好可分离性的特征为最好的跟踪特征。通过构建目标与背景的图像特征分布方差的比值函数作为衡量目标与背景间的可分离性判据。使用粒子群优化算法优化不同的特征组合实时获取最优的目标跟踪特征。为验证该算法的有效性,将选择的最优特征与一种基于核的跟踪算法相结合进行跟踪实验。实验结果表明,算法能有效提高传统基于核的跟踪算法对于复杂场景下的运动目标跟踪的鲁棒性与准确性。  相似文献   

19.
One of the fundamental motivations for feature selection is to overcome the curse of dimensionality problem. This paper presents a novel feature selection method utilizing a combination of differential evolution (DE) optimization method and a proposed repair mechanism based on feature distribution measures. The new method, abbreviated as DEFS, utilizes the DE float number optimizer in the combinatorial optimization problem of feature selection. In order to make the solutions generated by the float-optimizer suitable for feature selection, a roulette wheel structure is constructed and supplied with the probabilities of features distribution. These probabilities are constructed during iterations by identifying the features that contribute to the most promising solutions. The proposed DEFS is used to search for optimal subsets of features in datasets with varying dimensionality. It is then utilized to aid in the selection of Wavelet Packet Transform (WPT) best basis for classification problems, thus acting as a part of a feature extraction process. Practical results indicate the significance of the proposed method in comparison with other feature selection methods.  相似文献   

20.
Feature selection is an important method of data preprocessing in data mining. In this paper, a novel feature selection method based on multi-fractal dimension and harmony search algorithm is proposed. Multi-fractal dimension is adopted as the evaluation criterion of feature subset, which can determine the number of selected features. An improved harmony search algorithm is used as the search strategy to improve the efficiency of feature selection. The performance of the proposed method is compared with that of other feature selection algorithms on UCI data-sets. Besides, the proposed method is also used to predict the daily average concentration of PM2.5 in China. Experimental results show that the proposed method can obtain competitive results in terms of both prediction accuracy and the number of selected features.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号