首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
特征选择算法是微阵列数据分析的重要工具,特征选择算法的分类性能和稳定性对微阵列数据分析至关重要。为了提高特征选择算法的分类性能和稳定性,提出一种面向高维微阵列数据的集成特征选择算法来弥补单个基因子集信息量的不足,提高基因特征选择算法的分类性能和稳定性。该算法首先采用信噪比方法选择若干区分基因;然后对每个区分基因利用条件信息相关系数评估候选基因与区分基因的相关性,生成多个相关基因子集,最后,通过集成学习技术整合多个相似基因子集。实验结果表明,本文提出的集成特征选择算法的分类性能以及稳定性在多数情况下均优于只选择单个基因子集的方法。  相似文献   

2.
关于研究多源信息问题,为了解决在多源信息融合中当多种来源的特征信息具有冗余性、互补性和不确定性的情况下,如何进行和优化特征选择的问题.采用博弈论的思想,博弈论和多源信息融合结合起来.将多源特征空间中的特征信息抽象为局中人和策略集,对特征信息的不确定性及其冲突与合作的性质,采用互信息熵的方法进行描述,用构造的支付值函数来表示,最后通过对赢得矩阵求取策略均衡求解出特征子集.实验结果表明,选出的特征子集不仪能够提高决策判断系统的性能,而且解决了由于特征维数过高所引起的"特征维数灾难"问题.证明是一种有效的多源信息融合方法.  相似文献   

3.
Bayesian网络是特征子集选择的有力工具,基于Bayesian网络特征子集选择就是建立类变量的Markov毯.文中在对变量之间基本依赖关系、结点之间基本结构、依赖分离标准和Markov毯进行分析的基础上,基于局部依赖分析方法进行类变量的Markov毯学习.在一些假设下可证明学习得到的特征子集是类变量的Markov毯.相对于现有的基于Bayesian网络特征子集选择方法,该方法更加灵活、高效和可靠.  相似文献   

4.
在网络入侵检测中,不相关或冗余的特征使得检测变得越来越困难,为了提高检测的精度和效率,提出了一种新的网络入侵检测的特征选择方法.该方法首先利用粗糙集理论的特性对特征进行筛选;然后利用遗传算法在解决NP问题上的并行性、鲁棒性和全局优化搜索等特点,在剩余的特征子集中寻找最优子集.考虑到早熟问题会使遗传算法陷入局部最优,采用对种群聚类的方式建立自适应的交叉、变异率,种群个体交叉时在不同的类内随机选择从而保证群体多样性,每次迭代均保留父代的最优个体.在入侵检测的经典数据集KDD CUP 99上检验了算法的有效性,使用SVM分类器对选出的特征子集进行性能评估.实验结果表明,该方法与相关研究对比提高了入侵检测系统的精度和效率.  相似文献   

5.
Lasso方法与其他特征选择一样,对高维海量或高维小样本数据集的特征选择容易出现计算开销过大或过学习问题(过拟合).为解决此问题,提出一种改进的Lasso方法:迭代式Lasso方法.迭代式Lasso方法首先将特征集分成K份,对第一份特征子集进行特征提取,将所得特征加入第二份,再对第二份特征进行特征提取;然后将所得特征加入第三份,依次迭代下去,直到第K份,得到最终特征子集.实验表明,迭代式Lasso方法能够很好地对高维海量或高维小样本数据集进行特征选择,是一种有效的特征选择方法.目前,此方法已经很好地应用在高维海量和高维小样本数据的分类或预测模型中.  相似文献   

6.
粗糙集理论作为一种处理不精确和不一致数据的数学工具被广泛应用于特征子集选择和属性约简中.在大多数现存的算法中,属性依赖度被用来度量特征子集的重要性,而依赖度在处理不一致信息系统时会出现找不到任何特征子集的问题.文中讨论了使用属性依赖性作为度量的缺点和不足,引入一种一致性度量,分析了其和依赖性之间的关系,重新定义了信息系统的多余属性和约简的概念,并构造了基于一致性度量的前向贪婪搜索算法.通过UCI数据集合验证了算法能够有效地处理不一致信息系统.  相似文献   

7.
基于遗传算法及聚类的基因表达数据特征选择   总被引:1,自引:0,他引:1  
特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象(如基因表达数据)的特征选择,一方面可以提高分类及聚类的精度和效率,另一方面可以找出富含信息的特征子集,如发现与疾病密切相关的重要基因。针对此问题,本文提出了一种新的面向基因表达数据的特征选择方法,在特征子集搜索上采用遗传算法进行随机搜索,在特征子集评价上采用聚类算法及聚类错误率作为学习算法及评价指标。实验结果表明,该算法可有效地找出具有较好可分离性的特征子集,从而实现降维并提高聚类及分类精度。  相似文献   

8.
高维数据中许多特征之间互不相关或冗余,这给传统的学习算法带来了巨大的挑战。为了解决该问题,特征选择应运而生。与此同时,许多实际问题中数据存在多个视图而且数据的标签难以获取,多视图学习和半监督学习成为机器学习中的热点问题。本文研究怎样从"部分标签"的多视图数据中选择最大相关最小冗余的特征子集,提出一种基于多视图的半监督特征选择方法。为了剔除冗余和无关的特征,探索蕴含于多视图数据中的互补信息以及每个视图中不同特征之间的冗余关系,并利用少量标签数据蕴含的信息协同未标签数据同时进行特征选择。实验结果验证了本算法能够获得很好的特征选择效果及聚类效果。  相似文献   

9.
廉杰  姚鑫  李占山 《软件学报》2022,33(11):3903-3916
特征选择是机器学习领域的热点问题.元启发式算法作为特征选择的重要方法之一,其性能会对问题求解产生直接影响.乌鸦搜索算法(CSA)是受乌鸦智能群体行为启发提出的一种元启发式算法,由于其具有简单、高效的特点,广大学者将其用来解决特征选择问题.然而,CSA易陷入局部最优解且收敛速度较慢,严重限制了算法求解能力.针对这一问题,采用logistic混沌映射、反向学习方法和差分进化这3种算子,结合乌鸦搜索算法,提出一种特征选择算法BICSA来选取最优特征子集.实验阶段,使用UCI数据库中的16个数据集来测试BICSA的性能.实验结果表明,与其他特征选择算法相比,BICSA求得的特征子集具有更高的分类准确率和较高的维度压缩能力,这说明BICSA在处理特征选择问题上具有很强的竞争力与足够的优越性.  相似文献   

10.
特征选择技术能有效解决维数灾难问题,许多搜索策略已经被应用到特征选择问题中。针对和声特征选择算法搜索能力低下的问题,提出了一种基于全局自适应调距的和声特征选择算法(HSFS-GPA)。将特征集的距离定义引入到特征选择问题中,在算法搜索过程中结合全局信息对随机产生的新和声进行调整,以一定概率减小候选和声与当前最优和声的距离来加快算法搜索速度,或减少候选和声与最差和声的距离以避免陷入局部最优;同时,采用竞争选择方案随时更新和声库全局信息,改进和声库的更新机制提高算法搜索质量。将HSFS-GPA与原始和声特征选择算法、粒子群算法和遗传算法进行对比实验,HSFS-GPA所选特征子集的大小比原始和声算法减少15%,子集评价值平均提高到0.98。实验结果表明,HSFS-GPA能在相同的条件下搜索到更优质的特征子集。  相似文献   

11.
Rough set reduction has been used as an important preprocessing tool for pattern recognition, machine learning and data mining. As the classical Pawlak rough sets can just be used to evaluate categorical features, a neighborhood rough set model is introduced to deal with numerical data sets. Three-way decision theory proposed by Yao comes from Pawlak rough sets and probability rough sets for trading off different types of classification error in order to obtain a minimum cost ternary classifier. In this paper, we discuss reduction questions based on three-way decisions and neighborhood rough sets. First, the three-way decision reducts of positive region preservation, boundary region preservation and negative region preservation are introduced into the neighborhood rough set model. Second, three condition entropy measures are constructed based on three-way decision regions by considering variants of neighborhood classes. The monotonic principles of entropy measures are proved, from which we can obtain the heuristic reduction algorithms in neighborhood systems. Finally, the experimental results show that the three-way decision reduction approaches are effective feature selection techniques for addressing numerical data sets.  相似文献   

12.
The degree of malignancy in brain glioma is assessed based on magnetic resonance imaging (MRI) findings and clinical data before operation. These data contain irrelevant features, while uncertainties and missing values also exist. Rough set theory can deal with vagueness and uncertainty in data analysis, and can efficiently remove redundant information. In this paper, a rough set method is applied to predict the degree of malignancy. As feature selection can improve the classification accuracy effectively, rough set feature selection algorithms are employed to select features. The selected feature subsets are used to generate decision rules for the classification task. A rough set attribute reduction algorithm that employs a search method based on particle swarm optimization (PSO) is proposed in this paper and compared with other rough set reduction algorithms. Experimental results show that reducts found by the proposed algorithm are more efficient and can generate decision rules with better classification performance. The rough set rule-based method can achieve higher classification accuracy than other intelligent analysis methods such as neural networks, decision trees and a fuzzy rule extraction algorithm based on Fuzzy Min-Max Neural Networks (FRE-FMMNN). Moreover, the decision rules induced by rough set rule induction algorithm can reveal regular and interpretable patterns of the relations between glioma MRI features and the degree of malignancy, which are helpful for medical experts.  相似文献   

13.
基于粗糙集理论的图像分割智能决策方法   总被引:4,自引:0,他引:4       下载免费PDF全文
尽管如今已有多种图像分割算法,但是没有任何一种分割方法能够适用于所有的图像.为了使图像跟踪系统能根据图像特征自适应选取分割算法,给出了一种基于粗糙集理论的图像分割智能决策方法.该方法首先选取若干具代表性的分割算法构成算法库,并用它们对各种样本图像进行分割;然后利用从样本图像中提取出来的各种数值特征,并根据图像分割质量评价标准评判出各样本图像的最优分割算法,用其构成决策信息表;最后应用粗糙集理论来对决策信息表进行离散化处理和属性约简,以生成图像分割算法选取的决策规则.该决策方法解决了图像跟踪系统中分割算法选取的一系列难题.实验证明,该决策方法能比较有效地根据系统所处理图像的特征选取出算法库中最优的分割算法,并可满足车载图像跟踪系统的实时性要求.  相似文献   

14.
针对图像分类特征点特性界定模糊,导致相似性度量误差较大的问题,提出采用特征点类别可分性判断准则的图像分类方法。结合信息熵理论提取图像特征点的可分性特性,根据图像特征向量标识决策属性的不同性质,计算特征向量间的可分性距离值,得到最近邻特征向量集,从待分图像各特征向量与最近邻特征向量集标识类别的平均距离,及平均可分性度量值两方面定义新的图像类别判断准则。理论分析与Caltech256图像库仿真实验表明,基于特征点类别可分性判断准则有效地提高了图像的分类准确率。  相似文献   

15.
粗糙集属性应急数据存在冗余特征,降低挖掘效率,提出基于信息熵的粗糙集属性应急数据去重挖掘算法.将粗糙集理论和信息熵相结合,离散化处理应急数据,离散化完成后,约简对于决策表的条件信息熵大小不产生任何影响的属性,设定决策属性集合和条件属性集合,选取将同约简属性集合B的属性组合数目最小的熵值实现约简,去除冗余特征,完成应急数据去重挖掘.以大型船舶应急数据为研究对象展开数据去重挖掘,结果表明:可有效去重挖掘到船舶旋回性相关应急数据,利用数据增比特征能够分析到各因素对船舶旋回性的影响,并且所研究算法的挖掘效率较高,在数据量为1400条时,耗时仅为0.33 s.  相似文献   

16.
实际应用中,数据常常表现出不完备性和动态性的特点。针对动态不完备数据中的特征选择问题,提出了一种基于相容粗糙集模型和信息熵理论的增量式特征选择方法。首先,建立了不完备信息系统中特征值动态更新时论域上条件划分与决策分类的动态更新模式,分析了作为特征重要度评价准则的不完备相容信息熵的增量计算机制,并将该机制引入到启发式最优特征子集搜索过程中特征重要度的迭代计算,进一步设计了不完备数据中面向特征值动态更新的增量式特征选择算法。最后,在标准UCI数据集上从分类精度、决策性能和计算效率3个方面对文中所提出的增量算法的有效性和高效性进行了实验验证。  相似文献   

17.
基于相对决策嫡的决策树算法及其在入侵检测中的应用   总被引:1,自引:0,他引:1  
为了弥补传统决策树算法的不足,提出一种基于相对决策熵的决策树算法DTRDE。首先,将Shannon提出的信息熵引入到粗糙集理论中,定义一个相对决策熵的概念,并利用相对决策熵来度量属性的重要性;其次,在算法DTRDE中,采用基于相对决策熵的属性重要性以及粗糙集中的属性依赖性来选择分离属性,并且利用粗糙集中的属性约简技术来删除冗余的属性,旨在降低算法的计算复杂性;最后,将该算法应用于网络入侵检测。在KDD Cup99数据集上的实验表明,DTRDE算法比传统的基于信息熵的算法具有更高的检测率,而其计算开销则与传统方法接近。  相似文献   

18.
Given a large set of potential features, it is usually necessary to find a small subset with which to classify. The task of finding an optimal feature set is inherently combinatoric and therefore suboptimal algorithms are typically used to find feature sets. If feature selection is based directly on classification error, then a feature-selection algorithm must base its decision on error estimates. This paper addresses the impact of error estimation on feature selection using two performance measures: comparison of the true error of the optimal feature set with the true error of the feature set found by a feature-selection algorithm, and the number of features among the truly optimal feature set that appear in the feature set found by the algorithm. The study considers seven error estimators applied to three standard suboptimal feature-selection algorithms and exhaustive search, and it considers three different feature-label model distributions. It draws two conclusions for the cases considered: (1) depending on the sample size and the classification rule, feature-selection algorithms can produce feature sets whose corresponding classifiers possess errors far in excess of the classifier corresponding to the optimal feature set; and (2) for small samples, differences in performances among the feature-selection algorithms are less significant than performance differences among the error estimators used to implement the algorithms. Moreover, keeping in mind that results depend on the particular classifier-distribution pair, for the error estimators considered in this study, bootstrap and bolstered resubstitution usually outperform cross-validation, and bolstered resubstitution usually performs as well as or better than bootstrap.  相似文献   

19.
基于最大熵模型的韵律短语边界预测   总被引:7,自引:3,他引:7  
语音合成系统中,由于韵律短语边界预测的水平不高,阻碍了合成语音自然度的进一步提高。本文根据韵律短语边界预测的特点,提出了基于最大熵模型的预测方法。为考察该方法的能力,在较大规模的数据集上,使用相同的属性集,对比了其与主流的决策树方法的预测效果。还考察了词面信息的贡献,以及选择特征时的不同阈值对最大熵模型的影响。实验表明,使用相同的属性信息,最大熵方法比传统的决策树方法在F-Score上有5.5%的提高,加入了词面信息的最大熵模型则有9.4%的提高。最后指出,最大熵模型相当于一个带权重的规则系统,可以很好的解决规则冲突问题。  相似文献   

20.
周先亭  黄文明  邓珍荣 《计算机科学》2017,44(7):191-196, 220
针对目前微博转发行为预测具有的特征选择任意性、准确率不高的问题,提出了融合异常检测与随机森林的微博转发行为预测方法。首先,提取用户基本特征、博文基本特征、博文内容主题特征,并基于相对熵计算用户活跃度、博文影响力;其次,通过结合过滤式与封装式特征选择方法筛选出关键特征组;最后,融合异常检测与随机森林算法,依据筛选后的关键特征组进行微博转发行为预测,并利用袋外数据误差估计设置随机森林中的决策树和特征数。在真实新浪微博数据集上与基于逻辑回归、决策树、朴素贝叶斯、随机森林等算法的微博转发行为预测方法进行实验对比,结果表明所提方法的预测准确率(90.5%) 高于基准方法中最优的随机森林方法的预测准确率,同时验证了特征筛选方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号