共查询到20条相似文献,搜索用时 46 毫秒
1.
针对传统聚类算法中只注重数据间的距离关系,而忽视数据全局性分布结构的问题,提出一种基于EK-medoids聚类和邻域距离的特征选择方法。首先,用稀疏重构的方法计算数据样本之间的有效距离,构建基于有效距离的相似性矩阵;然后,将相似性矩阵应用到K-medoids聚类算法中,获取新的聚类中心,进而提出EK-medoids聚类算法,可有效对原始数据集进行聚类;最后,根据划分结果所构成簇的邻域距离给出确定数据集中的属性重要度定义,应用启发式搜索方法设计一种EK-medoids聚类和邻域距离的特征选择算法,降低了聚类算法的时间复杂度。实验结果表明,该算法不仅有效地提高了聚类结果的精度,而且也可选择出分类精度较高的特征子集。 相似文献
2.
为了解决传统邻域粗糙集未考虑不平衡数据的类分布,多数邻域系统通过人工调试难以找到最佳邻域半径,以及聚类时指定簇的数目等问题,提出一种基于自适应邻域与聚类的非平衡数据特征选择方法.根据样本在各个特征下与其他样本距离的平均值来确定样本的自适应k近邻和共享近邻,定义自适应邻域密度并设计混合采样模型,构建平衡决策系统.基于特征分布定义新的邻域半径,使用高斯核函数研究邻域内样本之间的模糊相似关系,使用模糊邻域互信息度量特征间的相关性,基于此对特征进行聚类.基于模糊邻域互信息构造粒子群初始化策略,并引入动态位掩码策略与适合整数编码的差异性扰动算子,改进整型粒子群优化算法,实现从特征簇中选出代表性特征构成最终的特征子集.在19个非平衡数据集的实验结果表明所设计的算法有效地提高了非平衡数据的分类性能. 相似文献
3.
特征选择是数据挖掘和机器学习领域中一种常用的数据预处理技术。在无监督学习环境下,定义了一种特征平均相关度的度量方法,并在此基础上提出了一种基于特征聚类的特征选择方法 FSFC。该方法利用聚类算法在不同子空间中搜索簇群,使具有较强依赖关系(存在冗余性)的特征被划分到同一个簇群中,然后从每一个簇群中挑选具有代表性的子集共同构成特征子集,最终达到去除不相关特征和冗余特征的目的。在 UCI 数据集上的实验结果表明,FSFC 方法与几种经典的有监督特征选择方法具有相当的特征约减效果和分类性能。 相似文献
4.
K均值聚类,对于非凸、稀疏及模糊的非线性可分数据,其聚类效果不佳.针对此问题,通过引入粒计算理论,采用邻域粒化技术,提出一种邻域粒K均值聚类方法.样本在单特征上使用邻域粒化技术构造邻域粒子,在多特征上使用邻域粒化技术形成邻域粒向量;通过定义邻域粒与邻域粒向量的大小、度量和运算规则,提出两种邻域粒距离度量,并对所提出的邻域粒距离度量进行公理化证明.采用多个UCI数据集进行实验,将K均值聚类算法分别结合两种邻域粒距离度量,在邻域参数和距离度量两个方面与经典聚类算法进行比较,结果验证了所提出的邻域粒K均值聚类方法的可行性和有效性. 相似文献
5.
一种基于聚类的文本特征选择方法 总被引:6,自引:0,他引:6
传统的文本特征选择方法存在一个共性,即通过某种评价函数分别计算单个特征对类别的区分能力,由于没有考虑特征间的关联性,这些方法选择的特征集往往存在着冗余。针对这一问题,提出了一种基于聚类的特征选择方法,先使用聚类的方法对特征间的冗余性进行裁减,然后使用信息增益的方法选取类别区分能力强的特征。实验结果表明,这种基于聚类的特征选择方法使得文本分类的正确性得到了有效的提高。 相似文献
6.
为降低特征空间维数,提出了一种基于分布距离的文本特征聚类方法,通过将特征空间中分布距离相近的特征聚合,来实现降维。在TanCorpusV1.0语料库上实验表明,当将特征空间维数降低至原空间的近10%时,用SVM作为分类器,获得了比特征提取方法高的分类精度。 相似文献
7.
软件缺陷预测技术通过分析软件静态信息,对软件模块的缺陷倾向性做出判断,合理分配测试资源。但有时搜集的大量度量元信息是无关或冗余的,这些高维的特征增加了缺陷预测的复杂性。文章提出了一种新的度量元选择方法,首先通过样本聚类将相似度高的样本聚在同一簇中,然后在每个簇中按照最低冗余度进行特征子集的挑选,主要选择相互间冗余度低,且预测能力强的度量元。最后通过NASA数据集的实例证明本文方法能有效降低特征子集的冗余率,并能有效提高预测的准确度。 相似文献
8.
基于邻域特征与聚类的图像分割方法 总被引:2,自引:0,他引:2
提出一种基于邻域特征和聚类的图像分割方法。该方法提取像素点的5维邻域特征,利用渐进聚类方法使同类元素具有较高的相似度、不同类元素相似度差别较大,从而对图像中的像素进行归类划分,实现目标图像的正确分割。实验结果表明,该方法能准确定位图像边缘,具有较强的抗噪性和较高的分割精度。 相似文献
9.
多数传统的属性聚类算法不能直接处理连续型属性,为了避免连续数据离散化处理时造成的信息损失,降低样本属性邻域求解的复杂度,提高特征基因提取的效率。文中提出一种将邻域互信息用于属性聚类的特征基因选择方法,用于在海量的基因表达谱数据中挖掘出少量的具有分类识别能力且冗余度较小的特征基因。 相似文献
10.
多数传统的属性聚类算法不能直接处理连续型属性,为了避免连续数据离散化处理时造成的信息损失,降低样本属性邻域求解的复杂度,提高特征基因提取的效率。文中提出一种将邻域互信息用于属性聚类的特征基因选择方法,用于在海量的基因表达谱数据中挖掘出少量的具有分类识别能力且冗余度较小的特征基因。 相似文献
11.
针对传统的特征选择使用阈值过滤导致有效信息丢失的问题,提出一种粗糙集的文本特征选择方法。该方法以核为起点利用特征属性的重要性和依赖性作为启发式信息进行特征选择,使文本的特征维数得到一定程度的降低。实验表明,此算法不仅易于实现而且能够有效降低特征数目,提高分类效率。 相似文献
12.
13.
高维数据流包含大量的无关信息和冗余信息,这些信息可能极大地降低学习算法的性能。利用属性相关性可以有效地去除数据流中的不相关属性和冗余属性,提高学习算法的效率。分析现有的属性相关性计算方法在应用中的局限性,提出基于曲线拟合的属性相关性特征选择算法FSCFFR(Feature Selection based on Curve-Fitting Feature Relevance)。理论分析和实验表明,FSCFFR在特征选择过程中具有较高的实时性和有效性。 相似文献
14.
Multi-label learning deals with data associated with a set of labels simultaneously. Like traditional single-label learning, the high-dimensionality of data is a stumbling block for multi-label learning. In this paper, we first introduce the margin of instance to granulate all instances under different labels, and three different concepts of neighborhood are defined based on different cognitive viewpoints. Based on this, we generalize neighborhood information entropy to fit multi-label learning and propose three new measures of neighborhood mutual information. It is shown that these new measures are a natural extension from single-label learning to multi-label learning. Then, we present an optimization objective function to evaluate the quality of the candidate features, which can be solved by approximating the multi-label neighborhood mutual information. Finally, extensive experiments conducted on publicly available data sets verify the effectiveness of the proposed algorithm by comparing it with state-of-the-art methods. 相似文献
15.
针对近邻传播聚类算法不能处理混合属性数据集的问题,提出了一种新的距离度量测度,并将其应用到近邻传播聚类算法中,提出了一种基于维度属性距离的混合属性近邻传播聚类算法。与传统聚类算法不同的是,该算法不需要计算虚拟的中心点,同时考虑了数据集整体分布对聚类结果的影响。将算法在UCI数据库的2个混合属性数据集上进行验证,同时对比了经典的K-Prototypes算法以及K-Modes算法。实验结果表明,改进后的算法具有更好的聚类质量以及执行效率,算法的优越性得到了验证。 相似文献
16.
近邻法对不相关特征的敏感性很高,利用邻域重构系数可以保持原有数据结构的优点,为此,文中提出基于邻域保持学习的无监督特征选择算法.首先根据数据样本和邻域的相似性构造相似矩阵,并引入中间矩阵构造低维空间.然后利用拉普拉斯乘子法选择有效特征子集.在4个公开数据集上的实验表明,文中算法可以有效识别代表性特征. 相似文献
17.
Antonio Arauzo-Azofra Jose Manuel Benitez Juan Luis Castro 《Journal of Intelligent Information Systems》2008,30(3):273-292
The use of feature selection can improve accuracy, efficiency, applicability and understandability of a learning process.
For this reason, many methods of automatic feature selection have been developed. Some of these methods are based on the search
of the features that allows the data set to be considered consistent. In a search problem we usually evaluate the search states,
in the case of feature selection we measure the possible feature sets. This paper reviews the state of the art of consistency
based feature selection methods, identifying the measures used for feature sets. An in-deep study of these measures is conducted,
including the definition of a new measure necessary for completeness. After that, we perform an empirical evaluation of the
measures comparing them with the highly reputed wrapper approach. Consistency measures achieve similar results to those of
the wrapper approach with much better efficiency. 相似文献
18.
针对特征空间中存在潜在相关特征的规律,分别利用谱聚类探索特征间的相关性及邻域互信息以寻求最大相关特征子集,提出联合谱聚类与邻域互信息的特征选择算法.首先利用邻域互信息移除与标记不相干的特征.然后采用谱聚类将特征进行分簇,使同一簇组中的特征强相关而不同簇组中的特征强相异.继而基于邻域互信息从每一特征簇组中选择与类标记强相关而与本组特征低冗余的特征子集.最后将所有选中特征子集组成最终的特征选择结果.在2个基分类器下的实验表明,文中算法能以较少的合理特征获得较高的分类性能. 相似文献
19.
Thiago F. Covões Author Vitae Author Vitae 《Information Sciences》2011,181(18):3766-3782
This paper proposes a filter-based algorithm for feature selection. The filter is based on the partitioning of the set of features into clusters. The number of clusters, and consequently the cardinality of the subset of selected features, is automatically estimated from data. The computational complexity of the proposed algorithm is also investigated. A variant of this filter that considers feature-class correlations is also proposed for classification problems. Empirical results involving ten datasets illustrate the performance of the developed algorithm, which in general has obtained competitive results in terms of classification accuracy when compared to state of the art algorithms that find clusters of features. We show that, if computational efficiency is an important issue, then the proposed filter may be preferred over their counterparts, thus becoming eligible to join a pool of feature selection algorithms to be used in practice. As an additional contribution of this work, a theoretical framework is used to formally analyze some properties of feature selection methods that rely on finding clusters of features. 相似文献
20.
Neil Mac Parthaláin Author Vitae Author Vitae 《Pattern recognition》2009,42(5):655-667
Of all of the challenges which face the effective application of computational intelligence technologies for pattern recognition, dataset dimensionality is undoubtedly one of the primary impediments. In order for pattern classifiers to be efficient, a dimensionality reduction stage is usually performed prior to classification. Much use has been made of rough set theory for this purpose as it is completely data-driven and no other information is required; most other methods require some additional knowledge. However, traditional rough set-based methods in the literature are restricted to the requirement that all data must be discrete. It is therefore not possible to consider real-valued or noisy data. This is usually addressed by employing a discretisation method, which can result in information loss. This paper proposes a new approach based on the tolerance rough set model, which has the ability to deal with real-valued data whilst simultaneously retaining dataset semantics. More significantly, this paper describes the underlying mechanism for this new approach to utilise the information contained within the boundary region or region of uncertainty. The use of this information can result in the discovery of more compact feature subsets and improved classification accuracy. These results are supported by an experimental evaluation which compares the proposed approach with a number of existing feature selection techniques. 相似文献