首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
作为数据挖掘领域中一项重要的数据预处理技术,特征选择算法能够有效应对高维数据带来的“维数灾难”问题.然而,如何对高维的混合数据进行特征选取仍然是当前研究的重点和难点之一.基于邻域关系的邻域粗糙集模型因其能够处理名词型属性与数值型属性并存的混合数据,已成功应用于混合数据的特征选择.但是,现有邻域粗糙集对混合数据邻域关系的度量,仍然是基于等价关系的名词型数据划分与基于相似关系的数值型数据划分的简单融合,在利用模型划分的邻域空间和预定义的评价函数对高维混合数据进行特征选取时,适应性较差.为此,在邻域粗糙集模型的基础上,提出一种改进的邻域空间构造方法,并设计相应的邻域空间度量公式作为判别指标,自适应地调节邻域空间下邻域粒的大小;为了准确地表征高维混合数据邻域空间的判别能力,设计一种考虑边界数据和邻域空间大小的评价函数;在此基础上,提出一种启发式的高维混合数据特征选择算法.通过UCI标准数据集验证所提出算法的有效性.  相似文献   

2.
针对基于粗糙集的大部分多标记特征选择方法存在的忽略样本的模糊性和邻域关系、手动设置邻域半径、从单一的样本空间度量属性重要度等问题,文中利用模糊邻域粗糙集弥补经典粗糙集的不足,并在此基础上从特征空间和标记空间出发,提出基于双空间模糊邻域相似关系的多标记特征选择算法.首先,设计自适应邻域半径的计算方法,构建特征空间下样本的模糊邻域相似矩阵.再根据模糊邻域相似关系,得出特征空间下的样本相似度及标记空间下的样本相似度.然后,通过权重将特征空间和标记空间上的样本相似度进行融合,基于融合后的度量计算属性重要度.最后,运用前向贪心算法构建多标记特征选择算法.在12个多标记数据集上的对比实验验证文中算法的有效性.  相似文献   

3.
《计算机科学与探索》2016,(12):1793-1800
针对传统粗糙集理论中不确定度量方法难以适用于邻域粗糙集模型的问题,引入信息熵的度量方法,提出了基于信息熵的邻域粗糙集不确定性度量方法。该方法采用邻域关系对连续型数据进行信息粒化,基于粒化后的数据定义邻域系统中的近似精度、邻域信息熵、加权邻域信息熵等不确定性度量。进一步提出邻域系统不确定性度量的公理化表示,证明邻域系统的近似精度、邻域信息熵、加权邻域信息熵都是公理化度量;给出其最大最小值,证明其满足单调性原理。理论分析与实验表明邻域系统中的信息熵度量优于近似精度度量。  相似文献   

4.
K均值聚类,对于非凸、稀疏及模糊的非线性可分数据,其聚类效果不佳.针对此问题,通过引入粒计算理论,采用邻域粒化技术,提出一种邻域粒K均值聚类方法.样本在单特征上使用邻域粒化技术构造邻域粒子,在多特征上使用邻域粒化技术形成邻域粒向量;通过定义邻域粒与邻域粒向量的大小、度量和运算规则,提出两种邻域粒距离度量,并对所提出的邻域粒距离度量进行公理化证明.采用多个UCI数据集进行实验,将K均值聚类算法分别结合两种邻域粒距离度量,在邻域参数和距离度量两个方面与经典聚类算法进行比较,结果验证了所提出的邻域粒K均值聚类方法的可行性和有效性.  相似文献   

5.
维数灾难是机器学习算法在高维数据上学习经常遇到的难题,基于局部敏感判别分析(locality sensitive discriminant analysis,LSDA),可以很好地解决维数灾难问题.且LSDA构建邻域时不能充分反映流形学习对邻域要求和克服测度扭曲问题,利用自适应邻域选择方法来度量邻域,同时,引入施密特正交化获得正交投影矩阵,提出一种自适应邻域选择的正交局部敏感判别分析算法.在ORL和YALE人脸数据库上进行实验,实验结果表明了该算法的有效性.  相似文献   

6.
赵勇  方宗德  王侃伟  庞辉 《计算机测量与控制》2008,16(11):1730-1731,1734
邻域粗糙集理论能够直接处理数值性数据,无需离散化,已经被应用在属性选择和分类器设计中;文中在分析了轮对踏面缺陷图像的成像特征的基础上,首先从缺陷样本中提取了16个特征值,然后基于邻域粗糙集知识约简的思想,提出了一种轮对踏面缺陷图像特征的选择方法,实现了对原始特征的优化选择,利用径向基函数神经网络和选择的特征值对缺陷进行分类;实验结果表明,该方法可将识别的原始特征下降到原始特征数目的20%左右,擦伤识别率提高了68%。  相似文献   

7.
针对标签排序问题的特点,提出一种面向标签排序数据集的特征选择算法(Label Ranking Based Feature Selection, LRFS)。该算法首先基于邻域粗糙集定义了新的邻域信息测度,能直接度量连续型、离散型以及排序型特征间的相关性、冗余性和关联性。然后,在此基础上提出基于邻域关联权重因子的标签排序特征选择算法。实验结果表明,LRFS算法能够在不降低排序准确率的前提下,有效剔除标签排序数据集中的无关特征或冗余特征。  相似文献   

8.
袁钟  冯山 《计算机应用》2018,38(7):1905-1909
针对离群点检测中传统距离法不能有效处理符号型属性和经典粗糙集方法不能有效处理数值型属性的问题,利用邻域粗糙集的粒化特征提出了改进的邻域值差异度量(NVDM)方法进行离群点检测。首先,将属性取值归一化并以混合欧氏重叠度量(HEOM)和具有自适应特征的邻域半径构建邻域信息系统(NIS);其次,以NVDM构造对象的邻域离群因子(NOF);最后,设计并实现了基于邻域值差异度量的离群点检测(NVDMOD)算法,该算法在计算单属性邻域覆盖(SANC)的方式上充分利用有序二分和近邻搜索思想改进了传统的无序逐一计算模式。在UCI标准数据集上与现有离群点检测算法——邻域离群点检测(NED)算法、基于距离的离群点检测(DIS)算法和K最近邻(KNN)算法进行了实验对比、分析。实验结果表明,NVDMOD算法具有更好的适应性和有效性,为混合型属性数据集的离群点检测提供了一条更有效的新途径。  相似文献   

9.
粗糙集的不确定性度量在知识获取中扮演着非常重要的角色。在邻域粗糙集理论中,当前不确定性度量方面的研究工作主要专注于度量单个知识空间的不确定性及其随粒度变化的单调性规律,其仍存在以下缺点:1)邻域粗糙集不确定性来自于邻域粒中属于目标概念的元素和不属于目标概念的元素,当前的方法没有同时考虑每个邻域信息粒的这两部分;2)不能反映不同知识空间对目标概念刻画能力的差异性;3)由于当前的知识距离包含了粒度划分的信息,已有方法在一些应用场合下不够准确,例如属性约简中的知识启发式搜索及其粒度选择。对此,文中首先构建了一种更加直观准确的邻域粗糙集的不确定性度量方法——邻域熵,并证明了不确定性度量随着粒度的细化具有单调性;为了反映不同邻域信息粒对目标概念刻画能力的差异性,提出了一种带近似描述能力的邻域粒距离,称为相对邻域粒距离,并介绍了它的相关性质;针对分层递阶的多粒度知识空间中的粒度选择问题,建立了基于边界域的邻域知识距离度量模型,该知识距离可以反映不同邻域知识空间对目标概念的刻画能力的差异性。  相似文献   

10.
近邻法对不相关特征的敏感性很高,利用邻域重构系数可以保持原有数据结构的优点,为此,文中提出基于邻域保持学习的无监督特征选择算法.首先根据数据样本和邻域的相似性构造相似矩阵,并引入中间矩阵构造低维空间.然后利用拉普拉斯乘子法选择有效特征子集.在4个公开数据集上的实验表明,文中算法可以有效识别代表性特征.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号