首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
属性选择在机器学习和数据挖掘领域起着重要作用,通常作为一个主要的预处理步骤.本文提出一种利用分形维数和蚁群算法进行属性选择的方法.在该方法中分形维数作为属性选择的评价机制,利用蚁群算法的正反馈机制加速属性选择的过程.为了分析结果的有效性,利用SVM分类算法和K-fold交叉验证相结合的方法对4个数据集属性选择前后的分类性能进行测试.实验结果表明该方法具有较好的性能,它能在较短的时间里找到较优的属性子集,并大大降低了数据集的维数.  相似文献   

2.
属性选择是数据挖掘领域中数据预处理的一个重要方法。文中提出一种融合离散型萤火虫群优化算法(DGSO)与分形维数的属性选择方法。该方法以分形维数作为属性子集的评估度量准则,以DGSO作为搜索策略。为分析该方法的可行性和有效性,采用6个UCI数据集进行实验。结合10-fold交叉验证和SVM对属性选择前后的分类准确率进行分析,并进行搜索策略和评估度量准则间的性能对比及详细的参数分析。结果表明该方法具有较高的可行性和有效性。  相似文献   

3.
维度规约不但可以提高模式识别及机器学习的效率和准确性,同时作为一种有效的数据预处理技术也得到了众多研究者的密切关注,基于分形的特征选择技术是目前维度规约研究领域的新动态.借鉴Z-ordering索引技术的思想,设计并实现了一种改进的分形属性选择方法ZBFDR(Z-ordering based FDR),该方法仅需要扫描数据集一遍建立底层网格结构,基于该底层网格结构计算数据集的分形维数及实现属性选择操作.ZBFDR避免了FDR(fractal dimensionality reduction)算法多次扫描数据集问题,空间需求也低于OptFDR(optimized FDR),在合成数据集及实际数据集上的实验结果表明ZBFDR具有较为优良的整体性能.  相似文献   

4.
基于分形维数的属性约简   总被引:1,自引:0,他引:1  
关于属性约简的算法已经提出了许多,基于粗糙集的属性约简算法就是其中的一类。但该类算法执行效率低且不一定得到最小约简。本文讨论了基于可辨识矩阵的属性频度算法(BDMF)并提出了基于分形维数的向后剔除属性约简算法(FDR)。仿真实验表明FDR比BDMF的运行效率高,且约简的效果更好。  相似文献   

5.
属性规约是应对“维数灾难”的有效技术,分形属性规约FDR(Fractal Dimensionality Reduction)是近年来出现的一种无监督属性选择技术,令人遗憾的是其需要多遍扫描数据集,因而难于应对高维数据集情况;基于遗传算法的属性规约技术对于高维数据而言优越于传统属性选择技术,但其无法应用于无监督学习领域。为此,结合遗传算法内在随机并行寻优机制及分形属性选择的无监督特点,设计并实现了基于遗传算法的无监督分形属性子集选择算法GABUFSS(Genetic Algorithm Based Unsupervised Feature Subset Selection)。基于合成与实际数据集的实验对比分析了GABUFSS算法与FDR算法的性能,结果表明GABUFSS相对优于FDR算法,并具有发现等价结果属性子集的特点。  相似文献   

6.
两阶段无监督顺序前向分形属性规约算法   总被引:3,自引:0,他引:3  
采用单个属性多重分形维数及属性合并之后分形维数变化程度作为属性相关性的度量依据,以结果属性子集分形维数与属性全集分形维数的差值作为评价结果属性子集优劣的标准,将分形属性规约问题转化为属性个数受限的最大无关分形属性子集搜索问题.针对高维属性空间搜索的"组合爆炸"现象,设计了结合相关性分析与冗余性分析的两阶段顺序前向无监督分形属性规约算法.初步分析了算法的时空复杂性,基于标准与合成数据集的实验结果表明,算法能够以较低的分形维数计算工作量得到较优的属性子集.  相似文献   

7.
基于分形维数的属性约简算法与特征辨别能力相结合,提出了一个综合的特征选择方法.该方法利用特征辨别能力进行特征初选,过滤掉一些词条来降低特征空间的稀疏性,以利用所提约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,此种特征选择方法效果良好.  相似文献   

8.
在文本分类系统中,特征的优劣往往极大地影响着分类器的设计和性能。提出一种利用分形维数和带精英策略的非劣支配排序遗传算法进行特征选择的方法。在该方法中分形维数作为特征选择的一个评价机制,利用NSGA-II算法将特征子集选择问题视为多目标优化问题来处理。为了分析结果的有效性,利用SVM分类算法对复旦大学语料库进行测试。实验结果表明该方法具有较好的性能,它可以有效去除无效特征并提高分类准确性。  相似文献   

9.
基于邻接关系的空间聚类算法研究   总被引:1,自引:0,他引:1  
聚类指的是把数据库里的对象分组成有意义的子集,使得一个聚类内的成员尽可能相似,而不同聚类间的成员差异尽可能大。空闻对象的主要特性受其邻接对象的影响,并且随着距离的增加或减少,影响作用也相应地增加或减少。论文针对相邻空间对象的特性总是相似或相关联的特点,以邻接关系为基础对空间聚类算法进行了分析与研究。  相似文献   

10.
属性约简是粗糙集的一个核心研究课题,但经典属性约简及其延伸算法是基于有决策属性的决策表的属性约简算法,它们对无决策属性的非常规决策表的属性约简无能为力。以粗糙集理论为基础,对无决策属性的非常规决策表从分形维数方面进行研究,提出了一种适用于无决策属性的决策表的启发式属性约简算法。该算法在一定程度上能够解决非常规决策表的属性约简问题,进一步扩展了粗糙集理论的应用范围。实例表明该算法是有效可行的。  相似文献   

11.
针对传统聚类算法中只注重数据间的距离关系,而忽视数据全局性分布结构的问题,提出一种基于EK-medoids聚类和邻域距离的特征选择方法。首先,用稀疏重构的方法计算数据样本之间的有效距离,构建基于有效距离的相似性矩阵;然后,将相似性矩阵应用到K-medoids聚类算法中,获取新的聚类中心,进而提出EK-medoids聚类算法,可有效对原始数据集进行聚类;最后,根据划分结果所构成簇的邻域距离给出确定数据集中的属性重要度定义,应用启发式搜索方法设计一种EK-medoids聚类和邻域距离的特征选择算法,降低了聚类算法的时间复杂度。实验结果表明,该算法不仅有效地提高了聚类结果的精度,而且也可选择出分类精度较高的特征子集。  相似文献   

12.
提出了一个基于邻域密度的异常检测方法,它能处理混合数据的异常值。在该方法中,样本的异常指标被定义为该样本的邻域大小和该样本的平均邻域密度的加权和。为了验证提出的方法,进行了一系列实验。实验结果表明新提出的方法适用于混合数据,并且比其他检测方法更有效。  相似文献   

13.
李庆峰  付忠良  粟伟 《计算机应用》2005,25(11):2598-2599
普通的阈值选取方法只注重图像的灰度信息,而很少考虑图像的空间信息。分形维数能很好地反映一幅图像的空间信息,在图像的处理与分析中得到了很好的应用。提出了一种基于分形维数的图像阈值选取方法,实验证明对于灰度图像的阈值选取具有很好的实用效果。  相似文献   

14.
孙林  赵婧  徐久成  王欣雅 《计算机应用》2022,42(5):1355-1366
针对经典的帝王蝶优化(MBO)算法不能很好地处理连续型数据,以及粗糙集模型对于大规模、高维复杂的数据处理能力不足等问题,提出了基于邻域粗糙集(NRS)和MBO的特征选择算法。首先,将局部扰动和群体划分策略与MBO算法结合,并构建传输机制以形成一种二进制MBO(BMBO)算法;其次,引入突变算子增强算法的探索能力,设计了基于突变算子的BMBO(BMBOM)算法;然后,基于NRS的邻域度构造适应度函数,并对初始化的特征子集的适应度值进行评估并排序;最后,使用BMBOM算法通过不断迭代搜索出最优特征子集,并设计了一种元启发式特征选择算法。在基准函数上评估BMBOM算法的优化性能,并在UCI数据集上评价所提出的特征选择算法的分类能力。实验结果表明,在5个基准函数上,BMBOM算法的最优值、最差值、平均值以及标准差明显优于MBO和粒子群优化(PSO)算法;在UCI数据集上,与基于粗糙集的优化特征选择算法、结合粗糙集与优化算法的特征选择算法、结合NRS与优化算法的特征选择算法、基于二进制灰狼优化的特征选择算法相比,所提特征选择算法在分类精度、所选特征数和适应度值这3个指标上表现良好,能够选择特征数少且分类精度高的最优特征子集。  相似文献   

15.
The construction of the neighborhood is a critical problem of manifold learning. Most of manifold learning algorithms use a stable neighborhood parameter (such as k-NN), but it may not work well for the entire manifold, since manifold curvature and sampling density may vary over the manifold. Although some dynamical neighborhood algorithms have been proposed, they are limited by either another global parameter or an assumption. This paper proposes a new approach to select the dynamical neighborhood for each point while constructing the tangent subspace based on the sampling density and the manifold curvature. And the parameters of the approach can be automatically determined by computing the correlation coefficient of the matrices of geodesic distances between pairs of points in input and output spaces. When we apply it to ISOMAP, the results of experiments on the synthetic data as well as the real world patterns demonstrate that the proposed approach can efficiently maintain an accurate low dimensional representation of the manifold data with less distortion, and give higher average classification rate compared to others.  相似文献   

16.
针对邻域信息系统的特征选择模型存在人为设定邻域参数值的问题。分别计算样本与最近同类样本和最近异类样本的距离,用于定义样本的最近邻以确定信息粒子的大小。将最近邻的概念扩展到信息理论,提出最近邻互信息。在此基础上,采用前向贪心搜索策略构造了基于最近邻互信息的特征算法。在两个不同基分类器和八个UCI数据集上进行实验。实验结果表明:相比当前多种流行算法,该模型能够以较少的特征获得较高的分类性能。  相似文献   

17.
基于Fisher准则和特征聚类的特征选择   总被引:2,自引:0,他引:2  
王飒  郑链 《计算机应用》2007,27(11):2812-2813
特征选择是机器学习和模式识别等领域的重要问题之一。针对高维数据,提出了一种基于Fisher准则和特征聚类的特征选择方法。首先基于Fisher准则,预选出鉴别性能较强的特征子集,然后在预选所得到的特征子集上对特征进行分层聚类,从而最终达到去除不相关和冗余特征的目的。实验结果表明该方法是一种有效的特征选择方法。  相似文献   

18.
针对数据的特征存在单一和协同特征的选择问题,基于平方误差标准核密度估计和随机置换理论,首先提出一种针对单一特征的特征选择方法(FSKDE-RP);然后,针对协同特征的情况,通过拓展随机置换理论,提出多维协同特征选择算法(SFSKDE-MRP),并利用核神经网络(KNN)分类器的分类精度选择最优特征子集.在模拟数据和真实数据集上的实验结果表明了所提出算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号