首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
两阶段无监督顺序前向分形属性规约算法   总被引:3,自引:0,他引:3  
采用单个属性多重分形维数及属性合并之后分形维数变化程度作为属性相关性的度量依据,以结果属性子集分形维数与属性全集分形维数的差值作为评价结果属性子集优劣的标准,将分形属性规约问题转化为属性个数受限的最大无关分形属性子集搜索问题.针对高维属性空间搜索的"组合爆炸"现象,设计了结合相关性分析与冗余性分析的两阶段顺序前向无监督分形属性规约算法.初步分析了算法的时空复杂性,基于标准与合成数据集的实验结果表明,算法能够以较低的分形维数计算工作量得到较优的属性子集.  相似文献   

2.
基于分形维数的数据挖掘技术研究综述   总被引:2,自引:1,他引:1  
分形维数在数据挖掘领域起着非常特殊的作用,它能有效地描述数据集,能反映复杂数据集中隐藏的规律性,基于分形维数的数据挖掘技术研究越来越受到人们的广泛关注.本文首先介绍了数据集的分形维数,进而在此基础上重点介绍了几种基于分形维数的数据挖掘技术,并对每种技术的特点进行了阐述,最后指出今后的发展方向.  相似文献   

3.
属性约简是粗糙集的一个核心研究课题,但经典属性约简及其延伸算法是基于有决策属性的决策表的属性约简算法,它们对无决策属性的非常规决策表的属性约简无能为力。以粗糙集理论为基础,对无决策属性的非常规决策表从分形维数方面进行研究,提出了一种适用于无决策属性的决策表的启发式属性约简算法。该算法在一定程度上能够解决非常规决策表的属性约简问题,进一步扩展了粗糙集理论的应用范围。实例表明该算法是有效可行的。  相似文献   

4.
基于分形维数的属性约简   总被引:1,自引:0,他引:1  
关于属性约简的算法已经提出了许多,基于粗糙集的属性约简算法就是其中的一类。但该类算法执行效率低且不一定得到最小约简。本文讨论了基于可辨识矩阵的属性频度算法(BDMF)并提出了基于分形维数的向后剔除属性约简算法(FDR)。仿真实验表明FDR比BDMF的运行效率高,且约简的效果更好。  相似文献   

5.
维度规约不但可以提高模式识别及机器学习的效率和准确性,同时作为一种有效的数据预处理技术也得到了众多研究者的密切关注,基于分形的特征选择技术是目前维度规约研究领域的新动态.借鉴Z-ordering索引技术的思想,设计并实现了一种改进的分形属性选择方法ZBFDR(Z-ordering based FDR),该方法仅需要扫描数据集一遍建立底层网格结构,基于该底层网格结构计算数据集的分形维数及实现属性选择操作.ZBFDR避免了FDR(fractal dimensionality reduction)算法多次扫描数据集问题,空间需求也低于OptFDR(optimized FDR),在合成数据集及实际数据集上的实验结果表明ZBFDR具有较为优良的整体性能.  相似文献   

6.
属性选择在机器学习和数据挖掘领域起着重要作用,通常作为一个主要的预处理步骤.本文提出一种利用分形维数和蚁群算法进行属性选择的方法.在该方法中分形维数作为属性选择的评价机制,利用蚁群算法的正反馈机制加速属性选择的过程.为了分析结果的有效性,利用SVM分类算法和K-fold交叉验证相结合的方法对4个数据集属性选择前后的分类性能进行测试.实验结果表明该方法具有较好的性能,它能在较短的时间里找到较优的属性子集,并大大降低了数据集的维数.  相似文献   

7.
属性选择通常作为一个主要的预处理步骤,在机器学习和数据挖掘领域有着广泛的应用。选择出能够表征数据集分形特征的属性子集,对研究数据集的分形规律具有重要的价值。根据数据集的分形特征,引入了密度分析方法,指出了当前基于分形维数的属性选择方法的不足,提出了一种基于分形和邻接空间密度变化的属性选择方法。为了分析实验结果的有效性,利用SVM分类算法和K-fold交叉验证相结合的方法对3个数据集属性选择前后的分类性能进行了测试。实验证明该方法在属性选择方面有较好的性能,能够得到较优的属性子集。  相似文献   

8.
在文本分类系统中,特征的优劣往往极大地影响着分类器的设计和性能。提出一种利用分形维数和带精英策略的非劣支配排序遗传算法进行特征选择的方法。在该方法中分形维数作为特征选择的一个评价机制,利用NSGA-II算法将特征子集选择问题视为多目标优化问题来处理。为了分析结果的有效性,利用SVM分类算法对复旦大学语料库进行测试。实验结果表明该方法具有较好的性能,它可以有效去除无效特征并提高分类准确性。  相似文献   

9.
属性选择是一种有效的数据预处理方法,可同时保留多变量时间序列重要变量的时序关系及其实际物理意义。针对很多实际数据无类别信息的问题,文中提出一种无监督属性选择算法并分析其复杂度。首先设计一种无需进行相空间重构的多变量时间序列分形维数计算方法,并将分形维数视为其本质维,利用属性子集的分形维数及其属性数目的变化作为子集优劣的评价标准。再优化离散粒子群算法以解决高维属性空间搜索的“组合爆炸”问题。最后利用典型混沌动力学系统所产生的多变量时间序列和UCI数据库的5组数据集进行仿真计算,结果表明该算法可在较短时间内找到较优的属性子集,具有较优的整体性能。  相似文献   

10.
基于小生境遗传算法的粗糙集属性约简方法   总被引:3,自引:1,他引:2  
王杨 《计算机工程》2008,34(5):66-67,7
针对遗传算法在全局优化问题中出现的早熟和收敛速度慢的问题,提出一种基于小生境遗传算法的粗糙集属性约简算法,采用基于淘汰相似结构机制的小生境技术,通过引入罚函数的方法调整个体的适应度,提高全局搜索能力。实验证明该算法是有效的,并能求解出信息系统中多组不同的最小约简,为决策支持和数据挖掘等提供更多信息。  相似文献   

11.
针对图像数据的72维HSV颜色特征,对数据集的本征维概念进行了有意义的扩展,在此基础上提出了一个新的降维机制.实验证明,该降维算法是行之有效的.  相似文献   

12.
高维图像特征数据不利于图像数据挖掘。为了降低图像特征数据维数,提出了基于概念格的降维算法,该算法将图像的HSV颜色特征转换为图像形式背景,再对背景的概念格进行属性约简。实验结果表明,该降维方法比较有效,并且较主成分分析具有明显的优势。  相似文献   

13.
针对图像的72维HSV颜色特征,提出了一种新的降维索引方法.区别于传统的降维机制,该方法在降维的过程中不仅保留了原始数据空间整体的重要信息,也准确抓住了高维个体数据的重要特性.在大规模图像库上的实验表明,基于本文索引机制的搜索算法不仅显著减少了支配检索时间的I/O开销,而且具有较高的查询准确率.  相似文献   

14.
针对传统C4.5算法存在容易产生冗余规则、决策树规模过大、分类速度过慢等问题,提出一种基于余弦相似度的改进C4.5决策树算法。计算每个属性的信息熵和增益率,如果任意属性的任意两个属性值的信息熵之差在一个很小范围内时,计算两个属性值的余弦相似度;合并相似度在阈值范围内的属性值,重新计算合并后属性的信息增益率,依据传统的C4.5算法进行计算。抽取某医院普检数据进行仿真,仿真结果表明,所提算法能够有效降低分裂属性维度,缩减了决策树规模,减少了冗余规则,提高了分类速度。  相似文献   

15.
Knight:一个通用知识挖掘工具   总被引:23,自引:0,他引:23  
现有知识挖掘系统普遍存在通用性不好,发现方法单一的弱点。  相似文献   

16.
面向相似性搜索的时间序列表示方法述评   总被引:6,自引:0,他引:6  
时间序列作为一种数据形式,广泛存在于各种商业、医学、工程、自然科学和社会科学等数据库中。近年来,时间序列的相似性搜索问题正得到越来越多的重视。该问题可描述为给定某个的时间序列,要求从一个大型时间序列数据库中找出与之最相似的序列。该问题的有效求解涉及到两个关键难点,即相似性度量的定义和搜索算法的时间复杂度,而这两者都依赖于时间序列的近似表示方法。因此,通过详细评述面向相似性搜索的各种时间序列近似表示方法,对这些方法进行分析和比较,总结了这些方法的优点和不足,并对进一步的研究方向作出了预测。  相似文献   

17.
聚类分析在数据挖掘领域中得到了广泛的应用,对空间数据的聚类是其中的一个重要研究方向。文章提出了对空间数据聚类的6个标准,并基于这6个标准对一些传统的空间数据聚类算法作了分析比较。在分析的基础上指出没有一种老的算法能同时处理大量数据点、高维数据和多噪声的问题。接着对近年来改进或创新的聚类算法作了简要分析,并对未来发展方向进行了简要展望,目的主要是便于研究者全面了解和掌握空间数据聚类的现有算法,发现更高性能的聚类算法,也使用户能方便快速地找到适合特定问题的聚类方法。  相似文献   

18.
维数约简作为机器学习的经典问题之一,主要用于处理维数灾问题、帮助加速算法的计算效率和提高可解释性以及数据可视化.传统的维数约简算法如主成分分析(Principal component analysis,PCA)和线性判别分析等只能处理无标签数据或者分类数据.然而,当预测变量为一元或多元连续型实值变量时,这些处理无标签数据或分类数据的维数约简方法则不能形成有效的预测性能.近20年来,有一系列工作从多个角度对这一问题展开了研究,并取得了系统性的研究成果.在此背景下,本文将综述这些面向回归问题的降维算法,即实值多变量维数约简.本文将介绍与实值多变量维数约简密切相关的基本概念、算法、理论,并探讨一些潜在的研究方向.  相似文献   

19.
近年来,高维数据算法在诸如机器学习领域以及模式识别当中有着十分广泛的应用.降维算法的目的是为了揭示出在高维数据空间中样本数据的固有的组成特性,关注于寻找原始数据集特征表示中有价值的信息.相邻区域选择问题对流形学习降维算法的性能改进至关重要.因此,该文提出一种流形学习降维算法中的新动态邻域选择方法Mod-HLLE(mod...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号