首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
属性规约是应对“维数灾难”的有效技术,分形属性规约FDR(Fractal Dimensionality Reduction)是近年来出现的一种无监督属性选择技术,令人遗憾的是其需要多遍扫描数据集,因而难于应对高维数据集情况;基于遗传算法的属性规约技术对于高维数据而言优越于传统属性选择技术,但其无法应用于无监督学习领域。为此,结合遗传算法内在随机并行寻优机制及分形属性选择的无监督特点,设计并实现了基于遗传算法的无监督分形属性子集选择算法GABUFSS(Genetic Algorithm Based Unsupervised Feature Subset Selection)。基于合成与实际数据集的实验对比分析了GABUFSS算法与FDR算法的性能,结果表明GABUFSS相对优于FDR算法,并具有发现等价结果属性子集的特点。  相似文献   

2.
分形维数的高效求解是分形理论应用与实践的关键问题,传统分形维数计算方法由于时空复杂性高已成为当前分形技术应用的一个主要瓶颈。借鉴Z-ordering索引技术的思想,设计并实现了一种改进的多重分形维数计算方法ZBMFD(Z-ordering Based Multifractal dimension Algorithm),该方法扫描数据集一遍建立底层网格结构,通过动态修改网格坐标编码递推实现低层网格到高层网格之间的动态映射并计算数据集的分形维数。在实际数据集的实验表明算法在保持O(N×logN)时间复杂性的基础上,降低了分形维数算法的空间复杂性,且计算结果精度与已有算法相当,拓广了分形技术在当前高维、海量数据处理等领域的应用。  相似文献   

3.
两阶段无监督顺序前向分形属性规约算法   总被引:3,自引:0,他引:3  
采用单个属性多重分形维数及属性合并之后分形维数变化程度作为属性相关性的度量依据,以结果属性子集分形维数与属性全集分形维数的差值作为评价结果属性子集优劣的标准,将分形属性规约问题转化为属性个数受限的最大无关分形属性子集搜索问题.针对高维属性空间搜索的"组合爆炸"现象,设计了结合相关性分析与冗余性分析的两阶段顺序前向无监督分形属性规约算法.初步分析了算法的时空复杂性,基于标准与合成数据集的实验结果表明,算法能够以较低的分形维数计算工作量得到较优的属性子集.  相似文献   

4.
属性选择通常作为一个主要的预处理步骤,在机器学习和数据挖掘领域有着广泛的应用。选择出能够表征数据集分形特征的属性子集,对研究数据集的分形规律具有重要的价值。根据数据集的分形特征,引入了密度分析方法,指出了当前基于分形维数的属性选择方法的不足,提出了一种基于分形和邻接空间密度变化的属性选择方法。为了分析实验结果的有效性,利用SVM分类算法和K-fold交叉验证相结合的方法对3个数据集属性选择前后的分类性能进行了测试。实验证明该方法在属性选择方面有较好的性能,能够得到较优的属性子集。  相似文献   

5.
朴素贝叶斯算法是一种简单而高效的分类算法,但属性的条件独立性假设并不符合客观实际,特别是高维度数据的属性之间往往存在相关关系,如何能在实现对数据降维的同时又提高朴素贝叶斯的分类性能是一个重要的研究问题.对基于条件信息熵的选择朴素贝叶斯、基于主成分分析的朴素贝叶斯和基于独立成分分析的朴素贝叶斯算法进行研究,通过在UCI数据集上的仿真实验,详细比较了几种维规约算法对朴素贝叶斯分类性能的影响.  相似文献   

6.
基于分形维的决策树构建及应用研究   总被引:1,自引:0,他引:1  
针对决策树构建过程中易于出现数据碎片、子树重复等问题,提出了基于分形维构建特征数据集的方法:因为信息增益表示了该属性信息量的多少,因此在确定了数据集的嵌入维数k之后,选择信息增益最大的前k个属性构造原数据集的特征数据集,并分析了依据分形维数和信息增益对冗余属性的删除以及特征集的信息损失对决策树构建的影响。实验过程中,分别采用从原始属性中选择及拟合两种方法构建特征数据集,依据对实验结果的比较分析,进一步证明了该方法的有效。  相似文献   

7.
高维网络数据中的无关属性和冗余属性会导致入侵检测速度慢及效率低下。为解决该问题,提出一种基于快速属性约简的网络入侵特征选择方法。以网络数据的条件属性与类别属性之间的互信息为度量去除无关属性,采用基于粗糙集正区域的属性重要性计算公式作为启发信息,设计一种快速属性约简算法去除网络数据的冗余属性,实现网络入侵特征子集的优化选择。在KDD CUP1999数据集上的仿真实验结果表明,该方法能有效去除网络数据中的无关属性和冗余属性,具有较高的入侵检测率和较低的误报率。  相似文献   

8.
一种新的基于P2P系统的网格资源信息发现方法   总被引:1,自引:0,他引:1  
网格环境下,众多的资源中查找发现所需的资源是一个关键的问题.基于结构化的支持数据顺序索引的P2P系统提出了一种全新的网格环境下资源发现的方法,该方法将数据库领域先进的多维数据索引技术Pyramid引入到P2P系统之中.通过数据库的多维索引技术,使得P2P系统支持网格资源的多维范围查询.该算法采用了对称结构的金字塔技术,使得网格资源管理动态属性变化的维护代价方面具有很好的性能..理论证明,当维度较大时,由于属性动态性导致的维护代价与维度成反比,而与属性的变化范围无关.另外对P2P的负载均衡策略进行了相应的考虑.最后,对系统的路由性能以及范围查询的有效性进行了仿真验证.  相似文献   

9.
在大数据时代,数据的样本数量、特征维度和类别数量都在急剧增加,且样本类别间通常存在着层次结构.如何对层次结构数据进行特征选择具有重要意义.近年来,已有相关特征选择算法提出,然而现有算法未充分利用类别的层次结构信息,且忽略了不同类节点具有共有与固有属性的特点.据此,提出了基于标签关联性的分层分类共有与固有特征选择算法.该算法利用递归正则化对层次结构的每个内部节点选择对应的固有特征,并充分利用层次结构分析标签关联性,进而利用正则化惩罚项学习各子树的共有特征.该模型不仅能够处理树结构层次化数据,也能直接处理更为复杂常见的有向无环图结构的层次化数据.在6个树结构数据集和4个有向无环图结构数据集上的实验结果,验证了该算法的有效性.  相似文献   

10.
为解决现有高维海量数据离群点挖掘在时间与空间效率上的不足,提出了一种基于粗约简和网格的离群点检测算法RRGOD。算法在基于密度的离群点检测算法LOF的基础上,结合粗糙集理论特点,引入属性权值概念,淘汰属性权值低于重要度阈值的属性降低维度,从而减少了进行聚类的计算量。在网格聚类阶段,对传统的网格划分方法进行改进,引入属性维半径向量概念,提出了一种可变网格划分方法,根据数据集特点自适应地划分网格空间。在真实数据集和仿真数据集上进行了实验。结果表明,该算法在进行离群点检测时能在保持足够精确度的同时,检测效率有显著的改善。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号