首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
基于数据分区的最近邻优先聚类算法   总被引:2,自引:0,他引:2  
聚类是数据挖掘领域的一个重要研究方向。最近邻优先吸收(NNAF)算法可以快速进行聚类并且能有效处理噪声点,但当数据密度和聚类间的距离不均匀时聚类质量较差。本文在分析NNAF算法不足的基础上,提出了一种基于数据分区的NNAF 算法-PNNAF 算法,较好地改善了聚类质量。  相似文献   

2.
大规模数据集聚类中的数据分区及应用研究   总被引:1,自引:0,他引:1  
针对大型数据库提出了许多聚类方法,但是这些算法往往计算量较大、对主存的要求较高;而且当数据分布不均匀时,算法的聚类质量会受影响.因此为了提高聚类算法的效率和准确性,采用了数据分区技术首先对数据进行预处理,分区后的数据具有更少的数据量和更均匀的数据分布.  相似文献   

3.
袁柳  张龙波 《计算机科学》2015,42(10):266-270, 296
如何有效管理并利用日益庞大的RDF数据是当今Web数据管理领域面临的挑战之一。对大规模的RDF数据集进行聚类操作从而得到数据集的有效划分是RDF数据存储和应用时通常采取的策略。针对现有RDF聚类过程中忽略RDF三元组自身模式特征的问题,在对RDF聚类结果的形式深入分析的基础上,定义了3种不同类型的聚类模式,从而提出基于模式的聚类方法。通过对RDF数据集的重新描述,自动生成适用于RDF数据集特征的聚类模式,在此基础上实现数据聚类的任务。在不同测试集上的实验结果验证了所提方法的正确性和有效性。  相似文献   

4.
针对铁法煤田大隆矿区的现状,利用已有地表变形曲线,基于图论的模糊聚类方法的基本思想、具体步骤,采用C++语言对原始数据标准化并构造相似矩阵,用克鲁斯卡尔算法构造最大树,进行地质灾害危险性分区。进而,为沉陷区的灾害防治、村屯规划提供依据。  相似文献   

5.
时空一体化的海量数据管理及相应的时序分析能力是新一代GIS软件体系的重要研究目标之一。当前,基于无缝海量大表的空间及时态空间数据的存取效率亟待提高。为了对海量时空数据进行有效管理和提高时空检索效率,以扩充关系型时空模型为基础,对大型对象一关系型数据库平台所提供的数据分区与聚簇方法进行了时空维的扩展,提出了基于时空分区聚簇(spatio-temporal partition clustering,STPC)的海量时空数据性能优化方法。基于2GB~60GB的单表所进行的检索效率对比测试结果表明,STPC机制较普通的数据组织方式时空检索效率平均提高了10.1%。  相似文献   

6.
共同进化算法是一种新的进化算法,由于它采用了解空间分离编码,能有效地克服一般进化算法中固有的早熟收敛问题。该文针对数据聚类问题——当前数据挖掘与探查性数据分析中的一个重要课题——将数据聚类问题抽象成为一个赋值图的分割问题,应用共同进化算法来加以解决,使得聚类的结果不必依赖于初始聚类中心,并对该算法的性能加以分析。将该算法与一般的遗传算法相比较,通过实验证明了该算法的优越性能。  相似文献   

7.
聚类通常被用于对数据进行快速探索性数据分析,然而传统的聚类方法并不能及时有效对源源不断的数据进行快速分析。近年来,流数据聚类方法的出现解决了这一问题。基于当前对流数据聚类方法的研究,针对流数据聚类方法进行概述,首先介绍流数据聚类常用的窗口模型;其次,依据基础依赖的批处理方法从层次方法、分区方法、密度方法、网格方法和模型方面分别介绍了近几年相关的流数据聚类方法,并简要介绍流数据方法相关应用;最后,总结当前流数据聚类实验中常用的指标,以及当前论文中常用的数据集。  相似文献   

8.
增量式K-Medoids聚类算法   总被引:3,自引:0,他引:3  
高小梅  冯志  冯兴杰 《计算机工程》2005,31(Z1):181-183
聚类是一种非常有用的数据挖掘方法,可用于发现隐藏在数据背后的分组和数据分布信息。目前已经提出了许多聚类算法及其变种,但在增量式聚类算法研究方面所做的工作较少。当数据集因更新而发生变化时,数据挖掘的结果也应该进行相应的更新。由于数据量大,在更新后的数据集上重新执行聚类算法以更新挖掘结果显然比较低效,因此亟待研究增量式聚类算法。该文通过对K-Medoids聚类算法的改进,提出一种增量式K-Medoids聚类算法。它能够很好地解决传统聚类算法在伸缩性、数据定期更新时所面临的问题。  相似文献   

9.
通常,经典的数据聚类算法在低维情况下是有效的,但随着维数的增加,性能和效率都明显的下降,原因在于数据的复杂度是呈指数增长。本文提出了一个处理高维数据聚类的框架,并分析了该框架的性能。  相似文献   

10.
在现有的算法DBSCAN基础上,提出一种基于密度的处理购物篮事务数据的聚类方法-DCMBD(density-based clustering for market basketdata)。使用了一种新的事务表示法,解决了购物篮数据的高维性和稀疏性问题。并对算法进行了相应的改进,从而提高了聚类速度。实验结果表明此方法是有效可行的。  相似文献   

11.
针对分布式报文分类算法内存消耗大、可扩展性差的问题,提出分布式元组空间叉积算法。该算法采用独立域搜索引擎与树状多级聚合网络的分类结构,在聚合节点使用计数型布鲁姆过滤器(CBF)加速搜索,利用剪枝技术降低CBF内存消耗。仿真结果表明,对于 5×104条规模的9域规则库,聚合网络总内存消耗被控制在60 Kb内,该算法的查找速度达到100 Mp/s,且具有良好的可扩展性。  相似文献   

12.
袁正午  袁松彪 《计算机工程》2010,36(7):61-62,65
基于时空划分的思想,设计概要数据结构的在线生成算法。概要数据结构保存流数据不同时刻的分布状态,以支持离线阶段的分类、聚类和关联规则发现等数据挖掘操作。研究时间粒度、量化向量调整和子区域索引等3项内存需求控制策略,以平衡概要数据结构的内存需求和内外存之间的I/O次数。  相似文献   

13.
针对分布式报文分类算法内存消耗大、可扩展性差的问题,提出分布式元组空间叉积算法。该算法采用独立域搜索引擎与树状多级聚合网络的分类结构,在聚合节点使用计数型布鲁姆过滤器(CBF)加速搜索,利用剪枝技术降低CBF内存消耗。仿真结果表明,对于 5×104条规模的9域规则库,聚合网络总内存消耗被控制在60 Kb内,该算法的查找速度达到100 Mp/s,且具有良好的可扩展性。  相似文献   

14.
基于时空划分的思想,设计概要数据结构的在线生成算法。概要数据结构保存流数据不同时刻的分布状态,以支持离线阶段的分类、聚类和关联规则发现等数据挖掘操作。研究时间粒度、量化向量调整和子区域索引等3项内存需求控制策略,以平衡概要数据结构的内存需求和内外存之间的I/O次数。  相似文献   

15.
基于k均值分区的流数据高效密度聚类算法   总被引:2,自引:0,他引:2  
数据流聚类是数据流挖掘研究的一个重要内容,已有的数据流聚类算法大多采用k中心点(均值)方法对数据进行聚类,不能对数据分布不规则以及高维空间数据流进行有效聚类.论文提出一种基于k均值分区的流数据密度聚类算法,先对数据流进行分区做k均值聚类生成中间聚类结果(均值参考点集),随后对这些均值参考点进行密度聚类,理论分析和实验结果表明算法可以有效解决数据分布不规则以及高维空间数据流聚类问题,算法是有效可行的.  相似文献   

16.
垂直数据分区技术从逻辑上将满足一定语义条件的数据库表属性存放在同一个物理块中,进而降低数据访问成本,提高查询效率.数据库查询负载中的每条查询通常只与数据库表中的部分属性有关,因此只需使用数据库表的某个属性子集便可以得到准确的查询结果.合理的垂直数据分区方式可以使大多数查询负载不需要扫描完整数据库就可以完成查询任务,从而达到减少数据访问量,提高查询处理效率的目的.传统的数据库垂直分区方法主要基于专家设置的启发式规则,分区策略粒度较粗,且不能根据负载的特征进行有针对性的分区优化.同时,当负载规模较大或者属性个数较多时,现有垂直分区方法执行时间过长,尤其无法满足数据库在线实时调优的性能需求.为此,提出在线环境下基于谱聚类的垂直数据分区方法(spectral clustering based vertical partitioning,SCVP),采用分阶段求解的思想,减少算法时间复杂度,加快分区执行速度.首先通过增加约束条件缩小解空间(即根据谱聚类生成初始分区),然后对解空间设计算法进行精细的搜索(即采用频繁项集和贪心搜索相结合的策略对初始分区进行优化).为了进一步提升SCVP在高维属性下的性能,提出了SCVP的改进版本SCVP-R (spectral clustering based vertical partitioning redesign).SCVP-R通过引入同域竞争机制、双败淘汰机制和循环机制,对SCVP在分区优化过程中的合并方案进行了进一步优化.在不同数据集上的实验结果表明,相比于目前最好的垂直分区方法,SCVP和SCVP-R有着更快的执行时间和更好的性能表现.  相似文献   

17.
一种基于概念的数据聚类模型   总被引:2,自引:0,他引:2  
张明卫  刘莹  张斌  朱志良 《软件学报》2009,20(9):2387-2396
在数据挖掘研究领域,现有的大多数聚类算法都受到数据可伸缩性和结果可解释性的限制.为了解决这一难题,提出了一种基于概念的数据聚类模型.该模型从描述数据样本的数据本身出发,首先在预处理后的数据集上提取基本概念,再对这些概念进行概化,形成表示聚类结果的高层概念,最后基于这些高层概念进行样本划分,从而完成整个聚类过程.该模型能够在保证聚类准确性的基础上,很大程度地减少要处理的数据量,提高原算法的可伸缩性.另外,该模型基于概念进行知识的发现与分析,能够提高聚类结果的可解释性,便于与用户交互.实验结果表明,该模型对于聚类结果较好且复杂度较高的算法尤为有效.  相似文献   

18.
本文提出了一种基于自适应网格划分的数据流聚类算法。通过采用网格的自适应划分,对传统的基于密度网格的数据流聚类算法,以均衡划分网格的方法进行改进,使网格的划分更加合理,减少硬性划分对结果可能造成的影响,提高了硬性划分边界的精度。同时采用剪枝方法,减少了算法的执行时间。最后,通过实验验证了该算法的有效性。  相似文献   

19.
王俊陆  王玲  王妍  宋宝燕 《计算机科学》2017,44(2):98-102, 106
随着互联网及信息技术的发展,数据缺失、损坏等问题越来越普遍,尤其随着数据收集工作从人工转向机器,存储介质的不稳定性及网络传输出现遗漏等原因都导致数据缺失更加严重。数据库中大量的缺失值不仅严重影响了用户查询质量,还对数据挖掘与数据分析结果的正确性造成了影响,进而误导决策。目前,对缺失数据的填补还没有一种比较通用的方法,大部分策略都是针对某一类型的缺失值问题进行处理。因此,针对不同缺失类型同时出现在不完备数据中的复杂情况,提出了一种基于元组相似度的不完备数据填补方法(IATS)。采用数据挖掘的方法提取出不完备数据集中的加权关联规则,并根据此规则进行常规缺失数据的填补,而对于数据集的异常缺失问题,又引入数据推荐算法,采用推荐筛选策略进行元组相似度的计算并实现相应填补,在很大程度上提高了数据的有效利用率和用户查询结果的质量。实验表明,IATS策略在保证填补率的前提下具有更好的准确率。  相似文献   

20.
数据挖掘空间聚类   总被引:1,自引:1,他引:0  
聚类分析在数据挖掘领域中得到了广泛的应用,对空间数据的聚类是其中的一个重要研究方向。文章提出了对空间数据聚类的6个标准,并基于这6个标准对一些传统的空间数据聚类算法作了分析比较。在分析的基础上指出没有一种老的算法能同时处理大量数据点、高维数据和多噪声的问题。接着对近年来改进或创新的聚类算法作了简要分析,并对未来发展方向进行了简要展望,目的主要是便于研究者全面了解和掌握空间数据聚类的现有算法,发现更高性能的聚类算法,也使用户能方便快速地找到适合特定问题的聚类方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号