首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
网格下最大频繁项集挖掘算法的实现   总被引:4,自引:0,他引:4  
随着网格和数据挖掘技术的发展,提出了网格平台下最大频繁项集数据挖掘算法,采用数据库的垂直表示和基于前缀关系的等价划分,以等价类长度的指数函数作为等价类的权值,减少剪枝对负载的影响,合理划分等价类,在动态负载平衡情况下使处理机异步计算,大大提高算法的执行效率。实验证明设计的算法有较好的可扩展性,其性能明显优于其他相关算法。  相似文献   

2.
基于网格聚类技术的离群点挖掘算法   总被引:6,自引:0,他引:6  
曹洪其  余岚  孙志挥 《计算机工程》2006,32(11):119-121,124
针对离群点的挖掘,在现有的LOF算法的基础上,提出了一种基于网格聚类技术的离群点挖掘算法AOMGC。该算法将离群点挖掘分成两步挖掘过程。此外,该算法对其网格的划分加以改进,并能根据数据信息自动生成划分间隔,从而提高了数据挖掘的效率。实验结果表明AOMGC算法是可行的和有效的。  相似文献   

3.
聚类分析研究进展   总被引:4,自引:0,他引:4  
聚类是数据挖掘中重要的研究课题,是数据挖掘中一种重要的挖掘任务和挖掘方法.介绍聚类分析及其过程,讨论划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法等聚类算法及其不足之处,提出聚类研究今后的发展趋势及研究重点.  相似文献   

4.
杨光  张磊  李帆 《计算机应用》2013,33(6):1604-1607
针对轨迹数据概化中空间划分的区域范围不能有效控制以及覆盖网格尺度难以合理选择的问题,提出局部多层网格划分方法,对样本密集的区域进行迭代划分。在此基础上提出一种轨迹数据概化方法,在局部多层网格划分的基础上,考虑时间约束合并轨迹连续往复通过的邻接区域,生成概化轨迹。真实数据的实验表明该算法得到的概化轨迹较同类算法保持了更多轨迹特性,更加适合后续数据挖掘,如聚类处理。  相似文献   

5.
聚类算法综述   总被引:8,自引:2,他引:6  
伍育红 《计算机科学》2015,42(Z6):491-499, 524
数据挖掘技术可以从大量数据中发现潜在的、有价值的知识,它给人们在信息时代所积累的海量数据赋予了新的意义。随着数据挖掘技术的迅速发展,作为其重要的组成部分,网格聚类技术已经被广泛应用于数据分析、图像处理、市场研究等许多领域。网格聚类算法研究已经成为数据挖掘研究领域中非常活跃的一个研究课题。 介绍了数据挖掘理论,对网格聚类算法进行了深入的分析研究。在研究了传统网格聚类算法的基础上,提出了一些改进的网格聚类算法,这些算法相比传统网格聚类算法有更好的聚类质量和效率。在分析了传统的多密度聚类算法的基础上,提出了基于网格的多密度聚类算法(Grid-based Clustering Algorithm for Multi-density)[1],该算法主要采用密度阈值递减的多阶段聚类技术提取不同密度的聚类,同时对聚类结果进行了人工干预。研究结果表明,基于网格的多密度聚类算法不仅能够对数据集进行正确的聚类,同时还能有效地弥补孤立点检测,有效地解决了传统多密度聚类算法不能有效识别孤立点和噪声的缺陷。基于网格的多密度聚类算法比传统的共享近邻SNN算法精度高,适合于均匀密度数据集、大部分多密度数据集,并且可以发现任意形状的聚类,对噪声数据和数据输入顺序不敏感,但对小部分多密度数据集的聚类结果不理想[1]。  相似文献   

6.
Weka4WS采用WSRF技术用于执行远程的数据挖掘和管理分布式计算,支持分布式数据挖掘任务。基于Weka4WS和网格环境,尝试了一种新的分布式聚类方法,并成功地将其嵌入到Weka4WS框架中,借助Weka Library实现分布式数据挖掘算法,同时引入了距离代价和混合概率的概念,将网格与Web服务技术融合,以分布式问题求解环境和开源数据挖掘类库Weka为底层支持环境,构建了网格环境下面向服务的分布式数据挖掘体系,并以基于Weka4WS的分布式聚类算法验证了算法的有效性和体系结构的可行性。  相似文献   

7.
信息社会的发展,使数据量以前所未有的速度在增长,因此从海量数据中获取有用的知识和信息就变得越来越重要。数据挖掘是一种综合多领域知识而形成的数据分析技术,能够从大量数据中获取有价值的知识并为决策提供支持。聚类分析算法是数据挖掘中的一个核心内容,也是目前研究的一个热点。该文首先讲述了基于划分的聚类算法、基于分层的聚类算法、基于密度的聚类算法和基于网格的聚类算法等常用的聚类分析算法,并分析了其特点;然后通过举例详细描述了最近邻聚类算法的操作过程。聚类算法的总结,对聚类的研究和发展具有积极意义。  相似文献   

8.
数据挖掘常用聚类算法研究   总被引:2,自引:0,他引:2  
信息社会的发展,使数据量以前所未有的速度在增长,因此从海量数据中获取有用的知识和信息就变得越来越重要。数据挖掘是一种综合多领域知识而形成的数据分析技术,能够从大量数据中获取有价值的知识并为决策提供支持。聚类分析算法是数据挖掘中的一个核心内容,也是目前研究的一个热点。该文首先讲述了基于划分的聚类算法、基于分层的聚类算法、基于密度的聚类算法和基于网格的聚类算法等常用的聚类分析算法,并分析了其特点;然后通过举例详细描述了最近邻聚类算法的操作过程。聚类算法的总结,对聚类的研究和发展具有积极意义。  相似文献   

9.
网格聚类算法   总被引:3,自引:0,他引:3  
聚类分析有广泛的应用,是数据挖掘中非常重要的方法。聚类分析算法有多种分类,每种方法在不同领域发挥了不同的作用。以研究网格聚类算法为目的,介绍了聚类分析算法的要求以及常见的聚类算法;针对基于网格方法的聚类算法进行专门研究,比较分析了传统的和改进的基于网格方法的聚类算法。介绍的各种网格聚类算法都有自身的优点和不足。通过对这些网格聚类算法的学习便于深入研究网格聚类算法,以便将其与实际问题相结合,设计更好的算法。  相似文献   

10.
挖掘最大频繁项集的并行算法   总被引:1,自引:1,他引:1  
频繁项集的挖掘是数据挖掘的核心内容。本文提出挖掘最大频繁项集的并行算法P-MinMax,它采用数据库的垂直表示和基于前缀关系的等价类划分,利用因子项集的完全包含关系在处理机之间贪心分配等价类,根据等价类的需要相应地划分和有选择地复制数据库记录,使各处理机得以异步计算,达到了较好的负载平衡。分析和实验表明,  相似文献   

11.
大型数据库中多层关联规则的挖掘算法   总被引:3,自引:0,他引:3  
高峰  谢剑英 《计算机工程》2000,26(10):75-76,142
将基于垂直数据分布的关联规则的发现从单层概念扩展到多层概念,提出了自顶向下的、用等价类生成频繁项目集的发现算法,无需复杂的Hash数据结构。该算法减少了项目的匹配计算,提高了挖掘的效率。  相似文献   

12.
曾庆花  王文国 《微机发展》2007,17(7):236-239
关联规则的发现是数据挖掘中的一个重要问题,但只是对离散型数据进行处理。为解决连续数量值属性的划分出现的“尖锐边界”问题,采用模糊划分,实现数据平滑过渡。由于入侵检测系统(IDS)对训练数据要求不高,文中提出了一种使用哈希链表改进模糊关联规则挖掘的新算法,且在挖掘过程中使用了等价类快速查找频繁项集,避免了反复扫描数据库及大量重复计算检验步骤。通过一个入侵检测系统的算例显示了其优越性,来提高对入侵数据的识别能力。  相似文献   

13.
频繁模式树(FP_tree)是产生频繁相集的有效方法,现在的算法一般都是基于频繁模式树,但是创建FP_tree需要花费很长时间。为了提高创建树的效率,提出了一种新型快速的方法——改进的层次频繁模式树(IHFP_tree)。首先,扫描一遍数据库,产生每个项的等价类;其次,去掉不频繁项后,对等价类进行重新改写,然后创建FP_tree。提出只需扫描一遍数据库,而且不需要筛选和重组事务记录的方法,有效提高了算法的时空效率。实验表明,IHFP_tree的挖掘速度比FP_tree方法要快得多。  相似文献   

14.
提出了满足滑动窗口、最大间隙、最小间隙、最大跨度四种时间参数限制的序列挖掘算法.算法通过划分不同的等价类分解搜索空间,利用时间连接实现模式的逐步增长,挖掘过程只需扫描一次序列数据库.由于序列嵌入的四种参数具有通用性,本算法不仅能发现以前相关算法所能发现的模式,还能发现其他算法所不能发现的模式。  相似文献   

15.
为了克服传统数据挖掘算法与分布式数据挖掘算法的不足.提出了一种基于网格平台的数据挖掘算法,并改进了原有的Apriori算法,使其应用于网格平台。基于网格的数据挖掘算法具有合并计算力,安全,高效,节约硬件成本等优势已越来越受到学术界的重视。  相似文献   

16.
邓松  王汝传  任勋益 《计算机科学》2009,36(11):177-181
提出了一种基于网格服务的GEP分布式函数挖掘算法(DFMGEP-GS),它将网格服务与GEP算法相结合,既成功地实现了在网格平台下的GEP函数挖掘,又提高了每个网格节点上GEP算法的全局寻优性;同时证明了在网格环境下由局部数据模型生成全局数据模型的方法.仿真实验结果表明,对于函数类型已知的数据,随着数据集的增大,在成功挖掘到目标函数的情况下,DFMGEP-GS算法的平均耗时最少,而且随着网格节点的增加,DFMGEP-GS的收敛速度最大提高了约17倍;对于函数类型未知的复杂数据集,DFMGEP-GS算法挖掘所得到的模型的误差最小.  相似文献   

17.
分布在因特网上的物流资源具有地理分散和职权自治的特性,资源结构和接口难以统一。该文以网格、Agent和增量挖掘技术为基础,提出了不通过资源整合就能够实现全局信息挖掘的方法。分析了基于Web的物流资源网格系统,将其划分为物流域的集合实施分级管理。提出了新的面向网格的信息挖掘模型并设计了域内动态资源挖掘算法和域间请求式资源挖掘算法。该模型解决了不同物流系统之间的信息挖掘难题,算法中引入的增量挖掘技术提高了域间资源挖掘效率。  相似文献   

18.
针对现有的最大频繁项集挖掘算法挖掘时间过长、内存消耗较大的问题,提出了一种基于构造链表B-list的最大频繁项集挖掘算法BMFI,该算法利用B-list数据结构来挖掘频繁项集并采用全序搜索树作为搜索空间,然后采用父等价剪枝技术来缩小搜索空间,最后再结合基于MFI-tree的投影策略实现超集检测来提高算法的效率。实验结果表明,BMFI算法在时间效率与空间效率方面均优于FPMAX算法与MFIN算法。该算法在稠密数据集与稀疏数据集中进行最大频繁项集挖掘时均有良好的效果。  相似文献   

19.
利用网格服务的分布式频繁模式挖掘算法   总被引:3,自引:1,他引:3  
充分利用网格计算平台的各种服务来进行分布式数据挖掘,是近来数据挖掘方面的一个热点。网格计算中的任务管理、任务调度和资源管理等服务可以为分布式数据挖掘提供极大的便利。该文在这些研究的基础上,介绍了一种基于网格平台的分布式频繁模式挖掘算法。该算法借鉴了FP-growth算法的思想并利用网格平台所提供的分布式计算的各种便利的服务,能在网格计算环境中进行分布式频繁模式的挖掘。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号