首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 406 毫秒
1.
针对现有的数据流聚类算法不能在线实时生成用户需要的聚类结果问题,提出一种基于滑动窗口的数据流在线聚类算法.该算法采用密度网格存储结构,实现了数据流的在线聚类过程,能实时地向用户提供聚类结果,动态地检测数据流的进化情况.实验结果表明,该方法具有快速在线聚类能力,并能保证良好的聚类质量.  相似文献   

2.
分析了数据流的特点,针对数据流聚类算法CluStream对数据流中非球形聚类效果不好的情况,提出了基于数据流的不规则网格增量聚类算法IIGStream.IIGStream算法具备了传统网格聚类算法处理速度快的优点.同时能够动态增量地调整网格结构.对新到来的数据点,通过判断网格是否相连,保证了对于不同形状聚类的聚类效果.IIGStream在聚类时无需预先指定聚类数目.且对孤立点不敏感.在真实数据集与仿真数据集上的实验结果表明,IIGStream算法具有良好的适用性和有效性,在聚类精度以及速度上均优于CluStream算法.  相似文献   

3.
数据流聚类分析是数据流挖掘领域的重要分支。由于数据流海量、快速、动态到达,传统的静态数据挖掘技术不能满足在线分析的需求。数据流聚类的核心是设计单遍数据集扫描算法,在有限的内存中存储少量概要特征信息,实现数据流实时、在线聚类分析。采用数据流处理中广泛应用的滑动窗口模型,提出一种新的基于增量傅立叶变换(DFT)的数据流概要算法,并在此基础上运用k-均值(k-means)聚类,实现数据流的在线挖掘。基于增量DFT概要的数据流聚类算法可减少运行时间,节省内存空间,实际用电负荷数据证明了算法的有效性。  相似文献   

4.
现有数据流聚类算法多数面向的是确定性数据,可是不确定数据的数据流聚类逐步被受到关注,因为经典的不确定数据聚类算法具有概率密度函数获取困难、实用性不强以及计算复杂等缺点,提出一种基于区间数的不确定数据流聚类算法UIDStream.算法用区间数来表示属性不确定性数据和基于区间数的距离计算方法,定义了不确定性数据之间的相似度,并利用传统k近邻聚类的思想,提出基于区间数的2k近邻微簇和最优2k近邻微簇的概念,通过最优2k近邻微簇的融合,实现不确定数据流的聚类.实验结果表明:改进后的算法具有良好的聚类效果,提高了不确定数据流聚类的聚类质量和速率.  相似文献   

5.
随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点。文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点。算法基于网格密度对数据流初始聚类后,随着新数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,使用基于Hadoop MapReduce框架的并行分析模型周期性地调整已经生成的簇。实验结果表明,PGDC Stream对大规模数据流的聚类质量、可伸缩性和实时性都好于CluStream。   相似文献   

6.
谱聚类算法是一种可有效学习数据流形分布和非凸状分布的聚类算法,但其过程涉及构建相似图、特征分解等高计算复杂度步骤,难以直接用于大规模聚类.提出一种基于二部图的快速聚类算法(fast clustering based on bipartite graph,FCBG),通过对数据采样降低原有数据结构规模,然后基于二部图学习采样数据和原有数据关系.通过对二部图对应的拉普拉斯矩阵施加秩约束,FCBG算法可在优化二部图的边的权重的同时,保持二部图的类簇结构,最终直接给出聚类结果,不依赖构图时每条边的初始权重分配.算法计算复杂度与数据大小呈线性关系.实验表明,FCBG算法可有效学习二部图的权重,并在较少的时间消耗下获得高质量的聚类结果.  相似文献   

7.
针对传统多目标跟踪算法在航迹初始阶段易受杂波干扰,提出一种交互多模型核预估数据流聚类的多目标跟踪算法(CE_DMTT)。对数据流进行在线聚类,并运用交互式多模型预估类核位置,缩小聚类搜索范围,同时引入Renyi熵,对聚类进行自适应提取,获取潜在航迹。然后基于潜在航迹运用多假设跟踪算法实现实时跟踪。仿真结果表明,该算法有效减少计算复杂度,提高系统实时性。  相似文献   

8.
随着数据采集和通信技术的发展,对时时变化的不同来源的信息即数据流,实施实时监控将成为可能.数据流是大量的连续变化的数据序列,传输速度快,传统的挖掘算法将被适合于挖掘量大、能自由出入的数据流的技术所代替.笔者提出了用聚类技术来改进数据流挖掘的问题.笔者对K-均值算法、基于网格的统计聚类算法、回归分析算法等适用于数据流挖掘的算法进行了研究和分析,并对它们进行了比较.  相似文献   

9.
针对网络流量在线识别的难题,提出一种聚类算法和在线流量识别方案.以网络数据流的若干初始数据包作为子流,提取子流的统计特征,应用基于滤波器算法的属性相关性算法提取子流最佳特征子集,并提出基于密度的在线带噪声空间聚类算法对子流特征向量进行聚类,采用优势概率业务实现聚类和应用类型的映射.实验结果表明,该方案具备识别新应用类型和加密数据流的功能,且能实现在线的网络流量分类.  相似文献   

10.
现有的软子空间聚类算法都是基于批处理技术的聚类算法,不能很好地应用于高维数据流或大规模数据的聚类研究.利用模糊可扩展聚类框架,与模糊加权软子空间聚类算法相结合,提出了一种有效的模糊加权流数据软子空间聚类算法(FWSSC).实验结果表明,FWSSC对于高维流数据可以得到与批处理软子空间聚类方法近似一致的实验结果.  相似文献   

11.
与传统静态数据库中的数据不同,数据流是一个按时间到达的有序的项集,这使得经典的频繁项集挖掘算法难以适用到数据流中.根据数据流的特点,提出了数据流频繁项集挖掘算法FP—SegCount.该算法将数据流分段并利用改进的FP—growth算法挖掘分段中的频繁项集.然后,利用Count Min Sketch进行项集计数.算法解决了压缩统计和计算快速高效的问题.通过和FP—Ds算法的实验对比,FP—SegCount算法具有较好的时间效率.  相似文献   

12.
针对带有概念漂移的数据流的分类问题,提出一种新颖的能够识别并且适应概念漂移数据流的分类算法。该算法将原始数据流沿着时间轴划分为若干数据块后,选择第一块中有代表性的数据作为样本训练模型,从而减轻了噪声和边界对分类精度的影响,使得漂移检测能较为全面且对离群点不过于敏感;此后对随后的数据块进行分类,并依据分类结果动态修正当前分类模型。实验结果表明:该方法能够根据数据流的当前状况自动调整分类模型,快速适应数据流概念漂移的情况,并得到较好的分类效果。  相似文献   

13.
在频繁模式挖掘(FPM)的研究中,为了在海量数据流中有效地挖掘子树结构的频繁模式,根据数据流和子树模式的特点,提出了一种基于数据流的频繁标记闭子树挖掘(SFCLTreeMiner)算法. 该算法首次对动态数据流中频繁标记闭子树的挖掘进行研究,给出了在数据流中标记闭子树集合添加、删除的批量挖掘方法,并结合时间衰减模型,有效保证了结果的时效性. 实验结果表明,该算法在挖掘性能,如挖掘时间和内存占用等方面,比类似算法有较大提高.  相似文献   

14.
未知真实类标记条件下数据流中的变化发现方法   总被引:1,自引:0,他引:1  
目前对数据流挖掘的研究主要关注有标记的实例可以学习时,怎样发现模式中的变化以及怎样更新模型反映这种变化。然而有标记的数据流难以立即得到。文中给出了一种基于累积和(CU SUM)控制图的变化发现方法。该方法在未知真实类标记的情况下,可以发现数据流中的概念流动和分布变化。实验验证表明,该方法是有效的。  相似文献   

15.
数据流是近年来出现的一种新的数据形式,这类数据的特点是以连续的、实时的、无限的形式出现.针对传统的数据库的查询处理技术已经不适合数据流的问题,研究了数据流管理系统TelegraphCQ的开放源码,在此基础上详细阐述了TelegraphCQ的系统结构、TelegraphCQ的数据管理方案和查询处理技术,同时给出了建立TelegraphCQ的详细步骤及其使用方法.  相似文献   

16.
基于离散平稳小波变换的EKF数据融合算法   总被引:2,自引:0,他引:2       下载免费PDF全文
针对车辆GPS/DR组合导航系统中广泛采用的扩展卡尔曼滤波器进行数据融合难以建立精确的数学模型的问题,提出了基于离散平稳小波变换的扩展卡尔曼滤波器数据融合算法。仿真表明,该算法优于扩展卡尔曼滤波器,对车辆组合导航系统的数据融合是有效的。  相似文献   

17.
随着人们对隐私权的越来越重视,隐私保护数据挖掘成为当前研究热点.分类算法作为一个重要的数据挖掘方法被应用到各个领域,其中支持向量机(SVM)是分类算法中一个重要方法.并且数据的隐私性和安全性是人们关注的重点.本文对SSP协议进行扩展提出了一个基于垂直分布数据的隐私支持向量机算法,这个算法具有更高的效率和更好的安全性.  相似文献   

18.
针对数据对象在数据流中的频繁度变化趋势的预测问题,提出基于最大最小频率时间窗模型的最大最小频繁趋势预测算法(MM-FTP).设计一种新的最大最小频繁模式树结构(MMFP-Tree),存储数据流概要信息;提出一种新的数据对象频繁度变化趋势衡量指标--频繁度变化率(FCR),定量地对数据对象的频繁度变化趋势进行描述.该算法同样能够对数据流分类置信度变化趋势及传统的指数变化趋势进行有效预测.结果表明,在真实的网络点击数据流上,该算法能够快速准确地预测数据对象的频繁度变化趋势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号