首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
分析了数据流的特点,针对数据流聚类算法CluStream对数据流中非球形聚类效果不好的情况,提出了基于数据流的不规则网格增量聚类算法IIGStream.IIGStream算法具备了传统网格聚类算法处理速度快的优点.同时能够动态增量地调整网格结构.对新到来的数据点,通过判断网格是否相连,保证了对于不同形状聚类的聚类效果.IIGStream在聚类时无需预先指定聚类数目.且对孤立点不敏感.在真实数据集与仿真数据集上的实验结果表明,IIGStream算法具有良好的适用性和有效性,在聚类精度以及速度上均优于CluStream算法.  相似文献   

2.
传统的K-means算法是一种常用的聚类算法,但它对于初始聚类中心敏感,容易受到"噪声"和孤立点的影响,由此提出了一种基于网格的二次K-means聚类算法.此算法先将空间划分为多个大小相等的网格,然后根据给定的密度阈值来计算出密集网格,对密集网格中的点进行初次聚类,将初次聚类结果的均值点作为第二次聚类的初始均值点,从而消除了"噪声"和孤立点的影响,并且保证了信息的完整,实验证明此算法是有效的.  相似文献   

3.
随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点。文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点。算法基于网格密度对数据流初始聚类后,随着新数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,使用基于Hadoop MapReduce框架的并行分析模型周期性地调整已经生成的簇。实验结果表明,PGDC Stream对大规模数据流的聚类质量、可伸缩性和实时性都好于CluStream。   相似文献   

4.
为了在高维数据流中有效地形成聚类,针对经典算法CELL-Tree存在的问题,提出一种新的概要数据结构PL-Tree以及基于此数据结构的算法PLStream,并采取衰减窗口模式来适应数据流的变化,采用剪枝策略控制内存中聚类模型的规模.实验表明,PLStream算法能较好地适应高维数据流,比CELL/Tre算法具有更好的时...  相似文献   

5.
针对现有的数据流聚类算法不能在线实时生成用户需要的聚类结果问题,提出一种基于滑动窗口的数据流在线聚类算法.该算法采用密度网格存储结构,实现了数据流的在线聚类过程,能实时地向用户提供聚类结果,动态地检测数据流的进化情况.实验结果表明,该方法具有快速在线聚类能力,并能保证良好的聚类质量.  相似文献   

6.
针对协同过滤推荐系统存在的数据稀疏性和扩展性差问题,提出了初始聚类中心优化的K-均值项目聚类推荐算法。该算法首先采用SlopeOne方法对评分矩阵预测填充来缓解数据稀疏性,然后采用初始聚类中心优化的K-均值算法对项目进行聚类,将相似度高的项目聚到同一个类中,最后根据目标项目所在的聚类搜索其最近邻并产生推荐。实验结果表明,该算法有效改善了数据的稀疏性和扩展性,提高了推荐质量。  相似文献   

7.
对搜索窗中的父块和子块,根据其方差的不同,利用K-均值聚类优化方法分别对子块和父块进行聚类,子块只对同一类中的父块进行匹配,从而大大缩短了编码时间。仿真实验结果表明,在不影响信噪比和压缩比的前提下,与经典分形压缩算法相比,该算法编码速度可提高大约5倍;同近期文献报道的基于方差的快速分形压缩算法相比,该算法的结果也有明显的改善。  相似文献   

8.
为满足技术路线图编制需要,针对模糊c均值对初始值敏感和稳定性差的缺点,通过引入遗传算法和类的概念向量,提出了一种改进的模糊均值文本聚类挖掘方法—CGFCM方法.首先根据遗传算法全局搜索的特点,CGFCM方法利用遗传算法求出文本的初始聚类中心,然后利用类的概念向量,建立概念向量矩阵,使用迭代概念向量矩阵完成文本的模糊聚类...  相似文献   

9.
Web访问挖掘中事务聚类研究   总被引:4,自引:0,他引:4  
Web访问挖掘可以发现用户浏览Web的目标、兴趣等行为模式,使Web变得更容易获取信息。聚类分析是Web访问挖掘系统的重要组件,聚类分析的质量决定挖掘结果的有效性。现有的三类聚类算法具有各自的缺点,本文概述了三种算法,给出了一种基于广义后缀树的聚类算法,通过实例说明了它的原理和优点。  相似文献   

10.
针对传统多目标跟踪算法在航迹初始阶段易受杂波干扰,提出一种交互多模型核预估数据流聚类的多目标跟踪算法(CE_DMTT)。对数据流进行在线聚类,并运用交互式多模型预估类核位置,缩小聚类搜索范围,同时引入Renyi熵,对聚类进行自适应提取,获取潜在航迹。然后基于潜在航迹运用多假设跟踪算法实现实时跟踪。仿真结果表明,该算法有效减少计算复杂度,提高系统实时性。  相似文献   

11.
数据流聚类分析是数据流挖掘领域的重要分支。由于数据流海量、快速、动态到达,传统的静态数据挖掘技术不能满足在线分析的需求。数据流聚类的核心是设计单遍数据集扫描算法,在有限的内存中存储少量概要特征信息,实现数据流实时、在线聚类分析。采用数据流处理中广泛应用的滑动窗口模型,提出一种新的基于增量傅立叶变换(DFT)的数据流概要算法,并在此基础上运用k-均值(k-means)聚类,实现数据流的在线挖掘。基于增量DFT概要的数据流聚类算法可减少运行时间,节省内存空间,实际用电负荷数据证明了算法的有效性。  相似文献   

12.
数据挖掘技术中聚类算法的改进研究   总被引:1,自引:0,他引:1  
针对K-means算法所存在的问题进行了深入的研究,提出了基于密度和聚类对象方向的改进算法(KADD算法).该算法采取聚类对象分布密度方法来确定初始聚类中心,然后根据对象的聚类方向来发现任意形状的簇.理论分析与实验结果表明,改进算法在不改变时间、空间复杂度的情况下能取得更好的聚类结果.  相似文献   

13.
针对带有概念漂移的数据流的分类问题,提出一种新颖的能够识别并且适应概念漂移数据流的分类算法。该算法将原始数据流沿着时间轴划分为若干数据块后,选择第一块中有代表性的数据作为样本训练模型,从而减轻了噪声和边界对分类精度的影响,使得漂移检测能较为全面且对离群点不过于敏感;此后对随后的数据块进行分类,并依据分类结果动态修正当前分类模型。实验结果表明:该方法能够根据数据流的当前状况自动调整分类模型,快速适应数据流概念漂移的情况,并得到较好的分类效果。  相似文献   

14.
计算机网络入侵通常具有高频度特性,因此,识别是否正常访问,对数据流中重复元素的挖掘,给出频度指标,是一种重要的依据。提出一种基于数据流频繁模式的改进型AFP算法,该算法采用滑动窗口树技术,单遍扫描数据流及时捕获网络上的最新模式信息,并将该算法应用在入侵检测模型中正常数据和异常数据的在线挖掘。解决了有限存储和无限数据流的矛盾。实验结果表明,该模型有较高的报警率和较低的误报率。  相似文献   

15.
Web数据挖掘技术及实现   总被引:8,自引:0,他引:8  
在介绍W eb数据挖掘的概念、内涵基础上,探讨了如何在web上用分类器对异构与非结构化数据源进行数据抽取(IE),并建立统一的XML数据格式,进而用Reporting Services和W eb显示控件等技术进行数据挖掘和处理.  相似文献   

16.
混合属性数据聚类的新方法   总被引:1,自引:0,他引:1  
提出了一种数值型和类别型混合属性数据聚类的全局算法。算法通过随机选取足够多的初始原型来覆盖数据集的全局分布信息,然后通过评估函数迭代地消去多余的原型。最后对本文算法进行了验证,证明了该算法的有效性和收敛性。并与其他已有同类型算法的聚类结果进行比较,说明本文算法对混合属性数据具有更高的聚类准确度,为解决混合型数据聚类问题提供了一种新途径。  相似文献   

17.
基于模糊c-均值聚类的微阵列基因表达数据分析   总被引:5,自引:2,他引:3  
微阵列技术已成为染色体研究的主要工具,但是它所面临的挑战是如何对海量数据进行分析.利用模糊c-均值聚类对这些数据进行分析,从而发现有差异的基因表达.结果表明,模糊聚类是一种用来为微阵列基因表达数据寻找有差异的基因表达的一种有用工具.  相似文献   

18.
基于数据仓库的数据挖掘技术   总被引:2,自引:0,他引:2  
首先介绍了数据仓库以及在此技术上产生的数据挖掘技术,其次阐述了实现数据挖掘应用的几种工具以及选用工具时应遵循的原则,最后说明了数据挖掘技术现存的问题及它现在重要的商业地位。  相似文献   

19.
提出了一种针对流数据的增量式多维可扩展可视化挖掘方法(Incremental multi-di-mension scaling,IMDS),对数据表现的特征形状进行聚类,并且聚类结果会随着时间的推移用动态可视化的方式实时展现。仿真实验表明:本文算法相比传统的MDS(Multi-dimension scaling)算法和简易型SIMPLEX优化算法在流数据挖掘中可以明显地提高可视化挖掘效率和流挖掘效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号