首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 55 毫秒
1.
不确定树模式聚类是数据挖掘领域中的一个重要问题,提出了一种新的不确定树模式聚类算法,有效地解决了因数据的不确定性而导致的无法聚类的问题.为了更加准确地度量树模式之间的相似性,提出了一种语义相似度计算方法与结构相似度计算方法.设计了一个动态聚类过程,自适应获取聚类阈值,较大程度上减少了人为干扰导致聚类结果不准确的影响,使得具有相似结构的子树聚集在同一个相似分组中,不同分组之间的子树相似度达到最小化.通过模拟数据和真实环境两部分实验表明,算法有效可行,聚类结果较准确且具有较好的运行效率.  相似文献   

2.
非确定树模式挖掘已经成为一个重要的研究课题,提出一种非确定树模式挖掘算法,有效地解决了在实际应用中树的非确定性问题。其基本思想为:提出非确定树蕴含集、确定树概率和非确定期望支持度等概念,提出将非确定树的期望支持度作为树的支持度,提出非确定树支持度计算方法,利用哈希表能快速匹配的特性降低求解期望支持度过程中树同构判定的时间复杂度,提出非确定树挖掘层次搜索空间,使得非确定树挖掘快速而精确。实验结果表明,提出的非确定树挖掘算法有效可行且具有显著的运行效率。  相似文献   

3.
针对动态数据库随时间发生改变的特性,提出了一种新的在动态数据库中挖掘频繁子树的算法,引入树的转变概率、子树期望支持度和子树动态支持度等概念,提出了动态数据库中的支持度计算方法和子树搜索空间,从而解决了数据动态变化的频繁子树挖掘问题。随着子树搜索的进行,算法定义裁剪公式和混合数据结构,能有效地减少子树搜索空间和提高频繁子树的同构速度。实验结果表明,新算法有效可行,且具有较好的运行效率。  相似文献   

4.
用户在访问Web站点时会碰到很多问题,主要原因是Web站点对用户需求缺乏适应性。为了提高Web用户的服务质量和用户的满意度,在用户访问网站点击流形成频繁序列模式的基础上,提出基于距离函数的聚类分析以及基于时间相似度函数的二次聚类分析算法。该算法可以求取频繁序列的相关性和反映用户对网页的兴趣的相似度,对下一步改善Web站点的结构及存在形式使站点达到更好的效果起先导作用。  相似文献   

5.
一种存在级不确定数据流聚类算法   总被引:1,自引:0,他引:1  
针对不确定数据流聚类算法——EMicro在聚类结果的精确性和聚类中数据的概率相似度方面的不足,提出一种新基于存在级的不确定数据流算法——UDs Stream。该算法通过设置概率阈值,将不确定性高的点和不确定性低的点分开处理,提高聚类结果的准确性和聚类中数据概率相似度。同时引入窗口和密度的方法,设置动态密度阈值,能够动态掌握数据流的分布特征,使聚类过程有更好的灵活性。实验结果证明,与EMicro相比,UDs Stream算法聚类效果更好。  相似文献   

6.
程舒通 《微机发展》2007,17(9):18-20
用户在访问Web站点时会碰到很多问题,主要原因是Web站点对用户需求缺乏适应性。为了提高Web用户的服务质量和用户的满意度,在用户访问网站点击流形成频繁序列模式的基础上,提出基于距离函数的聚类分析以及基于时间相似度函数的二次聚类分析算法。该算法可以求取频繁序列的相关性和反映用户对网页的兴趣的相似度,对下一步改善Web站点的结构及存在形式使站点达到更好的效果起先导作用。  相似文献   

7.
维度灾难、含有噪声数据和输入参数对领域知识的强依赖性,是不确定数据聚类领域中具有挑战性的问题。针对这些问题,基于相似性度量和凝聚层次聚类思想的基础上提出了高维不确定数据高效聚类HDUDEC(High Dimensional Un-certain Data Efficient Clustering)算法。该算法采用一个能够准确表达不确定高维对象之间的相似度的度量函数计算出对象之间的相似度,然后根据相似度阈值自底向上进行聚类分析。实验证明新的算法需要的先验知识较少、可以有效地过滤噪声数据、可以高效的获得任意形状的高维不确定聚类结果。  相似文献   

8.
维度灾难、含有噪声数据和输入参数对领域知识的强依赖性,是不确定数据聚类领域中具有挑战性的问题。针对这些问题,基于相似性度量和凝聚层次聚类思想的基础上提出了高维不确定数据高效聚类HDUDEC(High Dimensional Uncertain Data Efficient Clustering)算法。该算法采用一个能够准确表达不确定高维对象之间的相似度的度量函数计算出对象之间的相似度,然后根据相似度阈值自底向上进行聚类分析。实验证明新的算法需要的先验知识较少、可以有效地过滤噪声数据、可以高效的获得任意形状的高维不确定聚类结果。  相似文献   

9.
一种不确定数据流聚类算法   总被引:3,自引:1,他引:3  
张晨  金澈清  周傲英 《软件学报》2010,21(9):2173-2182
提出了EMicro算法,以解决不确定数据流上的聚类问题.与现有技术大多仅考虑元组间的距离不同,EMicro算法综合考虑了元组之间的距离与元组自身不确定性这两个因素,同时定义新标准来描述聚类结果质量.还提出了离群点处理机制,系统同时维护两个缓冲区,分别存放正常的微簇与潜在的离群点微簇,以期得到理想的性能.实验结果表明,与现有工作相比,EMicro的效率更高,且效果良好.  相似文献   

10.
在不确定数据流聚类算法的研究中,位置不确定性是一种新的不确定数据类型.已有的不确定数据模型不能很好地描述和处理位置不确定数据.鉴于此,在提出基于联系数的位置不确定数据模型、联系距离函数、微簇密度可达性等主要概念的基础上,提出了一种联系数表达的位置不确定数据流聚类算法--UCNStream.数据流聚类算法采用在线/离线两级处理框架,使用基于密度峰值思想的初始化策略,定义了新的可动态维护的微簇聚类特征向量.利用衰减函数和微簇删除机制对微簇进行在线维护,准确地反映了数据流的演化过程.最后,分析了算法的计算复杂性,并通过对实际数据集上的实验与几种优秀的聚类算法进行了比较,实验结果表明,UCNStream算法具有较高的聚类精度和处理效率.  相似文献   

11.
针对树挖掘算法产生大量频繁子树和树数据库随时间变化的问题,提出最小频繁闭树增量式更新算法以及增量式更新策略,能充分利用已有挖掘知识,无须重新运行树挖掘算法,并且只需进行一次数据库扫描操作。给出一种候选子树剪枝方法,能减少树同构判别次数,有效提高算法的运行效率。通过大量实验结果表明,该算法有效可行且效率较高。  相似文献   

12.
RAKING:一种高效的不确定图K-极大频繁模式挖掘算法   总被引:2,自引:1,他引:2  
由于不确定图蕴含了指数级的可能图实例,基于确定图模型的频繁图模式挖掘算法通常难以在不确定图集合上高效运行.文中提出了一种不确定图数据集上的基于随机游走的K极大频繁子模式挖掘算法.首先,将每个不确定图转换为相应的确定图并挖掘候选频繁模式;然后,将候选频繁模式恢复为不确定图并生成极大频繁模式搜索空间;最后,通过随机游走以相同概率随机地选择K个极大频繁模式.理论分析和实验结果表明文中提出的算法能够高效地获得不确定图集合的K-极大频繁模式.  相似文献   

13.
郭鑫  黄云  颜一鸣  周清平 《计算机应用》2010,30(5):1300-1303
讨论频繁子树增量式更新问题,提出一种新的频繁子树增量式更新算法。提出有效树集概念和增量式更新策略,在更新挖掘时,无须重新运行子树挖掘程序,能充分利用已有的挖掘结果,算法只需要进行一次数据库遍历操作。提出候选子树剪枝策略,在更新挖掘过程中,能大幅减少子树同构次数,有效地提高了算法的运行效率。通过大量实验分析表明,算法有效可行且具有较高的运行效率。  相似文献   

14.
如何在海量不确定数据集中提高频繁模式挖掘性能是目前研究的热点.传统算法大多是以期望、概率或者权重等单一指标为数据项集支持度,在大数据背景下,同时考虑概率和权重支持度的算法难以兼顾其执行效率.为此,本文提出一种基于Spark的不确定数据集频繁模式挖掘算法(UWEFP),首先,为了同时兼顾数据项的概率和权重,计算一项集的最大概率权重值并进行剪枝;然后,为了减少对数据集的多次扫描,结合Spark框架的优点,设计了一种具有FP-tree特征的新颖的UWEFP-tree结构进行模式树的构建及挖掘;最后在Spark环境下,以UCI数据集进行实验验证.实验结果表明本文的方法在保证挖掘结果的同时,提高了效率.  相似文献   

15.
为提高聚类算法效率,提出一种基于动态云平台的快速闭树聚类并行算法。针对云计算平台Hadoop中任务的随机分配策略,给出一个满足最小化消耗成本的任务分配算法 CDA-GA,并基于该算法提出动态云平台模型。将传统的频繁闭树挖掘算法与聚类算法并行化,应用于动态云平台中,设计基于动态云平台的闭树聚类算法框架。实验结果表明,该算法有效可行,适合在大规模数据下进行聚类分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号