首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
针对现有的树聚类算法不能适应数据的动态变化和不确定性等问题,研究不确定数据的聚类问题,提出一种在不确定树数据库中的动态聚类算法,有效地解决了因数据的动态变化而导致的无法聚类的问题.首先,提出转变树集、相似分组和树类集等概念来描述一个不确定树数据库的聚类模型.其次,为了更加准确的度量子树之间的相似性,考虑到子树即具有结点语义特征,又具有结构化特性,提出了一种语义相似度计算方法与结构相似度计算方法,同时对两者赋予一定比例的权值并求和得到最终的相似度.再次,设计了一个动态聚类过程,采用自适应获取聚类阈值,较大程度上减少了人为干扰导致聚类结果不准确的影响,使得具有相似结构的子树聚集在同一个相似分组中,不同分组之间的子树相似度达到最小化,同时对每个相似分组,定义一个提取代表性子树的公式,将其作为树类组成树的类集.最后,通过模拟数据和真实环境两部分实验可以表明,算法有效可行,聚类结果较准确且具有较好的运行效率.  相似文献   

2.
维度灾难、含有噪声数据和输入参数对领域知识的强依赖性,是不确定数据聚类领域中具有挑战性的问题。针对这些问题,基于相似性度量和凝聚层次聚类思想的基础上提出了高维不确定数据高效聚类HDUDEC(High Dimensional Uncertain Data Efficient Clustering)算法。该算法采用一个能够准确表达不确定高维对象之间的相似度的度量函数计算出对象之间的相似度,然后根据相似度阈值自底向上进行聚类分析。实验证明新的算法需要的先验知识较少、可以有效地过滤噪声数据、可以高效的获得任意形状的高维不确定聚类结果。  相似文献   

3.
维度灾难、含有噪声数据和输入参数对领域知识的强依赖性,是不确定数据聚类领域中具有挑战性的问题。针对这些问题,基于相似性度量和凝聚层次聚类思想的基础上提出了高维不确定数据高效聚类HDUDEC(High Dimensional Un-certain Data Efficient Clustering)算法。该算法采用一个能够准确表达不确定高维对象之间的相似度的度量函数计算出对象之间的相似度,然后根据相似度阈值自底向上进行聚类分析。实验证明新的算法需要的先验知识较少、可以有效地过滤噪声数据、可以高效的获得任意形状的高维不确定聚类结果。  相似文献   

4.
针对传统基于距离度量的聚类算法难以适合高维数据聚类以及高维数据之间相似度难定义的问题,提出了一种新的高维数据聚类算法.该算法基于一个能够更准确地表达出高维对象之间相似性的度量函数,首先计算对象两两之间的相似度并得出一个相似度矩阵,然后根据该相似度矩阵和阈值大小自底向上对数据进行聚类分析.实验结果显示,该算法能够获得质量更高的聚类结果,并且不受孤立点影响,对输入数据顺序也不敏感.  相似文献   

5.
基于密度的最小生成树聚类算法研究   总被引:2,自引:0,他引:2  
基于密度的方法是一种相当有效的聚类方法,能够发现任意形状的聚类,对噪声数据不敏感,但是聚类结果严重依赖于用户参数的合理选择。针对其存在的问题,将最小生成树理论与基于密度的方法相结合,提出了一种基于密度的最小生成树聚类算法。通过构造、分割最小生成树得到确定样本空间划分的最小生成子树;根据子树特性,产生局部密度参数;并对生成子树进行局部密度聚类。理论分析和应用结果表明。该算法不仅体现了基于密度聚类方法的优点,聚类结果不依赖于用户参数的选择,使数据聚类更合理,特别是对大型数据库非常有效;也体现了数据分区的思想,使其可以并行执行,进一步提高了信息处理的时空效率和性能。  相似文献   

6.
因树型结构的良好表达能力,在互联网中传输的信息流越来越多以树型结构形式存储。但由于流式数据的时效性,隐含在数据流中的知识会随着时间的推移发生改变。针对数据流场景下挖掘最近时间段内的频繁子树模式的问题,提出了一种滑动窗口模型下挖掘频繁子树模式算法——SWMiner算法,用于挖掘数据流下任意时刻窗口下所有的频繁子树模式。SWMiner算法使用基于前缀树的结构来压缩存储生成的树模式,并且使用trie merging机制有效地更新子树模式的支持度。实验结果表明,SWMiner算法在滑动窗口模型中的性能优于目前现有的常用算法,能有效地挖掘最近时间段内的频繁树模式。  相似文献   

7.
聚类是数据挖掘的主要问题之一,聚类算法能够在没有任何数据先验知识的情况下对数据进行分群,从而找到数据中的有价值的信息,近年来数据挖掘在电信领域的应用越来越广泛,但是由于数据量、数据类型、计算复杂度等原因,聚类算法应用的却不多.提出一种新的适合于分布式计算的最小生成树算法,结合适合的相似度度量,设计了一种用于解决海量数据...  相似文献   

8.
相似重复记录检测是数据清洗领域中的一个重要方面.文中研究了在数据模式与匹配规则不变的前提下,数据集动态增加时近似重复记录的识别问题,针对基于聚类数算法精度不高、效率低下等问题提出一种改进算法.该算法运用等级法给属性赋予相应权重并约减属性,通过构造聚类树对相似记录进行聚类,增设了一个阈值以减少不必要的相似度比较次数,提高了算法的效率和准确率.最后通过实验证明了该算法的有效性,并提出了进一步的研究方向.  相似文献   

9.
在实际的数据迁移项目中,为了解决数据映射的问题,需要确定两个工作流模型之间的相似度。从工作流模型的相似性方面进行分析阐述,提出了基于Petri网的工作流模型展开树的路径序列相似性算法,首先采用深度优先搜索算法和动态规划算法对模型进行搜索,其次通过提出的算法获取展开树的所有路径序列,最后利用编辑距离算法计算两个模型序列之间的两两相似度,进而完成模型相似性计算,相较于其他的主流相似度算法,主要优点在于可以精确计算得到模型部分结构和行为相似度,可以更好的确定流程间映射,从而找到数据映射的解决方法。实验结果表明:该方法较主流的基于模型结构和行为相似性算法,计算合理性和准确性有很大提升。  相似文献   

10.
一种最小生成树聚类算法   总被引:2,自引:0,他引:2  
现有的聚类算法都不能在输入较少参数的情况下得到任意形状任意密度的类.提出一种最小生成树的聚类算法,该算法不但能解决上述问题,还能处理高维数据,发现异常点,且具有扩展性.针对该算法提出一个目标函数,该函数根据对象的类属情况和相似度统计信息来判别聚类效果的质量.最后,通过实验验证了该算法的聚类质量很好,目标函数具有良好的收敛性.  相似文献   

11.
由于在故障树分析、故障诊断和可靠性分析中迫切要求故障树图形化显示,所以文中研究了故障树画树算法。故障树显示为多叉树,将故障树节点的下一级节点作为左节点,将故障树同级右侧节点作为右节点,就把多叉树转换为二叉树存于数据库中,需要显示时将故障树节点信息对应的存于多向链表中的节点,通过递归函数计算出每个节点的坐标位置,然后用画树函数将故障树画于图形显示区域。文中基于C Builder 6.0开发环境,实现了故障树的图形显示,这样就为基于故障树的故障诊断提供坚实基础。  相似文献   

12.
基于约束树编辑距离与导航树的信息采集   总被引:1,自引:0,他引:1       下载免费PDF全文
姜波  丁岳伟 《计算机工程》2009,35(14):75-77
介绍基于网站和网页结构的信息采集算法,提出一种基于约束树编辑距离的导航树算法。该算法通过提取网页的HTML的重要标记生成网页结构的标签树,对网页进行结构分析,通过约束树编辑距离算法判断爬行到的网页与主题的相关性,并根据网站基于URL的拓扑结构,提出基于导航树的信息采集约束信息采集器的爬行路径,提高了目标页面采集的效率和准确率。  相似文献   

13.
本文主要介绍数据结构中二叉树的生成,以及二叉树的先序、中序和后序的非递归算法。  相似文献   

14.
在文(I)(本刊2001年第13期)和文(II)(本刊2001年第15期)的基础上,文章对树在主存中的4种存储方式对树的空间局部性的影响做了量化的分析,给出了最佳存储策略,并得到了对优化编译有效用的结果。  相似文献   

15.
3D树木建模技术研究进展   总被引:2,自引:1,他引:1       下载免费PDF全文
3D树木建模一直都是计算机图形学、计算机视觉、虚拟现实等领域最具有挑战性的研究方向之一,国外学者在该领域做了大量研究工作,但3D树木建模综述性文章的缺乏成为其发展的制约因素。侧重从计算机视觉的角度,将当前国内外经典的3D树木建模方法分为基于图像,基于规则和基于草图等三类,并跟踪了最新的3D树木建模技术进展,对他们的成果进行了深入剖析,重点阐述3D树木建模关键技术。最后,分析和比较了几种主要的3D树木建模技术,提出轻量化3D树木建模技术是今后虚拟场景中的交互应用的发展趋势。此外,根据当前研究的难点提出了基于单张图像的轻量化混合建模的研究思路。  相似文献   

16.
《国际计算机数学杂志》2012,89(3-4):189-208
Execution of sub-processes within a program segment are subject to a partial ordering. In certain cases (such as expressions and assignment statements) this ordering reduces to a tree which, according to the characteristics of the operators present, may be manipulated to influence the extent to which parallel processing capabilities of multiple-processor configurations can be utilized in its evaluation. A strategy is presented which uses associativity of certain operators to adjust the shape of the trees to allow a degree of overlap between adjacent subtrees. Although only optimal in the local sense, the transformation yields significant improvements in the “parallel dimensions” of the tree and, more importantly, can be couched in syntactic terms. Consequently, it is possible in principle to perform these manipulations within the syntax analysis phase of compilation, regardless of other operational characteristics of the operators, or of the parallel capabilities of the target run-time system.  相似文献   

17.
杨春德  康欢  丁亚南 《计算机应用》2010,30(11):3056-3058
为了在时延约束条件下进一步优化多播树代价并降低算法的复杂度,研究了时延受限的Steiner树问题。在DCMPH算法的基础上,通过改进节点的搜索路径,提出了一种新的基于MPH的时延约束Steiner树算法。该算法中每个目的节点通过最小代价路径加入当前多播树;若时延不满足要求,则通过合并最小时延树进而产生一个满足时延约束的最小代价多播树。仿真实验表明,新算法在性能、空间复杂度方面均优于DCMPH算法。  相似文献   

18.
19.
20.
为了使树生成算法更为通用且效率更高,提出一种基于前缀编码的树生成算法.算法中的节点采用前缀编码的数据结构,便于用户对树中节点及其下层子节点上的关联数据进行快速查询和统计.由于在构造树之前已采用先根遍历的方式对节点进行了排序,同时建树过程中记录了最近各层节点的信息,因此无需搜索节点的上下层信息就可直接建立起树,大幅提高了建树效率,算法时间复杂度为O(n).该算法无需额外的数据预处理即可构造任意子树,且不会增加算法复杂度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号