首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
不确定树模式聚类是数据挖掘领域中的一个重要问题,提出了一种新的不确定树模式聚类算法,有效地解决了因数据的不确定性而导致的无法聚类的问题.为了更加准确地度量树模式之间的相似性,提出了一种语义相似度计算方法与结构相似度计算方法.设计了一个动态聚类过程,自适应获取聚类阈值,较大程度上减少了人为干扰导致聚类结果不准确的影响,使得具有相似结构的子树聚集在同一个相似分组中,不同分组之间的子树相似度达到最小化.通过模拟数据和真实环境两部分实验表明,算法有效可行,聚类结果较准确且具有较好的运行效率.  相似文献   

2.
针对动态数据库随时间发生改变的特性,提出了一种新的在动态数据库中挖掘频繁子树的算法,引入树的转变概率、子树期望支持度和子树动态支持度等概念,提出了动态数据库中的支持度计算方法和子树搜索空间,从而解决了数据动态变化的频繁子树挖掘问题。随着子树搜索的进行,算法定义裁剪公式和混合数据结构,能有效地减少子树搜索空间和提高频繁子树的同构速度。实验结果表明,新算法有效可行,且具有较好的运行效率。  相似文献   

3.
基于密度的最小生成树聚类算法研究   总被引:2,自引:0,他引:2  
基于密度的方法是一种相当有效的聚类方法,能够发现任意形状的聚类,对噪声数据不敏感,但是聚类结果严重依赖于用户参数的合理选择。针对其存在的问题,将最小生成树理论与基于密度的方法相结合,提出了一种基于密度的最小生成树聚类算法。通过构造、分割最小生成树得到确定样本空间划分的最小生成子树;根据子树特性,产生局部密度参数;并对生成子树进行局部密度聚类。理论分析和应用结果表明。该算法不仅体现了基于密度聚类方法的优点,聚类结果不依赖于用户参数的选择,使数据聚类更合理,特别是对大型数据库非常有效;也体现了数据分区的思想,使其可以并行执行,进一步提高了信息处理的时空效率和性能。  相似文献   

4.
一种相似重复记录检测算法的改进研究   总被引:1,自引:1,他引:0  
相似重复记录检测是数据清洗领域中的一个重要方面.文中研究了在数据模式与匹配规则不变的前提下,数据集动态增加时近似重复记录的识别问题,针对基于聚类数算法精度不高、效率低下等问题提出一种改进算法.该算法运用等级法给属性赋予相应权重并约减属性,通过构造聚类树对相似记录进行聚类,增设了一个阈值以减少不必要的相似度比较次数,提高了算法的效率和准确率.最后通过实验证明了该算法的有效性,并提出了进一步的研究方向.  相似文献   

5.
黄伟  郭鑫  周清平 《计算机工程》2011,37(24):25-27
现有的树聚类算法在树数据库实时更新后无法及时更新已有的聚类结果。为此,建立一种支持实时增量更新的闭子树聚类模型,以解决闭子树的增量聚类问题并提高聚类效率。针对树的半结构化特性,将结点语义和结点-边的结构特性结合在一起,提出一种准确率更高的树相似性度量方法,在此基础上,利用CTUM算法、TC算法和UTC算法,分别解决闭子树增量更新、聚类和增量聚类等问题。实验结果表明,该算法具有较高的运行效率和聚类准确率。  相似文献   

6.
为利用开放分类进行百科条目的分类和检索, 提出了基于词共现和语义分析的开放分类聚类算法以及开放分类层次结构树构建方法; 为了进一步提高层次结构树的聚合度, 提出了基于相似度和相关度计算的层次结构树聚类算法。以互动百科开放分类为实验数据集, 实验结果表明, 所构建的开放分类层次结构树的准确率较高, 利用开放分类层次结构树有效提高了百科条目检索的效率。  相似文献   

7.
贾真  尹红风  李天瑞 《计算机应用研究》2013,(6):1660-1663,1674
为利用开放分类进行百科条目的分类和检索,提出了基于词共现和语义分析的开放分类聚类算法以及开放分类层次结构树构建方法;为了进一步提高层次结构树的聚合度,提出了基于相似度和相关度计算的层次结构树聚类算法。以互动百科开放分类为实验数据集,实验结果表明,所构建的开放分类层次结构树的准确率较高,利用开放分类层次结构树有效提高了百科条目检索的效率。  相似文献   

8.
尽管层次聚类算法在语义树生成方面已经得到广泛的应用,但其生成的语义树的结构不合理性限制它们在网络数据的应用.提出一种新颖的层次聚类算法WAC克服这个缺点.它采用了AMG数值计算方法,从粗到细地分层合并节点.在合并的同时,WAC算法也为语义树每个节点选定了代表数据来帮助用户浏览.在公用的博客标签数据集的实验结果表明WAC算法不但在聚类精度上优于传统方法,而且其生成的语义树结构更加符合用户需求.  相似文献   

9.
一种基于KNN的融合聚类算法   总被引:1,自引:0,他引:1  
聚类是数据挖掘领域一个被广泛研究的问题.单一的算法较难获得高的聚类准确率,甚至对于特定的数据集也很难找出最佳的方法进行聚类分析.提出了一种基于KNN的融合聚类算法(KNNCE),该算法基于累积k最近邻产生数据点间相似度,并通过single-link算法构建层次聚类树得到最终的聚类划分,且能够自动确定最佳聚类数,从而很好地解决以上的问题.最后,通过常用数据测试和入侵检测方面的应用表明该算法是有效的.还把它和同类算法进行比较和分析,以证明算法的优越性.  相似文献   

10.
针对传统K-均值聚类算法需要事先确定聚类数,以及对初始质心的选择具有敏感性,从而容易陷入局部极值点的缺陷,定义了簇间相似度度量对传统K-均值聚类进行改进.新算法可以在事先不确定K值的情况下,根据欧氏距离选取初始质心并按照K均值算法聚类,然后过滤噪声样本并确定簇半径,计算簇间相似度并合并相似簇确定数据集的类别数并得到较优的聚类结果.通过在UCI数据集的实验结果表明,新算法能准确确定类别数并有高于传统K均值算法聚类精度.  相似文献   

11.
由于在故障树分析、故障诊断和可靠性分析中迫切要求故障树图形化显示,所以文中研究了故障树画树算法。故障树显示为多叉树,将故障树节点的下一级节点作为左节点,将故障树同级右侧节点作为右节点,就把多叉树转换为二叉树存于数据库中,需要显示时将故障树节点信息对应的存于多向链表中的节点,通过递归函数计算出每个节点的坐标位置,然后用画树函数将故障树画于图形显示区域。文中基于C Builder 6.0开发环境,实现了故障树的图形显示,这样就为基于故障树的故障诊断提供坚实基础。  相似文献   

12.
基于约束树编辑距离与导航树的信息采集   总被引:1,自引:0,他引:1       下载免费PDF全文
姜波  丁岳伟 《计算机工程》2009,35(14):75-77
介绍基于网站和网页结构的信息采集算法,提出一种基于约束树编辑距离的导航树算法。该算法通过提取网页的HTML的重要标记生成网页结构的标签树,对网页进行结构分析,通过约束树编辑距离算法判断爬行到的网页与主题的相关性,并根据网站基于URL的拓扑结构,提出基于导航树的信息采集约束信息采集器的爬行路径,提高了目标页面采集的效率和准确率。  相似文献   

13.
本文主要介绍数据结构中二叉树的生成,以及二叉树的先序、中序和后序的非递归算法。  相似文献   

14.
在文(I)(本刊2001年第13期)和文(II)(本刊2001年第15期)的基础上,文章对树在主存中的4种存储方式对树的空间局部性的影响做了量化的分析,给出了最佳存储策略,并得到了对优化编译有效用的结果。  相似文献   

15.
3D树木建模技术研究进展   总被引:2,自引:1,他引:1       下载免费PDF全文
3D树木建模一直都是计算机图形学、计算机视觉、虚拟现实等领域最具有挑战性的研究方向之一,国外学者在该领域做了大量研究工作,但3D树木建模综述性文章的缺乏成为其发展的制约因素。侧重从计算机视觉的角度,将当前国内外经典的3D树木建模方法分为基于图像,基于规则和基于草图等三类,并跟踪了最新的3D树木建模技术进展,对他们的成果进行了深入剖析,重点阐述3D树木建模关键技术。最后,分析和比较了几种主要的3D树木建模技术,提出轻量化3D树木建模技术是今后虚拟场景中的交互应用的发展趋势。此外,根据当前研究的难点提出了基于单张图像的轻量化混合建模的研究思路。  相似文献   

16.
《国际计算机数学杂志》2012,89(3-4):189-208
Execution of sub-processes within a program segment are subject to a partial ordering. In certain cases (such as expressions and assignment statements) this ordering reduces to a tree which, according to the characteristics of the operators present, may be manipulated to influence the extent to which parallel processing capabilities of multiple-processor configurations can be utilized in its evaluation. A strategy is presented which uses associativity of certain operators to adjust the shape of the trees to allow a degree of overlap between adjacent subtrees. Although only optimal in the local sense, the transformation yields significant improvements in the “parallel dimensions” of the tree and, more importantly, can be couched in syntactic terms. Consequently, it is possible in principle to perform these manipulations within the syntax analysis phase of compilation, regardless of other operational characteristics of the operators, or of the parallel capabilities of the target run-time system.  相似文献   

17.
杨春德  康欢  丁亚南 《计算机应用》2010,30(11):3056-3058
为了在时延约束条件下进一步优化多播树代价并降低算法的复杂度,研究了时延受限的Steiner树问题。在DCMPH算法的基础上,通过改进节点的搜索路径,提出了一种新的基于MPH的时延约束Steiner树算法。该算法中每个目的节点通过最小代价路径加入当前多播树;若时延不满足要求,则通过合并最小时延树进而产生一个满足时延约束的最小代价多播树。仿真实验表明,新算法在性能、空间复杂度方面均优于DCMPH算法。  相似文献   

18.
19.
20.
为了使树生成算法更为通用且效率更高,提出一种基于前缀编码的树生成算法.算法中的节点采用前缀编码的数据结构,便于用户对树中节点及其下层子节点上的关联数据进行快速查询和统计.由于在构造树之前已采用先根遍历的方式对节点进行了排序,同时建树过程中记录了最近各层节点的信息,因此无需搜索节点的上下层信息就可直接建立起树,大幅提高了建树效率,算法时间复杂度为O(n).该算法无需额外的数据预处理即可构造任意子树,且不会增加算法复杂度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号