共查询到20条相似文献,搜索用时 78 毫秒
1.
不确定树模式聚类是数据挖掘领域中的一个重要问题,提出了一种新的不确定树模式聚类算法,有效地解决了因数据的不确定性而导致的无法聚类的问题.为了更加准确地度量树模式之间的相似性,提出了一种语义相似度计算方法与结构相似度计算方法.设计了一个动态聚类过程,自适应获取聚类阈值,较大程度上减少了人为干扰导致聚类结果不准确的影响,使得具有相似结构的子树聚集在同一个相似分组中,不同分组之间的子树相似度达到最小化.通过模拟数据和真实环境两部分实验表明,算法有效可行,聚类结果较准确且具有较好的运行效率. 相似文献
2.
3.
基于密度的最小生成树聚类算法研究 总被引:2,自引:0,他引:2
基于密度的方法是一种相当有效的聚类方法,能够发现任意形状的聚类,对噪声数据不敏感,但是聚类结果严重依赖于用户参数的合理选择。针对其存在的问题,将最小生成树理论与基于密度的方法相结合,提出了一种基于密度的最小生成树聚类算法。通过构造、分割最小生成树得到确定样本空间划分的最小生成子树;根据子树特性,产生局部密度参数;并对生成子树进行局部密度聚类。理论分析和应用结果表明。该算法不仅体现了基于密度聚类方法的优点,聚类结果不依赖于用户参数的选择,使数据聚类更合理,特别是对大型数据库非常有效;也体现了数据分区的思想,使其可以并行执行,进一步提高了信息处理的时空效率和性能。 相似文献
4.
一种相似重复记录检测算法的改进研究 总被引:1,自引:1,他引:0
相似重复记录检测是数据清洗领域中的一个重要方面.文中研究了在数据模式与匹配规则不变的前提下,数据集动态增加时近似重复记录的识别问题,针对基于聚类数算法精度不高、效率低下等问题提出一种改进算法.该算法运用等级法给属性赋予相应权重并约减属性,通过构造聚类树对相似记录进行聚类,增设了一个阈值以减少不必要的相似度比较次数,提高了算法的效率和准确率.最后通过实验证明了该算法的有效性,并提出了进一步的研究方向. 相似文献
5.
6.
7.
8.
尽管层次聚类算法在语义树生成方面已经得到广泛的应用,但其生成的语义树的结构不合理性限制它们在网络数据的应用.提出一种新颖的层次聚类算法WAC克服这个缺点.它采用了AMG数值计算方法,从粗到细地分层合并节点.在合并的同时,WAC算法也为语义树每个节点选定了代表数据来帮助用户浏览.在公用的博客标签数据集的实验结果表明WAC算法不但在聚类精度上优于传统方法,而且其生成的语义树结构更加符合用户需求. 相似文献
9.
一种基于KNN的融合聚类算法 总被引:1,自引:0,他引:1
聚类是数据挖掘领域一个被广泛研究的问题.单一的算法较难获得高的聚类准确率,甚至对于特定的数据集也很难找出最佳的方法进行聚类分析.提出了一种基于KNN的融合聚类算法(KNNCE),该算法基于累积k最近邻产生数据点间相似度,并通过single-link算法构建层次聚类树得到最终的聚类划分,且能够自动确定最佳聚类数,从而很好地解决以上的问题.最后,通过常用数据测试和入侵检测方面的应用表明该算法是有效的.还把它和同类算法进行比较和分析,以证明算法的优越性. 相似文献
10.
针对传统K-均值聚类算法需要事先确定聚类数,以及对初始质心的选择具有敏感性,从而容易陷入局部极值点的缺陷,定义了簇间相似度度量对传统K-均值聚类进行改进.新算法可以在事先不确定K值的情况下,根据欧氏距离选取初始质心并按照K均值算法聚类,然后过滤噪声样本并确定簇半径,计算簇间相似度并合并相似簇确定数据集的类别数并得到较优的聚类结果.通过在UCI数据集的实验结果表明,新算法能准确确定类别数并有高于传统K均值算法聚类精度. 相似文献
11.
12.
13.
14.
在文(I)(本刊2001年第13期)和文(II)(本刊2001年第15期)的基础上,文章对树在主存中的4种存储方式对树的空间局部性的影响做了量化的分析,给出了最佳存储策略,并得到了对优化编译有效用的结果。 相似文献
15.
3D树木建模一直都是计算机图形学、计算机视觉、虚拟现实等领域最具有挑战性的研究方向之一,国外学者在该领域做了大量研究工作,但3D树木建模综述性文章的缺乏成为其发展的制约因素。侧重从计算机视觉的角度,将当前国内外经典的3D树木建模方法分为基于图像,基于规则和基于草图等三类,并跟踪了最新的3D树木建模技术进展,对他们的成果进行了深入剖析,重点阐述3D树木建模关键技术。最后,分析和比较了几种主要的3D树木建模技术,提出轻量化3D树木建模技术是今后虚拟场景中的交互应用的发展趋势。此外,根据当前研究的难点提出了基于单张图像的轻量化混合建模的研究思路。 相似文献
16.
《国际计算机数学杂志》2012,89(3-4):189-208
Execution of sub-processes within a program segment are subject to a partial ordering. In certain cases (such as expressions and assignment statements) this ordering reduces to a tree which, according to the characteristics of the operators present, may be manipulated to influence the extent to which parallel processing capabilities of multiple-processor configurations can be utilized in its evaluation. A strategy is presented which uses associativity of certain operators to adjust the shape of the trees to allow a degree of overlap between adjacent subtrees. Although only optimal in the local sense, the transformation yields significant improvements in the “parallel dimensions” of the tree and, more importantly, can be couched in syntactic terms. Consequently, it is possible in principle to perform these manipulations within the syntax analysis phase of compilation, regardless of other operational characteristics of the operators, or of the parallel capabilities of the target run-time system. 相似文献
17.
18.
19.
20.
为了使树生成算法更为通用且效率更高,提出一种基于前缀编码的树生成算法.算法中的节点采用前缀编码的数据结构,便于用户对树中节点及其下层子节点上的关联数据进行快速查询和统计.由于在构造树之前已采用先根遍历的方式对节点进行了排序,同时建树过程中记录了最近各层节点的信息,因此无需搜索节点的上下层信息就可直接建立起树,大幅提高了建树效率,算法时间复杂度为O(n).该算法无需额外的数据预处理即可构造任意子树,且不会增加算法复杂度. 相似文献