首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
XML结构聚类     
郝晓丽  冯志勇 《计算机应用》2005,25(6):1398-1400
针对当前XML文档结构聚类算法的一些不足,提出采用段匹配的概念来计算两棵XML文档树中的路径相似性,并在此基础上得出两棵树整体的相似度量。在整个聚类过程中,算法还把一组相关文档与一个XML聚类代表相关联,该聚类代表就包含了一个文档集合中所有文档的最相关的特征。为了构建聚类代表,算法通过构造最佳匹配树,合并树,修剪树三步来实现。通过比较聚类代表,发现新的聚类时更新聚类代表来完成文档聚类。实验结果就充分展现了算法的有效性。  相似文献   

2.
文本聚类是聚类的一个重要研究分支,在文本处理领域中有着广泛的应用。在描述聚类特征树与动态索引树的文本聚类方法后,将原动态索引树文本聚类方法中的合并阀值由单一线性依赖关系修改为依赖于聚类节点半径值。实验证明,改进后的算法在聚类结果精确率与聚类时间上都有明显提高。  相似文献   

3.
基于高斯分布的簇间距离计算方法   总被引:2,自引:0,他引:2  
凝聚的层次聚类算法是一种性能优越的聚类算法,该算法通过不断合并距离相近的簇最终将数据集合划分为用户指定的若干个类别。在聚类的过程中簇间距离计算的准确性是影响算法性能的重要因素。本文提出一种新的基于高斯分布的簇间距离的计算方法,该方法通过簇自身的大小、密度分布等因素改进算法的计算准确性,在不同文本集合上与现有的簇间距离计算方法进行了对比实验,实验结果表明该方法有效地改进了层次聚类算法的性能。  相似文献   

4.
基于k-d树的k-means聚类方法   总被引:1,自引:2,他引:1  
在直接k-means算法的基础上提出了一种新的基于k-d树的聚类方法。通过把所有的对象组织在一棵k-d树中,可以高效地发现给定原型的所有最近邻对象。利用的主要思想是:在根结点,所有的聚类中心(或称为候选原型)都是所有对象的最近邻候选集合,对于根结点的子结点,通过简单几何约束来剪枝该候选集,这种方法可以被递归使用。使用基于k-d树的方法可以使直接k-means算法的总体性能提高一到两个数量级。  相似文献   

5.
张雷  李人厚 《控制与决策》2007,22(4):469-472
提出一种基于免疫原理的动态聚类算法,它能在噪声环境下得到任意形状的聚类。并能有效地实现动态聚类操作.算法包括3个步骤:首先基于生物免疫机制得到一个反映当前数据分布特征的抗体集合;然后使用最小生成树方法得到聚类的初始结构;最后针对数据库的更新设计了动态聚类算法.仿真结果表明了该算法实现动态聚类的有效性.  相似文献   

6.
由于在某一次合并后不能改变对象所属类,致使分层聚类算法聚类质量差。为了提高聚类质量,提出一种新的分层聚类机制——基于启发式的分层聚类。与现有的分层聚类不同,基于启发式的分层聚类首先利用现有分层聚类算法构建初始聚类树,然后通过一定的策略改变当前聚类树以使得某个目标函数最小。借鉴计算分子生物学中的最小进化原理,将目标函数定义为聚类树的树长。最后,通过实验验证了新算法能有效地提高现有分层聚类算法。  相似文献   

7.
由于现有聚类算法不能很好的解决移动环境下移动对象动态变化,本文提出了一种基于层次的移动对象动态聚类算法.该算法通过类中某些特殊点来表示该类,并且记录类合并过程中一些重要特征,使得移动对象动态变化时,简化聚类的过程,从而满足移动环境下对动态聚类算法时间的要求.  相似文献   

8.
后缀树聚类算法在元搜索引擎中的应用   总被引:2,自引:0,他引:2  
元搜索引擎结果覆盖面广,易于维护,实现简单,能够提供比较全面的结果给用户。后缀树聚类算法(STC)充分考虑了文本集合的语言学特征,并引入了短语特性,从而产生了较好的聚类效果。本文将后缀树聚类算法应用到元搜索引擎中,从而增强了结果的可浏览性,提高了搜索的精度。实验结果表明,STC算法在查准率和时间性能方面都高于传统的聚类算法。  相似文献   

9.
面向Web对象的细粒度聚类已经成为学术界研究的热点.然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求.针对上述挑战,充分挖掘Web文档中词汇间的树状概率层次关系,提出一种以词汇信息分布作为特征标志的聚类算法InfoSigs,实现对Web对象的细粒度聚类.算法构建一个信息传递有向无环图,根据词汇在图中信息分布的集中度赋予其合理的权重,产生更具代表性的特征向量;同时算法提出了一个自适应的记录合并模型,有效提高记录簇中记录间的相似度,减少噪音对合并过程的影响.实验结果表明,InfoSigs算法比传统聚类算法—I-Match和Shingling—在F-Measure值上平均约有21.3%的提高,可以有效地运用到多领域Web对象的聚类问题.  相似文献   

10.
樊仲欣  王兴  苗春生 《计算机应用》2019,39(4):1027-1031
为解决利用层次方法的平衡迭代规约和聚类(BIRCH)算法聚类结果依赖于数据对象的添加顺序,且对非球状的簇聚类效果不好以及受簇直径阈值的限制每个簇只能包含数量相近的数据对象的问题,提出一种改进的BIRCH算法。该算法用描述数据对象个体间连通性的连通距离和连通强度阈值替代簇直径阈值,还将簇合并的步骤加入到聚类特征树的生成过程中。在自定义及iris、wine、pendigits数据集上的实验结果表明,该算法比多阈值BIRCH、密度改进BIRCH等现有改进算法的聚类准确率更高,尤其在大数据集上比密度改进BIRCH准确率提高6个百分点,耗时降低61%。说明该算法能够适用于在线实时增量数据,可以识别非球形簇和体积不均匀簇,具有去噪功能,且时间和空间复杂度明显降低。  相似文献   

11.
李元平  李华  赵俊岚 《计算机科学》2016,43(Z11):474-481
在测试工程学中,应用测试生成树构建测试序列是相关测试方法的基础步骤,在传统测试生成树的基础上加入约束集的概念,使产生的测试生成树符合生产实际。同时在面向状态识别的测试方法中,考虑约束集对所生成状态区分序列的影响,基于带约束的测试生成树产生相应的特征集、状态识别集和UIO序列,提出或者改进了相应的算法。同时将测试方法扩展到了NFSM的情形下,提出了NFSM模型中前缀序列的生成算法和状态识别集的构建算法;结合状态识别矩阵与有限状态机同步乘积,提出在NFSM模型中的适应性测试方法,扩展了FSM应用于测试理论的完备性。建立了相应的测试方法工具集,实现了上述算法,验证了其可行性。最后给出了下一步的工作。  相似文献   

12.
ART Ⅱ网络以模式的相似性量度值为基础,能够对动态的输入模式样本进行自适应的聚类和识别,然而标准的ART Ⅱ网络在输入数据处理过程中,忽略了样本数据中的负数信息和幅值信息,造成信号畸变和"同相位不可分"问题,在权值调整过程中,聚类中心发生移动,容易造成"模式漂移"现象。针对上述问题结合相关文献提出了引入非线性函数对输入数据进行变换的方法解决"同相位不可分"问题,用待测数据与同一模式类中有限数据的欧氏距离与限定值进行比较实现聚类判定,抑制"模式漂移"现象。用Matlab仿真表明,改进算法性能优于标准算法。  相似文献   

13.
针对图数据库中超图集合查询问题给出有效解决方案,算法采用过滤-验证框架机制,过滤器是基于特征的索引树。给出从数据库中快速提取特征的算法以及索引建立方法。将特征组织在一棵树中,使得过滤阶段两个特征的公共诱导子图只与查询图做一次子图同构测试。在验证阶段,将Ullman算法与极大团查找算法相结合进行子图同构检测。  相似文献   

14.
Han等人提出了频繁模式增长FP-growth算法,该算法在第一次扫描数据库后,得到频繁项集合和每个频繁项的支持度,并按支持度降序排列,但没有对支持度相同项的排列做进一步说明。本文依据"越是频繁出现,越可能被共享"的建树原则,提出了通过比较该项与前后项项集的支持度,较大者先排列的方法,使后续构建的FP-tree比任意排序构建的FP-tree更优。  相似文献   

15.
针对点曲面的视点相关绘制问题,提出了一个新的表面基层次聚类简化算法。区别于普遍采用的空间剖分基策略,该算法的显著优势在于能够运用法向锥半角误差标准有效跟踪曲面的起伏变化,并以此为聚类简化过程提供可靠的全局误差控制。离线简化阶段,连同各种预定义的聚类约束条件,算法构造了点曲面模型的连续层次多分辨率表达。实时绘制阶段,层次可见性裁剪以及优化的树遍历提高了系统的整体性能。此外,通过引入附加的轮廓增强机制,在较大的屏幕投影误差和较高的模型简化率情况下,系统仍然能够保证较好的绘制视觉质量。  相似文献   

16.
Most decision‐tree induction algorithms are using a local greedy strategy, where a leaf is always split on the best attribute according to a given attribute‐selection criterion. A more accurate model could possibly be found by looking ahead for alternative subtrees. However, some researchers argue that the look‐ahead should not be used due to a negative effect (called “decision‐tree pathology”) on the decision‐tree accuracy. This paper presents a new look‐ahead heuristics for decision‐tree induction. The proposed method is called look‐ahead J48 ( LA‐J48) as it is based on J48, the Weka implementation of the popular C4.5 algorithm. At each tree node, the LA‐J48 algorithm applies the look‐ahead procedure of bounded depth only to attributes that are not statistically distinguishable from the best attribute chosen by the greedy approach of C4.5. A bootstrap process is used for estimating the standard deviation of splitting criteria with unknown probability distribution. Based on a separate validation set, the attribute producing the most accurate subtree is chosen for the next step of the algorithm. In experiments on 20 benchmark data sets, the proposed look‐ahead method outperforms the greedy J48 algorithm with the gain ratio and the gini index splitting criteria, thus avoiding the look‐ahead pathology of decision‐tree induction.  相似文献   

17.
王蓉  刘遵仁  纪俊 《计算机科学》2017,44(Z11):129-132
传统的ID3决策树算法存在属性选择困难、分类效率不高、抗噪性能不强、难以适应大规模数据集等问题。针对该情况,提出一种基于属性重要度及变精度粗糙集的决策树算法,在去除噪声数据的同时保证了决策树的规模不会太庞大。利用多个UCI标准数据集对该算法进行了验证,实验结果表明该算法在所得决策树的规模和分类精度上均优于ID3算法。  相似文献   

18.
C4.5算法是一种非常有影响力的决策树生成算法,但该方法生成的决策树分类精度不高,分支较多,规模较大.针对C4.5算法存在的上述问题,本文提出了一种基于粗糙集理论与CAIM准则的C4.5改进算法.该算法采用基于CAIM准则的离散化方法对连续属性进行处理,使离散化过程中的信息丢失程度降低,提高分类精度.对离散化后的样本用基于粗糙集理论的属性约简方法进行属性约简,剔除冗余属性,减小生成的决策树规模.通过实验验证,该算法可以有效提高C4.5算法生成的决策树分类精度,降低决策树的规模.  相似文献   

19.
王雅辉  钱宇华  刘郭庆 《计算机应用》2021,41(10):2785-2792
传统决策树算法应用于有序分类任务时存在两个问题:传统决策树算法没有引入序关系,因此无法学习和抽取数据集中的序结构;现实生活中存在大量模糊而非精确的知识,而传统的决策树算法无法处理存在模糊属性取值的数据。针对上述问题,提出了基于模糊优势互补互信息的有序决策树算法。首先,使用优势集表示数据中的序关系,并引入模糊集来计算优势集以形成模糊优势集。模糊优势集不仅能反映数据中的序信息,而且能自动获取不精确知识。然后,在模糊优势集的基础上将互补互信息进行推广,并提出了模糊优势互补互信息。最后,使用模糊优势互补互信息作为启发式,设计出基于模糊优势互补互信息的有序决策树算法。在5个人工数据集及9个现实数据集上的实验结果表明,所提算法在有序分类任务上较经典决策树算法取得了更低的分类误差。  相似文献   

20.
频繁项目集的生成是关联规则挖掘中的关键问题 .提出基于 Hash树的频繁项目集生成新方法 ,探讨了 Hash树中候选项目集的数据组织与建立算法 ,提出了利用 Hash树计算候选项目集支持数的算法 ,并用 Java语言实现了该算法 ,最后通过实验验证了利用 Hash树生成频繁项目集的有效性  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号