首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 148 毫秒
1.
层次聚类算法在数据挖掘领域有着广泛应用,现有的层次聚类算法都依赖于对称距离定义.针对聚类对象的非对称距离下的层次聚类展开研究,提出完整的非对称距离下的层次聚类算法,给出聚类对象选择因子,并定义相应的计算方法.文中提出不同簇之间的合并方法,形成非对称距离下的单连接、全连接等算法.采集社会化书签系统中的热点标签,基于共现次数定义非对称距离,对所提出的算法进行大量实验,实验结果表明聚类结果与实际结果具有较高的一致性.对算法进行量化指标分析的结果也表明非对称层次聚类算法具有良好性能.  相似文献   

2.
基于树编辑距离的层次聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为了识别犯罪嫌疑人伪造和篡改的虚假身份,利用树编辑距离计算个体属性相似性,证明了树编辑距离的相关数学性质,对属性应用层次编码方法,提出了一种新的基于树编辑距离的层次聚类算法HCTED(Hi-erarchical Clustering Algorithm Based on Tree Edit Distance)。新算法通过树编辑操作使用最少的代价计算属性相似性,克服了传统聚类算法标称型计算的缺陷,提高了聚类精度,通过设定阈值对给定样本聚类。实验证明了新方法在身份识别上的准确性和有效性,讨论了不同参数对实验结果的影响,对比传统聚类算法,HCTED算法性能明显提高。新算法已经应用到警用流动人口分析中,取得了良好效果。  相似文献   

3.
传统的基于欧氏距离和K-means聚类算法的空值估计算法容易因为欧氏距离对量纲的敏感性和初始聚类中心对K-means聚类效果的影响产生估值误差。将层次聚类算法和K-means聚类算法有机结合起来的H-K聚类算法克服了K-means算法对初始聚类中心的敏感性,从而改善了聚类效果。与欧氏距离不同,马氏距离可以避免量纲的影响。为此提出一种改进的空值估计算法,将H-K聚类应用到空值估计算法中进行聚类,在聚类时采用马氏距离代替欧氏距离,在聚类后使用多元线性回归法计算样本中的空值。实验结果表明改进后的空值估计算法使得估计值的绝对误差率(MAER)得到降低。  相似文献   

4.
逄琳  刘方爱 《计算机应用》2016,36(6):1634-1638
针对传统的聚类算法对数据集反复聚类,且在大型数据集上计算效率欠佳的问题,提出一种基于层次划分的最佳聚类数和初始聚类中心确定算法——基于层次划分密度的聚类优化(CODHD)。该算法基于层次划分,对计算过程进行研究,不需要对数据集进行反复聚类。首先,扫描数据集获得所有聚类特征的统计值;其次,自底向上地生成不同层次的数据划分,计算每个划分数据点的密度,将最大密度点定为中心点,计算中心点距离更高密度点的最小距离,以中心点密度与最小距离乘积之和的平均值为有效性指标,增量地构建一条关于不同层次划分的聚类质量曲线;最后,根据曲线的极值点对应的划分估计最佳聚类数和初始聚类中心。实验结果表明,所提CODHD算法与预处理阶段的聚类优化(COPS)算法相比,聚类准确度提高了30%,聚类算法效率至少提高14.24%。所提算法具有较强的可行性和实用性。  相似文献   

5.
文本聚类算法的设计与实现   总被引:1,自引:1,他引:0  
为了有效地提高丈本聚类的质量和效率,在对已有的层次聚类和K-means算法分析和研究的基础上,针对互联网信息处理量大、实时性高的特点,设计并实现了一种用于高维稀疏相似矩阵的文本聚类算法.该算法结合了层次聚类和K-means聚类的思想,根据一个阈值来控制聚类算法的选取和新簇的建立,并通过文本特征提取和文档相似度矩阵计算实现文本聚类.实验结果表明,该算法的召回率和正确率更高.  相似文献   

6.
基于高斯分布的簇间距离计算方法   总被引:2,自引:0,他引:2  
凝聚的层次聚类算法是一种性能优越的聚类算法,该算法通过不断合并距离相近的簇最终将数据集合划分为用户指定的若干个类别。在聚类的过程中簇间距离计算的准确性是影响算法性能的重要因素。本文提出一种新的基于高斯分布的簇间距离的计算方法,该方法通过簇自身的大小、密度分布等因素改进算法的计算准确性,在不同文本集合上与现有的簇间距离计算方法进行了对比实验,实验结果表明该方法有效地改进了层次聚类算法的性能。  相似文献   

7.
模糊C均值(fuzzy C-means,FCM)聚类算法是一种常用的基于目标函数最小化的聚类算法。目前已经提出了相当数量的聚类算法是对模糊C均值聚类算法的改进,例如AFCM算法、GK算法等。对最近发表的基于Bregman距离的模糊聚类算法进行了改进,通过在FCM模糊聚类框架中引入Total-Bregman距离提升了聚类算法的聚类性能。同时对基于Total-Bregman距离的模糊聚类算法的收敛性质进行了理论分析。实验部分对来自UCI数据库的几个数据集进行了聚类,证明了算法的有效性和收敛性。  相似文献   

8.
针对传统层次聚类算法在处理大规模数据时效率低下的问题,提出一种快速层次聚类算法。根据数据点密度值的大小依次确定初始聚类中心,使用最小生成树算法对初始聚类中心间的相似度距离进行存储,寻找最优合并路径,从而减少更新距离矩阵的计算量和空间复杂度,并优化减法聚类中的收敛函数。在UCI数据集上的实验结果表明,该算法比传统聚类算法执行速度更快、效率更高,且随着数据量的增多,在时间消耗方面的优势更明显。  相似文献   

9.
大规模交易数据库的一种有效聚类算法   总被引:13,自引:0,他引:13  
陈宁  陈安  周龙骧 《软件学报》2001,12(4):475-484
研究大规模交易数据库的聚类问题,提出了一种二次聚类算法——CATD.该算法首先将数据库划分成若干分区,在每个分区内利用层次聚类算法进行局部聚类,把交易初步划分成若干亚聚类,亚聚类的个数由聚类间的距离参数控制.然后对所有的亚聚类进行全局聚类,同时识别出噪声.由于采用了分区方法和聚类的支持向量表示法,该算法只需扫描一次数据库,聚类过程在内存中进行,因此能处理大规模的数据库.  相似文献   

10.
改进层次聚类算法在文献分析中的应用   总被引:1,自引:0,他引:1  
科技文献代表了科技发展的方向,对其分析有助于准确把握科技前沿.本文提出一种基于层次聚类的改进算法用于对科技文献进行聚类研究,以便识别科技文献所关注的创新设计方向.该算法通过观测不同距离条件下孤立点数目的变化情况,自动计算并判断层次聚类算法中所需的聚类终止条件.这样既避免了层次聚类算法中需要预先输入终止条件的不足,又保持了层次聚类算法聚类精度高的优点,且改进算法的复杂度和普通层次聚类算法的一致.运用上述改进算法对200篇文献进行聚类运算,与k-means算法的对比实验证明,改进层次聚类算法聚类效果良好,从而验证了该算法的可行性.  相似文献   

11.
为利用开放分类进行百科条目的分类和检索, 提出了基于词共现和语义分析的开放分类聚类算法以及开放分类层次结构树构建方法; 为了进一步提高层次结构树的聚合度, 提出了基于相似度和相关度计算的层次结构树聚类算法。以互动百科开放分类为实验数据集, 实验结果表明, 所构建的开放分类层次结构树的准确率较高, 利用开放分类层次结构树有效提高了百科条目检索的效率。  相似文献   

12.
传统的聚类算法通常基于单一的距离度量而设计,如何将多种距离度量有机融合在一起是当前面临的一个挑战。提出了一种基于多目标进化算法的多距离度量聚类框架(multiobjective evolutionary multiple distance measure clustering,MOMDC),并使用欧氏距离和Path距离来设计实际框架。该框架首先将数据集分别用两种距离测度预聚类,而后将预聚类结果做合并,以降低问题的规模;其次分别计算子类间的两种距离关系;最后使用多目标进化算法在两种距离空间中并行聚类。在多目标进化算法设计中,使用实数-标签的编码方式来设计染色体,并且设计了基于两种距离测度的两个适应度函数对染色体进行评估。最终将MOMDC与其他几种经典算法在大量的数据集上进行实验对比。实验表明,该框架对不同分布的数据集均能取得良好的结果。  相似文献   

13.
提出利用Cube中的维层次聚集树(dimension hierarchy aggregate tree,简称DHA-Tree)来对聚集Cube进行增量更新维护,在维层次聚集Cube中进行数据插入和删除等数据更新时,充分利用维层次聚集树中的维层次前缀,由下向上用更新前后的差值对受到更新结点影响的所有祖先结点进行增量更新.在插入新维数据时,在不需要重新构建聚集Cube就可以对聚集Cube进行增量更新,从而减少了Cube的更新时间.对基于维层次聚集树的聚集Cube与传统Cube进行了算法性能分析和比较,结果表明本文所提出的聚集Cube的增量更新算法性能最佳.  相似文献   

14.
在传统确定数据集聚类数算法原理的基础上,提出一种新的算法——MHC算法。该算法采用自底向上的策略生成不同层次的数据集划分,计算每个层次的聚类划分质量,通过聚类质量选择最佳的聚类数。还设计一种新的有效性指标——BIP指标,用于衡量不同划分的聚类质量,该指标主要依托数据集的几何结构。实验结果表明,该算法能准确地确定多维数据集中的最佳聚类数。  相似文献   

15.
障碍空间中不确定数据聚类算法   总被引:2,自引:0,他引:2  
近些年,由于数据采集的不精确和数据本身的不确定性,使不确定性在位置数据中普通存在。在障碍空间中,聚类不确定数据面临新的挑战。提出了障碍空间中聚类不确定数据的OBS-UK-means(obstacle uncertain K-means)算法,并提出了分别基于R树和Voronoi图的两种剪枝策略和最近距离区域的概念,大大减少了计算量。通过实验验证了OBS-UK-means算法的高效性和准确性,同时证明了剪枝策略在不损害聚类有效性的情况下,能够有效地提高聚类效率。  相似文献   

16.
基于多示例的K-means聚类学习算法   总被引:1,自引:1,他引:0       下载免费PDF全文
谢红薇  李晓亮 《计算机工程》2009,35(22):179-181
多示例学习是继监督学习、非监督学习、强化学习后的又一机器学习框架。将多示例学习和非监督学习结合起来,在传统非监督聚类算法K-means的基础上提出MIK-means算法,该算法利用混合Hausdorff距离作为相似测度来实现数据聚类。实验表明,该方法能够有效揭示多示例数据集的内在结构,与K-means算法相比具有更好的聚类效果。  相似文献   

17.
张晓敏  王茜 《计算机工程》2007,33(24):57-59
改进了传统的协同过滤算法,提出了基于概念层次树的用户模型,利用该模型进行协同运算,使系统在用户共同评分项极其稀疏时也能产生推荐。在相似性计算和产生推荐阶段引入了概念分层思想,分别在商品种类上产生推荐,避免了推荐的单一现象。MovieLens数据集实验表明,改进后的算法在推荐质量上有了明显的提高。  相似文献   

18.
通过对几种典型聚类算法的分析和比较,提出了一种新的聚类算法,基于扩展约束的半监督谱聚类算法,简称CE-SSC。这种算法扩展了已知约束集,通过密度敏感距离改变样本点的相似关系,结合半监督谱聚类进行聚类。在UCI基准集上的仿真实验结果证明,基于扩展约束的半监督谱聚类算法具有良好的聚类效应。  相似文献   

19.
针对传统模糊C-均值聚类算法对初始值和噪声敏感的缺点,提出了一种基于多链量子蜂群算法的模糊C-均值聚类算法。首先,将多链拓展编码方案应用到量子蜂群算法中,提出了多链量子蜂群算法;其次,利用多链量子蜂群算法来优化模糊C-均值聚类的初始聚类中心;最后,设计一种新的利用多链量子蜂群算法优化模糊C-均值聚类中心的图像分割算法。实验结果表明,所提出的基于多链量子蜂群算法的模糊C-均值聚类图像分割算法是有效的,相对于传统模糊C-均值聚类算法及基于模糊的人工蜂群算法,所提算法在分割正确率、分割速度及鲁棒性上均更有效。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号