首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
针对目前搜索引擎搜索结果中普遍存在大量重复网页的现象,提出了一种基于聚类算法DBSCAN的搜索结果优化算法.该算法选取源搜索结果中排名靠前的部分网页,对这部分网页根据网页相似度进行DBSCAN聚类,最大限度剔除冗余网页,实现搜索结果的优化.实验结果表明本算法可以提高搜索结果的全面性和准确性,提升用户使用搜索引擎的满意度.  相似文献   

2.
一种特征加权的聚类算法框架   总被引:3,自引:0,他引:3  
高滢  刘大有  徐益 《计算机科学》2008,35(10):152-154
为了考虑数据各维特征对聚类的不同贡献,并把有监督特征评价方法应用到无监督分类问题中,提出一种特征加权的聚类算法框架.该框架首先通过某种聚类算法对数据聚类,然后,根据聚类结果,采用有监督特征评价方法学习各维特征的权值,再根据特征权值重新聚类,之后再次学习特征权值,该过程反复迭代,直至算法收敛或达到指定的迭代次数.欧几里德空间内基于距离、基于密度的聚类算法均适用于本框架.基于本框架,采用模糊C均值聚类算法(FCM)、密度聚类算法(DBSCAN),并通过信息增益特征评价、ReliefF特征评价方法,对多个UCI数据集进行了实验,验证了该框架的有效性.  相似文献   

3.
VDBSCAN:变密度聚类算法   总被引:5,自引:0,他引:5       下载免费PDF全文
传统的密度聚类算法不能识别并聚类多个不同密度的簇。对此提出了变密度聚类算法VDBSCAN,针对密度不稳定的数据集,可有效识别并同时聚类不同密度的簇,避免合并和遗漏。VDBSCAN算法的基本思想是:根据k-dist图和DK分析,对数据集中的不同密度层次自动选择一组Eps值,分别调用DBSCAN算法。不同的Eps值,能够找到不同密度的簇。4个二维数据集实验验证了VDB-SCAN算法的有效性,表明VDBSCAN算法可以有效地聚类密度不均匀的数据集,且参数Eps的自动选择方法也是有效的和健壮的。  相似文献   

4.
首先提出了一种基于属性值的co-occurrence相似度概念,通过对其进一步的研究,提出了3个等价性表述;然后对属性值之间的co-occurrence相似度进行引申,给出了数据对象之间co-occurrence相似度的定义,并将其成功应用到聚类集成方法中。利用co-occurrence相似度在计算某个初始聚类结果中数据对象之间的相似度时,充分考虑了其他初始聚类结果和该初始聚类结果之间的相互影响和联系。实验表明, 基于co-occurrence相似度的聚类集成(CSCE)方法能有效识别数据之间的细微结构,有助于提高聚类集成的效果。  相似文献   

5.
余宏  万常选 《计算机工程》2010,36(1):85-86,90
针对XML文档的半结构化特点,提出一种建模XML检索结果片段的新思路,设计综合内容和结构语义信息度量相应文档相似性的方法,给出一种适应检索结果聚类应用需求的动态均值软聚类算法。实验表明,面向XML的检索结果聚类方法聚类效果优于传统方法。  相似文献   

6.
IncSNN——一种基于密度的增量聚类算法   总被引:1,自引:0,他引:1  
基于密度的聚类算法是一类重要的聚类算法,能发现任意形状的簇,但由于它的时间复杂度较高,因此设计有效的增量更新算法是一个重要研究方向.在SNN算法的基础上,提出一种基于密度的增量聚类算法-IncSNN.该算法将所更新对象的空间进行划分,定义了基于该划分的最近邻居的概念,进而确定了受影响对象的集合,当算法更新时,只需要对受影响的数据进行处理.由于受影响对象的集合远小于原数据集合,因此显著提高了算法的效率.实验结果验证了IncSNN的有效性.  相似文献   

7.
余宏  万常选 《计算机工程》2010,36(1):85-86,9
针对XML文档的半结构化特点,提出一种建模XML检索结果片段的新思路,设计综合内容和结构语义信息度量相应文档相似性的方法,给出一种适应检索结果聚类应用需求的动态均值软聚类算法。实验表明,面向XML的检索结果聚类方法聚类效果优于传统方法。  相似文献   

8.
负载自适应数据库系统中,负载特征化部件要实时对各种数据库的访问负载分类,根据分类的情况预测负载对数据库资源需求。是对常规聚类算法的一个改进,提出基于特征向量的聚类算法和基于特征向量的增量聚类算法。使用该算法后负载分类速度和准确性有明显提高。  相似文献   

9.
针对目前已有的聚类算法不能很好地处理包含不同密度的簇数据,或者不能很好地区分相邻的密度相差不大的簇的问题,提出1种新的基于严格最近邻居和共享最近邻居的聚类算法.通过构造共享严格最近邻图,使样本点在密度一致的区域保持连接,而在密度不同的相邻区域断开连接,并尽可能去除噪声点和孤立点.该算法可以处理包含有不同密度的簇数据,而且在处理高维数据时具有较低的时间复杂度、实验结果证明,该算法能有效找出不同大小、形状和密度的聚类.  相似文献   

10.
网格聚类算法   总被引:3,自引:0,他引:3  
聚类分析有广泛的应用,是数据挖掘中非常重要的方法。聚类分析算法有多种分类,每种方法在不同领域发挥了不同的作用。以研究网格聚类算法为目的,介绍了聚类分析算法的要求以及常见的聚类算法;针对基于网格方法的聚类算法进行专门研究,比较分析了传统的和改进的基于网格方法的聚类算法。介绍的各种网格聚类算法都有自身的优点和不足。通过对这些网格聚类算法的学习便于深入研究网格聚类算法,以便将其与实际问题相结合,设计更好的算法。  相似文献   

11.
目前常见的轨迹聚类大多基于OPTICS、DBSCAN和K-means等算法,但这些聚类方法的时间复杂度随着轨迹数量的增加会大幅上升。针对该问题,提出一种基于密度核心的轨迹聚类算法。通过引入密度核心的概念,设计轨迹密度计算函数以获取聚类簇的致密核心轨迹,同时利用出租车载客轨迹自身的方向和速度等属性提取轨迹特征点,减少轨迹数据量。在此基础上,根据聚类簇中致密核心轨迹与参与聚类轨迹的相似度距离判断轨迹的匹配程度,进而聚合相似轨迹,并将聚类结果储存在聚类节点中。实验结果表明,与TRACLUS和OPTICS聚类算法相比,该算法能够得到更准确的聚类效果,并且时间效率更高。  相似文献   

12.
针对DBSCAN聚类算法随着数据量增大,耗时越发非常严重的问题,提出一种基于KD树改进的DBSCAN算法(以下简称KD-DBSCAN).通过KD树对数据集进行划分,构造邻域对象集,提前区分出噪声点和核心点,避免聚类过程中对噪声的邻域集计算以及加快了核心点对象的邻域集查询速度.文中以浮动车GPS数据为实验数据,对比传统D...  相似文献   

13.
基于数据场的改进DBSCAN聚类算法   总被引:1,自引:0,他引:1  
DBSCAN(density based spatial clustering of applications with noise)算法是一种典型的基于密度的聚类算法。该算法可以识别任意形状的类簇,但聚类结果依赖于参数Eps和MinPts的选择,而且对于一些密度差别较大的数据集,可能得不到具有正确类簇个数的聚类结果,也可能将部分数据错分为噪声。为此,利用数据场能较好描述数据分布,反映数据关系的优势,提出了一种基于数据场的改进DBSCAN聚类算法。该算法引入平均势差的概念,在聚类过程中动态地确定每个类的Eps和平均势差,从而能够在一些密度相差较大的数据集上得到较好的聚类结果。实验表明,所提算法的性能优于DBSCAN算法。  相似文献   

14.
基于密度的聚类算法(DBSCAN)是最有效的轨迹数据挖掘方法之一,但基于密度的聚类算法往往受到输入参数选择的限制。在轨迹数据挖掘中,聚类结果不仅受到类内距离和类间距离的影响,还受到聚类中坐标点个数的影响。因此,提出了一种新的基于内外占空比的集群有效性指标来平衡这三个因素,该指标可以自动选择密度聚类的输入参数,并在不同的数据集上形成有效的聚类,优化后的聚类方法可应用于出行者行为轨迹的深度分析和挖掘。实验结果证明,与传统的有效性指标相比,提出的基于占空比的评价指标能够优化输入参数,获得较好的出行者位置信息聚类结果。  相似文献   

15.
基于改进DBSCAN算法的文本聚类   总被引:1,自引:0,他引:1       下载免费PDF全文
蔡岳  袁津生 《计算机工程》2011,37(12):50-52
目前多数聚类算法不能很好地适应文本聚类的快速自适应需求。为此,论述DBSCAN算法的基本原理和实现过程,提出一种基于改进DBSCAN算法的文本聚类算法,利用最小二乘法降低文本向量的维度,并创建一种应用于DBSCAN算法的簇关系树结构。实验结果表明,该算法能自适应地进行文本聚类,且与DBSCAN相比,准确率较高。  相似文献   

16.
K-Means聚类算法的结果质量依赖于初始聚类中心的选择。该文将局部搜索的思想引入K-Means算法,提出一种改进的KMLS算法。该算法对K-Means收敛后的结果使用局部搜索来使其跳出局部极值点,进而再次迭代求优。同时对局部搜索的结果使用K-Means算法使其尽快到达一个局部极值点。理论分析证明了算法的可行性和有效性,而在标准文本集上的文本聚类实验表明,相对于传统的K-Means算法,该算法改进了聚类结果的质量。  相似文献   

17.
一种基于命名实体的搜索结果聚类算法   总被引:3,自引:0,他引:3       下载免费PDF全文
针对现有搜索结果聚类方法中形成的聚类标签可读性比较差的情况,提出一种基于命名实体的搜索结果聚类方法——NEC。命名实体作为文本中的基本信息元素,具有一定的实际意义,表征主题的能力比一般词语更强,也更具可读性。算法以搜索结果文档中存在的命名实体作为聚类的标签,经过一定的标签选择和聚类合并策略,形成最终的聚类结果,提高聚类标签的可读性。实验证明,该方法是一种可行的搜索结果聚类方法。  相似文献   

18.
搜索引擎结果聚类对提高搜索引擎服务质量和智能化水平有较高的应用价值,它是从标题和文档片段的有限信息中寻找文档相关度进行聚类。传统搜索引擎聚类没有充分利用搜索引擎结果的自身特点,或者计算复杂度较高。本文提出了一种基于主题词匹配频数的搜索引擎聚类算法,该算法从高频词中筛选出主题词,根据主题词共现情况自动产生类别,其他结果依据满足与类别主题词表的匹配频数的文档数进行聚类。实验结果与STC和LINGO算法相比,搜索质量有所提高。  相似文献   

19.
连续属性离散化是数据分析中重要的预处理过程,而基于粗糙集理论的数据分析要求离散化的结果能够最大程度地保持原信息系统的分辨关系。论文提出了一种新的离散化算法,此算法以决策信息系统中决策属性对条件属性集合的依赖度作为评价函数动态调整DBSCAN聚类算法的参数,直至离散化决策属性对条件属性集合的依赖度达到预先指定的阈值为止。算法分析和实验证明,算法是切实可行的。  相似文献   

20.
基于蚁群算法的文本聚类算法   总被引:1,自引:2,他引:1       下载免费PDF全文
针对目前文本检索后的相关反馈信息较少用于文本聚类中的问题,根据蚂蚁觅食聚类算法的思想,将文本检索后的相关反馈信息应用到文本聚类过程中,提出一种基于蚁群算法的文本聚类算法。分析簇的结构及其生成过程,论述聚类中簇合并的规则及算法。实验结果表明,该算法具有良好的聚类效果,能有效提高查询的文本召回率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号