首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 69 毫秒
1.
为有效地弥补全文搜索引擎的不足,提出了一种动态求解的最优密度聚类算法并加以实现.该算法构造了一颗簇关系树,将两种典型聚类算法:密度聚类算法DBSCAN和层次聚类算法BIRCH进行有效结合,对聚类参数ε进行动态求解,以达到参数ε的最优.与其它文本聚类算法相比,该算法的查询结果与用户感兴趣的主题相关度较大,对具有二义性的关键词有较高的查准率,能有效提升搜索引擎的查询效率,加快用户搜索信息的速度.  相似文献   

2.
针对DBSCAN聚类算法随着数据量增大,耗时越发非常严重的问题,提出一种基于KD树改进的DBSCAN算法(以下简称KD-DBSCAN).通过KD树对数据集进行划分,构造邻域对象集,提前区分出噪声点和核心点,避免聚类过程中对噪声的邻域集计算以及加快了核心点对象的邻域集查询速度.文中以浮动车GPS数据为实验数据,对比传统D...  相似文献   

3.
基于数据场的改进DBSCAN聚类算法   总被引:1,自引:0,他引:1  
DBSCAN(density based spatial clustering of applications with noise)算法是一种典型的基于密度的聚类算法。该算法可以识别任意形状的类簇,但聚类结果依赖于参数Eps和MinPts的选择,而且对于一些密度差别较大的数据集,可能得不到具有正确类簇个数的聚类结果,也可能将部分数据错分为噪声。为此,利用数据场能较好描述数据分布,反映数据关系的优势,提出了一种基于数据场的改进DBSCAN聚类算法。该算法引入平均势差的概念,在聚类过程中动态地确定每个类的Eps和平均势差,从而能够在一些密度相差较大的数据集上得到较好的聚类结果。实验表明,所提算法的性能优于DBSCAN算法。  相似文献   

4.
蔡永旺  杨炳儒 《计算机工程》2008,34(10):190-192
提出一种适用于公交站点聚类的DBSCAN改进算法,缩小搜索半径ε,从而提高聚类正确度,同时通过共享对象判定连接簇的合并,防止簇的过分割,减少噪声点,有效地屏蔽了算法对输入参数的敏感性,提高聚类结果的质量,减少密度差距对聚类结果的影响。保持DBSCAN算法的高执行效率,并应用在智能公交换乘查询引擎中公交站点聚类,聚类准确率提高了16%,验证了新算法的有效性。  相似文献   

5.
基于蚁群算法的文本聚类算法   总被引:1,自引:2,他引:1       下载免费PDF全文
针对目前文本检索后的相关反馈信息较少用于文本聚类中的问题,根据蚂蚁觅食聚类算法的思想,将文本检索后的相关反馈信息应用到文本聚类过程中,提出一种基于蚁群算法的文本聚类算法。分析簇的结构及其生成过程,论述聚类中簇合并的规则及算法。实验结果表明,该算法具有良好的聚类效果,能有效提高查询的文本召回率。  相似文献   

6.
目前犯罪组织的严密性和隐蔽性日益增强,电子邮件的广泛应用更为犯罪分子的分散隐匿提供了便利条件.为了解决重点监控对象选择问题,设计了电子邮件地址聚类系统.系统根据电子邮件地址之间的收发关系,构建出电子邮件地址的相似度测量属性,利用基于密度聚类方法中的DBSCAN算法,对电子邮件地址关系紧密程度进行划分,找出较为活跃的电子邮件地址,缩小了电子邮件地址查阅范围,提高了电子邮件信息分析处理的针对性和有效性.  相似文献   

7.
针对传统DBSCAN算法需要人工输入[Eps]和[MinPts]参数,且参数选择不合理导致聚类准确率低的问题,提出了一种改进的自适应参数密度聚类算法。采用核密度估计确定[Eps]和[MinPts]参数的合理区间,通过分析数据局部密度特点确定簇数,根据合理区间内的参数值进行聚类,计算满足簇数条件时的轮廓系数,最大轮廓系数对应的参数即为最优参数。在4种经典数据集上进行对比实验,结果表明,该算法能够自动选择最优的[Eps]和[MinPts]参数,准确率平均提高6.1%。  相似文献   

8.
一个基于DBSCAN聚类算法的实现   总被引:4,自引:0,他引:4  
谭勇  荣秋生 《计算机工程》2004,30(13):119-121
高密度聚类作为数据挖掘中聚类算法的一种分析方法,它能找到样本比较密集的部分,并且概括出样本相对比较集中的类。分析了传统的聚类算法及局限性,讨论了一个基于高密度聚类算法的实现过程,使得算法可自动发现高维子空间,处理高维数据表格,得到较快的聚类速度和最佳的聚类效果。  相似文献   

9.
一种改进的基于密度的聚类算法   总被引:1,自引:0,他引:1  
基于密度的聚类是聚类算法中的一种,其主要优点是可以发现任意形状的簇,但处理大数据集时效果不佳,为此提出了一种改进的算法M-DBSCAN,保留了基于密度聚类算法的优点,同时克服了以往算法不能处理大数据集的缺点。实验结果证明,M-DBSCAN聚类算法在聚类质量及速度上都比原DBSCAN有较大提高。  相似文献   

10.
基于聚类特性的大规模文本聚类算法研究   总被引:3,自引:0,他引:3  
一、引言随着Internet的飞速发展,人们能从网上得到更多的信息,但过多的信息常常会导致信息迷失。将信息进行分类是帮助信息利用的有效方法,聚类则是文本类别划分时常用的技术,其特点是不需训练集即可从给定的文本集合中找到聚类划分。已有的聚类方法大多是针对小规模数据的,当计算资源和时间受到限制时,原有的大部分方法已不能满足要求,需要能够处理大规模数据的算法。标准k均值方法是比较基本也是很常用的一种聚类方法,其计算复杂度与模式数量成线性关系,这使其具有处理大规模数据的可能。k均值方法本质上是一种选代的方法,当数据不能一次全部读入内存时,则需和磁盘进行多次数据交换,并且这种交换相应于迭代次数要反复多次,这无疑需要花费大量的I/O时间。  相似文献   

11.
随着我国汽车工业的飞速发展,汽车消费迅速膨胀,汽车市场竞争日益加剧.合理选择汽车销售及售后区域对汽车厂家有着十分重要的影响,对重卡车辆生产厂家的影响更加明显.采用车载GPS技术和改进的DBSCAN算法将陕重汽的不同类型车辆的行驶GPS数据进行空间聚类分析,最终得到不同车辆的活动热点地区分布数据;分析得到的数据对今后车辆的设计、销售及售后的相关决策问题有着重要的参考价值.  相似文献   

12.
为进一步解决应急预案编制中的规范性问题,本文将文本挖掘技术与预案编制结合,提出了一种改进的DBSCAN算法。该算法采用最小二乘拟合法拟合预案文本相似度曲线,在聚类迭代过程中采用可调整的Eps邻域阈值以提高算法的精度与召回率,从而为政务工作人员在编制预案过程中提供智能参考组方案。仿真结果表明,该算法能够为预案编制提供有效的参考预案组。  相似文献   

13.
连续属性离散化是数据分析中重要的预处理过程,而基于粗糙集理论的数据分析要求离散化的结果能够最大程度地保持原信息系统的分辨关系。论文提出了一种新的离散化算法,此算法以决策信息系统中决策属性对条件属性集合的依赖度作为评价函数动态调整DBSCAN聚类算法的参数,直至离散化决策属性对条件属性集合的依赖度达到预先指定的阈值为止。算法分析和实验证明,算法是切实可行的。  相似文献   

14.
针对K-Means算法在文本聚类过程中易陷入局部最优,造成文本聚类结果不准确的问题,提出了一种基于改进灰狼优化算法的K-Means文本聚类方法。在对文本数据进行分词、去停用词、特征提取以及文本向量化后,通过免疫克隆选择选出精英个体,并对精英个体进行深度探索以增加灰狼种群的多样性,避免早熟收敛现象的发生;将粒子群位置更新思想与灰狼位置更新结合,降低灰狼优化算法陷入局部极值的风险;与K-Means算法结合进行文本聚类。所提算法与K-Means算法、GWO-KMeans以及IPSK-Means算法相比,其准确率、召回率和F值平均都有明显提高,文本聚类结果更可靠。  相似文献   

15.
对教学反思内容的准确评估是教师基于教学反思过程提升其专业能力的重要保障。基于改进的K-Means算法对相同主题的教学反思文本进行聚类,通过给定初始聚类中心K的取值范围使其可以在给定范围内自动增加,在聚类过程中加入相似度阈值以限定文本间相似度的取值范围,实现对教学反思文本的分类和对自我反思文本的定位。实验结果表明改进的K—Means算法在反思文本聚类的准确率和稳定性方面比传统算法有所提高,且能根据教学反思内容准确地进行自动分类。  相似文献   

16.
基于DBSCAN聚类算法的研究与实现   总被引:18,自引:0,他引:18  
高密度聚类作为数据挖掘中聚类算法的一种分析方法,它能找到样本比较密集的部分,并且概括出样本相对比较集中的类。文中分析了传统的聚类算法及局限性,讨论了一个基于高密度聚类算法的实现过程,使得算法可自动发现高维子空间,处理高维数据表格,得到较快的聚类速度和最佳的聚类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号