首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
一种k-means聚类的案例检索算法   总被引:2,自引:1,他引:1       下载免费PDF全文
针对CBR系统中案例检索算法存在的问题,根据k-means算法思想,将案例库进行聚类,在聚类基础上设计了一个案例检索算法。分析了样本案例的选取规则,重点论述了案例检索算法。根据实验结果表明,该方法能够有效地提高案例检索结果的召回率及案例检索效率。  相似文献   

2.
基于网格聚类的案例检索策略   总被引:3,自引:1,他引:2       下载免费PDF全文
基于案例推理的智能推荐系统是大型科学仪器协作共用网的重要组成部分。通过对案例库按网格进行聚类,设计并实现一个基于异构案例库的检索策略。分析案例库网格划分原则及案例聚类规则,论述案例聚类算法及在聚类基础上的案例检索策略。实验结果表明,该方法能够有效地降低案例检索时间,提高案例库的可维护性。  相似文献   

3.
乔丽 《计算机工程》2012,38(6):201-203
在基于K-means的案例检索算法中,目标案例初次映射的失败会导致案例检索成功率降低。针对该问题,提出一种基于滑动窗口的案例检索算法。分析滑动窗口维护策略,利用滑动窗口收集案例库中权重较高且最近常使用的案例,增加案例采样数量。实验结果表明,该算法能提高检索成功率,检索时间较短且案例映射次数较少。  相似文献   

4.
分析了K-means聚类算法在图像检索中的缺点,提出了一种改进的K-means聚类算法的图像检索方法。它首先计算图像特征库里面的所有颜色直方图特征之间的欧氏距离;然后根据“两个对象距离越近,相似度越大”[1]这一原理,找到符合条件的特征向量作为K-means聚类的初始类心进行聚类;最后进行图像检索。实验结果表明,本算法具有较高的检索准确率。  相似文献   

5.
提出一种基于K-means算法和相关反馈信息的图像检索方法。首先运用环形分块策略对图像进行划分,运用分块加权方法进行图像相似性比较,突出了图像中心的主体地位。对图像样本数据运用K-means方法进行聚类,采用差分进化算法确定初始聚类中心,减少聚类结果对初始聚类中心的依赖性和聚类结果不稳定等问题。在图像检索过程中,根据检索结果进行相关信息反馈,必要时对样本数据重新进行聚类操作,以提高图像检索的准确率和查全性,满足用户需求。  相似文献   

6.
针对K-means聚类算法存在的初始中心点选择及异常点、离群点极易影响聚类结果等待改进问题,提出了一个基于Tukey规则与优化初始中心点选择的K-means改进算法。该算法利用Tukey规则构造核心与非核心子集,将聚类过程划分成2个阶段。同时,在核心子集上执行中心点逐个递增优化选择策略,选出初始中心点。在来自UCI的20个数据集上聚类结果表明,本文提出的算法优于K-means++聚类算法,有效地提升了聚类性能。  相似文献   

7.
针对K-means算法处理海量数据的聚类效果和速率,提出一种基于MapReduce框架下的K-means算法分布式并行化编程模型。首先对K-means聚类算法初始化敏感的问题,给出一种新的相异度函数,根据数据间的相异程度来确定k值,并选取相异度较小的点作为初始聚类中心,再把K-means算法部署在MapReduce编程模型上,通过改进MapReduce编程模型来加快K-means算法处理海量数据的速度。实验表明,基于MapReduce框架下改进的K-means算法与传统的K-means算法相比,准确率及收敛时间方面均有所提高,并且并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性。  相似文献   

8.
陈千  向阳  郭鑫  王栋 《计算机科学》2010,37(12):161-164
在基于本体的案例检索系统中,由于数据库中的案例数量随着时间的推移而成倍增加,案例检索的效率不断降低,因此如何有效地提高案例检索系统的效率是个亚待解决的问题。提出一种基于粗糙集的k-means聚类算法,在用户检索之前对案例库中成千上万的案例进行有效聚类,从中定义基于粗糙集的聚类中心和上下近似以及边界。实验证明,该方法在系统检索时不必对每个案例都进行相似度的计算,从而大大提高了检索性能。  相似文献   

9.
安全生产事故的分析对应急管理能力提升具有重要意义.通过对安全生产案例的语义分析,利用Word2Vec词嵌入技术和聚类模型,选用CBOW+负采样技术实现词向量,并结合安全生产事故案例分类的数据特点,通过基于半监督学习的聚类模型算法,根据事故性质的认定特点,提出了一种优化初始聚类中心的算法,并利用K-means聚类算法实现安全事故文本案例的分类.实验表明该方法较好实现安全生产的事故案例分类,并对安全生产事故的多个维度分析具有很好借鉴意义.  相似文献   

10.
陈曾  侯进  张登胜  张华忠 《自动化学报》2011,37(11):1356-1359
针对目前图像搜索引擎难以正确把握用户真正意图的问题, 从爬虫Web图像搜索引擎检索结果入手,提出三种聚类算法来提取海量Web图像中的语义区域. 这三种聚类算法包括确定初始化中心的K-means聚类、确定参数的最大期望聚类以及基于半监督的K-means聚类算法. 然后选取显著值较大的显著区域作为语义区域.实验分析比较了三种聚类算法的有效性, 最终实现的图像重排系统能比网络搜索引擎更好地反馈给用户精确而且有序的查询结果.  相似文献   

11.
位置加权文本聚类算法   总被引:2,自引:2,他引:0  
文本聚类是自然语言处理研究中一项重要研究课题,文本聚类技术广泛地应用于信息检索、Web挖掘和数字图书馆等领域。本文针对特征词在文档中的不同位置对文档的贡献大小不同,提出了基于特征词的位置加权文本聚类改进算法——TCABPW。通过选取反映文档主题的前L个高权值的特征项构造新的文本特征向量,采用层次聚类和K-means文本聚类相结合的改进算法实现文本聚类。实验结果表明,提出的改进算法在不影响聚类质量的情况下大大地降低了文本聚类的维度,在稳定性和纯度上都有显著提高,获得了较好的聚类效果。  相似文献   

12.
针对传统K均值聚类方法采用聚类前随机选择聚类个数K而导致的聚类结果不理想的问题,结合空间中的层次结构,提出一种改进的层次K均值聚类算法。该方法通过初步聚类,判断是否达到理想结果,从而决定是否继续进行更细层次的聚类,如此迭代执行,从而生成一棵层次型K均值聚类树,在该树形结构上可以自动地选择聚类的个数。标准数据集上的实验结果表明,与传统的K均值聚类方法相比,提出的改进的层次聚类方法的确能够取得较优秀的聚类效果。  相似文献   

13.
王娟 《微型机与应用》2011,30(20):71-73,76
传统K-means算法对初始聚类中心的选取和样本的输入顺序非常敏感,容易陷入局部最优。针对上述问题,提出了一种基于遗传算法的K-means聚类算法GKA,将K-means算法的局部寻优能力与遗传算法的全局寻优能力相结合,通过多次选择、交叉、变异的遗传操作,最终得到最优的聚类数和初始质心集,克服了传统K-means算法的局部性和对初始聚类中心的敏感性。  相似文献   

14.
李莲  罗可  周博翔 《计算机应用研究》2013,30(10):2916-2919
针对传统K-means聚类算法初始聚类中心随机选取、不能处理边界对象、效率低、聚类精度低等问题, 提出了一种新的K-means聚类算法。算法引入粒计算理论, 并依据密度和最大最小距离法选择初始聚类中心, 避免初始聚类中心在同一个类中, 结合粗糙集, 通过动态调整上近似集和边界集的权重因子, 以解决边界数据的聚类问题; 最后采用类间距和类内距均衡化准则函数作为算法终止判断条件, 来得到更好的聚类效果。实验结果表明:该算法具有较高的准确率, 迭代次数较少, 并降低了对噪声的敏感程度。  相似文献   

15.
针对seeded-K-means和constrained-K-means算法要求标签数据类别完备的限制,本文提出了基于不完备标签数据的半监督K-means聚类算法,重点讨论了未标签类别初始聚类中心的选取问题.首先给出了未标签类别聚类中心最优候选集的定义,然后提出了一种新的朱标签类别初始聚类中心选取方法,即采用K-mea...  相似文献   

16.
廖纪勇  吴晟  刘爱莲 《控制与决策》2021,36(12):3083-3090
选取合理的初始聚类中心是正确聚类的前提,针对现有的K-means算法随机选取聚类中心和无法处理离群点等问题,提出一种基于相异性度量选取初始聚类中心改进的K-means聚类算法.算法根据各数据对象之间的相异性构造相异性矩阵,定义了均值相异性和总体相异性两种度量准则;然后据此准则来确定初始聚类中心,并利用各簇中数据点的中位数代替均值以进行后续聚类中心的迭代,消除离群点对聚类准确率的影响.此外,所提出的算法每次运行结果保持一致,在初始化和处理离群点方面具有较好的鲁棒性.最后,在人工合成数据集和UCI数据集上进行实验,与3种经典聚类算法和两种优化初始聚类中心改进的K-means算法相比,所提出的算法具有较好的聚类性能.  相似文献   

17.
Clustering web document is an important procedure in many web information retrieval systems. As the size of the Internet grows rapidly and the amount of information requests increases exponentially, the use of parallel computing techniques in large scale web document retrieval is unavoidable. We propose a parallel hybrid web document clustering algorithm, which combines the Principal Direction Divisive Partitioning (PDDP) algorithm with the K-means algorithm. Computational experiments were conducted to test the performance of the hybrid algorithm using three real life web document datasets, and the results were compared with that of the parallel PDDP algorithm and the parallel K-means algorithm. The experiments show that the quality of the clustering solutions obtained from the hybrid algorithm is better than that from the parallel PDDP or the parallel K-means. The parallel run time of the hybrid algorithm is similar to and sometimes less than that of the widely used K-means algorithm.  相似文献   

18.
验证了k已知条件下K-means聚类分选算法的准确性,并以此建立评估随机脉冲干扰效果的评价标准,通过软件仿真,得出影响干扰效果的随机脉冲参数规律,为工程实现提供了一定的理论依据.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号