首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
白亮  于天元  刘湜  老松杨  杨征 《计算机科学》2016,43(10):220-224
搜索引擎的性能优劣主要由排序结果决定。针对网页文本特性改进了谱聚类方法,提出了一种融合网页内容和链接质量的排序算法。利用改进的谱聚类方法对网页内容进行分类,并与评价链接质量的PageRank值进行加权融合,计算得到排序结果。实验结果表明,相对于传统的PageRank,HITS,TF-IDF等排序算法,所提算法返回的排序结果具有更高的相关性。  相似文献   

2.
由于网络上信息数量庞大,多元搜索引擎可能会产生一个相当大的结果集,本文借鉴了Web挖掘中聚类算法FCMA和网页排序算法HITS的技术和思想,改进了多元搜索引擎的结构,以提高系统的查询效率.  相似文献   

3.
搜索引擎针对某个查询条件返回给用户的查询结果可能数量非常巨大,要从这么多的返回信息中找到所需要的信息是很困难的.研究聚类算法是为了帮助用户更好地查询到自己所需要的和感兴趣的信息.提出采用基于K-means与FCA的网页文本聚类算法,并分析了两种算法各自的优势与缺点,为研究更优的网页文本聚类算法提供依据.  相似文献   

4.
基于信息熵的精确属性赋权K-means聚类算法   总被引:4,自引:0,他引:4  
为了进一步提高聚类的精确度,针对传统K-means算法的初始聚类中心产生方式和数据相似性判断依据,提出一种基于信息熵的精确属性赋权K-means聚类算法。首先利用熵值法对数据对象的属性赋权来修正对象间的欧氏距离,然后通过比较初聚类的赋权类别目标价值函数,选择高质量的初始聚类中心来进行更高精度和更加稳定的聚类,最后通过Matlab编程实现。实验证明该算法的聚类精确度和稳定性要明显高于传统K-means算法。  相似文献   

5.
随着Internet的迅猛发展,网络信息呈爆炸式增长。Web信息检索是一个从Web海量数据中检索用户感兴趣信息的综合技术,它从一定程度上满足了用户对信息的需求,但返回页面的数量依然十分巨大。如何对搜索结果进行排序已成为影响搜索质量的一个重要问题。本文介绍了两种页面排序算法PageRank和HITS,并对网页排序算法的若干改进进行了讨论。  相似文献   

6.
提出一种基于PageRank的页面排序算法.采用网页类别相关度计算,对来自不同类别网页所传递的权威值赋予相应的权重;根据链接所属信息块重要性的不同,赋予相应权值.实验表明,该算法对提高页面排序质量是有效的.  相似文献   

7.
基于有向带权图的页面聚类算法研究   总被引:1,自引:0,他引:1  
聚类算法是数据挖掘中的一个重要的分析工具.Web使用挖掘中的聚类分析一般分为用户聚类和页面聚类.其中页面聚类是指导网站结构离线优化的重要方法.利用有向带权图表示用户的访问会话记录,对建立的有向带权图模型运用聚类算法实现页面聚类.选取真实数据对典型的聚类算法K-means算法、DBSCAN算法和COBWEB算法进行实验.实验结果表明,在选取的数据集范围内,COBWEB算法准确率要高于K-means算法和DBSCAN算法,时间性能与用户访问频率矩阵大小有密切关系.  相似文献   

8.
K-means算法是数据挖掘中非常经典的算法。通过数据之间内在关联性将同类数据组合在一起,这对于大量混乱的数据进行资源整合具有非常重要的意义。就K-means聚类算法在文本处理领域的应用展开研究,分析在文本聚类过程中数据的处理流程,涉及文本中特征项的选取、文本的预处理操作、文本的结构化表示和文本之间相似度计算等步骤。  相似文献   

9.
随着数据量的不断增加,传统的数据处理方法已经无法满足现代大数据处理的需求。近年来,云计算作为一种新型的数据处理方法逐渐被广泛采用。在云计算背景下,K-means聚类算法是一个重要的数据挖掘工具,拥有广泛的应用场景,包括图像处理、文本分析等。但是,当数据量大到一定程度时,传统的K-means聚类算法存在计算效率低和内存占用过大的问题。文章介绍了一种基于云计算的并行K-means聚类算法设计方案,介绍了云计算的概念、云平台技术的应用、云计算平台对并行计算的支持。实验结果表明,K-means算法在处理大规模数据集时的运行时间较长,而采用云计算平台进行并行化计算可以有效提高算法的运行效率。  相似文献   

10.
摘要:提出了一种基于信息熵的蚁群聚类算法,将信息熵引入到LF算法中,数据对象的归属由信息熵来决定,减少了参数,测试并验证了算法的有效性。同时,信息熵的蚁群算法早期数据分散收敛过慢,容易陷入局部最优等缺点,提出了一种蚁群聚类组合方法得以改进。改进思路是引入K-means作为熵蚁群算法的预处理过程。通过K-means快速、粗略地确定聚类中心,利用K-means方法的结果作为初值,再进行改进的熵蚁群算法聚类。有效地解决了蚁群算法早期收敛过慢等问题。  相似文献   

11.
12.
目前基于Rough集的离散化算法很难做到高效率和高识别率兼顾,针对粗糙集给出了基于逐级均值聚类的信息熵的离散化算法。首先使用改进的逐级均值聚类算法分别对单个属性的候选断点按其信息熵值进行聚类分析,生成新的规模更小的候选断点集,然后用基于信息熵的离散化算法完成断点的选取并对连续值属性进行离散化。实验结果表明,该方法在识别率相当的情况下比传统的离散化方法的时间代价更低。  相似文献   

13.
针对模糊聚类存在的数据收缩问题的不足,提出了一种改进现有模糊聚类算法的方法,并进行仿真实验研究.模糊C-均值(FCM)算法主要通过目标函数的迭代优化来实现集合划分,以信息熵作为模糊C-均值算法的约束条件,给出改进算法的推导过程,得出改进后的模糊C-均值算法的隶属度和聚类中心,实现了模糊C-均值的改进算法.实验结果可以表明,改进的模糊C-均值算法是有效的,能够表现出比模糊C-均值算法更好的性能,在实际应用中可以取得较好的聚类效果.  相似文献   

14.
针对传统的K-均值算法聚类时所面临的维数灾难、初始聚类中心点难以确定的缺点,提出一种改进的K-均值算法,其核心思想是通过降维、基于密度及散布的初始中心点搜索等方法改进K-均值算法。实验结果证明改进后的算法无论在聚类精度还是在稳定性方面,都明显优于标准的K-均值算法。  相似文献   

15.
王娟 《微型机与应用》2011,30(20):71-73,76
传统K-means算法对初始聚类中心的选取和样本的输入顺序非常敏感,容易陷入局部最优。针对上述问题,提出了一种基于遗传算法的K-means聚类算法GKA,将K-means算法的局部寻优能力与遗传算法的全局寻优能力相结合,通过多次选择、交叉、变异的遗传操作,最终得到最优的聚类数和初始质心集,克服了传统K-means算法的局部性和对初始聚类中心的敏感性。  相似文献   

16.
传统K-均值算法对初始聚类中心敏感大,易陷入局部最优值.将遗传算法与K均值算法结合起来进行探讨并提出一种改进的基于K-均值聚类算法的遗传算法,改进后的算法是基于可变长度的聚类中心的实际数目来实现的.同时分别设计出新的交叉算子和变异算子,并且使用的聚类有效性指标DB-Index作为目标函数,该算法很好地解决了聚类中心优化问题,与之前的两种算法相比,改进后的算法改善了聚类的质量,提高了全局的收敛速度.  相似文献   

17.
数字半色调是在二值设备或多色二值设备上实现图像再现的一门技术,提出将K-means聚类法应用在数字半色调技术中。算法中应用人类视觉系统模型(HVS)和印刷模型最大限度减少原始灰度连续调图像和半色调图像之间的视觉误差;利用K-means聚类法将灰度图像划分成聚类分区,在每个聚类分区应用最小平方法(least-squares)最小化二值半色调图像和原始灰度级图像之间的平方误差,所构造的半色调算法与基于模型的最小平方法(LSMB)算法相比,随着聚类分区的增加,图像平滑且边缘清晰度增加,尤其是在图像细节部位。与LSMB算法比较,该算法的均方误差值有所降低,而权重信噪比和峰值信噪比提高了0.2~2 dB,模拟实验结果验证了算法的有效性。  相似文献   

18.
基于半监督学习的K-均值聚类算法研究   总被引:1,自引:3,他引:1  
定义了一个欧氏距离和监督信息相混合的新的最近邻计算函数,从而将K-均值算法很好地应用于半监督聚类问题。针对K-均值算法初始质心敏感的缺陷,用粒子群算法的搜索空间模拟聚类的欧氏空间,迭代搜索找到较优的聚类质心,同时提出动态管理种群的策略以提高粒子群算法搜索效率。算法在UCI的多个数据集上测试都得到了较好的聚类准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号