首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 95 毫秒
1.
HITS算法是Web结构挖掘中一种经典的链接分析算法,其主要问题是容易发生主题漂移.针对这一问题,提出了一种基于文本内容和链接分析相结合的改进算法.实验证明改进后的算法提高了查询结果的相关度,降低了主题漂移的可能性.  相似文献   

2.
HITS是一种经典的链接分析算法,其主要问题是容易发生主题漂移。针对这一问题,提出了一种改进的算法:MCHITS。MCHITS利用最大流算法对HITS进行改进:首先将root集扩展两层,然后将root中的结点作为种子结点通过最大流最小割算法发现以root集为中心的社区,社区中的页面作为MC-base集。实验结果表明MCHITS提高了查询结果的相关度,减少了主题漂移的发生。  相似文献   

3.
一种基于文本内容的HITS改进算法   总被引:1,自引:0,他引:1  
HITS 算法是WEB结构挖掘中一种经典的链接分析算法, 其主要问题是容易发生主题漂移。针对这一问题,提出了一种基于文本内容和链接分析相结合的改进算法。实验证明改进后的算法提高了查询结果的相关度, 减少了主题漂移的发生。  相似文献   

4.
垂直搜索引擎的主题搜索策略有基于内容评价的搜索策略和基于Web链接分析的搜索策略,其中HITS算法是一种经典的基于Web链接分析的搜索策略,其主要的缺点是容易发生主题漂移。为了最大程度地避免主题漂移,提出了一种结合网页文本分析和扩散速率改进的F-HITS算法。实验结果表明,这些改进不仅节省了系统的开销,并且提高了页面搜索的准确率。  相似文献   

5.
随着网络与数据挖掘技术的发展,Web数据挖掘得到了较多的研究。本文从Web结构挖掘的角度出发,在分析了Web结构挖掘技术的基础上,研究了HITS算法。针对HITS算法的多主题性、无关页面、无关链接等问题,提出了HITS算法改进算法。  相似文献   

6.
Web结构挖掘中HITS算法改进的研究   总被引:2,自引:0,他引:2  
随着Internet技术的发展,Web网页成为人们获取信息的有效途径,Web数据挖掘逐渐成为国内外研究的热点。基于Web结构挖掘中HITS算法只考虑页面之间的链接关系而忽视了页面的具体内容,在这种情况下容易出现主题偏离[1]现象,影响了搜索结果,为了抑制主题偏离现象,本文把超链接信息检索方法与页面内容相结合,提出了一种改进的算法。实验结果证明改进的算法较原算法具有较好的效果,有效的抑制了主题偏离现象,具有一定的实用价值。  相似文献   

7.
基于PageRank和HITS的Web搜索   总被引:1,自引:0,他引:1  
介绍了目前应用较为广泛的两种算法--PageRank算法和HITS算法.PageRank算法是基于用户随机的向前浏览网页的直觉知识,HITS算法考虑的是Authoritive网页和Hub网页间的加强关系.PageRank算法的基本思想是:如果一个页面被许多其他页面引用,则这个页面很可能是重要页面;一个页面尽管没有被多次引用,但被一个重要页面引用,那么这个页面很可能也是重要页面;一个页面的重要性被均分并传递到它所引用的页面.而HITS算法则专注于改善泛指主题检索的结果,通过一定的计算(迭代计算)方法以得到针对某个检索提问的最具价值的网页,即排名最高的authority.  相似文献   

8.
介绍了目前应用较为广泛的两种算法——PageRank算法和HITS算法。PageRank算法是基于用户随机的向前浏览网页的直觉知识,HITS算法考虑的是Authoritive网页和Hub网页间的加强关系。PageRank算法的基本思想是:如果一个页面被许多其他页面引用,则这个页面很可能是重要页面;一个页面尽管没有被多次引用,但被一个重要页面引用,那么这个页面很可能也是重要页面;一个页面的重要性被均分并传递到它所引用的页面。而HITS算法则专注于改善泛指主题检索的结果,通过一定的计算(迭代计算)方法以得到针对某个检索提问的最具价值的网页,即排名最高的authority。  相似文献   

9.
Web信息检索中主题精选算法的研究与改进   总被引:3,自引:0,他引:3  
搜索引擎是目前最主要的Web信息检索工具,然而它的效果还不能令人满意。基于Web链接结构的主题精选算法的链接分析迭代往往会收敛于链接图中与查询主题不太相关的紧密交织区域(TKC),从而导致主题偏移。笔者对经典主题精选算法HITS的分析表明该算法还有给不同的Web站点规定了不平等的影响权重以及不能满足用户多粒度的信息需求等缺点。文章在分析主题精选算法研究的基础上针对其不足提出了改进算法g-HITSc,实验表明该算法是合理和有效的。  相似文献   

10.
马瑞新  邓贵仕 《计算机科学》2012,39(105):277-278
针对动态社区挖掘问题进行分析和研究,基于优先情节和增长定律,根据节点的度数分布,提出以时间为轴动态模拟社会网络的形成演化机制,同时进行社区划分。以Zachary Club和工二s Miscrablcs网络作为实验数据集,对提出的算法进行了实验验证,结果表明,该算法挖掘到的社区都是强连通社区,能够动态、精确地挖掘网络中存在的社区结构,具有较高的实用价值。  相似文献   

11.
在介绍 Web结构的基础上,研究了基于Web超链接的HITS算法,分析该算法存在的若干问题并提出了两种改进的算法.  相似文献   

12.
应用Web结构挖掘的PageRank算法的改进研究   总被引:1,自引:0,他引:1       下载免费PDF全文
随着Internet技术的发展,Web网页成为人们获取信息的有效途径,Web数据挖掘逐渐成为研究的热点。基于Web结构挖掘的PageRank算法存在不足的情况下,提出了一种改进的算法,实验结果证明改进的算法较原算法具有较好的效果,具有一定的实用价值。  相似文献   

13.
介绍了PageRank和HITS两种最常见的算法,对基于链接结构分析的Web搜索算法的研究进展进行了综述,主要包括:介绍了独立于查询的各种改进算法以及基于查询主题的有关算法,并分析上述算法的优缺点及其改进策略或方法,以及Web搜索算法的关键技术和应用,最后是关于Web搜索算法存在的问题和研究展望。  相似文献   

14.
基于Web数据挖掘的用户浏览兴趣路径研究   总被引:1,自引:0,他引:1  
使用Web日志与用户浏览行为相结合的方式对用户浏览兴趣模式进行挖掘。分别建立以访问次数、平均到网页中字符数的访问时间和拉动滑动条次数为元素值的矩阵,通过对矩阵进行路径兴趣度的计算得到兴趣子路径,进行合并生成用户兴趣路径集。实例分析表明该算法是可行和有效的,对于电子商务网站的优化和实施个性化服务具有意义。  相似文献   

15.
为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的访问模式.数据预处理和日志挖掘算法是Web日志挖掘中的关键技术.文章就此进行了深入的研究,在已知用户访问路径的基础上,提出一种基于MFP算法的日志挖掘算法,并结合实例具体介绍了该算法的执行过程.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号