共查询到19条相似文献,搜索用时 109 毫秒
1.
介绍了PageRank和HITS两种最常见的算法,对基于链接结构分析的Web搜索算法的研究进展进行了综述,主要包括:介绍了独立于查询的各种改进算法以及基于查询主题的有关算法,并分析上述算法的优缺点及其改进策略或方法,以及Web搜索算法的关键技术和应用,最后是关于Web搜索算法存在的问题和研究展望。 相似文献
2.
3.
Web社区发现技术综述 总被引:23,自引:1,他引:22
Web是一个复杂超文本所组成的巨大的信息源,而且以很快的速度在不断的扩大.针对这样一个不断变化的信息源,如何利用和发现Web中的有用信息变得具有挑战性.Web在发展过程中存在着大量的社区,这些社区是Web组织中非常重要的信息.通过对社区信息的认识可以帮助我们总览Web的全貌.而将Web按照社区来组织有许多优点.社区可以引导用户找到感兴趣的信息;社区可以帮助Internet/Intranet服务提供者有效地组织门户;社区可以帮助制造商准确地找到消费者.社区还代表了Web的社会活动,因为Web就是一个社会性的网络.目前,许多社区的发现和维护是依靠人工来完成的,维护成本较高,修改也困难;此外,还存在着许多不为人知或者称为潜在的社区,而这些社区是无法通过人工来发现的.因此,许多研究都在致力于社区的自动或半自动发现技术.社区的发现主要采用基于Web图形的链接分析技术.在方法上大致上分为两类,一类是面向某个主题的社区发现,而另一个是无主题的社区发现技术.对于社区的发现技术做了较为全面的分析,并且总结了社区发现技术中依然存在的、挑战性的问题和未来的研究趋势. 相似文献
4.
万维网的链接结构分析及其应用综述 总被引:47,自引:0,他引:47
当今万维网的规模已经快速发展到包含大约80亿个网页和560亿个超链接.此外,对万维网的创建进行全局规划显然是不可能的.这些都对万维网的相关研究提出了挑战.另一方面,互联网环境下通过超链连接起来的网页,为人们的日常和商务用途提供了非常丰富的信息资源,但前提是必须掌握有效的办法来理解万维网.链接结构分析在万维网的很多研究领域起着越来越重要的作用.全面介绍了万维网链接分析方面的最新研究进展和应用情况,对链接分析在Web信息搜索、万维网潜在社区发现及万维网建模等方面的研究进展和实际应用进行了综述. 相似文献
5.
Inherit/Feedback:一种新的Web主题挖掘方法 总被引:4,自引:0,他引:4
经典链接分析方法(如PageRank和HITS)更多地关注的是网页的权威度,而不是其主题相关度,所以在引导主题搜索的过程中,很快就发生主题漂移.为此,在构建主题关联拓扑模型的基础上,提出了Inherit/Feedback方法,以用于Web主题挖掘.基本思想是:在搜索路径上,一个结点继承其父辈结点的主题相关度,并且将其主题相关度反馈给父辈结点.同时,提出了基于Inhefit/feedback的主题搜索算法(IFC).实验结果表明,这种方法能有效地引导主题搜索,适用于对领域型网站做深层次的搜索和挖掘. 相似文献
6.
本文分析了Web信息搜索中的Leader算法其聚类结果中可能存在重叠区域;k-means算法其k参数的确定可能需要多次尝试。结合上述二种聚类分析算法提出将Leader算法和k-means算法融合可以同时解决上述问题,且在实际的Web信息搜索中更能体现聚类分析的优势。 相似文献
7.
网页链接的主题相关性影响页面的权威性计算,传统的HITS算法仅从页面的链接结构评估页面的权威性,易导致主题漂移.对HITS算法进行了扩展,提出了一种主题驱动的HITS算法.该算法分析页面文档、链接的主题相关性,把主题相关性融入权威性计算,利用页面链接的拓扑结构传播页面的权威性.该算法能够搜索到与主题高耦合的结果,有效控制主题漂移,改善搜索质量. 相似文献
8.
Web采集者为了尽可能准确地采集符合主题的网页信息,一般会根据多种Web信息来预测待采集链接的价值。文中为了提高Web采集系统预测链接价值的准确性,提出了一种能根据已采集页面自行调整Web信息重要性的Web采集者。它具有学习能力,能通过对训练集的爬行,分析出对于预测链接价值各种Web信息的重要性,以此调整采集过程中各Web信息的组合权值,得到符合实际Web情况的较优搜索策略。文中以计算机作为采集主题,对此算法和传统的Web信息固定组合的算法进行了比较。实验结果表明,较之传统的Web采集者,使用此算法的采集者具有较高的Web搜索精度。 相似文献
9.
Web链接结构信息研究综述 总被引:4,自引:1,他引:4
万维网(World Wide Web)是由大量的网页组成的,网页之间由超链接(HyperLink)相互连接。在传统上,人们对网络信息的分析和获取是依靠对网页内容的分析和处理来进行的。例如,传统的网络搜索引擎对网页上文本信息进行分析、索引,并将处理后的信息存储在数据库中,然后根据用户查询输入进行分析,获得查询结果。 相似文献
10.
11.
陈学进 《计算机技术与发展》2009,19(5)
网络结构挖掘是以超链接分析为基础,从链接结构中获取有用的知识,利用这些知识,重新组织结构,使内容逻辑结构更加合理.深入研究现有的网络结构挖掘系统,并在对其核心算法PageRank和HITS中所存在的问题作了详细分析的基础上提出了自己的改进算法,主要是对每个网页定义这三个参数:PageRank,Authority,Hub,并进行分析与优化,以便得到更好的查询结果,最后设计了一个改进网络结构挖掘系统原型,根据实验结果进行分析. 相似文献
12.
13.
近年来,Intranet不断飞速发展,导致信息量趋于庞大。于是如何让用户查找到自己想要的信息成为Intranet搜索引擎的一个难题。关于这个问题,它将对几种经典的Intranet搜索排序算法进行分析、比较。希望在以后的开发中可以以它为参照,进行相关算法的改进,尽可能的让算法更接近完美,使搜索结果更能符合用户的需求。 相似文献
14.
Web超链分析算法研究 总被引:18,自引:2,他引:18
The World Wide Web serves as a huge, widely distributed, global information service center, and expand-ing in a rapid speed. It is import to find the information the user need precisely and rapidly. In recent years, re-searchers discovery that rich and import information is contained among hyperlinks, and develop a lot of algorithm us-ing hyperlink to improve the quantity and relevance of the results which search engine returned. This paper presents a review and a comparison of such algorithms existing now. Problems of these algorithms and directions to further re-search will be discussed. 相似文献
15.
Web搜索中的数据挖掘技术研究 总被引:4,自引:0,他引:4
WWW已经成为世界上是大的分布式信息系统,如何快速有效地搜索用户所需的资源一直是研究热点。Web挖掘也已经成为数据挖掘中相对成熟的一个分支。本文针对Web资源搜索中利用的相关Web挖掘技术做一个综述。文章首先对目前流行的Web内容挖掘方面的常用技术进行了研究分析,然后着重研究了Web结构挖掘技术,介绍并评价了多种算法模型。接着介绍了用户使用的挖掘,并提出了Web内容挖掘技术,结构挖掘技术和用户使用挖掘相结合,应用于开发智能型搜索引擎的趋势。 相似文献
16.
17.
随着信息快速增长,如何从大量文档中提取摘要信息成为自然语言处理一个重要的研究方向。文章提出了一种不依赖于任何训练集和自然语言本身信息的自动摘要方法,该方法利用改进后的PageRank公式和HITS公式对文档所有句子打分排序,选取得分高的句子作为摘要。实验证明,该方法简单易行,具有高效性,良好的效果以及扩展性。 相似文献
18.
从Web结构挖掘的角度出发,比较了基于链接结构分析的PageRank和HITS 2个经典算法,针对HITS单纯利用链接,忽略主题相关性问题,利用模糊关系的合成,得到页面与查询词之间的模糊隶属关系,对原有的HITS算法进行改进.实例验证了算法的有效性. 相似文献
19.
介绍了目前应用较为广泛的两种算法——PageRank算法和HITS算法。PageRank算法是基于用户随机的向前浏览网页的直觉知识,HITS算法考虑的是Authoritive网页和Hub网页间的加强关系。PageRank算法的基本思想是:如果一个页面被许多其他页面引用,则这个页面很可能是重要页面;一个页面尽管没有被多次引用,但被一个重要页面引用,那么这个页面很可能也是重要页面;一个页面的重要性被均分并传递到它所引用的页面。而HITS算法则专注于改善泛指主题检索的结果,通过一定的计算(迭代计算)方法以得到针对某个检索提问的最具价值的网页,即排名最高的authority。 相似文献