首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
基于遗传算法的主题爬行技术研究   总被引:3,自引:0,他引:3  
针对目前主题搜索策略的不足,提出了基于遗传箅法的主题爬行策略,提高了链接于内容相似度不高的网页之后的页面被搜索的机会,扩大了相关网页的搜索范围.同时,在网页相关度分析方面,引入了基于本体语义的主题过滤策略.实验结果表明,基于遗传算法的主题爬虫抓取网页中的主题相关网页数量多,在合理选择种子集合时,能够抓取大量的主题相关度高的网页.  相似文献   

2.
因特网的迅速发展对传统的爬行器和搜索引擎提出了巨大的挑战。各种针对特定领域、特定人群的搜索引擎应运而生。Web主题信息搜索系统(网络蜘蛛)是主题搜索引擎的最主要的部分,它的任务是将搜集到的符合要求的Web页面返回给用户或保存在索引库中。Web 上的信息资源如此广泛,如何全面而高效地搜集到感兴趣的内容是网络蜘蛛的研究重点。提出了基于网页分块技术的主题爬行,实验结果表明,相对于其它的爬行算法,提出的算法具有较高的效率、爬准率、爬全率及穿越隧道的能力。  相似文献   

3.
周相兵 《计算机应用》2010,30(10):2763-2767
针对面向服务计算所具有的分散性、不确定性等因素的影响,以及服务发现、选择和组合存在技术和高效应用上的瓶颈,提出一种用描述逻辑实现主题服务组合的方法。该方法将主题图与Web服务用描述逻辑进行融合,并在融合过程借助本体实现主题图与Web服务间的描述,进而形成一种语义主题Web服务。最后用基于SHOIQ的Tableau决策算法实现语义Web主题服务组合。案例分析表明该方法可行且有效。  相似文献   

4.
爬虫是搜索引擎的关键组成部分,本文提出了一种可利用之前爬行数据自动改进其分析算法与种子URL集合的主题爬行算法,并讨论了其首次爬行和再次爬行算法。实验结果表明该算法的准确率在大多数情况下优于基于宽度策略、基于PageRank和基于内容相似度分析的爬虫。  相似文献   

5.
结合信息增益,提出了一种新的自适应主题爬行策略。利用维基百科的分类树和主题描述文档构建主题向量T,并在爬行过程中不断地进行自动学习,反馈更新主题向量空间中每个概念的权重,完善主题描述。实验结果表明,该方法具有增量爬行的能力,并在信息量总和上明显优于基于the interest ratio的自适应策略;且前者所爬取的网页更接近于与主题相关。  相似文献   

6.
基于维基百科和网页分块的主题爬行策略   总被引:1,自引:0,他引:1  
熊忠阳  史艳  张玉芳 《计算机应用》2011,31(12):3264-3267
针对传统主题爬行策略的不足和局限性,提出一种基于维基百科(Wikipedia)和网页分块的主题爬行策略,通过Wikipedia的主题分类树和主题描述文档获取主题向量,以此来描述主题;并在下载网页后引入网页分块,过滤噪声链接;在计算候选链接优先级时,引入块相关性,以弥补锚文本信息量有限的缺点;通过改变主题向量空间的大小来...  相似文献   

7.
随着Web服务技术的快速发展和广泛应用,传统的Web体系结构肯定已经不能满足日益众多的新需求, Web服务和语义Web成为Web发展的两个新兴方向。在他们相互融合下逐步发展成为语义Web服务这一新的技术。本文设计实现一个基于QoS本体的语义Web服务组合原型系统,以服务请求者的QoS需求为主体,再结合QoS语义匹配和QoS数值匹配进行个性化的服务组合,从而能为服务请求者提供能满足请求者个性化需求的Web服务。  相似文献   

8.
互联网网页所形成的主题孤岛严重影响了搜索引擎系统的主题爬虫性能,通过人工增加大量的初始种子链接来发现新主题的方法无法保证主题网页的全面性.在分析传统基于内容分析、基于链接分析和基于语境图的主题爬行策略的基础上,提出了一种基于动态隧道技术的主题爬虫爬行策略.该策略结合页面主题相关度计算和URL链接相关度预测的方法确定主题孤岛之间的网页页面主题相关性,并构建层次化的主题判断模型来解决主题孤岛之间的弱链接问题.同时,该策略能有效防止主题爬虫因采集过多的主题无关页面而导致的主题漂移现象,从而可以实现在保持主题语义信息的爬行方向上的动态隧道控制.实验过程利用主题网页层次结构检测页面主题相关性并抽取"体育"主题关键词,然后以此对采集的主题网页进行索引查询测试.结果表明,基于动态隧道技术的爬行策略能够较好的解决主题孤岛问题,明显提升了"体育"主题搜索引擎的准确率和召回率.  相似文献   

9.
基于语义的Web信息检索   总被引:2,自引:0,他引:2  
用户要从网络中得到所需的信息一般是通过各种搜索引擎。但是现有的搜索引擎都存在着检索相关度不高等问题。随着语义Web概念的提出及相关技术的发展,基于语义的Web信息检索逐渐成为了语义Web研究的热点。给出了传统搜索引擎存在的问题,从理论上分析了如何将语义Web技术融入Web信息检索中去,并在理论分析的基础上给出了基于语义的Web信息检索的模型。  相似文献   

10.
基于语义的Web信息检索   总被引:1,自引:0,他引:1  
用户要从网络中得到所需的信息一般是通过各种搜索引擎。但是现有的搜索引擎都存在着检索相关度不高等问题。随着语义Web概念的提出及相关技术的发展,基于语义的Web信息检索逐渐成为了语义Web研究的热点。给出了传统搜索引擎存在的问题,从理论上分析了如何将语义Web技术融入Web信息检索中去,并在理论分析的基础上给出了基于语义的Web信息检索的模型。  相似文献   

11.
Focused crawlers have as their main goal to crawl Web pages that are relevant to a specific topic or user interest, playing an important role for a great variety of applications. In general, they work by trying to find and crawl all kinds of pages deemed as related to an implicitly declared topic. However, users are often not simply interested in any document about a topic, but instead they may want only documents of a given type or genre on that topic to be retrieved. In this article, we describe an approach to focused crawling that exploits not only content-related information but also genre information present in Web pages to guide the crawling process. This approach has been designed to address situations in which the specific topic of interest can be expressed by specifying two sets of terms, the first describing genre aspects of the desired pages and the second related to the subject or content of these pages, thus requiring no training or any kind of preprocessing. The effectiveness, efficiency and scalability of the proposed approach are demonstrated by a set of experiments involving the crawling of pages related to syllabi of computer science courses, job offers in the computer science field and sale offers of computer equipments. These experiments show that focused crawlers constructed according to our genre-aware approach achieve levels of F1 superior to 88%, requiring the analysis of no more than 65% of the visited pages in order to find 90% of the relevant pages. In addition, we experimentally analyze the impact of term selection on our approach and evaluate a proposed strategy for semi-automatic generation of such terms. This analysis shows that a small set of terms selected by an expert or a set of terms specified by a typical user familiar with the topic is usually enough to produce good results and that such a semi-automatic strategy is very effective in supporting the task of selecting the sets of terms required to guide a crawling process.  相似文献   

12.
主题爬行中的隧道穿越技术   总被引:2,自引:0,他引:2  
由于网络环境的复杂性和网页内容的多主题性,要想得到更多的特定主题相关网页,就要穿越那些主题不相关网页来获取更多的主题相关网页,即隧道穿越.将隧道穿越分为灰色隧道穿越和黑色隧道穿越.对于灰色隧道,在爬行过程中,将一个多主题Web页面分割成数量不多的内容块分别处理来避免由于网页整体主题不相关给该块所带来的影响.对于黑色隧道的穿越,将隧道中主题不相关网页根据其父亲页面的主题相关性赋予一个深度值,然后根据其深度值的大小进行取舍,来达到扩展主题爬行区域的目的.实验结果显示,这两种方法都达到了预期效果,所以方法是有效、稳健和实用的.  相似文献   

13.
基于多Agent系统的定题爬虫算法   总被引:2,自引:1,他引:1       下载免费PDF全文
徐照财  程显毅 《计算机工程》2008,34(16):204-206
定题爬虫的研究是定题搜索引擎的关键技术。该文提出一种基于多Agent系统的爬虫算法,采用本题语义主题关键词过滤的方法来抓取与主题相关的网页,利用本体库语义网络实现本体领域中同近义词的过滤。凭借HTML网页标记对关键字识别的不同权重和超链接锚文本对主题相关网页进行预测,通过黑板的通信机制实现多Agent交互。实验结果表明算法在抓取网页的查准率、查全率方面有一定的改善。  相似文献   

14.
基于遗传算法的定题信息搜索策略   总被引:4,自引:0,他引:4  
定题检索将信息检索限定在特定主题领域,提供主题领域内信息的检索服务。它是新一代搜索引擎的发展方向之一。定题检索的关键技术是主题相关信息的搜索。本文提出了基于遗传算法的定题信息搜索策略,提高链接于内容相似度不高的网页之后的页面被搜索的机会,扩大了相关网页的搜索范围。同时,借助超链Metadata的提示信息预测链接页面的主题相关度,加快了搜索速度。对比搜索试验证明了算法具有较好的性能。  相似文献   

15.
面向主题爬取的多粒度URLs优先级计算方法   总被引:1,自引:0,他引:1  
垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题一是计算当前页面与给定主题的相关度, 二是计算待爬取URLs的访问优先级。对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法; 对第二个问题, 给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法。在此基础上, 提出基于上述方法的主题爬取算法。实验证明, 新算法在不增加时间复杂度的前提下, 在查准率和信息量总和方面明显优于其他三种经典的爬取算法。  相似文献   

16.
刘徽  黄宽娜  余建桥 《计算机工程》2012,38(11):284-286
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页 面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提取有前途的链接,将爬行深度限定在3层,从最靠近查询表单中提取链接,且只提取属于这3个层次的链接,从而减少爬虫爬行时间,提高爬虫的准确度,并设计聚焦爬行算法的约束条件。实验结果表明,该策略可以有效地下载Deep Web页面,提高爬行效率。  相似文献   

17.
传统的Web服务发现技术大多采用基于关键字的服务匹配机制,缺乏对Web服务功能的语义性描述,影响了Web服务的查全率、查准率和查找的智能化.研究基于语义的Web服务匹配方法,在经典Web服务匹配算法的基础上进行改进,研究单概念语义Web服务匹配算法,并由此得出多概念语义Web服务匹配的最优顺序,结合输入、输出参数,最终得出语义Web服务匹配结果,实验结果表明,改进后的方法比BGM算法匹配度高.  相似文献   

18.
一个个性化的Web信息采集模型   总被引:7,自引:0,他引:7  
吴丽辉  王斌  张刚 《计算机工程》2005,31(22):86-88
介绍了个性化技术和个性化Web信息的采集技术,重点分析了个性化的Web信息采集模型,包括系统总体结构、用户兴趣的获取、个性化Web信息采集流程、个性化推荐的实现。最后对个性化Web信息采集与搜索引擎作了一个比较,分析了个性化Web信息采集的应用。  相似文献   

19.
Web信息采集研究进展   总被引:14,自引:1,他引:14  
1.简介随着Internet/Intranet的迅速发展,网络正深刻地改变着我们的生活。而在网上发展最为迅猛的WWW(World Wide Web)技术,以其直观、方便的使用方式和丰富的表达能力,已逐渐成为Internet上最重要的信息发布和传输方式。然而,Web信息的急速膨胀,在给人们提供丰富的资源的同时,又使人们在对它们的有效使用方面面临一个巨大的挑战。为此,人们发展了以Web搜索引擎为主的检索服务,并且随着  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号