首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
网页标题分析对主题爬虫的改进   总被引:3,自引:1,他引:2  
随着网络信息资源的爆发式增长,现有的搜索引擎已经无法满足迅速获取准确信息的需要,为搜索引擎引入搜索内容更为精确的主题爬虫显得十分迫切.然而目前的主题爬虫所采用的两种基本抓取网页的方式效率比较低下.提出了一种通过网页标题分析对主题爬虫的改进方案,比较了引人标题分析前后的结果,论证了设计的可行性与可操作性,优化了主题爬虫对同类型特定信息的抓取.  相似文献   

2.
本文通过对中文网页采集流程、网络爬虫工作基本原理的分析,再结合彝文网页的特点,对彝文网页信息的采集技术进行了研究,通过聚焦网络爬虫来实现彝文网页信息的采集,并依此来建立一个内容全面的彝文网页信息资源库。  相似文献   

3.
网络爬虫是为了实现网络资源下栽功能的程序,是搜索引擎最重要的构件。考虑到网络上信息的种类繁多,研究一种基于网络爬虫的网页信息提取技术,并给出相关的设计方案,对设计方案进行验证,结果表明设计的可行性。  相似文献   

4.
基于用户搜索意图的Web网页动态泛化   总被引:3,自引:0,他引:3  
基于目前对用户搜索意图的分类,进一步分析了每种用户意图的信息需求,提出了基于用户搜索意图的Web网页动态泛化模型,为搜索的Web网页动态地建立文档片段、关键词、导航类型、文档格式之间的概念层次,通过网页内容、类型和格式的泛化为不同的访问意图提供进一步的搜索导航,从而返回与搜索意图更相关的结果.与相关工作对比,重点并非获取用户意图,也不是对用户意图分类,而是基于用户搜索意图的Web网页动态泛化模型的建立及Web网页泛化过程的实现.实验结果表明,该泛化模型不仅能够通过导航自动获取用户搜索意图,而且能够基于该意图提供相关搜索结果以及进一步的搜索导航.  相似文献   

5.
王大玲  于戈  鲍玉斌  张沫  沈洲 《软件学报》2010,21(1):1083-1097
基于目前对用户搜索意图的分类,进一步分析了每种用户意图的信息需求,提出了基于用户搜索意图的 Web 网页动态泛化模型,为搜索的Web 网页动态地建立文档片段、关键词、导航类型、文档格式之间的概念层次, 通过网页内容、类型和格式的泛化为不同的访问意图提供进一步的搜索导航,从而返回与搜索意图更相关的结果. 与相关工作对比,重点并非获取用户意图,也不是对用户意图分类,而是基于用户搜索意图的Web 网页动态泛化模型 的建立及Web 网页泛化过程的实现.实验结果表明,该泛化模型不仅能够通过导航自动获取用户搜索意图,而且能够 基于该意图提供相关搜索结果以及进一步的搜索导航.  相似文献   

6.
主要介绍Heritrix网络爬虫,分析了其系统结构。通过扩展Heritrix,使其能抓取太平洋电脑网站上的商品信息。在此基础上,利用ELFHash对效率抓取进行优化。最后,利用HTMLParser提取收集到的网页商品信息,为建立垂直搜索引擎提供信息源。  相似文献   

7.
胡燕  吴虎子 《福建电脑》2007,(1):114-115
介绍了一种简单但实用的方法,通过在JAVA应用程序中集成Google Web API,实现搜索和收集URL、获取网页并保存到本地磁盘的网页管理库中。  相似文献   

8.
动态网页环境下的Web使用记录挖掘研究   总被引:3,自引:0,他引:3  
何典  梁英 《微计算机信息》2006,22(22):122-124
根据大部分的Web站点均使用动态网页的实际,提出了并实现了一种在动态网页环境下进行数据采集的方法,使用了新的数据集代替Web日志作为待挖掘的数据,分析了该数据集的特点,并通过实验说明其可行性。  相似文献   

9.
Web页面包含了丰富的、动态的超链信息,挖掘超链及其周围的文档可以帮助用户找到感兴趣的、权威的内容。主要论述了基于超链的Web结构挖掘的方法,并对Web结构挖掘的一般方法HITS算法进行改进。采用这种改进算法,可以从任意页面集中计算出具有最大Authority权值和Hub权值的页面。从而把一个可信度的、权威的网站推荐给用户。  相似文献   

10.
双语平行句对是机器翻译的重要资源,但是由于获取途径的限制,句子级平行语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求。该文介绍了一个基于Web的双语平行句对自动获取系统。该系统融合了现有系统的优点,对其中的关键技术进行了改进。文中提出了一种自动发现双语网站中URL命名规律的方法,改进了双语平行句对抽取技术。实验结果表明文中所提出的方法大大提高了候选双语网站发现的召回率,所获取双语平行句对的召回率为93%,准确率为96%,证明了该文方法的有效性。此外,该文还对存在于双语对照网页内部的双语平行句对的抽取方法进行了研究,取得了初步成果。  相似文献   

11.
一种通用Web信息采集系统的设计与实现   总被引:5,自引:0,他引:5  
吴丽辉  王斌  余智华 《计算机工程》2005,31(3):123-124,194
介绍了一种通用的Web信息采集系统,给出了系统总体结构,分析了信息采集器、采集控制服务器和信息发布服务器,讨论了系统实际的应用。实践证明,该系统能够对Internet信息进行自动采集,并对今后的应用提供充分的支持,具有良好的通用性。  相似文献   

12.
基于移动爬虫的专用Web信息收集系统的设计   总被引:3,自引:0,他引:3  
搜索引擎已经成为网上导航的重要工具。为了能够提供强大的搜索能力,搜索引擎对网上可访问文档维持着详尽的索引。创建和维护索引的任务由网络爬虫完成,网络爬虫代表搜索引擎递归地遍历和下载Web页面。Web页面在下载之后,被搜索引擎分析、建索引,然后提供检索服务。文章介绍了一种更加有效的建立Web索引的方法,该方法是基于移动爬虫(MobileCrawler)的。在此提出的爬虫首先被传送到数据所在的站点,在那里任何不需要的数据在传回搜索引擎之前在当地被过滤。这个方法尤其适用于实施所谓的“智能”爬行算法,这些算法根据已访问过的Web页面的内容来决定一条有效的爬行路径。移动爬虫是移动计算和专业搜索引擎两大技术趋势的结合,能够从技术上很好地解决现在通用搜索引擎所面临的问题。  相似文献   

13.
徐文杰  陈庆奎 《计算机应用》2009,29(4):1117-1119
介绍了并行Web爬虫系统的总体结构,引入了增量更新爬虫策略,在提高Web海量数据更新效率的同时,考虑到机群中各个爬虫的能力不一,为了使机群中爬虫的能力得到充分应用,又提出了向量度量技术,解决了抓取任务和爬虫能力匹配的问题。对抓取任务向量、爬虫向量进行了定义,并在此基础上给出了相关的并行算法。实践表明,系统具有良好的分配适应性,并可以在此基础上渐增式地提高网页库新鲜度。  相似文献   

14.
基于主题的Web信息采集系统的设计与实现   总被引:13,自引:0,他引:13  
基于主题的Web信息采集是信息检索领域内一个新兴且有实用价值的方向,也是信息处理技术中的一个研究热点。文章分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题Web信息采集系统。  相似文献   

15.
分析了客户端拉(Client Pull)方式和服务器推(Server Push)方式两种类型Web聊天室的优劣,并给出了推方式Web聊天室的一种高效的实现方法,在Windows平台上用ISAPI技术实现了一个采用服务器推方式的高性能Web聊天室系统,并探讨了多用户并发访问时的多线程同步安全性设计问题。  相似文献   

16.
李跃健  朱程荣 《微机发展》2012,(7):147-150,170
Larbin是一种开源的网络爬虫/网络蜘蛛,抓取效率极高。它的ud去重方法的设计,效率极高,占用的内存非常小,理论上下载6400万网页,使用的内存只有8M,然而它的冲突将会对它的性能大打折扣,实际上当达到10%的ud时就已经有很大的冲突概率,导致内存利用率的降低以及很多网页不能被抓取。通过研究布隆过滤器,将url的hash算法进行改进,把原本一对一的映射变成多对一的映射,减小了冲突概率,同时也将大大地提高Larbin在ud内存方面的利用率。经过实验检验,使用布隆过滤器,同样8M内存,当达到10%的ud占有率时,采用7个映射,可以使得冲突概率最小,达到0.82%。而没采用Bloom filter的冲突概率则达到了10%。  相似文献   

17.
开放存取(open access,OA)期刊属于网络深层资源且分散在互联网中,传统的搜索引擎不能对其建立索引,不能满足用户获取OA期刊资源的需求,从而造成了开放资源的浪费。针对如何集中采集万维网上分散的开放存取期刊资源的问题,提出了一个面向OA期刊的分布式主题爬虫架构。该架构采用主从分布式设计,提出了基于用户预定义规则的OA期刊页面学术信息提取方法,由一个主控中心节点控制多个可动态增减的爬行节点,采用基于Chrome浏览器的插件机制来实现分布式爬行节点的可扩展性和部署的灵活性。  相似文献   

18.
介绍了基于网络爬虫的网页HTML解析给出网络热词和数据挖掘的过程,总结了该方法的应用前景。  相似文献   

19.
分布式多主题网络爬虫系统的研究与实现   总被引:1,自引:1,他引:0       下载免费PDF全文
白鹤  汤迪斌  王劲林 《计算机工程》2009,35(19):13-16,1
提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测。  相似文献   

20.
自从hao123网址导航系统出现以后,各种各样的网址导航系统层出不穷,虽然表面上看起来都没有什么差别,但其使用速度确是千差万别。针对这个问题,本文分别在搜索引擎设计和代码结构设计上进行改进并开发出了相应的网址导航系统——118网址导航系统,通过对该系统的开发与实现过程的介绍,详细地阐述了网址导航系统改进的方法和改进后的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号