首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
分析了信息抽取中各种页面预处理的方法,提出一种改进方法一基于DOM树结构的过滤器,并设计了三种过滤器.讨论过滤器的原理,给出了具体的实现算法.最后根据过滤器的一个具体应用,总结出其适应于当前网页的结构和设计的特点,验证了方法的正确性和适用性,大大提高了信息抽取的效率和准确率.  相似文献   

2.
针对当前网络中城市交通信息以几何形式递增的趋势,研究面向城市交通信息垂直搜索引擎的设计与实现技术,提出改进的基于Nutch搜索引擎技术与Google地图服务相结合的方法,设计主题信息抓取、中文分词、主题相关性判断、构建索引等检索功能模块,以Web地图服务为平台,完成主题交通的搜索与分析服务。实验结果表明,相对于其他通用搜索引擎面向城市交通信息的垂直搜索引擎更具有主题优势,在交通特征领域爬行深度和覆盖范围都得到加强,改进的算法能够有效提取高质量的网页文档,同时,在交通信息定位和主题排序方面也更为精确。  相似文献   

3.
随着中医药行业的快速发展,中医药相关数字化资源急剧增加,传统的全文搜索引擎因专业性不够强、内容繁多等问题导致用户无法快速方便地找到所需信息.为此,设计并实现了一款面向中医药领域的垂直搜索引擎具有重要的意义和价值.采用Heritrix与Lucene等技术构建中医药垂直搜索引擎——杏林搜索,重点介绍了杏林搜索的设计与实现,包括网络爬虫模块、网页解析模块、索引库和Web端等.实际应用效果表明,杏林搜索可以为用户提供更加快速、专业的中医药资源检索服务.  相似文献   

4.
结合农村综合信息网站的数据需求,设计了一个面向农业领域、基于垂直搜索技术搜索引擎的农村信息采集平台模型,并重点讨论了该模型中网页采集、分析及网页分类的运行原理和具体实现过程.运行实践表明,该模型对于农业信息网站,相关性和准确性都较好.  相似文献   

5.
针对目前如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求,文中对搜索引擎作了概述,重点阐述了搜索引擎的Web Robot搜索器的搜索策略、文档提取以及搜索优化措施,提出了改进搜索引擎的Web Robot的方法,改进后的Web Robot能够更有效地发现和搜集信息.为搜索引擎进行信息搜集,高效、稳定的Web Robot保证了为用户提供的网上信息的全面性和实时性.  相似文献   

6.
搜索引擎的Web Robot技术与优化   总被引:4,自引:0,他引:4  
崔泽永  常晓燕 《微机发展》2004,14(4):99-102
针对目前如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求,文中对搜索引擎作了概述,重点阐述了搜索引擎的Web Robot搜索器的搜索策略、文档提取以及搜索优化措施,提出了改进搜索引擎的Web Rohot的方法,改进后的Web Robot能够更有效地发现和搜集信息。为搜索引擎进行信息搜集,高效、稳定的Web Rohot保证了为用户提供的网上信息的全面性和实时性。  相似文献   

7.
www上的信息极大丰富,搜索引擎存在精确度低的问题。为准确地从搜索到的网页中提取有用信息,发展一个自动的过滤器已成为当务之急。本文提出的基于自然语言处理的网页过滤方法,从语法、语义和语境三个方面上分析网页的自然语言。实验表明,该方法在一定程度上提高了搜索引擎的精确度。  相似文献   

8.
大量的网页资源和网页的动态特性突出了基于网页信息搜索系统的不断支持和升级的要求.搜索引擎系统中的爬行虫就是为搜集网页中的信息而设计的.爬行虫通过网页中的超链接方便了某个特殊网页快照的自动下载.讨论的根本是与爬行虫的内部架构发展相关.论文首先分析Web信息采集系统模型和爬行虫的搜索策略,给出一个适合中小型网站网页具体信息获取的爬行虫算法,并使用C++ Builder工具实现程序.本文也给出了一些与主题搜索相关的程序说明.  相似文献   

9.
建立Web信息集成系统   总被引:3,自引:0,他引:3  
Web是一个巨大的信息库,它由成百万个异构的Web信息源组成,宏观上如同一个庞大的联邦数据库。随着Web规模的日益庞大,要在Web中查找感兴趣的信息变得越来越困难。通常的做法是先用搜索引擎进行关键字匹配查找,然后从搜索引擎返回的网站、网页列表中挑选几个进行访问以获得具体的信息。但是搜索引擎只起到提示引导作用,它所提供的查询功能非常有限。Web上相关信息的分布特性使得用户经常必须访问多个站点才能获得比较全面的信息,不仅费时费力,而且用户往往迷失于Web网页之间错综复杂的连接之中而无法有效地获得准确的信息。 Web信息集成系统通过把相关的Web站点的信息综合起来并提供统一的查询界面,使用户可以直接获得完整的信息却不用关心信息的具体来源和获得方式,使用户获得如同数据库查询一样的服务。 Web信息集成系统具有诱人的应用前景。例如,可以通过集成多家网上商店的商品信息进行网上导购;可以把跟旅游相关的所有站点集成起来实现旅游综合服务,等等。  相似文献   

10.
每个网页中都存在许多超链接,很多网页的有用信息都存在于超链接中,如何有效地获取这些超链接成为Web挖掘的一个重要步骤。提出了利用HTMLParser开源工具实现Web页面解析,提取网页的超链接,从而获取有用信息,为下一步开发搜索引擎做准备。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号