首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 62 毫秒
1.
主要介绍了垂直搜索引擎和网络爬虫的基本概念,以及Heritrix系统的体系结构,分析了Heritrix工作流程,并通过扩展Heritrix实现了对网易手机频道信息的多线程抓取,为建立面向手机信息的垂直搜索引擎提供了信息源。  相似文献   

2.
随着网络技术的快速发展,通用搜索引擎已经不能满足用户的一些需求,特别是当用户需要搜索某一领域内的信息时,垂直搜索引擎就正好符合这种需求。以手机资源为背景,通过运用扩展Heritrix和Lucene,构建了一个检索结果比较精准的垂直搜索引擎。研究了通过定制和扩展Heritrix从互联网上爬取相关的信息资源,利用HtmlParser工具对爬取的信息进行分析和抽取,运用Lucene建立全文索引和提供检索服务,并设计了MVC的查询接口。通过响应时间、查全率和查准率的测试实验表明,系统达到了设计目标。  相似文献   

3.
垂直搜索引擎作为一种新型的搜索引擎服务模式,它的出现彻底解决了通用搜索引擎中一直存在的信息量大、查询不准确、深度不够等一系列问题。该文通过对Heritrix体系结构的深入分析,详细阐述了Heritrix在垂直搜索引擎中实现数据搜集的整个过程。  相似文献   

4.
基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现   总被引:1,自引:0,他引:1  
垂直搜索引擎是针对某一领域的搜索引擎,它可以帮助用户在海量数据面前进行快速、专业、精准的检索。文章研究了垂直搜索引擎的特点,对Lucene与Heritrix的架构与主要模块功能进行了分析,设计并开发了图书垂直搜索引擎系统,为用户提供快捷、专业的图书信息检索服务。  相似文献   

5.
在移动学习项目的开发过程中,结合我国教育资源利用率低的问题,通过扩展Heritrix和Lucene,整合教育资源,设计并实现了面向教育视频资源的垂直搜索引擎。针对Heritrix与Lucene串行组合方案难以实现信息抓取、分析过程与索引过程同时进行的问题,提出一种紧耦合的流程优化组合方案,使网页抓取、网页内容分析筛选和建立索引同时进行,降低了系统IO开销和磁盘空间的占用率。实验测试表明,在Heritrix运行过程中嵌入索引建立操作,对系统的运行效率影响较小,满足实际应用的需要。  相似文献   

6.
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。该文结合使用Heritrix与Lucene对学校新闻网站网页进行抓取并建立索引,建立相对应的新闻垂直搜索引擎系统。  相似文献   

7.
汲业  陈燕  杨健  慕蓉 《计算机工程》2010,36(24):24-26
根据生活服务领域网页信息的特点,提出一种面向生活服务领域的垂直搜索引擎模型,给出该模型在信息采集、信息抽取、索引建立和信息检索4个功能模块的具体算法及实现方式。实际应用表明,该模型搜索效果良好,提供HTML和WML 2种方式的用户界面,已经成功覆盖全国近40个城市的餐饮、娱乐和黄页信息。  相似文献   

8.
农业垂直搜索引擎信息抽取的研究   总被引:1,自引:0,他引:1  
自动文本信息抽取是垂直搜索引擎技术体系的一个研究方向,针对传统的农业垂直搜索引擎信息抽取精度不高的问题,在研究农业网页交易信息数据的特点的基础上,提出一种针对具有时空属性的行业领域信息的表示与抽取模型.该模型利用数据信息、数据时间、数据空间三元集描述定义此类数据,不仅可以表示数据对象的当前状态,而且可以准确地反映数据对象的历史与空间连续状态,据此设计了K-EA算法.实验结果表明,该模型对于具有时间与空间属性特点的数据有很好的召回率与精度.  相似文献   

9.
基于垂直搜索技术的搜索引擎解决方案   总被引:1,自引:0,他引:1  
搜索引擎是互联网检索技术的核心,随着互联网的迅速发展,目前的综合搜索引擎已无法满足用户的需求,这就成就了垂直搜索引擎的蓬勃发展,但处于发展初期的垂直搜索引擎还有很多不足,本文提出了一种基于垂直搜索技术的搜索引擎解决方案,以提高搜索引擎的工作效率。  相似文献   

10.
为了解决用户能够快速、准确的搜索互联网上数字作品信息的问题,分析设计了一个对数字作品版权唯一标识符(Digital Copyright Identifier简称DCI)数字作品的垂直搜索引擎.首先基于Heritrix网络爬虫技术,对互联网上的数字作品进行数据采集和正文信息抽取,并将抽取的数据保存到本地;然后基于Lucene的全文检索工具包,对本地数据进行分词、倒排索引、索引检索和改进的相关度排序等处理,最终设计实现了一个通用可扩展的DCI垂直搜索引擎.实验结果表明,该搜索引擎在很大程度上提高了网页信息抽取的准确度和数据的检索效率.  相似文献   

11.
针对目前精品课程网站视频信息多、分布散的特点,通过lucene与heritrix,设计了专门针对视频信息的垂直搜索引擎,使用BKDRHash算法,实现了对视频信息的针对性搜索. 搜索时将网页抓取、内容筛选和建立索引的过程结合在一起,大大减少了系统的开销,改变了以往传统搜索引擎网页全文收录的做法,筛选了无用信息,对页面信息的提取,以及播放链接的提取过程具有一定的创新性.  相似文献   

12.
网络信息资源的爆炸式增长使得人们获得有用信息日益困难,随着垂直网站的出现和发展,专业化的垂直搜索引擎成为今后搜索引擎发展的主流。该文简要介绍了垂直搜索引擎,并重点对其抓取系统所应用的网络蜘蛛技术做了详细分析,最后讨论了垂直搜索引擎的发展方向。  相似文献   

13.
邹嵩  赵诗阳  周新志 《微机发展》2012,(2):131-133,137
为了提高垂直搜索引擎的检索效率,介绍了垂直搜索引擎中的分词技术。文中主要通过研究最大长度匹配算法,提出了改进后的最大长度匹配算法以提高检索效率。改进后的算法显示,分词效果得到了一定的提升,体现了相对于普通最大长度匹配算法的优势。且通过将改进后的方法与普通最大长度匹配算法相比较可知,改进后的算法提高了搜索的正确率,提升了检索的效率,是一种对最大长度匹配算法的有效改进,由此也体现了搜索引擎中算法合理设计可以提升搜索性能。  相似文献   

14.
将deep Web发掘与主题爬行技术有机地结合起来,对deep Web垂直搜索引擎系统的关键技术进行了深入研究.首先设计了deep Web主题爬行框架,它是在传统的主题爬行框架的基础上,加入了前端分类器作为爬行策略的执行机构,并对该分类器做定期的增量更新;然后使用主题爬行技术指导deep Web发掘,并且借助开源组件Lucene将主题爬行器所搜索的信息进行合理的安排,以便为检索接口提供查询服务.当用户向搜索引擎提交查询词后,Lucene缺省按照自己的相关度算法对结果进行排序.通过爬虫、索引器和查询接口的设计,实现了一个面向deep Web的垂直搜索引擎原型系统.  相似文献   

15.
本文首先分析了互联网搜索引擎的现状,而后对垂直搜索引擎进行了系统设计,并阐述了系统实现的要点,最后对垂直搜索引擎的应用和特点做了总结,对读者了解垂直搜索引擎的概念和实现原理有一定现实意义。  相似文献   

16.
面向垂直搜索引擎的主题提取算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对HITS算法对所有链接分配相等权重导致产生主题漂移的问题,提出基于计算链接价值度及Web页面语义主题相似度对链接分配合理权重的HITS改进算法,突出链接重要度的差异。实验表明,该算法的主题相关度提高了13%~42%,且较好地避免了主题漂移问题,增强了采集信息的准确性,对垂直搜索引擎的研究有重要的理论和实际应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号