首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
田晓辉 《福建电脑》2014,(11):29-30
本文主要阐述在搜索引擎的工作原理及索引机制下,通过网络蜘蛛程序等技术手段来得到一系列数据库数据和Lucene索引。针对互朕网的庞大数据量做有效的提取和分类,利用Spring和DWR的WEB架构设计技术来构建一个基于WEB的垂直搜索引擎。  相似文献   

2.
Web服务搜索引擎的设计与实现   总被引:1,自引:0,他引:1  
随着开放的Web服务数量的逐渐递增,全面而有效地获取散落于Internet上的这类Web服务并进行管理就成为一个十分重要的问题。针对该问题,设计与实现了一个Web服务搜索引擎WSSE(Web Services Search Engine)。它不断爬行现有Web站点以搜索Web服务,并对搜集到的Web服务进行集中式管理,最后采用开源的Lucene对搜索到的Web服务建立索引,提高了Web服务的检索效率。  相似文献   

3.
严磊  马勇男  丁宾  郑涛 《福建电脑》2013,29(3):83-85
21世纪的今天,网络信息量呈几何倍数的增长。传统的通用搜索引擎已经不能很好的满足我们对特定信息的需求。所以,针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务的垂直搜索引擎应运而生。而主题网络爬虫则是为垂直搜索引擎提供数据的自动化程序。本文主要研究了主题爬虫的各种搜索策略,指出了其中的劣以及最后对将来的发展做出了一个展望。  相似文献   

4.
通过对垂直搜索引擎的原理和关键技术的研究,运用Lucene等JAVA开源工具设计并实现了一个手机信息检索系统。对于构建垂直搜索引擎必须要面对和解决的一些关键问题进行了分析,并给出了解决方案,如防止重复爬取网页和专业词库的扩展等,具有较强的实用性。  相似文献   

5.
定题搜索引擎Robot的设计与算法   总被引:6,自引:0,他引:6  
定题搜索引擎将信息检索限定在特定主题领域,提供特定主题的信息检索服务,是新一代搜索引擎的发展方向之一。该文介绍了一个定题搜索robot系统NetBat 2.02版,它可以实现在web上爬行下载主题相关网页。定题搜索的关键技术是主题相关信息的搜索及网页相关度分析。该文分析了传统定题搜索算法的优缺点,提出了基于反向链接结合超链文本分析的定题搜索算法。文章还对基于内容的网页相关度分析算法进行了详细的论述。对比搜索实验表明系统有着较好的性能,能准确地爬行到主题相关网页。  相似文献   

6.
以贵州中药信息化服务平台开发需求为背景,提出了一种基于Agent中药动态信息智能监测系统的设计方案,即主要是应用智能Agent技术,实时监测及整合互联网上中药行业相关的众多网站上的动态信息,建立一套庞大的经济动态数据库,实现信息的收集和发布双向互动。同时对基于统计的自然语言处理算法及基于空间向量的相似度排序算法进行了深入的研究及改进,并应用于本系统中。通过对系统的测试表明,该系统具有良好的可靠性、可移植性和应用性,达到了预期的设计效果,为中药企业带来了便利,提高了效益。  相似文献   

7.
为了解决传统主题爬虫效率偏低的问题,传统主题爬虫会选择最有价值的链接进行访问,仅简单地计算链接的相关性,却忽视待分析URL之间的相关性关系,致使主题爬虫爬取效率较低。提出一种基于链接模型的相关性判别算法,综合利用有标种子URL和无标的待判别URL实现对无标URL的相关性判别,并推导出迭代初值选取对结果的不敏感性。实验结果表明,与传统的网络爬虫算法相关性判别方法相比,提出的方法效率更高。  相似文献   

8.
网络爬虫是搜索引擎的重要组成部分,它在搜索引擎中负责网络信息的采集。详细介绍了Web_Crawler,一种优化的网络爬虫的设计和实现,包括系统框架、主要模块、多线程工作和数据缓冲池的转存技术。Web-Crawler主要从多线程并行下载提高了速度,并利用数据缓冲池转存技术在实现快速检索的同时减少了存储空间需求这两方面来优化网络爬虫。  相似文献   

9.
针对京津冀水环境信息资源出口不一、范围不同,且不能得到精确检索的问题,本文采用Elasticsearch分布式索引检索技术,将京津冀水环境数据资源进行融合共享,构建了京津冀水环境搜索引擎系统。该系统包括数据采集、数据索引、数据检索、界面展示四个模块。重点对搜索的评分机制做了改进并对检索内容进行重排序。通过实验表明,与通用搜索引擎以及传统数据库相比,所实现的搜索引擎系统可以更加准确、快速地实现用户的检索需求。  相似文献   

10.
搜索引擎中网络蜘蛛的研究与实现   总被引:1,自引:0,他引:1  
网络蜘蛛程序是搜索引擎工作的基础和关键,实现了抓取网络资源的网络蜘蛛程序,通过入口网址下载网络资源,并对其分析,获得包含的其他链接,利用这些链接向整个网络扩散,下载其他资源。测试了蜘蛛程序抓取网页的能力,并对多线程实现的利弊进行讨论,总结了常用的算法搜索策略,提出了后续的研究方向。  相似文献   

11.
专业搜索引擎搜索策略综述   总被引:17,自引:0,他引:17  
按照评价链接价值所采用方法的不同,对专业搜索引擎的搜索策略进行了分类,分析了各类搜索策略的特点,比较了它们的优缺点。对未来的研究方向进行了展望,给出了若干值得研究的问题。  相似文献   

12.
深入解析Web主题爬虫的关键性原理   总被引:1,自引:0,他引:1  
王芳  陈海建 《微型电脑应用》2011,27(7):32-34,70
随着互联网的快速发展,搜索引擎的应用越来越重要,作为搜索引擎的首要组成部分网络爬虫一直备受人们的关注。主题爬虫作为网络爬虫的重要种类使用越来越广泛,深入分析的网络主题爬虫关键性原理有助于根据需求设计出科学合理的爬虫。  相似文献   

13.
网络蜘蛛搜索策略比较研究   总被引:8,自引:0,他引:8  
以何种策略访问Web,以提高搜索效率,是近年来专业搜索引擎研究的主要问题之一。按照评价链接价值所采用方法的不同,对现有的网络蜘蛛搜索策略进行了分类,分析、比较了各类搜索策略的特点和优缺点,总结了提高网络蜘蛛搜索效率的几个关键因素。对未来的研究方向进行了展望。  相似文献   

14.
分析全文搜索引擎的基本结构及原理,并使用开源工具Heritrix作为搜索引擎的爬虫负责下载Web页面、HTMLParser抽取Web页面的内容、Lucene提供索引和搜索服务,采用B/S模式实现一个全文搜索引擎。  相似文献   

15.
周文彬 《现代计算机》2006,253(2):27-30
基于对本体搜索的分析,本文从多个方面对聚焦搜索的链接评价方法进行改进,同时介绍了新方法实现中的多个关键步骤.  相似文献   

16.
梁里宁 《电脑学习》2004,(5):32-32,56
介绍了利用VB6.0的FSO对FSO实现文件查找的两种方法,并给出了实现的具体代码.  相似文献   

17.
搜索引擎中网络蜘蛛搜索策略比较研究   总被引:9,自引:0,他引:9  
何种策略访问Web,以提高搜索效率,是近年来专业搜索引擎研究的焦点之一。按照评价链接价值所采用方法的不同,对现有的网络蜘蛛搜索策略进行了分类,分析、比较了各类搜索策略的特点和优缺点,总结了提高网络蜘蛛搜索效率的几个关键因素。对未来的研究方向进行了展望。  相似文献   

18.
基于Heritrix的商品信息搜索的网络爬虫系统的设计   总被引:1,自引:0,他引:1  
探讨以开源软件Heritrix体系构建的获取商品信息爬虫系统,针对Heritrix开源爬虫项目存在的问题和商品采集的特点,项目设计了定向抓取包含某一特定内容的网页的类,从而改进Heritrix,并引入ELFHash算法进行URL散列中,以提高抓取效率,为面向商品的搜索系统以及数据挖掘提供可靠的数据源。  相似文献   

19.
论文结合实时栅格地图渲染引擎和矢量地图发布引擎的优点,提出一种新的基于Web的地图服务引擎的设计方案和实现过程,并采用栅格地图预渲染入库的方式,显著地改善了引擎的性能和完善了引擎的功能.采用该引擎的GIS系统已经应用于视频监控系统中,效果良好.  相似文献   

20.
企业专用搜索引擎的搜索策略   总被引:1,自引:2,他引:1  
分析了现有的通用搜索引擎技术,并指出了其局限性。针对企业用户的需求,提出构建面向企业用户的专用搜索引擎的设计思想。该设计采用人工智能启发式搜索的思想,在企业用户设定的种子站点集和关键词集的基础上,根据网页和链接的评价值进行有针对性的搜索,提高了专用搜索引擎的效率,并为个性化的服务提供了基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号