首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
高性能并行爬行器   总被引:2,自引:0,他引:2  
爬行器是搜索引擎的重要组成部分,它在搜索引擎中负责网络信息采集。详细介绍了Chao,一个高性能并行爬行器的设计和实现,包括它的系统框架、主要模块、运行流程、调度算法和URL检索算法。Chao的调度算法采用两次散列计算,不仅实现了负载平衡,而且在一定程度上避免了冲突;URL检索融合了树查找算法,在实现了快速检索的同时减少了存储空间需求。  相似文献   

2.
随着互联网的迅速发展,网页数量越来越多。人们对于网络信息专业化的需求导致了主题搜索引擎的诞生,而网络爬行器效率的高低以及算法的优劣将直接影响搜索引擎的很多性能指标,该文以高校为主题,探讨了设计主题爬行器的几个关键性问题。  相似文献   

3.
为提高搜索的查准率和查全率,设计一个主题式的元搜索引擎和一个类似于爬行器的伪爬行器,通过调用通用搜索引擎采集信息,查全率高于通用搜索引擎。利用反馈机制,参考用户查询历史记录,搜索结果更加接近用户的要求。通过采用主题式策略,改进文档相似度算法,提高分类的正确率和搜索引擎的查准率与搜索范围,同时减少系统响应时间,降低对服务器性能的要求。  相似文献   

4.
集中式搜索技术有选择地找出与预定义主题集相关的页面,与传统搜索引擎相比具有可针对个人喜好定制,规模小、索引量少,更新查询速度快等特点,设计了一个集中式搜索引擎,并简要介绍该搜索引擎的系统结构,最后实现了一些关键算法。  相似文献   

5.
乔保军  石峰 《计算机工程》2006,32(24):237-239
FPGA越来越多地应用于各种数字信号处理系统中。针对空域精细可扩展编码算法,提出一种基于FPGA的预处理器设计方案,该编码预处理器占用较少的外部存储空间缓存帧数据,充分利用数据操作之间的并行性和流水性,生成视频数据的多描述码流。FPGA实现结果表明,该预处理器能满足应用空域精细可扩展编码算法的视频压缩传输系统的功能要求和实时性要求。  相似文献   

6.
一种新型网络信息采集器的研究   总被引:2,自引:0,他引:2  
为了克服内容评价搜索策略算法"近视"和链接分析算法"主体偏移"的缺点,提出了一种使用内容评价搜索策略和链接分析策略结合的算法.使用的方法开发网络信息采集器能够极大地提高用户的检索速度,并能有效地限制检索领域,大大减小检索结果的信息冗余度,使用户能够快速获取其真正需要的信息.研究表明使用内容评价搜索策略和链接分析策略结合的算法开发网络信息采集器能够提高垂直搜索引擎快、精、准等方面的性能.  相似文献   

7.
越来越多的用户在使用搜索引擎时希望能提供快速有效的个性化的查询结果.根据搜索引擎的工作原理,在研究分析开源的搜索引擎工具Lucene的系统架构、模型和索引器的基础上,设计了武警部队网站个性化搜索引擎.通过二阶段数据处理流程实现信息的增量采集,通过采用逆向词典结构实现自动分词以及利用双向分词器进行倒排索引的功能,最后利用Tomcat服务器进行了部署实现.文中所设计的个性化搜索引擎提高了原Lucene搜索引擎的速度和准确率.  相似文献   

8.
丁兆贵  金敏 《微机发展》2011,(2):105-108
越来越多的用户在使用搜索引擎时希望能提供快速有效的个性化的查询结果。根据搜索引擎的工作原理,在研究分析开源的搜索引擎工具Lucene的系统架构、模型和索引器的基础上,设计了武警部队网站个性化搜索引擎。通过二阶段数据处理流程实现信息的增量采集,通过采用逆向词典结构实现自动分词以及利用双向分词器进行倒排索引的功能,最后利用Tomcat服务器进行了部署实现。文中所设计的个性化搜索引擎提高了原Lucene搜索引擎的速度和准确率。  相似文献   

9.
源搜索可定制的元搜索引擎设计技术   总被引:1,自引:0,他引:1  
本文介绍了一种源搜索引擎可以定制的元搜索引擎的实现技术,描述了系统的总体结构,并着重介绍了包装器与抽取器的格式与实现。通过包装器与抽取器实现源搜索引擎的定制,使系统集成的源搜索引擎的增加、更改、删除变得容易。  相似文献   

10.
介绍Lucene的索引和排序技术,并对排序技术进行改进,利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现索引器、检索器、中文分析器等模块,完成一个基于Lucene的搜索引擎的应用。改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。  相似文献   

11.
本文针对专业全文搜索引擎的特点,设计并实现了一种网络机器人。通过二维矢量工作队列实现站点式深度优先搜索,采用页面站点加权算法动态控制站点的处理时间。完成了网络上与专业相关信息的集中收集和处理,并探讨了网络机器人对专业的侧重性以及向通用全文搜索引擎网络机器人转换的可行性。  相似文献   

12.
卢秉亮  朱健  张磊  郎勇 《微处理机》2007,28(1):75-77,81
Internet网络环境搜索引擎主要由三部分组成:搜索器、索引数据库和用户界面。检索器是搜索引擎中的核心和关键。通常的网络搜索引擎采用的是集合或模糊检索算法,其检索结果冗余大。主要介绍了搜索引擎索引数据库的结构;基于Spider的通用搜索器的实现;索引表的生成过程;精确检索原理、算法及实现。采用精确检索算法的搜索引擎,所搜索的信息冗余度小并且效率高。  相似文献   

13.
随着内蒙古多年以来的电网建设以及信息化建设,电力营销对数据整合能力以及信息搜索速度要求越来越高,因此,在电力公司对数据搜索能力进行提升的需求下,本文就如何对目标数据进行快速搜索,提出一套智能搜索引擎的总体架构。 该引擎在架构上采用分布和集中相结合的模式,并通过对数据库索引建立方法的改进,以及对由遗传算法演化而来,具有自适应能力的索引算法的改进,使得该基于大数据的营销数据智能搜索引擎提供的智能化营销数据搜索方式极大提高了检索速度以及结果准确度,成为营销业务处理过程中不可或缺的用户助手。  相似文献   

14.
该文在开源全文搜索引擎Lucene的基础上设计了一个结合本体与自然语言处理技术的语义检索系统。系统分析了如何对文本进行语义分析,设计了语义索引项以存储语义信息,并提出了使用语义信息的网页排序算法。  相似文献   

15.
中文分词作为机器翻译、文本分类、主题词提取以及信息检索的基础环节,近年来得到了广泛的关注。搜索引擎技术的广泛应用和中文信息处理的发展,使得全文检索和中文分词技术的研究逐渐深入,涌现出了众多优秀的中文分词算法。本文结合中文分词算法的研究现状,分析了分词技术与搜索引擎的信息检索相结合需要解决的关键技术问题,并讨论了中文分词技术在搜索引擎中的应用。  相似文献   

16.
首先介绍了搜索引擎的基本概念,并对各种类别的搜索引擎作了简单的介绍;接着介绍了全文搜索引擎的各方面技术以及排序技术对于全文搜索引擎的重要性,然后分别介绍了当前两种重要的排序算法:PageRank排序和HilITop排序,并根据这两种排序算法提出基于行为统计的排序算法,最后对基于行为统计的排序算法作出评价和总结。  相似文献   

17.
联机手写体汉字识别后处理技术的研究   总被引:4,自引:1,他引:3  
文中提出了一种规则和统计相结合的计算语言模型应用于联机手写体汉字识别后处理的技术,把基于统计的大词表Markov语言模型与语言规则量化模型,通过词网格技术集成在一个语言解码器,这种后处理方法由3个阶段组成,词网格生成,语言解码,基于Cache的自学习机制,语言解码器采用Viterbi搜索算法求解最优语句候选,该项技术已应用于HPC(手持机)手写电脑的联机汉字手写体识别系统中,汉字识别率为91.3%  相似文献   

18.
In this article we first explain the knowledge extraction (KE) process from the World Wide Web (WWW) using search engines. Then we explore the PageRank algorithm of Google search engine (a well-known link-based search engine) with its hidden Markov analysis. We also explore one of the problems of link-based ranking algorithms called hanging pages or dangling pages (pages without any forward links). The presence of these pages affects the ranking of Web pages. Some of the hanging pages may contain important information that cannot be neglected by the search engine during ranking. We propose methodologies to handle the hanging pages and compare the methodologies. We also introduce the TrustRank algorithm (an algorithm to handle the spamming problems in link-based search engines) and include it in our proposed methods so that our methods can combat Web spam. We implemented the PageRank algorithm and TrustRank algorithm and modified those algorithms to implement our proposed methodologies.  相似文献   

19.
本文通过分析传统搜索引擎技术不能满足商业领域搜索要求的灵活排序、特殊单字段搜索等需求,提出用新的索引结构和查询算法构建面向商业的搜索引擎系统并予以实现。另外,文章还讨论了其中的索引结构部分,是整个搜索引擎系统的基石。  相似文献   

20.
韩升  刘广志 《微机发展》2006,16(3):208-210
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研发的核心。在一个全文检索系统中,全文索引数据库的建立是系统的基础,其设计结构直接影响到全文检索引擎的检索算法以及系统最终的检索效率。文中主要介绍全文检索系统中索引库结构设计、文本标引技术等数据预处理技术,以及全文检索系统索引数据库的数据处理流程。最后,在此基础上研究了全文检索系统索引库索引生成算法,给出了单个文档和批处理两种情况下的索引库索引生成算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号