首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 648 毫秒
1.
卢秉亮  朱健  张磊  郎勇 《微处理机》2007,28(1):75-77,81
Internet网络环境搜索引擎主要由三部分组成:搜索器、索引数据库和用户界面。检索器是搜索引擎中的核心和关键。通常的网络搜索引擎采用的是集合或模糊检索算法,其检索结果冗余大。主要介绍了搜索引擎索引数据库的结构;基于Spider的通用搜索器的实现;索引表的生成过程;精确检索原理、算法及实现。采用精确检索算法的搜索引擎,所搜索的信息冗余度小并且效率高。  相似文献   

2.
搜索引擎的文档预处理技术研究   总被引:2,自引:0,他引:2  
搜索引擎的Robots(自动采集器)对WWW站点进行搜索,并将搜索到WWW页面信息存入搜索引擎的临时数据库,然后再对页面信息进行整理,形成规范的页面索引,存入索引数据库,供用户查询。设计搜索引擎的第一步就是对输入的各项进行规格化处理,使之标准化。在建立索引文件之前,文档里的信息要进行处理,例如文档标准、索引词抽取,这个过程称为项目规格化(Item normalization)。项目规格化分三步进行:建立可搜索的数据库结构,禁用词表使用和抽取词干。  相似文献   

3.
Internet搜索引擎主要由搜索器、索引器和用户界面三部分组成。通过分析索引数据库在搜索引擎时效性及有效性方面的重要作用,提出一种多进程并行分词建立索引的方法。以中文网页数据库为基本语料库,采用正向最大匹配法进行中文分词,并用一种高效的倒排索引方式存储索引表。这种方法能够加快索引建立与更新的速度,并且在空间效率上也有较大的提高。  相似文献   

4.
构建了搜索引擎系统结构,实现了在FTP文件服务器上所需资料的快速查找。设计和实现了搜索引擎的核心部分即数据搜索器、索引器、检索器、引擎控制台以及Web搜索界面五个模块。数据搜索器的分布并行多线程机制,实现了多台PC分布搜索服务策略;同时每台PC设置多线程搜索,多次尝试和断点续搜功能,保证了在网络不稳定的情况下也能够完成搜索、建库任务。索引器和检索器的双字母倒排索引机制对提高建库、索引和查找速度,效果非常明显。  相似文献   

5.
搜索器简介 在因特网背景下,“搜索引擎”是一种利用搜索器(Bot)程序搜索Web 网页的网站。搜索引擎利用自己的搜索器所收集到的信息创建一个索引数据库,便于搜索引擎检索。Bot 是Robot(机器人)的简写,这个术语经常与“智能代理”互换使用。这种工具用于筛选数据,并可以为专门执行一个具体功能而特殊定制(例如购物搜索器)。作为搜索引擎的一个组成部分,Bot 也被称为 Web 网络蜘蛛或Web 网络爬虫。 在一般情况下,搜索器从一个统一资源定位地址(URL)的访问清单开始。它在访问时能辨认出网页上的所有超级链接,并将其添加到访问清单中。这样,…  相似文献   

6.
阿仔 《电脑爱好者》2004,(9):66-66,68
我是Internet上专门提供查询服务的一类网站,人们给我取了一个很专业的名字——搜索引擎,我通过网络搜索软件(俗称网络搜索机器人)或网站登录等方式,收集大量网站的页面.经过加工处理后建立数据库.从而能够对用户提出的各种查询作出响应,提供用户所需的信息。  相似文献   

7.
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库.因此网页索引库建立的好坏直接影响最后的查询结果的准确性和用户的查询速度.本文提出了一种建立倒排索引的算法并进行了分析和研究.  相似文献   

8.
介绍ASP实现的网站整站静态页搜索引擎程序,该程序通过递归遍历网站目录每一个文件,提取网页标题和去除标签后的网页内容存入数据库中,并定期检测网页更新情况,当用户搜索时程序直接对数据库进行搜索。该程序具有搜索功能强大、无需人工维护、搜索速度快等优点。  相似文献   

9.
针对关系型数据库(RDB)现有的全文搜索方案存在的效率低下、资源占用高的问题,提出一种具有增强式辅助缓存的轻量级关系型数据库全文搜索模型。首先,该模型构建基于Redis的倒排索引,并利用缓存索引缩小搜索范围,从而用内存高效的数据处理能力解决关系型数据库I/O瓶颈,并提升系统整体性能;其次,为保证搜索结果的准确性和时效性,进一步提出索引同步策略,而且设计并实现了增量索引组件来隐藏索引处理细节,从而提高模型的易用性和通用性;最后,对于热点数据提供一种基于访问热度的索引更新机制,以降低倒排索引的内存占用。实验结果表明,所提模型在保证关系型数据库全文搜索响应速度和准确度的前提下,空间资源消耗比MySQL全文索引降低了48.8%~60.9%,比Elasticsearch降低了85.2%~96.2%,证明所提模型在实际应用中可行且有效。  相似文献   

10.
随着Internet上站点的增多。越来越多的站点的宣传都依赖搜索引擎的搜索结果.怎样让搜索引擎更好地为站点服务与提高站点的访问量有着非常密切的关系。搜索引擎并非是上帝的赠送给Internet产物。搜索引擎其本身既是站点。同时也是由各个程序来建设的。而各种搜索引擎一般都使用一种称为搜索引擎机器人的技术。这种机器人会根据一定规则的在Internet上访问站点.并把有价值的页面收集到搜索引擎的缓存数据库保存。一旦有用户来搜索,那么搜索引擎会直接在其缓存中搜索结果.并将结果报给用户。  相似文献   

11.
ABSTRACT

Reference services are increasingly dependent on information available through well organized and reliable Web sites. Questions submitted by library users of all ages are often incomplete, making it difficult for the librarian to easily, quickly, and completely answer the question. The Internet Movie Database (IMDb) is an established Web site that allows easy access to material relating to movies, television series, actors, and actresses with a minimal amount of information from the searcher. This article explores the Internet resource of the Internet Movie Database and its potential benefits for librarians.  相似文献   

12.
针对垂直搜索引擎研究领域的关键技术问题,提出了一个结合本体筛选和文本挖掘的垂直搜索引擎构建思想.首先探讨了作为研究基础的本体和文本挖掘技术,讨论了两者的作用;之后阐述了垂直搜索引擎构建的关键技术,包括基于本体筛选的智能搜索器、结合文本挖掘的网页信息分析及抽取、索引器及查询处理器的构造;最后,对提出的思想进行了实现验证,构造一个面向高校毕业生招聘的垂直搜索引擎原型.  相似文献   

13.
基于Lucene全文检索应用研究   总被引:1,自引:0,他引:1  
通过Lucene API和PDFBox API实现对PDF文档的二次全文检索。为了实现精确的搜索关键词定位,本文设计并实现了一种新的二次索引算法,该二次索引带有关键词的页码、坐标及其上下文等信息。利用该二次索引可将检索结果定位到PDF文档的具体页,然后在页面上标示出关键字的具体位置,使对PDF文档的二次检索达到了类似百度文库的全文检索效果。  相似文献   

14.
吴代文 《微型电脑应用》2011,27(8):39-41,73
通过Lucene API实现对PDF文档的一次全文检索,为了实现更精确的搜索关键词定位,设计并实现了一种新的二次索引算法,该二次索引带有关键词的页码、坐标及其上下文等信息。利用该二次索引可将检索结果定位到PDF文档的具体页,然后在页面上标示出关键字的具体位置,使对PDF文档的二次检索达到了类似Google Book的图书检索效果。系统测试结果说明系统具有良好检索性能,有较高的查全率和查准率,能够满足站内用户快速检索的需求。通过扩展,系统可以适应C/S和B/S这两种应用需求,有广阔的应用前景。  相似文献   

15.
随着芯片技术的发展以及互联网的个性化、移动化趋势,嵌入式Internet系统逐渐成为研究的热点。文章根据嵌入式系统的特点,提出了基于浏览界代理/智能代理服务器(双代理)的嵌入式Internet计算模型。该模型通过采用静态、动态缓存管理、页面压缩、协议优化等方法避开了嵌入式系统的弱点。从试验数据看,该模型较为有效地减少了数据传输量,达到了节约有限带宽、提高响应时间的目的。  相似文献   

16.
《Information Systems》2001,26(2):61-74
Most Internet search engines are keyword-based. They are not efficient for the queries where geographical location is important, such as finding hotels within an area or close to a place of interest. A natural interface for spatial searching is a map, which can be used not only to display locations of search results but also to assist forming search conditions. A map-based search engine requires a well-designed visual interface that is intuitive to use yet flexible and expressive enough to support various types of spatial queries as well as aspatial queries. Similar to hyperlinks for text and images in an HTML page, spatial objects in a map should support hyperlinks. Such an interface needs to be scalable with the size of the geographical regions and the number of websites it covers. In spite of handling typically a very large amount of spatial data, a map-based search interface should meet the expectation of fast response time for interactive applications. In this paper we discuss general requirements and the design for a new map-based web search interface, focusing on integration with the WWW and visual spatial query interface. A number of current and future research issues are discussed, and a prototype for the University of Queensland is presented.  相似文献   

17.
面向网络的全文检索中索引文件的组织   总被引:5,自引:0,他引:5  
为了提高网络中全文检索的效率 ,需要对Web页面中内容进行分析、建立全文索引 ,并对索引的结构进行高效率的组织。讨论了索引的组织结构及其实现方法 ,并分析了不同的组织方法的性能。  相似文献   

18.
Search services are the main interface through which people discover information on the Internet. A fundamental challenge in testing search services is the lack of oracles. The sheer volume of data on the Internet prohibits testers from verifying the results. Furthermore, it is difficult to objectively assess the ranking quality because different assessors can have very different opinions on the relevance of a Web page to a query. This paper presents a novel method for automatically testing search services without the need of a human oracle. The experimental findings reveal that some commonly used search engines, including Google, Yahoo!, and Live Search, are not as reliable as what most users would expect. For example, they may fail to find pages that exist in their own repositories, or rank pages in a way that is logically inconsistent. Suggestions are made for search service providers to improve their service quality. Copyright © 2010 John Wiley & Sons, Ltd.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号