共查询到20条相似文献,搜索用时 140 毫秒
1.
为了解决用户能够快速、准确的搜索互联网上数字作品信息的问题,分析设计了一个对数字作品版权唯一标识符(Digital Copyright Identifier简称DCI)数字作品的垂直搜索引擎.首先基于Heritrix网络爬虫技术,对互联网上的数字作品进行数据采集和正文信息抽取,并将抽取的数据保存到本地;然后基于Lucene的全文检索工具包,对本地数据进行分词、倒排索引、索引检索和改进的相关度排序等处理,最终设计实现了一个通用可扩展的DCI垂直搜索引擎.实验结果表明,该搜索引擎在很大程度上提高了网页信息抽取的准确度和数据的检索效率. 相似文献
2.
搜索引擎的混合索引技术 总被引:5,自引:0,他引:5
彭波 《计算机工程与应用》2004,40(22):16-18
倒排文件是搜索引擎检索系统普遍采用的索引技术。针对中文搜索引擎中采用自动分词的全文检索因分词词典规模小导致的检索效率下降与词典规模扩大导致检索效果下降的矛盾,论文在天网搜索引擎的实践基础上,提出了一种基于倒排文件实现的混合索引的方法,它可以有效提高搜索引擎下短语查询的检索效率,同时不影响系统检索效果。 相似文献
3.
一种结合超链接分析的搜索引擎排序方法 总被引:5,自引:0,他引:5
为了提高搜索引擎的检索性能,文章设计了一种搜索引擎的综合排序方法。它采用改进的布尔检索模式、中文分词、超链接分析以及索引链接文本等技术,主要具有以下特点:对经典布尔型检索模式所作的改进使得文档相关度不再是严格的0或1;超链接分析通过互联网的链接结构计算出每个网络文档的质量;通过中文分词和索引链接文本可以更加准确地获得一个网络文档的信息内涵。将3者结合可以充分利用各自优势而弥补不足。 相似文献
4.
汉语文本中交集型切分歧义的分类处理 总被引:2,自引:0,他引:2
自动分词是中文信息处理的基本问题,交集型歧义字段的切分又是中文分词的难点.本文把交集型歧义字段按其宏结构分类,再依据本文提出的4条切分原则,使用歧义字段的结构信息和语法规则对不同类型的交集字段分别处理,提高了分词的准确性.该分词方法已作为中文网页索引和检索工具被用于网络搜索引擎中.实验效果表明,这一分词系统能够处理某些其它分词系统不能正确划分的实例. 相似文献
5.
6.
一种WWW搜索引擎的设计与实现 总被引:2,自引:1,他引:2
随着Internet在我国的迅速发展和WWW信息的不断增长,迫切需要开发中英文兼容的WWW搜索引擎来获得所需的信息。该文在分析WWW搜索引擎主要功能模块:信息采集模块、信息预处理模块和信息查询模块的基础上,提出采用人工智能搜索算法来遍历网页,对中英文网页进行自动的索引,并用向量空间的表示方法来表示网页内容和用户输入的查询表达式。实践证明,使用该搜索引擎,可以快速准确地搜索到用户所需的信息。 相似文献
7.
8.
高磊 《计算机光盘软件与应用》2011,(20)
学习研究了搜索引擎的工作原理,对办公系统及部分信息管理系统建立了统一的索引信息,针对检测业务查询关键字及基于字典词库的中文分词技术,建立了检测中心内部办公及相关信息系统的搜索引擎查询机制,并将中文分词技术应用于企业级的知识库软件confluence,实现系统的专业中文词汇检索查询功能。 相似文献
9.
针对当前网络中城市交通信息以几何形式递增的趋势,研究面向城市交通信息垂直搜索引擎的设计与实现技术,提出改进的基于Nutch搜索引擎技术与Google地图服务相结合的方法,设计主题信息抓取、中文分词、主题相关性判断、构建索引等检索功能模块,以Web地图服务为平台,完成主题交通的搜索与分析服务。实验结果表明,相对于其他通用搜索引擎面向城市交通信息的垂直搜索引擎更具有主题优势,在交通特征领域爬行深度和覆盖范围都得到加强,改进的算法能够有效提取高质量的网页文档,同时,在交通信息定位和主题排序方面也更为精确。 相似文献
10.
11.
在信息时代,面对日益庞大的信息资源,需要通过一种科学手段来获取自己需要的准确及时的信息,这种科学的手段就是检索,信息检索。信息检索就是只从任何文献集合中查出所需信息的活动、过程和方法。通过论述信息检索的工作原理和其在网络环境下的作用,对比分析了基于网络的信息检索几种类型的特点,对高速而有效的信息检索系统的核心技术搜索引擎技术进行了分析,指出随之带来的亟待解决的快速有效获取信息的问题和搜索引擎技术符合时代要求的发展方向。 相似文献
12.
随着网络信息资源的迅速增加,提出一种基于多Agent协作的智能搜索引擎ACISE系统,将元搜索引擎技术和Agent技术结合到一起.该系统综合考虑了用户个性化的特点,通过Agent之间的通信与协作完成信息检索,实现了基于用户兴趣的智能化,同时提高了查全率、查准率和检索速度. 相似文献
13.
目前网络上的搜索引擎主要是基于关键词索引查询技术设计的,这种技术的搜索范围很大,但由于关键词难以表达丰富的概念,导致查询效率很低。而基于语义理解的智能搜索引擎解决了传统搜索引擎中"忠实表达"和"表达差异"的问题,极大的提高了查找效率。基于语义理解的智能搜索引擎必将成为未来的研究热点。 相似文献
14.
网络爬虫是搜索引擎的重要组成部分,它在搜索引擎中负责网络信息的采集。详细介绍了Web_Crawler,一种优化的网络爬虫的设计和实现,包括系统框架、主要模块、多线程工作和数据缓冲池的转存技术。Web-Crawler主要从多线程并行下载提高了速度,并利用数据缓冲池转存技术在实现快速检索的同时减少了存储空间需求这两方面来优化网络爬虫。 相似文献
15.
彭波 《计算机工程与科学》2006,28(3):1-4
随着Web规模的不断扩大,搜索引擎正成为因特网上最常用的应用之一。本文以天网搜索为实例,分析了大规模通用型中文搜索引擎检索系统的设计与实现技术。围绕检索效率和检索效果两个方面,本文介绍天网检索系统的集成框架结构和分布式架构,并分析了索引创建和索引检索中的相关实现技术。 相似文献
16.
George Chang Gunjan Samtani Marcus Healey Franz Kurfess Jason Wang 《Journal of Systems Integration》2001,10(3):253-267
Information retrieval has evolved from searches of references, to abstracts, to documents. Search on the Web involves search engines that promise to parse full-text and other files: audio, video, and multimedia. With the indexable Web at 320 million pages and growing, difficulties with locating relevant information have become apparent. The most prevalent means for information retrieval relies on syntax-based methods: keywords or strings of characters are presented to a search engine, and it returns all the matches in the available documents. This method is satisfactory and easy to implement, but it has some inherent limitations that make it unsuitable for many tasks. Instead of looking for syntactical patterns, the user often is interested in keyword meaning or the location of a particular word in a title or header. This paper describes some precise search approaches in the environmental domain that locate information according to syntactic criteria, augmented by the utilization of information in a certain context. The main emphasis of this paper lies in the treatment of structured knowledge, where essential aspects about the topic of interest are encoded not only by the individual items, but also by their relationships among each other. Examples for such structured knowledge are hypertext documents, diagrams, logical and chemical formulae. Benefits of this approach are enhanced precision and approximate search in an already focused, context-specific search engine for the environment: EnviroDaemon. 相似文献
17.
18.
19.
20.
将deep Web发掘与主题爬行技术有机地结合起来,对deep Web垂直搜索引擎系统的关键技术进行了深入研究.首先设计了deep Web主题爬行框架,它是在传统的主题爬行框架的基础上,加入了前端分类器作为爬行策略的执行机构,并对该分类器做定期的增量更新;然后使用主题爬行技术指导deep Web发掘,并且借助开源组件Lucene将主题爬行器所搜索的信息进行合理的安排,以便为检索接口提供查询服务.当用户向搜索引擎提交查询词后,Lucene缺省按照自己的相关度算法对结果进行排序.通过爬虫、索引器和查询接口的设计,实现了一个面向deep Web的垂直搜索引擎原型系统. 相似文献