首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
为了解决用户能够快速、准确的搜索互联网上数字作品信息的问题,分析设计了一个对数字作品版权唯一标识符(Digital Copyright Identifier简称DCI)数字作品的垂直搜索引擎.首先基于Heritrix网络爬虫技术,对互联网上的数字作品进行数据采集和正文信息抽取,并将抽取的数据保存到本地;然后基于Lucene的全文检索工具包,对本地数据进行分词、倒排索引、索引检索和改进的相关度排序等处理,最终设计实现了一个通用可扩展的DCI垂直搜索引擎.实验结果表明,该搜索引擎在很大程度上提高了网页信息抽取的准确度和数据的检索效率.  相似文献   

2.
搜索引擎的混合索引技术   总被引:5,自引:0,他引:5  
倒排文件是搜索引擎检索系统普遍采用的索引技术。针对中文搜索引擎中采用自动分词的全文检索因分词词典规模小导致的检索效率下降与词典规模扩大导致检索效果下降的矛盾,论文在天网搜索引擎的实践基础上,提出了一种基于倒排文件实现的混合索引的方法,它可以有效提高搜索引擎下短语查询的检索效率,同时不影响系统检索效果。  相似文献   

3.
一种结合超链接分析的搜索引擎排序方法   总被引:5,自引:0,他引:5  
吴明礼  施水才 《计算机工程》2004,30(15):143-145
为了提高搜索引擎的检索性能,文章设计了一种搜索引擎的综合排序方法。它采用改进的布尔检索模式、中文分词、超链接分析以及索引链接文本等技术,主要具有以下特点:对经典布尔型检索模式所作的改进使得文档相关度不再是严格的0或1;超链接分析通过互联网的链接结构计算出每个网络文档的质量;通过中文分词和索引链接文本可以更加准确地获得一个网络文档的信息内涵。将3者结合可以充分利用各自优势而弥补不足。  相似文献   

4.
汉语文本中交集型切分歧义的分类处理   总被引:2,自引:0,他引:2  
自动分词是中文信息处理的基本问题,交集型歧义字段的切分又是中文分词的难点.本文把交集型歧义字段按其宏结构分类,再依据本文提出的4条切分原则,使用歧义字段的结构信息和语法规则对不同类型的交集字段分别处理,提高了分词的准确性.该分词方法已作为中文网页索引和检索工具被用于网络搜索引擎中.实验效果表明,这一分词系统能够处理某些其它分词系统不能正确划分的实例.  相似文献   

5.
《软件工程师》2017,(6):12-14
如今互联网上藏文信息也不断的扩充,藏文搜索引擎作为常用的信息检索的工具和渠道,倒排索引又是搜索引擎的核心技术之一,倒排索引直接影响搜索引擎检索的结果和响应的速度。之所以文章详细介绍了一个自主开发的藏文网页倒排索引系统,它以XML文档的标签内容作为索引对象,定义了文档和文档属性等概念,采用C#语言对文藏文网页正文构建倒排索引的关键技术和实现方法进一步的阐述,实现了基于XML文档的藏文网页倒排索引数据库的底层实现,提供了技术参考。利用这种方法藏文搜索引擎中信息检索的速度和准确率有所提高。  相似文献   

6.
一种WWW搜索引擎的设计与实现   总被引:2,自引:1,他引:2  
随着Internet在我国的迅速发展和WWW信息的不断增长,迫切需要开发中英文兼容的WWW搜索引擎来获得所需的信息。该文在分析WWW搜索引擎主要功能模块:信息采集模块、信息预处理模块和信息查询模块的基础上,提出采用人工智能搜索算法来遍历网页,对中英文网页进行自动的索引,并用向量空间的表示方法来表示网页内容和用户输入的查询表达式。实践证明,使用该搜索引擎,可以快速准确地搜索到用户所需的信息。  相似文献   

7.
卢秉亮  朱健  张磊  郎勇 《微处理机》2007,28(1):75-77,81
Internet网络环境搜索引擎主要由三部分组成:搜索器、索引数据库和用户界面。检索器是搜索引擎中的核心和关键。通常的网络搜索引擎采用的是集合或模糊检索算法,其检索结果冗余大。主要介绍了搜索引擎索引数据库的结构;基于Spider的通用搜索器的实现;索引表的生成过程;精确检索原理、算法及实现。采用精确检索算法的搜索引擎,所搜索的信息冗余度小并且效率高。  相似文献   

8.
学习研究了搜索引擎的工作原理,对办公系统及部分信息管理系统建立了统一的索引信息,针对检测业务查询关键字及基于字典词库的中文分词技术,建立了检测中心内部办公及相关信息系统的搜索引擎查询机制,并将中文分词技术应用于企业级的知识库软件confluence,实现系统的专业中文词汇检索查询功能。  相似文献   

9.
针对当前网络中城市交通信息以几何形式递增的趋势,研究面向城市交通信息垂直搜索引擎的设计与实现技术,提出改进的基于Nutch搜索引擎技术与Google地图服务相结合的方法,设计主题信息抓取、中文分词、主题相关性判断、构建索引等检索功能模块,以Web地图服务为平台,完成主题交通的搜索与分析服务。实验结果表明,相对于其他通用搜索引擎面向城市交通信息的垂直搜索引擎更具有主题优势,在交通特征领域爬行深度和覆盖范围都得到加强,改进的算法能够有效提取高质量的网页文档,同时,在交通信息定位和主题排序方面也更为精确。  相似文献   

10.
赵珂  逯鹏  李永强 《计算机工程》2011,37(16):39-41
针对目前教育网庞大的FTP资源检索困难的问题,提出一种基于EdtFTPJ和Lucene的FTP搜索引擎的设计和实现方案。该方案整体上采用基于Struts1.2框架的模型-视图-控制器设计模式,数据采集模块利用基于正则表达式的有限状态自动机抓取数据,索引模块应用倒排索引方法,系统的分词算法使用基于字典的正向最大匹配中文分词法。实验结果表明,该方案具有较高的资源检索率,同时能够保证检索结果的准确性。  相似文献   

11.
在信息时代,面对日益庞大的信息资源,需要通过一种科学手段来获取自己需要的准确及时的信息,这种科学的手段就是检索,信息检索。信息检索就是只从任何文献集合中查出所需信息的活动、过程和方法。通过论述信息检索的工作原理和其在网络环境下的作用,对比分析了基于网络的信息检索几种类型的特点,对高速而有效的信息检索系统的核心技术搜索引擎技术进行了分析,指出随之带来的亟待解决的快速有效获取信息的问题和搜索引擎技术符合时代要求的发展方向。  相似文献   

12.
随着网络信息资源的迅速增加,提出一种基于多Agent协作的智能搜索引擎ACISE系统,将元搜索引擎技术和Agent技术结合到一起.该系统综合考虑了用户个性化的特点,通过Agent之间的通信与协作完成信息检索,实现了基于用户兴趣的智能化,同时提高了查全率、查准率和检索速度.  相似文献   

13.
目前网络上的搜索引擎主要是基于关键词索引查询技术设计的,这种技术的搜索范围很大,但由于关键词难以表达丰富的概念,导致查询效率很低。而基于语义理解的智能搜索引擎解决了传统搜索引擎中"忠实表达"和"表达差异"的问题,极大的提高了查找效率。基于语义理解的智能搜索引擎必将成为未来的研究热点。  相似文献   

14.
网络爬虫是搜索引擎的重要组成部分,它在搜索引擎中负责网络信息的采集。详细介绍了Web_Crawler,一种优化的网络爬虫的设计和实现,包括系统框架、主要模块、多线程工作和数据缓冲池的转存技术。Web-Crawler主要从多线程并行下载提高了速度,并利用数据缓冲池转存技术在实现快速检索的同时减少了存储空间需求这两方面来优化网络爬虫。  相似文献   

15.
大规模搜索引擎检索系统框架与实现要点   总被引:12,自引:0,他引:12       下载免费PDF全文
随着Web规模的不断扩大,搜索引擎正成为因特网上最常用的应用之一。本文以天网搜索为实例,分析了大规模通用型中文搜索引擎检索系统的设计与实现技术。围绕检索效率和检索效果两个方面,本文介绍天网检索系统的集成框架结构和分布式架构,并分析了索引创建和索引检索中的相关实现技术。  相似文献   

16.
Information retrieval has evolved from searches of references, to abstracts, to documents. Search on the Web involves search engines that promise to parse full-text and other files: audio, video, and multimedia. With the indexable Web at 320 million pages and growing, difficulties with locating relevant information have become apparent. The most prevalent means for information retrieval relies on syntax-based methods: keywords or strings of characters are presented to a search engine, and it returns all the matches in the available documents. This method is satisfactory and easy to implement, but it has some inherent limitations that make it unsuitable for many tasks. Instead of looking for syntactical patterns, the user often is interested in keyword meaning or the location of a particular word in a title or header. This paper describes some precise search approaches in the environmental domain that locate information according to syntactic criteria, augmented by the utilization of information in a certain context. The main emphasis of this paper lies in the treatment of structured knowledge, where essential aspects about the topic of interest are encoded not only by the individual items, but also by their relationships among each other. Examples for such structured knowledge are hypertext documents, diagrams, logical and chemical formulae. Benefits of this approach are enhanced precision and approximate search in an already focused, context-specific search engine for the environment: EnviroDaemon.  相似文献   

17.
针对高校网络舆情监测工作的不足,结合高校舆情信息的传播特点,提出构建舆情监测系统的整体方案.在校园网内基于Nutch搜索引擎技术进行信息检索,互联网范围内采用元搜索引擎技术获取相关信息,采用关键词特征库匹配方式自动进行网络舆情监测,实现对舆情信息及时准确的发现,并探讨高校面对网络舆情在监测、分析、引导和反馈等环节的处理...  相似文献   

18.
针对传统数据网格信息服务的不足之处,在分析Web搜索引擎技术和基于关键词的数据库索引技术基础之上,结合这两种信息获取技术,设计了数据网格中结构化数据资源发现技术的体系结构.在科学数据网格信息服务系统中,利用开源Lucene全文检索软件包,实现了结构化数据资源发现的关键技术.  相似文献   

19.
基于Web的网络爬虫的设计与实现   总被引:2,自引:0,他引:2  
无论是站内信息检索还是特定的Web信息搜集,都离不开全文搜索引擎系统的核心模块--网络爬虫,本文详细介绍了一种设计及实现方案,包括页面搜集器和页面索引器的基本工作流程、数据存储结构、核心算法及主要的技术难点.该系统经实际运行,效果良好,最后给出了有待进一步改进的地方.  相似文献   

20.
将deep Web发掘与主题爬行技术有机地结合起来,对deep Web垂直搜索引擎系统的关键技术进行了深入研究.首先设计了deep Web主题爬行框架,它是在传统的主题爬行框架的基础上,加入了前端分类器作为爬行策略的执行机构,并对该分类器做定期的增量更新;然后使用主题爬行技术指导deep Web发掘,并且借助开源组件Lucene将主题爬行器所搜索的信息进行合理的安排,以便为检索接口提供查询服务.当用户向搜索引擎提交查询词后,Lucene缺省按照自己的相关度算法对结果进行排序.通过爬虫、索引器和查询接口的设计,实现了一个面向deep Web的垂直搜索引擎原型系统.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号