首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 62 毫秒
1.
开发基于Lucene的多媒体搜索工具,作为桌面搜索系统,包括建立本地索引、建立网络索引和搜索关键字等功能。开发工具使用Eclipse SDK集成开发环境,在开发过程中按软件工程的流程进行。该系统实现了对本地多种数据源文件的索引,搜索关键字,对索引进行查询并对结果进行处理的功能。  相似文献   

2.
随着新的内容通过各种方式来获得,实时搜索引擎成为非常具有挑战性的工作。搜索引擎应具有高效的索引机制,同时也要确保索引的新鲜度和覆盖的范围。这样就要求搜索引擎支持更快的索引更新。延迟索引的检索延迟和索引延迟对新鲜度发挥了重要作用。前者是基于时间获取内容,而后者是根据发布时间让索引获取更新的内容。提出了一种框架,优化索引延迟和索引覆盖,并对实验结果进行了分析,证明该框架能够实现索引的新鲜和覆盖,从而支持更快地对搜索查询的处理。  相似文献   

3.
大数据时代的到来,为网络用户提供更加丰富的信息资源。但是,信息的筛选无疑成为信息获取的拦路虎。全文搜索引擎,采用对搜索信息建立本地索引、对搜索关键词的分词等技术处理后,进行模糊查询。在查全率、查准率方面,全文检索为网民用户提供方便。围绕全文搜索搭建的流程,解析整个过程,主要有:网络数据的抓取、数据的分析、索引的建立、搜索。  相似文献   

4.
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库.因此网页索引库建立的好坏直接影响最后的查询结果的准确性和用户的查询速度.本文提出了一种建立倒排索引的算法并进行了分析和研究.  相似文献   

5.
分析全文搜索引擎的基本结构及原理,并使用开源工具Heritrix作为搜索引擎的爬虫负责下载Web页面、HTMLParser抽取Web页面的内容、Lucene提供索引和搜索服务,采用B/S模式实现一个全文搜索引擎。  相似文献   

6.
Deep Web信息通过在网页搜索接口提交查询词获得。通用搜索引擎使用超链接爬取网页,无法索引deep Web数据。为解决此问题,介绍一种基于最优查询的deep Web爬虫,通过从聚类网页中生成最优查询,自动提交查询,最后索引查询结果。实验表明系统能自动、高效地完成多领域deep Web数据爬取。  相似文献   

7.
魏毅峰  张亮 《软件导刊》2010,(7):118-119
目前,常用的全文搜索引擎都是基于关键词检索的,其查准率和查全率都较低,并且返回记录太多,重复信息过多,使得搜索引擎的查询效率很低。基于此,提出了一种基于本体的搜索引擎模型,通过提取的文档中概念,确定其所属的领域本体,以此归类,并用文档—概念匹配系数建立索引。搜索时,采用基于概念匹配的方式进行检索,对属于不同领域本体的文档,分类输出。提高搜索引擎的查准率和查全率,减少冗余信息,从而提高搜索引擎的查询效率。  相似文献   

8.
查询式是网络用户搜索时表达其信息需求的主要方式,系统提示的相关词则是用户改善查询的有效工具,该文以这二者为研究对象,从用户的使用行为入手对这二者的特征进行刻画和分析。首先使用日志挖掘的方法,对查询式进行总体的定量描述;进而通过定性分类将查询式中的高频词分为主体词和辅助词两大类,并比照问卷调查的研究结果,发现网络用户在搜索时大量地使用辅助词,主体词的内容相对集中,查询式的长度较短,结构相对简单。在对相关词的研究中,综合问卷调查和对比实验研究结果,发现被试者对搜索引擎提示的相关词认同程度高而应用程度低。该文为理解网络用户搜索时的语言使用提供了实证研究结果,并对搜索引擎索引的改善有一定的参考意义。  相似文献   

9.
搜索引擎的文档预处理技术研究   总被引:2,自引:0,他引:2  
搜索引擎的Robots(自动采集器)对WWW站点进行搜索,并将搜索到WWW页面信息存入搜索引擎的临时数据库,然后再对页面信息进行整理,形成规范的页面索引,存入索引数据库,供用户查询。设计搜索引擎的第一步就是对输入的各项进行规格化处理,使之标准化。在建立索引文件之前,文档里的信息要进行处理,例如文档标准、索引词抽取,这个过程称为项目规格化(Item normalization)。项目规格化分三步进行:建立可搜索的数据库结构,禁用词表使用和抽取词干。  相似文献   

10.
本文通过分析传统搜索引擎技术不能满足商业领域搜索要求的灵活排序、特殊单字段搜索等需求,提出用新的索引结构和查询算法构建面向商业的搜索引擎系统并予以实现。另外,文章还讨论了其中的索引结构部分,是整个搜索引擎系统的基石。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号