首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
传统的Web数据检索一般采用全文检索方法,该方法具有很好的灵活性,但舆情分析往往需要获得相关的网页属性及统计信息。针对传统的Web检索方法无法满足上述需求,基于Hadoop平台设计并实现了一种基于多属性的海量Web数据的关联存储及检索系统,为舆情分析提供基础检索与统计服务。主要实现HDFS上基于属性的网页数据的分类和聚类存储,解决小文件存储同时提高数据访问吞吐量;建立原始网页数据与属性数据之间的关联映射;基于HBase的已有索引机制,结合分布式本地索引机制解决基于HBase的动态属性多条件选择查询的辅助索引问题。  相似文献   

2.
大规模搜索引擎检索系统框架与实现要点   总被引:12,自引:0,他引:12       下载免费PDF全文
随着Web规模的不断扩大,搜索引擎正成为因特网上最常用的应用之一。本文以天网搜索为实例,分析了大规模通用型中文搜索引擎检索系统的设计与实现技术。围绕检索效率和检索效果两个方面,本文介绍天网检索系统的集成框架结构和分布式架构,并分析了索引创建和索引检索中的相关实现技术。  相似文献   

3.
基于Lucene.Net的分布式全文检索系统   总被引:1,自引:0,他引:1  
随着互联网的发展,现代信息量急剧增加,人们对于信息的检索要求越来越高,一个好的检索系统必须具有较快的检索速度和较高的查准率.针对海量文本数据提出一种基于Lucene.Net全文检索引擎构建的分布式全文检索系统,使用.NET Remoting实现分布式的全文索引与全文检索,具有较好的扩展性和很快的索引与检索速度,并成功地将该技术应用于军队某部信息管理系统,取得了很好的效果.  相似文献   

4.
设计和实现一个支持语义的分布式视频检索系统:"语寻"。该系统利用一个改进的视频语义处理工具(该工具基于IBM VideoAnnEx标注工具,并增加镜头语义图标注和自然语言处理的功能)对视频进行语义分析和标注,生成包含语义信息的MPEG-7描述文件,然后对视频的MPEG-7描述文件建立分布式索引,并同时分布式存储视频文件;系统提供丰富的Web查询接口,包括关键字语义扩展查询,语义图查询以及自然语句查询,当用户提交语义查询意图后,便能够迅速地检索到感兴趣的视频和片段,并且可以浏览点播;整个系统采用分布式架构,具备良好的可扩展性,并能够支持海量视频信息的索引和检索。  相似文献   

5.
分析了企业级搜索引擎应具有的功能和总体架构,研究了Lucene的系统结构及检索原理,提出了统一处理html、pdf、word等多种常用文档的思路。针对中文特点设计搜索引擎的构建技术,包括从源数据采集、文档解析与分词、索引器、信息检索、结果排序的全过程,基于Lucene软件包实现了一个原型系统,取得了较好的搜索效果。  相似文献   

6.
数据库关键词检索技术是当前的一个重要研究方向,它结合了传统数据库结构化数据存储效率高和信息检索系统非结构化数据检索方便高效的优点。本文介绍一种基于语义的数据库关键词检索系统的设计与实现,该系统以企业级应用开发标准J 2EE为基础,结合数据库技术、语义Web技术和关键词检索技术,可实现关系数据库的语义理解和关键词检索。对系统实现涉及的主要技术点:倒排索引、概念相似度和语义计分公式进行了深入分析,提出一种改进的倒排索引结构和一个新的基于语义的信息检索计分公式。  相似文献   

7.
Lucene搜索引擎   总被引:2,自引:0,他引:2       下载免费PDF全文
周登朋  谢康林 《计算机工程》2007,33(18):95-96,1
Lucene是一个高性能、易扩展的基于Java技术的全文信息检索工具包,它能非常方便地为各种应用程序加入全文索引和搜索功能。该文探讨了Lucene中使用的向量空间模型,分析了Lucene索引文件的结构以及搜索排序算法,讨论了Lucene的压缩算法并且通过实验验证了Lucene的建立索引的过程。  相似文献   

8.
基于众包的社交网络数据采集模型设计与实现   总被引:1,自引:0,他引:1  
社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web爬虫系统4个模块。通过主题Deep Web爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题Deep Web爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。  相似文献   

9.
基于Hadoop的云存储的研究及实现   总被引:1,自引:0,他引:1  
首先描述了云计算、云存储的概念、云计算的体系结构及云存储的架构模式;然后介绍了Hadoop工作原理及其文件存储的方法;最后基于eyeOS的Web操作系统,对传统的文件存储方法进行改进,采用Hadoop的HDFS技术实现文件的分布式存储及容错控制。  相似文献   

10.
为了提高网络资源索引信息动态检索系统进行检索时的覆盖范围,提出了Lucene的网络资源索引信息动态检索系统.本次设计的系统,是根据Lucene的核心逻辑,设计系统整体框架,以此调整原有的处理器,通过设计全新的网络资源分词方式,依据计算不同位置的索引信息权重来弥补原有系统的缺失.实验研究表明,与文献[2]设计的检索系统相...  相似文献   

11.
基于Lucene的全文检索构件的研究与实现   总被引:2,自引:0,他引:2  
Lucene是一个高效全文检索工具包,但它不能直接处理文件和数据库。主要研究Lucene的体系架构及其索引的不足之处,并在其基础上设计实现了一个全文检索构件。该构件能够直接对文件及数据库进行全文检索,使用户在不用编写程序的情况下,快速为自己的桌面系统或Web系统添加全文检索功能。使用插件架构,同时实现了多媒体文本提取插件。  相似文献   

12.
目前蒙古语语义Web方面的研究成果都是基于单机环境的,当语义Web信息检索系统投入实际运行时,单机环境存在存储容量有限和多用户并发查询速度慢等问题.针对此问题,提出了基于蒙古语新闻领域本体的分布式语义Web检索方法.首先依据蒙古语新闻领域的特点,参照七步法和骨架法,构建蒙古语新闻领域本体,研究适合本体的混合语义相似度算...  相似文献   

13.
针对传统数据网格信息服务的不足之处,在分析Web搜索引擎技术和基于关键词的数据库索引技术基础之上,结合这两种信息获取技术,设计了数据网格中结构化数据资源发现技术的体系结构.在科学数据网格信息服务系统中,利用开源Lucene全文检索软件包,实现了结构化数据资源发现的关键技术.  相似文献   

14.
图像数据的指数型增长使得传统单机的图像检索在处理大规模图像时面临着检索速度慢、并发性差、检索准确率低的问题。由于图像特征文件都是小文件,本文提出将图像特征小文件进行适当的合并后存储于Hadoop的分布式文件系统HDFS中,实现大规模图像的快速存储和读取;为了适应大规模的图像检索,对图像Fisher向量进行二值化处理,并利用MapReduce并行编程模型实现基于二值Fisher向量和SIFT(Scale Invariant Feature Transform)特征的并行检索。在INRIA Holidays数据集、Kentucky数据集和Flicker1M数据集上的实验结果表明该方法扩展性强,能够取得较好的检索准确率,有效减少检索时间,提高检索速度,是一种高效的大规模图像存储和检索的方法。  相似文献   

15.
A masss of heterogeneous,distributed and dynamic information on the World Wide Web(the Web) has resulted in “information overload“ .It‘s an important and urgent reserach issue to provide users with effective information retrieval service on the Web.Web search enginees attempt to solve this problem,yet their effect is far from satisfying.In this paper,a distributed and cooperative strategy for information retrieval on the Web is proposed to substitute the centralized mode adopted by the current search engines.Then a new information retrieval system model IRSM is presented.which supports the retrieval of metadata about web documents and uses Z39.50 standard protocol to unify the heterogeneous interfaces of uments and uses Z39.50 standard protocol to unify the heterogeneous interfaces of different systems.Based on that,a distributed and cooperative information refieval framework,called DCIRF,is designed to help users in fast and effective information retrieval on the Web.  相似文献   

16.
摘 要: 分布式信息检索是信息检索领域的重要研究内容。为了提高分布式信息检索的性能,提出了一种基于文档副本局部性的分布式检索方法。对于任一站点,如果将查询结果中的非本地文档建立本地副本,那么可以减少查询处理中站点之间的查询转发,从而相应的提高信息检索的性能。基于该思想,将分布式信息检索中的副本放置转化为查询的局部性问题,建立了相应的优化模型,并针对不同的副本放置模型提出了相应的副本选择及放置策略。最后通过模拟实验验证表明,本文提出的方法与相关方法相比较既提高了查询结果的准确性,又减小了查询的响应时间。  相似文献   

17.
该文在开源全文搜索引擎Lucene的基础上设计了一个结合本体与自然语言处理技术的语义检索系统。系统分析了如何对文本进行语义分析,设计了语义索引项以存储语义信息,并提出了使用语义信息的网页排序算法。  相似文献   

18.
范敏  徐胜才 《计算机应用》2013,33(12):3345-3349
为了提高海量医学图像检索效率,针对单节点医学图像检索系统的缺陷,提出一种基于Hadoop的海量医学图像检索系统。首先采用Brushlet变换和局部二值模式算法提取医学示例图像特征,并将图像特征库存储于Hadoop分布式文件系统(HDFS);然后采用Map将示例图像特征与特征库的特征进行匹配,采用Reduce接收各Map任务的计算结果,并按相似度大小进行排序;最后根据排序结果找到医学图像的最优检索结果。实验结果表明,相对于其他医学图像检索系统,Hadoop的医学图像检索系统减少了图像存储和检索时间,提高了图像检索速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号