首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
本文给出一种以词语为索引项的索引文件存储结构,以及基于这种结构的索引查询算法.首先分析中文索引库的分布规律,接着在此基础上设计了一种逆序存储的三层索引结构,这种结构在创建索引时能根据词语频率自动调整存储顺序,最后给出一种基于自动机和逆向最大匹配的索引查询算法.实验系统TIFS将三层索引结构与B树、哈希方法在时间和空间复杂度方面进行对比,结果表明,对于大规模的中文文本检索,三层索引结构的综合效果最好.  相似文献   

2.
针对连续不确定XML数据的概率阈值查询,提出CPTI(Continuous Probabilistic Threshold Index)索引技术,包括CPTI结构索引和CPTI值索引。CPTI结构索引扩展了结构索引F-index支持连续不确定XML数据,通过CPTI结构索引查询twig小枝,并确定小枝的路径概率;CPTI值索引是一个二维表,记录cont类节点的概率信息,通过CPTI值索引过滤与查询无关的元素以减少查询中需要处理的元素数目。实验表明,此索引技术可极大地提高查询处理的性能。  相似文献   

3.
提出了一种结构编码与簇集索引相结合的XML混合索引结构(H iSC)。引入簇集索引结构,将XML节点分类,尽量多地保存XML数据的结构信息,缩小查询范围,提高了查询效率并能支持关键字的查询。实验表明此索引结构可以高效并准确地查询XML数据中的结构信息。  相似文献   

4.
何龙  陈晋川  杜小勇 《软件学报》2017,28(3):502-513
SOH(SQL over HDFS)系统通常将数据存储于分布式文件系统HDFS中,采用Map/Reduce或分布式查询引擎来处理查询任务。得益于HDFS以及Map/Reduce的容错能力和可扩展性,SOH系统可以很好地应对数据规模的飞速增长,完成分析型查询处理。然而,在处理选择型查询或交互式查询时,这类系统暴露出性能上的缺陷。本文提出一个通用的索引技术,可以应用于SOH系统中,以提高其查询处理的效率。分析了SOH系统访问HDFS文件的过程,指出了其中影响数据加载时间的关键因素;提出了split层和split内部双层索引机制;设计并实现了聚集索引和非聚集索引。最后,在标准数据集上进行了大量实验,并与现有基于HDFS的索引技术进行了比较。实验结果表明,所提出的索引技术可以有效地提高查询处理的效率。  相似文献   

5.
基于DTD的XML对照标记方法   总被引:1,自引:0,他引:1  
基于DTD采用XML对照标记方法,对XML进行数字编码索引.这种索引方法考虑到了XML的半结构化的特点,研究了如何将XML文件与其DTD文件进行对照标记,利用DTD使XML文件的索引进行改进.使用这种方法可以实现了XML文件内容与结构的分离,将对结点标记的查询,统一转换到了对DTD的查询,节省了查询时间.  相似文献   

6.
7.
在时空数据的索引结构中,HR-tree可以高效处理时间片查询,但对时间段查询效率低下,同时存在存储冗余。3D-tree索引的效率较低,双树结构使索引维护较为困难,且磁盘访问开销大。该文提出一种新的基于R*-tree的索引结构VC-tree,便于管理维护,可以高效满足时空查询,并满足有效时间内的未来查询。  相似文献   

8.
建立特殊索引实现XML文档的查询优化   总被引:4,自引:0,他引:4  
结合半结构化数据索引和Lore系统中的索引结构提出了关系数据库中无需特殊数据结构的XML数据的索引的建立及利用索引实现对XML查询的优化。  相似文献   

9.
针对实际密文数据库的应用,在全文检索倒排索引技术的基础上,设计了一种通过密文倒排索引文件对其进行快速检索的方法。密文索引文件中主要包含有索引项、相对应的记录主键等信息。检索时,通过用检索词匹配索引文件中的索引项,找到对应的记录主键集合,再根据记录主键集合查询密文数据库,获取相应的密文数据,进行解密即可获取明文数据信息。整个检索过程中不对数据库进行解密,从而实现了在不解密的情况下对密文数据库的快速检索。  相似文献   

10.
通过理论分析对全局和分布式索引架构进行了比较,分析了分布式全局索引架构所能够应对的数据规模的上界和分布式局部索引架构在特定数据规模下相应最优的机群规模等。可以证明,在海量数据背景条件下,由于需要求交集的查询结果数据量过大,会导致全局索引架构在查询结果求交集阶段处理时间过长,以致信息检索系统不能满足用户对系统响应时间的需求,因此局部索引架构会成为在面对海量数据时信息检索系统的必然选择。  相似文献   

11.
莫倩  张树  王芳 《计算机工程与应用》2012,48(21):112-117,150
传统的主题搜索技术难以适应大范围垂直领域的智能搜索需求,通过将主题搜索与语义搜索相关技术分别应用到搜索引擎的数据采集与智能查询过程中,利用基于层次分类模型的领域数据采集机器人,完成对领域信息的精准采集,基于中文百科资源自动构建领域本体,将大规模领域本体库用于搜索引擎的语义扩展推理中,实现了一个面向领域的智能搜索引擎。实验结果表明,基于层次结构的领域分类具有较高的分类准确率和召回率,与其他搜索引擎相比较,该系统具有领域专业性强、领域易于移植、检索更加智能等特点。  相似文献   

12.
《Applied Soft Computing》2007,7(1):398-410
Personalized search engines are important tools for finding web documents for specific users, because they are able to provide the location of information on the WWW as accurately as possible, using efficient methods of data mining and knowledge discovery. The types and features of traditional search engines are various, including support for different functionality and ranking methods. New search engines that use link structures have produced improved search results which can overcome the limitations of conventional text-based search engines. Going a step further, this paper presents a system that provides users with personalized results derived from a search engine that uses link structures. The fuzzy document retrieval system (constructed from a fuzzy concept network based on the user's profile) personalizes the results yielded from link-based search engines with the preferences of the specific user. A preliminary experiment with six subjects indicates that the developed system is capable of searching not only relevant but also personalized web pages, depending on the preferences of the user.  相似文献   

13.
Inspection engines that can inspect network content for application-layer information are urgently required. In-depth packet inspection engines, which search the whole packet payload, can identify the interested packets that contain certain patterns. Network equipment then utilizes the searching results from the inspection engines for application-oriented management. The most important technology for fast packet inspection is an efficient multi-pattern matching algorithm to perform exact string matching between packets and a large set of patterns. This paper proposes a novel hierarchical multi-pattern matching algorithm (HMA) for packet inspection. HMA builds hierarchical index tables from the most frequent common-codes, and efficiently reduces the amount of external memory accesses and memory space by two-tier and cluster-wise matching. Analysis and simulation results reveal that HMA performs much better than state-of-the-art matching algorithms. In particular, HMA can update patterns incrementally, thus creating a reliable network system.  相似文献   

14.
全文索引技术时空效率分析   总被引:3,自引:0,他引:3  
刘小珠  彭智勇 《软件学报》2009,20(7):1768-1784
全文索引技术(full-text index technique)作为提高全文检索时空效率的有效方式之一,近年来得到了广泛而深入的研究.根据全文索引实现技术的不同,将其分为三大类:索引技术、压缩与索引混合技术以及自索引技术(self-index technique).从上述分类角度综述了全文索引时空效率方法中具有代表性的一些方法和技术:倒排文件、签名文件、后缀树与后缀数组、基于这3 种索引的压缩技术、基于倒排文件的自索引与基于后缀数组的自索引的基本原理、所面临的问题及进展,并对这些技术的时空性能进行了详细的分析和比较,分析了各种技术的适应环境及优劣.最后总结了上述技术的特点,指出了存在的问题以及未来的研究方向.  相似文献   

15.
垂直搜索引擎是搜索引擎领域的行业化分工,根据地学信息领域的行业特征、整体需求及其工作流程,在Nutch开源搜索引擎平台上添加了"庖丁解牛"中文分词算法、主题相关度评分算法、"主题词管理"选项等技术,建立了基于网络蜘蛛模型的面向地学信息领域的垂直搜索引擎。经过测试及结果比较,该系统相对于通用搜索引擎有明显的优势,使地学信息的定位和查找更加准确。该系统具有良好的扩展性和通用性,对垂直搜索引擎的研究和开发具有一定的借鉴作用。  相似文献   

16.
基于相关术语集的搜索引擎选择   总被引:1,自引:0,他引:1  
欧洁 《计算机科学》2003,30(7):56-59
1 引言 Web从1991年出现以来,已经发展成为一个巨大的全球化信息空间,而且其信息容量仍在以指数形式飞速增长。面对海量Web信息资源,如何有效地检索Web信息,以帮助用户从大量文档信息集合中找到对给定查询请求有用的文档子集,也就成为一项重要而迫切的研究课题。  相似文献   

17.
当前主流的搜索引擎主要是以与用户查询的相关度来顺序返回搜索结果的,用户往往需要花费较长的时间从结果列表中进行选择.为了解决这个问题,针对搜索引擎返回的标题和摘要信息,构造有向图表示,并在此基础上实现了一种高效的网页聚类原型系统(efficient web clustering system,EWCS).该系统将搜索引擎返回的结果按照一定的标准分类呈现给用户,用户选择感兴趣的类别进行浏览,从而较好地满足了用户对查询速度和准确度的需求.试验结果表明该算法具有一定的可行性和较高的准确率.  相似文献   

18.
Hierarchical representations are common in digital repositories, yet are not always fully leveraged in their onlinesearch interfaces. This work describes ResultMaps, which use hierarchical treemap representations with query string-driven digital library search engines. We describe two lab experiments, which find that ResultsMap users yield significantly better results over a control condition on some subjective measures, and we find evidence that ResultMaps have ancillary benefits via increased understanding of some aspects of repository content. The ResultMap system and experiments contribute an understanding of the benefits—direct and indirect—of the ResultMap approach to repository search visualization.  相似文献   

19.
提出了能够综合衡量搜索引擎工作性能的六个评测指标,选择了当今主流的三个搜索引擎:谷歌、雅虎和百度进行评测,成功地在两个大型的数据集上实现了整个自动评测系统。实验表明,谷歌工作性能最稳定;雅虎返回的第一个结果最能满足用户的要求,但会受时间因素的影响;百度明显地受关键字类别因素的影响。最后对中搜、狗、爱问进行了评测。  相似文献   

20.
中文搜索引擎概念检索初探   总被引:19,自引:1,他引:18  
搜索引擎传统的关键词匹配检索模式存在很多问题,概念检索是解决这些问题的关键技术之一。该文简要介绍了概念检索的主要内容,针对中文搜索引擎,探索出了一种基于概念语义网络知识库的概念检索模型。在此基础上,针对计算机这一特定领域,创建了一个含有500多个概念节点,包括概念层次关系和近300种概念相关关系的语义网络,初步实现了计算机领域文档的概念检索。实验结果表明,该模型对于提高中文搜索引擎的智能水平是非常有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号