共查询到20条相似文献,搜索用时 187 毫秒
1.
本文给出一种以词语为索引项的索引文件存储结构,以及基于这种结构的索引查询算法.首先分析中文索引库的分布规律,接着在此基础上设计了一种逆序存储的三层索引结构,这种结构在创建索引时能根据词语频率自动调整存储顺序,最后给出一种基于自动机和逆向最大匹配的索引查询算法.实验系统TIFS将三层索引结构与B树、哈希方法在时间和空间复杂度方面进行对比,结果表明,对于大规模的中文文本检索,三层索引结构的综合效果最好. 相似文献
2.
针对连续不确定XML数据的概率阈值查询,提出CPTI(Continuous Probabilistic Threshold Index)索引技术,包括CPTI结构索引和CPTI值索引。CPTI结构索引扩展了结构索引F-index支持连续不确定XML数据,通过CPTI结构索引查询twig小枝,并确定小枝的路径概率;CPTI值索引是一个二维表,记录cont类节点的概率信息,通过CPTI值索引过滤与查询无关的元素以减少查询中需要处理的元素数目。实验表明,此索引技术可极大地提高查询处理的性能。 相似文献
3.
4.
SOH(SQL over HDFS)系统通常将数据存储于分布式文件系统HDFS中,采用Map/Reduce或分布式查询引擎来处理查询任务。得益于HDFS以及Map/Reduce的容错能力和可扩展性,SOH系统可以很好地应对数据规模的飞速增长,完成分析型查询处理。然而,在处理选择型查询或交互式查询时,这类系统暴露出性能上的缺陷。本文提出一个通用的索引技术,可以应用于SOH系统中,以提高其查询处理的效率。分析了SOH系统访问HDFS文件的过程,指出了其中影响数据加载时间的关键因素;提出了split层和split内部双层索引机制;设计并实现了聚集索引和非聚集索引。最后,在标准数据集上进行了大量实验,并与现有基于HDFS的索引技术进行了比较。实验结果表明,所提出的索引技术可以有效地提高查询处理的效率。 相似文献
5.
基于DTD的XML对照标记方法 总被引:1,自引:0,他引:1
王刚 《计算机与数字工程》2008,36(8)
基于DTD采用XML对照标记方法,对XML进行数字编码索引.这种索引方法考虑到了XML的半结构化的特点,研究了如何将XML文件与其DTD文件进行对照标记,利用DTD使XML文件的索引进行改进.使用这种方法可以实现了XML文件内容与结构的分离,将对结点标记的查询,统一转换到了对DTD的查询,节省了查询时间. 相似文献
6.
7.
8.
9.
针对实际密文数据库的应用,在全文检索倒排索引技术的基础上,设计了一种通过密文倒排索引文件对其进行快速检索的方法。密文索引文件中主要包含有索引项、相对应的记录主键等信息。检索时,通过用检索词匹配索引文件中的索引项,找到对应的记录主键集合,再根据记录主键集合查询密文数据库,获取相应的密文数据,进行解密即可获取明文数据信息。整个检索过程中不对数据库进行解密,从而实现了在不解密的情况下对密文数据库的快速检索。 相似文献
10.
11.
传统的主题搜索技术难以适应大范围垂直领域的智能搜索需求,通过将主题搜索与语义搜索相关技术分别应用到搜索引擎的数据采集与智能查询过程中,利用基于层次分类模型的领域数据采集机器人,完成对领域信息的精准采集,基于中文百科资源自动构建领域本体,将大规模领域本体库用于搜索引擎的语义扩展推理中,实现了一个面向领域的智能搜索引擎。实验结果表明,基于层次结构的领域分类具有较高的分类准确率和召回率,与其他搜索引擎相比较,该系统具有领域专业性强、领域易于移植、检索更加智能等特点。 相似文献
12.
《Applied Soft Computing》2007,7(1):398-410
Personalized search engines are important tools for finding web documents for specific users, because they are able to provide the location of information on the WWW as accurately as possible, using efficient methods of data mining and knowledge discovery. The types and features of traditional search engines are various, including support for different functionality and ranking methods. New search engines that use link structures have produced improved search results which can overcome the limitations of conventional text-based search engines. Going a step further, this paper presents a system that provides users with personalized results derived from a search engine that uses link structures. The fuzzy document retrieval system (constructed from a fuzzy concept network based on the user's profile) personalizes the results yielded from link-based search engines with the preferences of the specific user. A preliminary experiment with six subjects indicates that the developed system is capable of searching not only relevant but also personalized web pages, depending on the preferences of the user. 相似文献
13.
Inspection engines that can inspect network content for application-layer information are urgently required. In-depth packet inspection engines, which search the whole packet payload, can identify the interested packets that contain certain patterns. Network equipment then utilizes the searching results from the inspection engines for application-oriented management. The most important technology for fast packet inspection is an efficient multi-pattern matching algorithm to perform exact string matching between packets and a large set of patterns. This paper proposes a novel hierarchical multi-pattern matching algorithm (HMA) for packet inspection. HMA builds hierarchical index tables from the most frequent common-codes, and efficiently reduces the amount of external memory accesses and memory space by two-tier and cluster-wise matching. Analysis and simulation results reveal that HMA performs much better than state-of-the-art matching algorithms. In particular, HMA can update patterns incrementally, thus creating a reliable network system. 相似文献
14.
全文索引技术时空效率分析 总被引:3,自引:0,他引:3
全文索引技术(full-text index technique)作为提高全文检索时空效率的有效方式之一,近年来得到了广泛而深入的研究.根据全文索引实现技术的不同,将其分为三大类:索引技术、压缩与索引混合技术以及自索引技术(self-index technique).从上述分类角度综述了全文索引时空效率方法中具有代表性的一些方法和技术:倒排文件、签名文件、后缀树与后缀数组、基于这3 种索引的压缩技术、基于倒排文件的自索引与基于后缀数组的自索引的基本原理、所面临的问题及进展,并对这些技术的时空性能进行了详细的分析和比较,分析了各种技术的适应环境及优劣.最后总结了上述技术的特点,指出了存在的问题以及未来的研究方向. 相似文献
15.
垂直搜索引擎是搜索引擎领域的行业化分工,根据地学信息领域的行业特征、整体需求及其工作流程,在Nutch开源搜索引擎平台上添加了"庖丁解牛"中文分词算法、主题相关度评分算法、"主题词管理"选项等技术,建立了基于网络蜘蛛模型的面向地学信息领域的垂直搜索引擎。经过测试及结果比较,该系统相对于通用搜索引擎有明显的优势,使地学信息的定位和查找更加准确。该系统具有良好的扩展性和通用性,对垂直搜索引擎的研究和开发具有一定的借鉴作用。 相似文献
16.
基于相关术语集的搜索引擎选择 总被引:1,自引:0,他引:1
1 引言 Web从1991年出现以来,已经发展成为一个巨大的全球化信息空间,而且其信息容量仍在以指数形式飞速增长。面对海量Web信息资源,如何有效地检索Web信息,以帮助用户从大量文档信息集合中找到对给定查询请求有用的文档子集,也就成为一项重要而迫切的研究课题。 相似文献
17.
当前主流的搜索引擎主要是以与用户查询的相关度来顺序返回搜索结果的,用户往往需要花费较长的时间从结果列表中进行选择.为了解决这个问题,针对搜索引擎返回的标题和摘要信息,构造有向图表示,并在此基础上实现了一种高效的网页聚类原型系统(efficient web clustering system,EWCS).该系统将搜索引擎返回的结果按照一定的标准分类呈现给用户,用户选择感兴趣的类别进行浏览,从而较好地满足了用户对查询速度和准确度的需求.试验结果表明该算法具有一定的可行性和较高的准确率. 相似文献
18.
Clarkson Edward Desai Krishna Foley James 《IEEE transactions on visualization and computer graphics》2009,15(6):1057-1064
Hierarchical representations are common in digital repositories, yet are not always fully leveraged in their onlinesearch interfaces. This work describes ResultMaps, which use hierarchical treemap representations with query string-driven digital library search engines. We describe two lab experiments, which find that ResultsMap users yield significantly better results over a control condition on some subjective measures, and we find evidence that ResultMaps have ancillary benefits via increased understanding of some aspects of repository content. The ResultMap system and experiments contribute an understanding of the benefits—direct and indirect—of the ResultMap approach to repository search visualization. 相似文献
19.
20.
中文搜索引擎概念检索初探 总被引:19,自引:1,他引:18
搜索引擎传统的关键词匹配检索模式存在很多问题,概念检索是解决这些问题的关键技术之一。该文简要介绍了概念检索的主要内容,针对中文搜索引擎,探索出了一种基于概念语义网络知识库的概念检索模型。在此基础上,针对计算机这一特定领域,创建了一个含有500多个概念节点,包括概念层次关系和近300种概念相关关系的语义网络,初步实现了计算机领域文档的概念检索。实验结果表明,该模型对于提高中文搜索引擎的智能水平是非常有效的。 相似文献