首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
VAR-Tree--一种新的高维数据索引结构   总被引:7,自引:1,他引:6  
在多媒体信息检索和数据挖掘等应用领域,实现高维矢量的K近邻搜索是非常具有挑战性的研究课题,为此人们提出了很多种索引结构.然而,现有研究成果表明,随着矢量维数的增加,基于树状索引结构的查询性能急剧下降,例如在R-Tree,X-Tree和SS-Tree中都会出现“维数灾难”.为此,又引入近似压缩的思想,即通过压缩数据来减少查询过程中的磁盘读写代价,例如VA-File等,不过,VA-File没有对近似矢量数据做任何的排序或层次处理.提出了一种新的索引结构VAR-Tree,它将VA-File与R-Tree有机结合起来,用R-Tree管理和组织VA-File中的近似数据,并用已提出的R-Tree类相似查询算法实现基于VAR-Tree的查询.实验结果表明,VAR-Tree较好地提高了检索性能.  相似文献   

2.
VA-Trie:一种用于近似k近邻查询的高维索引结构   总被引:2,自引:1,他引:1  
近年来,随着多媒体信息检索技术的不断发展,如何实现高维特征矢量的快速相似性查询成为一个重要的研究课题.为此,人们提出了许多索引结构,包括:R—Tree及其变种、对矢量进行量化近似的VA—File、引入量化思想的A—Tree等等.从公开发表的成果看,这些索引结构在较低维数时,都能够表现出较好的查询性能;而当维数增加时,性能则急剧恶化.为了在更高维数下实现快速相似查询,可采用VA—File和A—Tree中的近似思想,并借助Trie结构来组织和管理压缩后的近似矢量,即所谓的VA—Trie.实验结果表明,在高达128维时VA—Trie仍有查询加速,其性能远好于A—Tree.  相似文献   

3.
支持XML信息检索的索引技术*   总被引:4,自引:0,他引:4  
作为互联网的新技术, XML 已经渗透到了Internet 的很多领域, 结构文档XML 的信息交换、提取、处理、查询的研究也日益受到重视。目前, 已经提出了许多面向XML 的查询语言, 这些查询语言一般基于路径和树模式。从信息检索理论与技术角度出发, 探讨XML 文档的索引技术, 以期达到内容和结构的双重检索。  相似文献   

4.
建立索引、查询扩展和相似度计算等都是检索系统中的关键环节.PRIS信息检索系统更侧重于构造简单有效的查询扩展算法.本报告介绍了北京邮电大学模式识别实验室参加2005年863信息检索测试的系统结构和具体方法.本报告分别介绍了预处理、分词、建立索引、查询扩展和相似度计算等部分.最后针对测试结果进行了分析.对正式评测的50个主题集检索,获得的三项评价指标为程序自动构造询时,MAP=0.1862,P@10=0.5180,R-Precision=0.2554;人工构造查询时,MAP=0.1862,P@10=0.5180,R-Precision=0.2554.  相似文献   

5.
由于越来越多的数据具有位置和文本双重属性,空间关键词查询(spatial keyword query,简称SKQ)应运而生.一个SKQ以一个地理位置和若干关键词作为参数,返回满足空间与文本约束的结果,这些结果往往根据指定公式排列.对现有的空间关键词搜索技术进行了梳理,首先对问题进行了描述,对挑战进行了分析;然后分析了基本空间关键词搜索技术.将文献中提出的各种空间关键词查询进行了划分,对现有的查询处理技术进行分类,对每种类型的技术,从索引技术和查询算法两个方面进行了总结,并从多个角度对它们进行了比较.其后介绍了扩展空间关键词搜索技术,还介绍了与该问题相关的其他研究工作.最后指出了研究中存在的不足以及以后的研究方向.  相似文献   

6.
用信息-摘要算法提高Web信息检索效率的研究   总被引:1,自引:0,他引:1  
杨文忠  章兢 《微机发展》2006,16(6):222-223
针对常用搜索引擎返回给用户的信息中包含大量重复网页的缺陷,提出了一种基于信息-摘要算法的去除重复网页算法。由于算法的成熟,该算法易实现,可移植性强。实验证明该算法能有效地去除常用搜索引擎返回的重复网页,从而为Internet用户提高信息检索效率,具有较强的实用价值。  相似文献   

7.
用信息-摘要算法提高Web信息检索效率的研究   总被引:1,自引:0,他引:1  
针对常用搜索引擎返回给用户的信息中包含大量重复网页的缺陷,提出了一种基于信息-摘要算法的去除重复网页算法。由于算法的成熟,该算法易实现,可移植性强。实验证明该算法能有效地去除常用搜索引擎返回的重复网页,从而为Intenret用户提高信息检索效率,具有较强的实用价值。  相似文献   

8.
通过分析在线聚集与在线动态重排序技术,结合近似查询处理和国会抽样方法,提出了在线分组聚集方案,该方案具有广泛的应用前景。  相似文献   

9.
一种支持高效XML 路径查询的自适应结构索引   总被引:1,自引:0,他引:1  
张博  耿志华  周傲英 《软件学报》2009,20(7):1812-1824
提出了一种新的自适应结构索引:AS-Index(adaptive structural index),能够克服现有静态索引和自适应索引的缺陷,具备高效的查询和调整性能.AS-Index 建立在F&B-Index 的基础之上,其索引结构包括F&B-Index,Query-Table 和Part-Table.Query-Table 能够记录频繁查询,避免了查询过程中的冗余操作.并且,在Query-Table 的基础上提出了自底向上的查询处理过程,能够充分利用现有的频繁查询高效地回答非频繁查询.Part-Table 用于优化包含祖先后裔边的查询,进一步提高了查询性能.现有的自适应结构索引的调整粒度是XML 元素节点,调整过程往往需要遍历整个文档.而AS-Index 是基于F&B-Index 节点的增量调整,其过程是局部的,高效的,并且能够支持复杂分支查询的调整.实验结果表明,AS-Index 在查询和调整性能上优于现有的XML 结构索引.同时,相比于现有的自适应结构索引,AS-Index 针对大规模文档具有更加优良的可扩展性.  相似文献   

10.
考虑到查询扩展方法在信息检索中很少考虑词语的顺序、分布和词条概念关系等因素,难以在信息检索中对文本相似性做出全方位的度量。针对这种情况,基于词语概念本体How Net对词序、词距、扩展词权重特征进行概念相关性度量,并将词语相关性度量作为特征词权重因子引入文本检索过程中,实现了一种改进的特征量化方法。Top-N检索结果的实验表明,采用的方法使得系统整体性能获得有效提升。  相似文献   

11.
12.
There has been an explosion in the types, availability and volume of data accessible in an information system, thanks to the World Wide Web (the Web) and related inter-networking technologies. In this environment, there is a critical need to replace or complement earlier database integration approaches and current browsing and keyword-based techniques with concept-based approaches. Ontologies are increasingly becoming accepted as an important part of any concept or semantics based solution, and there is increasing realization that any viable solution will need to support multiple ontologies that may be independently developed and managed. In particular, we consider the use of concepts from pre-existing real world domain ontologies for describing the content of the underlying data repositories. The most challenging issue in this approach is that of vocabulary sharing, which involves dealing with the use of different terms or concepts to describe similar information. In this paper, we describe the architecture, design and implementation of the OBSERVER system. Brokering across the domain ontologies is enabled by representing and utilizing interontology relationships such as (but not limited to) synonyms, hyponyms and hypernyms across terms in different ontologies. User queries are rewritten by using these relationships to obtain translations across ontologies. Well established metrics like precision and recall based on the extensions underlying the concepts are used to estimate the loss of information, if any.  相似文献   

13.
潘立强  李建中  骆吉洲 《软件学报》2010,21(4):1020-1030
由于无线传感器网络的能源有限,且在许多应用中Skyline 查询的部分结果即可满足用户需求,提出了一 种近似Skyline 查询处理算法,在满足用户查询需求的前提下最大化地节省能量.该算法仅需无线传感器网络中的部 分传感器节点回传其感知数据即可计算出Skyline 查询的一个近似结果集.由于该算法在处理查询时,每个传感器节 点只需考察自身数据信息即可决定是否回传其感知数据,而无须与其他传感器节点的感知数据进行比较,因此可以 避免大量的网内通信开销,从而节省网络能源.模拟环境下的大量实验结果表明,该算法可以根据用户的应用需求, 节能地处理传感器网络中的近似skyline 查询.  相似文献   

14.
This paper presents and evaluates a simple but very effective method to implement large data warehouses on an arbitrary number of computers, achieving very high query execution performance and scalability. The data is distributed and processed in a potentially large number of autonomous computers using our technique called data warehouse striping (DWS). The major problem of DWS technique is that it would require a very expensive cluster of computers with fault tolerant capabilities to prevent a fault in a single computer to stop the whole system. In this paper, we propose a radically different approach to deal with the problem of the unavailability of one or more computers in the cluster, allowing the use of DWS with a very large number of inexpensive computers. The proposed approach is based on approximate query answering techniques that make it possible to deliver an approximate answer to the user even when one or more computers in the cluster are not available. The evaluation presented in the paper shows both analytically and experimentally that the approximate results obtained this way have a very small error that can be negligible in most of the cases.  相似文献   

15.
一种新的近似旋律匹配方法及其在哼唱检索系统中的应用   总被引:20,自引:0,他引:20  
提出了一种近似旋律匹配(approximate meltlody matching)的新方法——线性对齐匹配法,并在此基础上实现了一个哼唱检索(queryby humming)系统原型.与已有的基于内容的音乐检索(content-based music retrieval)不同,该算法并非基于近似符号串匹配、统计模型或者特征空间,而是根据相近旋律的音高轮廓在几何上的相似性,将音高和节奏特征一并考虑所设计而成的全新算法.通过实验检验该算法的有效性,在含有3864首乐曲的搜索空间中,检索62段人声哼唱,线性对齐匹配法取得了90.3%的前3位命中率,相比传统的近似符号匹配算法高出11%以上.这一实验结果有力地表明了线性对齐匹配法的有效性,及其应用于大型数字音乐检索引擎的可行性.  相似文献   

16.
维空间的Skyline查询处理技术是近年来数据库技术领域的一个研究重点和热点.目前所有的研究工作都是直接在原始数据表上执行关系查询代数操作来获得最终的结果集,然而,随着原始数据表的数据量和维目标个数的增大,这些研究工作将不再适用.基于此,首次研究Skyline集合上的查询代数操作,使得Skyline查询处理的输入数据来自于小规模的Skyline结果集,而非海量的原始数据表.并且,首次给出一个集成多维对象集合和该对象集合上的Skyline结果集的形式化模型,该模型适合目前Skyline查询计算的应用,并在该模型的实例上研究Skyline集合的查询代数操作.同时,给出查询代数体系的代价评估模型.实验表明,给出的数据模型和查询代数体系具有有效性和实用性.  相似文献   

17.
张安珍  李建中  高宏 《软件学报》2020,31(2):406-420
研究了基于符号语义的不完整数据聚集查询处理问题.不完整数据又称为缺失数据,缺失值包括可填充的和不可填充的两种类型.现有的缺失值填充算法不能保证填充后查询结果的准确度,为此,给出了不完整数据聚集查询结果的区间估计.在符号语义中扩展了传统关系数据库模型,提出了一种通用不完整数据库模型.该模型可以处理可填充的和不可填充的两种类型缺失值.在该模型下,提出一种新的不完整数据聚集查询结果语义:可靠结果.可靠结果是真实查询结果的区间估计,可以保证真实查询结果有很大概率在该估计区间范围内.给出了线性时间求解SUM、COUNT和AVG查询可靠结果的方法.真实数据集和合成数据集上的扩展实验验证了所提方法的有效性.  相似文献   

18.
随着数据的爆炸式增加,不完整数据普遍存在,传统的数据修复方法对于海量数据处理代价过高,且不能彻底修复,在这些不完整的海量数据上进行满足给定需求的近似查询引起了学术界的关注.因此,提出一种基于压缩的海量不完整数据近似查询方法,该方法对属性值缺失字段进行标记,根据频繁查询条件对标记后的数据进行压缩,并建立对应索引;根据属性划分对索引文件再次压缩以节省存储空间,采用编码字典对索引压缩文件进行选择和投影操作,最终获得不完整数据的近似查询结果.实验表明,该方法能够快速定位不完整数据的压缩位置,提高了查询效率,节省了存储空间,并且保证了查询结果的完整性.  相似文献   

19.
Peer-to-Peer (P2P) systems have attracted much attention in academic commu-nity and industry circles due to their promising applications in various domains. This paper presents the authors‘ research efforts on introducing complex query capabilities in a P2P environ-ment consisting of numerous peers with large volume of data. An underlying hybrid P2P computing platform, named BestPeer is described first. The connection among peers within BestPeer is self-configurable through maintaining the nearest neighbor of peers, and the agent techniques employed in the system ensure its capability of providing sophisticated services. The designs of three P2P data management systems which are all based on BestPeer are described in detail. They provide support for information retrieval, query processing and Web services respectively. Advantages and limitations are discussed, while ongoing work is presented. Current systems can provide basic functions for keyword-based search, SQL-like query processing, and Web services querying and discovery. Some further topics on providing fully-fledged data management functionalities for P2P distributed computing systems with security guarantee are also discussed.  相似文献   

20.
查询优化是异构数据集成中需要解决的关键问题之一,但环境的分布性、异构性以及局部数据源的自治性使得异构数据集成中的查询优化变得非常困难。通过对异构数据集成中查询后处理调度的分析,给出了查询后处理的全局查询图表示,并给出了基于全局查询图的查询后处理并发调度方法,最后给出了一种基于统计推理的查询后处理动态优化策略,它可用于基于全局查询图的查询调度中,实现查询后处理的动态优化。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号