首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
一种基于XML文档关键字检索的结构索引   总被引:2,自引:0,他引:2  
娄颖  李战怀  郭文琪  陈群  韩萌 《计算机科学》2010,37(12):120-124
XML数据索引对其检索效率有较大的影响。在深入分析现有XMI、结构索引之后,结合XML文档特点,提出了一种基于关键字检索的结构索引--LSS(Level Structure Summary) . LSS采用了把具有相同标签路径的结点进行合并的策略,具有高效判断结点之间同构异构关系的能力。实现了LSS索引生成算法CSCAN,并在LSS索引的基础上设计了XML关键字检索算法LSSearch。该算法依据LSS索引,将各个关键字的原始倒排表集合分拆成不同类型的子集合,最后在所有子集合上进行查询。实验结果表明,LSS可以帮助减少XML文档中关键字倒排表的规模,提高检索效率。  相似文献   

2.
高效地访问倒排索引是搜索引擎快速响应用户查询的关键,而压缩倒排列表是提高搜索引擎性能的最重要的手段之一。针对自适应分段压缩ASCS算法进行了研究,对于ASCS算法中采用的均匀分段方式并非最优分段问题,提出以人工蜂群算法优化ASCS算法中的分段方式;对于ASCS算法考虑序列占用空间的影响因素过于单一问题,提出多因素下的改进算法;对于分布不均的长序列在ASCS算法下压缩率不理想问题,提出先排序后差分编码操作后再以ASCS算法压缩。通过对比实验证明优化改进后的算法可以较显著的压缩倒排索引。  相似文献   

3.
在关键字查询领域,目前提出的大多数索引结构主要考虑的是静态的XML文档.当XML文档出现频繁更新时,这些索引结构可能面临着大范围的重新编码,从而增加了数据库索引维护的代价.为了能在XML文档动态更新的环境下保持其索引结构的稳定,提出了一种支持动态XML文档上关键字查询的索引结构DLSS( DDE Level Structure Summary).该索引结构采用了一种针对动态更新改进的Dewey编码,该编码只需在文档更新时对新的节点赋予相应的编码,而不需要调整原有的编码结构.实验证明,DLSS索引结构可以在XML文档频繁更新或者较少更新时都能保持索引结构的相对稳定,并能在其上实现较高的关键字查询效率.  相似文献   

4.
压缩树索引技术是XML数据压缩的热点问题之一,本文提出一种压缩树索引改进方法.针对压缩树在查询过程中不能很好的解决向上匹配与向下匹配的问题,改进方法引入正排索引和倒排索引.当查询到组一级时,利用正排索引可以快速的查找出以该组为父节点的子组.而选出符合值谓词的元素后,在进行向上匹配时利用倒排索引可找出该元素的父节点.新的索引方法在保留原压缩树索引优点的基础上,解决了压缩树索引在查询过程中匹配问题.  相似文献   

5.
本文给出了一种高效编码压缩方法及相应转换程序,能有效地节约空间。  相似文献   

6.
目的 海量图像检索技术是计算机视觉领域研究热点之一,一个基本的思路是对数据库中所有图像提取特征,然后定义特征相似性度量,进行近邻检索。海量图像检索技术,关键的是设计满足存储需求和效率的近邻检索算法。为了提高图像视觉特征的近似表示精度和降低图像视觉特征的存储空间需求,提出了一种多索引加法量化方法。方法 由于线性搜索算法复杂度高,而且为了满足检索的实时性,需把图像描述符存储在内存中,不能满足大规模检索系统的需求。基于非线性检索的优越性,本文对非穷尽搜索的多索引结构和量化编码进行了探索新研究。利用多索引结构将原始数据空间划分成多个子空间,把每个子空间数据项分配到不同的倒排列表中,然后使用压缩编码的加法量化方法编码倒排列表中的残差数据项,进一步减少对原始空间的量化损失。在近邻检索时采用非穷尽搜索的策略,只在少数倒排列表中检索近邻项,可以大大减少检索时间成本,而且检索过程中不用存储原始数据,只需存储数据集中每个数据项在加法量化码书中的码字索引,大大减少内存消耗。结果 为了验证算法的有效性,在3个数据集SIFT、GIST、MNIST上进行测试,召回率相比近几年算法提升4%~15%,平均查准率提高12%左右,检索时间与最快的算法持平。结论 本文提出的多索引加法量化编码算法,有效改善了图像视觉特征的近似表示精度和存储空间需求,并提升了在大规模数据集的检索准确率和召回率。本文算法主要针对特征进行近邻检索,适用于海量图像以及其他多媒体数据的近邻检索。  相似文献   

7.
现有的不确定XML关键字查询算法均需遍历不确定XML文档,并且算法在执行过程中需要频繁的字符串比较,造成时间浪费。针对上述问题,提出基于扩展倒排索引的不确定XML关键字查询算法Pr E。扩展倒排索引有效地存储了不确定XML文档中节点的相关信息,根据扩展倒排索引即可初始化动态哈希表和序号编码链表,并且Pr E算法在执行过程中利用整数的比较代替了字符串的比较。理论分析与实验结果表明,Pr E算法是一种高效的不确定XML关键字查询算法。  相似文献   

8.
在移动计算中,如何节约移动设备的电源是一个重要的研究方向。采用索引广播的方式可以使移动设备选择性地监听信道,从而减少了电源的消耗。该文提出了为广播数据建立基于访问概率的索引技术,并分固定扇出的非平衡索引树和可变扇出的索引树两种情况讨论如何降低平均访问代价。针对这两种情况,分别设计了构造索引树的算法。  相似文献   

9.
采用菌落生长和速率法,选择多菌灵、粉锈宁等7种杀菌剂,单用或配对等量混用,对云杉雪霉病的主要病原菌之一窄截盘多毛孢进行毒力测定。结果表明;大多数混剂的毒力均显著高于单剂毒力;增效作用较大的混剂是:多菌灵+代森锌、多菌灵+粉锈宁、多菌灵+福美砷、多菌灵+退菌特、托布津+退菌特、福美砷+退菌特。  相似文献   

10.
11.
A Hybrid Index Technique for Power Efficient Data Broadcast   总被引:1,自引:0,他引:1  
The intention of power conservative indexing techniques for wireless data broadcast is to reduce mobile client tune-in time while maintaining an acceptable data access time. In this paper, we investigate indexing techniques based on index trees and signatures for data disseminated on a broadcast channel. Moreover, a hybrid indexing method combining strengths of the signature and the index tree techniques is proposed. Different from previous studies, our research takes into consideration of two important data organization factors, namely, clustering and scheduling. Cost models for the three indexing methods are derived for various data organization accommodating these two factors. Based on our analytical comparisons, the signature and the hybrid indexing techniques are the best choices for power conservative indexing of various data organization on wireless broadcast channels.  相似文献   

12.
随着计算机的广泛应用以及互联网的飞速发展,互联网流量呈现爆炸式增长的态势。为了应对日益严重的网络滥用以及网络安全事件,出于安全取证的需要,必须对互联网流量进行收集、存储和分析。互联网流量的监控需要及时统计网络流量的源地址、目的地址、源端口、目的端口、协议、时间戳等信息,以便进行流量统计和综合分析。但是网络流量信息是海量的,如何快速检索相关流量是一个挑战性问题。在搜索引擎中,为了处理海量数据检索,倒排索引是快速搜索技术的关键方法。文章把搜索引擎中的倒排索引方法和索引压缩算法应用到互联网网流信息检索中。通过实验测试和验证,在网流信息检索中,倒排索引以及索引压缩算法能够有效提高检索速度。  相似文献   

13.
为降低集成电路的测试数据量,提出一种分组合并的索引编码压缩方案。该方案将原始测试集以固定宽度分组,根据相关性对每组测试字段进行群划分,选取若干较大的群,分别合并为标准字段存入解压结构的ROM中以备索引,并对测试字段进行索引编码。给出解压过程及实验结果,通过与其他编码方案的比较,证明该方案可行有效,且硬件开销较小。  相似文献   

14.
地形数据的空间自相关性有着很强的方向属性。为了充分地利用这一属性来消除地形数据之间的信息冗余度,本文提出了一种自适应分块的编码方法。首先确定地形带的自相关方向属性,然后依照地形方向性的不同,将数据按不同矩形形状进行方块划分,然后对较平坦的地形块和剧烈变化的地形块分别采用MVQ方法和BTC-VQ方法进行编码,以保护边缘信息。这种采用自适应分块式的编码方法与通常使用的固定分块方式的编码方法相比,可以大  相似文献   

15.
混合定变长码的测试数据压缩方案   总被引:6,自引:0,他引:6  
文章提出了一种混合定变长码的测试数据压缩方案,该方案可以有效压缩芯片测试数据量.此压缩方案将代码字拆分为固定长度的首部和可变长度的尾部两部分.首部固定使解压过程简单,硬件开销小,尾部可变使编码灵活.同时采用了将尾部最高位隐藏的方法来进一步提高压缩率,还使用了特殊的计数器来进一步简单化解压电路.对ISCAS 89部分标准电路的实验结果显示,文中提出的方案在压缩效率和解压结构方面都明显优于同类压缩方法,如Golomb码、FDR码、VIHC码、v9C码等.  相似文献   

16.
在64位体系结构的CPU中,字长从32位扩展到64位,处理器每次可以处理的数据也增加到64位。这对搜索引擎使用的核心数据结构——倒排索引的压缩与解压缩带来一定的影响。针对当前32位整数字对齐压缩算法Simple不适用于64位系统的问题,对其进行改进,并提出3种基于64位的字对齐压缩算法,即SimpleX64-16、SimpleX64-32和SimpleX64-64。3种算法都采用多种压缩模式,并对每个模式进行压缩空间的优化。在64位机器上GOV2和ClueWeb09B数据集的倒排索引实验结果表明,与传统的基于32位字对齐的压缩算法相比,3种基于64位字对齐的算法在解压速度方面最多提高14.5%,在压缩率方面最多提高2.5%。  相似文献   

17.
In a wireless environment, the bandwidth of the channels and the energy of the portable devices are limited. Data broadcast has become an excellent method for efficient data dissemination. In this paper, the problem for generating a broadcast program of a set of data items with the associated access frequencies on multiple channels is explored. In our approach, a minimal expected average access time of the broadcast data items is first derived. The broadcast program is then generated, which minimizes the minimal expected average access time. Simulation is performed to compare the performance of our approach with two existing approaches. The result of the experiments shows that our approach outperforms others and is in fact close to the optimal.  相似文献   

18.
倒排索引是大多数大型文本搜索系统的核心数据结构,索引压缩可以有效地减少倒排索引的空间占用,提升检索效率。针对倒排索引压缩算法中的字节对齐编码进行研究,对于其压缩率不够优秀的问题,提出了分区可变单位编码(PVU编码)。算法以可变单位方式代替固定字节存储,使实际存储空间更加贴合原码长度,从而提高压缩效果。针对序列均匀分区并非最优分区的问题,提出将最优分区问题转化为图论中最短路径问题的方法,使用Dijkstra算法求解序列的最优编码分区。通过对比实验验证了改进优化的PVU编码相较于传统的字节对齐编码能够更好地压缩倒排索引序列。  相似文献   

19.
应用扩展前缀编码的测试数据压缩方案   总被引:1,自引:1,他引:0  
提出一种扩展前缀编码的测试数据压缩方案,采用变长到变长的编码方式对任意长度的0游程和1游程编码,代码字由前缀和尾部组成,用扩展的前缀表明编码的游程类型;不引入额外的标记位,并能有效地压缩芯片测试数据量.理论分析和实验结果表明:扩展前缀编码能取得比FDR编码更高的压缩率,能够更好地适应于多样的编码对象.解压时使用一种特殊的计数器简化控制电路,解码电路硬件开销小且较易实现.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号