期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张健孙未未《计算机工程》2015,41(1)

无线环境的特殊性导致传统的关键字检索方法不能很好地用于周期数据广播之中.倒排表是全文检索中广泛使用的一种索引技术,但倒排表索引和基于哈希的数据索引无法解决索引结构过大的问题.为此,在周期数据广播环境下,提出一种新型的关键字索引结构,对倒排表进行编码压缩,缩减索引结构来减少访问时间和调谐时间.同时,与编码压缩索引相结合,设计一种周期数据广播下的文档调度方法.在真实数据集上进行的实验结果表明,该方法可缩减索引结构的规模,降低访问延迟和能耗. 相似文献

2.

编码单位可变的倒排索引压缩算法研究

安兆翔瞿有利《计算机工程与应用》2019,55(15):82-88

倒排索引是大多数大型文本搜索系统的核心数据结构，索引压缩可以有效地减少倒排索引的空间占用，提升检索效率。针对倒排索引压缩算法中的字节对齐编码进行研究，对于其压缩率不够优秀的问题，提出了分区可变单位编码（PVU编码）。算法以可变单位方式代替固定字节存储，使实际存储空间更加贴合原码长度，从而提高压缩效果。针对序列均匀分区并非最优分区的问题，提出将最优分区问题转化为图论中最短路径问题的方法，使用Dijkstra算法求解序列的最优编码分区。通过对比实验验证了改进优化的PVU编码相较于传统的字节对齐编码能够更好地压缩倒排索引序列。相似文献

3.

基于扩展倒排索引的不确定XML关键字查询算法

牛大伟苏龙超韩雨童张晓琳《计算机应用与软件》2015,(4)

现有的不确定XML关键字查询算法均需遍历不确定XML文档,并且算法在执行过程中需要频繁的字符串比较,造成时间浪费。针对上述问题,提出基于扩展倒排索引的不确定XML关键字查询算法Pr E。扩展倒排索引有效地存储了不确定XML文档中节点的相关信息,根据扩展倒排索引即可初始化动态哈希表和序号编码链表,并且Pr E算法在执行过程中利用整数的比较代替了字符串的比较。理论分析与实验结果表明,Pr E算法是一种高效的不确定XML关键字查询算法。相似文献

4.

基于倒排表与B+树的联合索引技术

下载免费PDF全文

刘高嵩万里勇龙军《计算机工程》2012,38(16):49-51

为提高XML文档的查询效率,提出一种基于倒排表与B+树的联合索引技术。DTD结构索引和内容索引采用倒排表作为索引单位,XML文档索引使用B+树作为索引基本组织。在DTD结构索引的结点编码中设置标识信息,便于确定需要查询的文档。通过建立DTD结构索引、XML文档索引和内容索引,实现混合型XML文档的查询。理论分析与实验结果表明,该技术具有较小的空间开销和较高的查询效率。相似文献

5.

一种高效的全文检索索引技术* 总被引：7，自引：0，他引：7

陈玮陈玉鹏石晶陆达《计算机应用研究》2004,21(7):35-37

针对目前比较流行的基于词的倒排文档索引模型,结合全文检索数据的特点,提出了变长编码的索引压缩算法。利用该压缩编码,研究了基于内存缓存的快速创建索引的流程。通过实验,对索引膨胀率、创建时间和检索响应速度进行了对比分析,表明该技术提高了索引的空间与时间效率。相似文献

6.

基于CRF的分区倒排索引压缩算法

王子琛瞿有利《计算机与现代化》2024,(2):36-42+55

倒排索引是大型搜索引擎的核心数据结构,本质是倒排列表中整数序列的集合。倒排索引压缩可以有效减少倒排索引所占空间,提高对关键词的检索效率。本文提出的基于条件随机场（CRF）的分区倒排索引压缩算法主要关注域值分区的分区方式。该算法对序列进行预分区,并且使用条件随机场对预分区进行标注并重组,有效减少了压缩时间。根据分区类型,该算法使用相应的编码方式,进一步减少了压缩后的空间占用。与其他倒排索引压缩算法进行对比实验分析,结果表明本文算法在压缩率上超过目前一些域值分区的算法,并且在解压时间上与其他域值分区算法相当。该算法在时间和空间上取得了较好的平衡。相似文献

7.

基于XML的索引动态更新研究与实现

孙伟刘大昕张万松《计算机应用研究》2005,22(2):177-179

提出了一种基于倒排表的索引,能很好地支持文档结构和内容的动态更新。该索引结构建有基于词条的水平索引和基于元素标志GID的垂直索引,这种双重索引结构能高效地支持文档的局部更新。另外给出了基于上下文共现分析技术的语义检索和利用关系数据库实现该索引的方法。相似文献

8.

一种倒排索引压缩方法

白福均高建瓴李宛荣贺思云肖绍武《计算机应用研究》2019,36(1)

高效地访问倒排索引是搜索引擎快速响应用户查询的关键,而压缩倒排列表是提高搜索引擎性能的最重要的手段之一。针对自适应分段压缩ASCS算法进行了研究,对于ASCS算法中采用的均匀分段方式并非最优分段问题,提出以人工蜂群算法优化ASCS算法中的分段方式;对于ASCS算法考虑序列占用空间的影响因素过于单一问题,提出多因素下的改进算法;对于分布不均的长序列在ASCS算法下压缩率不理想问题,提出先排序后差分编码操作后再以ASCS算法压缩。通过对比实验证明优化改进后的算法可以较显著的压缩倒排索引。相似文献

9.

面向XML文档检索的索引技术

满慎江陈金森郭希娟原福永《小型微型计算机系统》2008,29(1):89-92

XML文档的查询索引是当前研究的热点.该文探讨XML文档的索引技术,包括索引结构的设计等问题,给出了一个高效的XML索引方法,采用独特的编码方法,对XML文档及其遵循的DTD同时建立索引,有效支持内容和结构的双重检索;该方法结合了区间编码、倒排表和路径索引的思想,利用DTD结构信息来提高查询的效率.实验结果表明,本文提出的方法可以有效地降低建立XML数据索引的代价,能够缩短查询的响应时间. 相似文献

10.

基于有向无环图的倒排链等字长划分压缩算法

姜琨刘征朱磊李晓星《计算机应用》2021,41(3):727-732

在搜索引擎的倒排索引等字长（FWA）类型压缩算法中，倒排链的“贪心”分块划分策略和码字信息的交错存储使算法难以达到最优的压缩效果。针对上述问题，提出了一种基于有向无环图（DAG）的FWA划分压缩算法。首先，考虑到互联网网页聚类特性带来的倒排链小数字信息，设计了一种数据区为64位分块的新型FWA压缩格式。该压缩格式通过4位的指示区将数据区划分为16种适合于连续小数字压缩的存储模式，并将倒排链每个分块的指示位和数据位分类存储，从而保证了较好的批量解压性能。其次，在新压缩格式的基础上提出一种基于DAG描述的倒排链FWA划分压缩方法——固定字对齐划分（WAP）算法。该算法利用DAG将倒排链分块划分问题归结为单源最短路径（SSSP）问题，并考虑FWA压缩格式中数据区存储模式的限制条件来确定SSSP问题的结构形式和递归定义。然后，给出了采用动态规划求解SSSP问题并形成最优划分向量的伪码和算法复杂度，并对S9、S16、S8b等传统FWA算法的原有存储模式进行了基于DAG的划分优化，把优化前后的算法的计算复杂度进行比较分析。最后，使用仿真整数序列数据和文本检索会议（TREC） GOV2网页索引数据进行压缩性能实验。实验结果表明，相较于传统FWA类型算法，基于DAG的FWA划分算法在通过批量解压和划分优化技术提升算法的压缩率和解压速度同时，对连续小数字整数序列进行压缩时能够获得比传统参照框架（FOR）类型算法更高的压缩率。相似文献

11.

基于BTM主题模型的对称可搜索加密方案

薛玉洁陈兰香穆怡《密码学报》2022,(1):88-105

为了实现基于语义的密文检索,提高密文检索的准确率和效率,本文提出了一种基于biterm主题模型(biterm topic model,BTM)的多关键词可排序对称可搜索加密方案(BTM-MRSE).通过主题模型对关键词和文档之间的潜在语义进行建模,用户利用查询关键词的概率分布作为检索陷门,根据查询关键词与文档之间的语义... 相似文献

12.

Efficient Update of Indexes for Dynamically Changing Web Documents

Lipyeow Lim Min Wang Sriram Padmanabhan Jeffrey Scott Vitter Ramesh Agarwal 《World Wide Web》2007,10(1):37-69

Recent work on incremental crawling has enabled the indexed document collection of a search engine to be more synchronized with the changing World Wide Web. However, this synchronized collection is not immediately searchable, because the keyword index is rebuilt from scratch less frequently than the collection can be refreshed. An inverted index is usually used to index documents crawled from the web. Complete index rebuild at high frequency is expensive. Previous work on incremental inverted index updates have been restricted to adding and removing documents. Updating the inverted index for previously indexed documents that have changed has not been addressed. In this paper, we propose an efficient method to update the inverted index for previously indexed documents whose contents have changed. Our method uses the idea of landmarks together with the diff algorithm to significantly reduce the number of postings in the inverted index that need to be updated. Our experiments verify that our landmark-diff method results in significant savings in the number of update operations on the inverted index. 相似文献

13.

个性化综合倒排索引在Lucene中的应用

林洁《数字社区&智能家居》2010,(4):932-934

该文针对目前通用搜索引擎存在的不足,提出在建立普通倒排索引的基础上,再建立一个记录用户手动标注信息的综合倒排索引,并结合渠道奖励词频算法和文档关注度算法动态更新综合倒排索引,最后在Lucene环境下实现了一个体现用户个性的搜索引擎。相似文献

14.

一种基于XML文档关键字检索的结构索引 总被引：2，自引：0，他引：2

娄颖李战怀郭文琪陈群韩萌《计算机科学》2010,37(12):120-124

XML数据索引对其检索效率有较大的影响。在深入分析现有XMI、结构索引之后,结合XML文档特点,提出了一种基于关键字检索的结构索引--LSS(Level Structure Summary) . LSS采用了把具有相同标签路径的结点进行合并的策略,具有高效判断结点之间同构异构关系的能力。实现了LSS索引生成算法CSCAN,并在LSS索引的基础上设计了XML关键字检索算法LSSearch。该算法依据LSS索引,将各个关键字的原始倒排表集合分拆成不同类型的子集合,最后在所有子集合上进行查询。实验结果表明,LSS可以帮助减少XML文档中关键字倒排表的规模,提高检索效率。相似文献

15.

一种并行计算平台KD-60上的可实时更新文本搜索

龙柏方维孙广中陈国良《小型微型计算机系统》2012,33(4):712-715

实时性是影响搜索引擎性能的重要因素.针对这个因素,提出一种可实时更新的倒排索引结构并将其应用于国产万亿次高性能计算平台KD-60.该方案采用主、辅倒排索引和内容过滤索引相结合的方式,实现了搜索过程的实时性.同时,我们将其应用于高性能绿色计算平台KD-60,使之在一定的程度上实现了搜索的高效能.实验证明,基于KD-60平台的倒排索引结构有效的解决了搜索引擎的实时性问题,并可作为绿色计算的实际应用的一个典型实例. 相似文献

16.

一种支持高效检索的即时更新倒排索引方法 总被引：8，自引：1，他引：8

贾崇陆玉昌鲁明羽《计算机工程与应用》2003,39(29):198-201

随着万维网的快速发展,产生了一种全新概念的高效文档索引技术,文章实现了一种支持高效检索及即时更新的倒排索引,它是WebME(WebMiningEnvironment)原型系统的一部分,这部分用来对特定的查询进行高效的检索,并支持即时增量索引,即对新加入的文档可以立即加入索引,且不用重新对原内容进行重索引,并且在更新索引时不会影响查询的进行。相似文献

17.

深度程序理解视角下代码搜索研究综述

下载免费PDF全文

汶东震张帆刘海峰杨亮徐博林原林鸿飞《计算机工程与应用》2022,58(20):63-72

代码搜索任务旨在通过分析用户需求,结合用户意图来找到满足其需求的软件构件。在加强软件复用性的同时,提高软件开发维护效率,降低成本。与传统的文档检索不同,程序特性往往隐含在标识符和代码结构中,理解程序功能是实现高效代码搜索的关键。从深度程序理解视角切入对代码搜索任务进行定义,并总结梳理近期代码搜索研究进展。针对当前代码搜索研究评估方法和数据集进行了整理。针对研究中存在的问题,对未来代码搜索研究进行展望,为后来研究者提供参考。相似文献

18.

基于计数型布隆过滤器的文本检索模型

冯加军王晓琳田青《计算机工程》2014,(2):58-61

分布式文本检索系统难以兼顾高效率的数据检索和低成本的索引维护。为此,提出一种基于计数型布隆过滤器的文本检索模型CBFTRM。该模型将物理节点分为数据节点和索引节点,分别采用结构化P2P进行网络覆盖。每个数据节点负责存储文档数据并维护与之相应的倒排索引,同时通过倒排索引中的关键词集合计算出计数型布隆过滤器值,发送给相应的索引节点。每个索引节点建立一棵以部分数据节点的特征信息(包括过滤器值)为叶节点、以过滤器值运算结果为内部节点的搜索树,并在叶节点发生变化时对搜索树进行维护。仿真实验结果表明,该模型文档定位快,索引维护通信量小,而且具有较高的查准率。相似文献