首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
一种实时更新索引结构的设计与实现   总被引:5,自引:1,他引:4  
在搜索引擎的信息检索中,索引性能的优劣是影响检索质量的一个重要因素.本文针对面向主题搜索引擎内容覆盖范围窄、更新速度快的特点,设计了一种实时更新的索引结构,该方案的倒排索引结构打破了传统索引单一结构的形式,由主倒排索引、附加倒排索引和删除文件列表组成,很好的解决了索引的更新问题,实验结果显示该索引结构具有良好的性能.  相似文献   

2.
一种支持高效检索的即时更新倒排索引方法   总被引:8,自引:1,他引:8  
随着万维网的快速发展,产生了一种全新概念的高效文档索引技术,文章实现了一种支持高效检索及即时更新的倒排索引,它是WebME(WebMiningEnvironment)原型系统的一部分,这部分用来对特定的查询进行高效的检索,并支持即时增量索引,即对新加入的文档可以立即加入索引,且不用重新对原内容进行重索引,并且在更新索引时不会影响查询的进行。  相似文献   

3.
随着新的内容通过各种方式来获得,实时搜索引擎成为非常具有挑战性的工作。搜索引擎应具有高效的索引机制,同时也要确保索引的新鲜度和覆盖的范围。这样就要求搜索引擎支持更快的索引更新。延迟索引的检索延迟和索引延迟对新鲜度发挥了重要作用。前者是基于时间获取内容,而后者是根据发布时间让索引获取更新的内容。提出了一种框架,优化索引延迟和索引覆盖,并对实验结果进行了分析,证明该框架能够实现索引的新鲜和覆盖,从而支持更快地对搜索查询的处理。  相似文献   

4.
索引结构是搜索引擎的核心,直接影响着搜索引擎的检索性能。本文提出了一种新的索引结构,该结构充分利用字符串前缀个数及排列顺序的潜在规律,在查找过程中有效地重用了先前的匹配信息,提高了检索的效率。  相似文献   

5.
在分布式数据传输中,UDP协议由于实现机制简单、传输效率高,被大量应用系统所采用。为了数据分析和处理的需要,常常要对录取得到的海量UDP报文数据进行搜索,以得到符合要求的报文。针对以上需求,文章在UDP报文数据的搜索中引入倒排索引机制。从存储、生成两个方面对UDP报文倒排索引进行了详细论述,并介绍了利用UDP报文倒排索引的报文搜索方法。  相似文献   

6.
根据本向量的维分布的稀疏性,提出了基于倒排索引的本相似搜索算法。该算法通过倒排索引进行维过滤,快速获得尽量小的目标集的超集。实验表明,在海量本环境下,该方法虽略微损失准确度,但其速度远远高于传统基于多维索引的算法。  相似文献   

7.
增量更新关联规则挖掘主要解决事务数据库中交易记录不断更新和最小支持度发生变化时关联规则的维护问题。针对目前诸多增量更新关联规则挖掘算法存在效率低、计算成本高、规则难以维护等问题,提出一种基于倒排索引树的增量更新关联挖掘算法。该算法有效地将倒排索引技术与树型结构相结合,使得交易数据库中的数据不断更新和最小支持度随应用环境不同而不断改变时,以实现无需扫描原始交易数据库和不产生候选项集的情况下生成频繁项集。实验结果表明,该算法只需占用较小的存储空间、且检索项集的效率较高,能高效地解决增量更新关联规则难以维护的问题。  相似文献   

8.
高效地访问倒排索引是搜索引擎快速响应用户查询的关键,而压缩倒排列表是提高搜索引擎性能的最重要的手段之一。针对自适应分段压缩ASCS算法进行了研究,对于ASCS算法中采用的均匀分段方式并非最优分段问题,提出以人工蜂群算法优化ASCS算法中的分段方式;对于ASCS算法考虑序列占用空间的影响因素过于单一问题,提出多因素下的改进算法;对于分布不均的长序列在ASCS算法下压缩率不理想问题,提出先排序后差分编码操作后再以ASCS算法压缩。通过对比实验证明优化改进后的算法可以较显著的压缩倒排索引。  相似文献   

9.
孙晓玲  杨光  沈焱萍  杨秋格  陈涛 《计算机应用》2021,41(11):3288-3294
为快速检索云环境下的加密数据,提出了一种高效的适用于批量数据处理场合的可搜索加密方案。首先,由客户端创建两个倒排索引,分别是存储了文件-关键词映射的文件索引和用于存储关键词-文件映射的空的搜索索引;然后,将这两个索引提交给云服务器。搜索索引是在用户检索过程中由云端根据搜索凭证和文件索引逐渐更新建立的,记录了已被检索关键词的检索结果,该方法将搜索索引的构建时间有效分摊了到了每次检索过程中并节省了存储空间。索引采用基于key-value结构的集合存储方式,支持索引的同时合并和拆分,即在添加和删除文件时,由客户端根据要添加或删除的文件集生成对应的文件索引和搜索索引,然后服务器对索引进行合并和拆分,从而实现文件的快速批量添加和删除。测试结果表明,所提方案极大提高了文件更新的效率,适用于批量数据处理。通过泄露函数证明了该方案能满足自适应动态选择关键词攻击下的不可区分性安全标准。  相似文献   

10.
一种基于Lucene的影片搜索引擎的研究和应用   总被引:1,自引:0,他引:1  
Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它不仅支持中文检索,还具有搜索速度快、易于扩展等优点。仿真实验证明提出的基于Lucene的影片搜索引擎具有良好的性能。  相似文献   

11.
陈勇  李亚楼  田芳  张量 《计算机工程》2011,37(17):268-270,273
在电力系统动态电磁暂态仿真的并行计算中,存在超实时和硬实时的问题。为此,提出一种基于MPI的实时并行计算平台。引入硬实时操作系统RTLinux,采用实时内核和PSDD编程模式对仿真并行计算程序、MPICH并行环境和GM软件等进行重构,以获得硬实时特性。测试结果证明,该平台的平均时间性能提高约10%,时间的最大抖动幅度降低50%~80%,并减少了时间的抖动频率。  相似文献   

12.
搜索引擎的混合索引技术   总被引:5,自引:0,他引:5  
倒排文件是搜索引擎检索系统普遍采用的索引技术。针对中文搜索引擎中采用自动分词的全文检索因分词词典规模小导致的检索效率下降与词典规模扩大导致检索效果下降的矛盾,论文在天网搜索引擎的实践基础上,提出了一种基于倒排文件实现的混合索引的方法,它可以有效提高搜索引擎下短语查询的检索效率,同时不影响系统检索效果。  相似文献   

13.
针对目前图书馆的各种电子资源都需要在各自的平台上单独检索的问题,提出构建基于搜索引擎的一站式检索平台,实现在统一的检索界面上,一次检索就能获得所有电子资源的相关文献信息,使读者能在最短的时间内获得最深入、最准确、最全面的文献信息。  相似文献   

14.
基于CUDA的并行布谷鸟搜索算法设计与实现   总被引:1,自引:0,他引:1  
布谷鸟搜索(cuckoo search,CS)算法是近几年发展起来的智能元启发式算法,已经被成功应用于多种优化问题中。针对CS算法在求解大数据、大规模复杂问题时,计算时间过长的问题,提出了一种基于统一计算设备架构(compute unified device architecture,CUDA)的并行布谷鸟搜索算法。该算法的并行实现采用任务并行与数据并行相结合的方式,利用图形处理器(graphic processing unit,GPU)线程块与线程分别映射布谷鸟个体与个体的每一维数据,并行实现CS算法中的鸟巢位置更新、个体适应度评估、鸟巢重建、寻找最优个体操作。整个CS算法的寻优迭代过程完全通过GPU实现,降低了算法计算过程中CPU与GPU的通信开销。对4个经典基准测试函数进行了仿真实验,结果表明,相比标准CS算法,基于CUDA架构的并行CS算法在求解收敛性一致的前提下,在求解速度上获得了高达110倍的计算加速比。  相似文献   

15.
高龙  贾宏  周俭 《计算机工程》2009,35(6):257-259
研究现有网格技术和搜索技术,分析并行搜索引擎的优点和不足,提出基于网格技术的并行搜索引擎解决方案,其中包含一个3层结构的应用框架和一个并行搜索引擎的应用方案。根据该方案实现并部署一个基于网格的并行搜索引擎——MSE1.0,获得了较好的检索结果。  相似文献   

16.
Large web search engines have to answer thousands of queries per second with interactive response times. Due to the sizes of the data sets involved, often in the range of multiple terabytes, a single query may require the processing of hundreds of megabytes or more of index data. To keep up with this immense workload, large search engines employ clusters of hundreds or thousands of machines, and a number of techniques such as caching, index compression, and index and query pruning are used to improve scalability. In particular, two-level caching techniques cache results of repeated identical queries at the frontend, while index data for frequently used query terms are cached in each node at a lower level. We propose and evaluate a three-level caching scheme that adds an intermediate level of caching for additional performance gains. This intermediate level attempts to exploit frequently occurring pairs of terms by caching intersections or projections of the corresponding inverted lists. We propose and study several offline and online algorithms for the resulting weighted caching problem, which turns out to be surprisingly rich in structure. Our experimental evaluation based on a large web crawl and real search engine query log shows significant performance gains for the best schemes, both in isolation and in combination with the other caching levels. We also observe that a careful selection of cache admission and eviction policies is crucial for best overall performance. Work supported by NSF CAREER Award CCR-0093400 and the New York State Center for Advanced Technology in Telecommunications (CATT) at Polytechnic University.  相似文献   

17.
基于Linux集群的并行计算   总被引:2,自引:4,他引:2       下载免费PDF全文
对普通用户来说,在专业集群中进行并行计算的处理,存在费用高、管理困难和操作复杂等问题。针对该问题,利用PC和以太网相连的实验环境,采用集群工作框架和并行计算的关键技术,提出基于Linux集群的并行计算系统环境。在该环境上对系统的性能进行测试,结果证明了系统的可行性。  相似文献   

18.
为了提升高性能计算环境的易用性并降低使用门槛,本文提出了一种基于高性能计算环境的通用科学计算应用平台构建方案,旨在为用户提供更便捷、体验更友好、简单高效的科学计算服务。用户通过访问网页即可输入计算参数、提交任务、查看执行结果并集中管理不同应用的计算任务和历史数据,无需安装相关工具或者记忆操作命令。该方案设计充分考虑了应用间的差异性,拥有良好的扩展性,易于部署和迭代,同时拥有良好的安全性。  相似文献   

19.
索引技术是搜索引擎的核心技术之一,索引技术的好坏直接影响到搜索引擎的查准率以及对用户的响应速度。Lucene是一个优秀的全文检索引擎架构,采用高度优化的倒排索引结构并支持增量索引。但在实际应用Lucene时存在一个值得关注的问题:随着被索引文件的增多,索引时间成线性增长,导致建索引的过程会影响搜索体验;在搜索引擎应用中,当索引文件量达到一定等级时,搜索引擎就遇到性能瓶颈。在深入分析和研究Lucene索引机制的基础上,采用以内存为缓冲区建索引文件的分布式并行索引技术形成了一个可扩展的搜索引擎解决方案,极大地缓解了建索引给搜索带来的瓶颈问题。  相似文献   

20.
边缘智能计算对硬件资源的需求复杂多元,传统计算平台难以为继,异构并行计算平台成为边缘智能算法落地的关键途径之一。以深度学习算法和边缘计算为牵引,对异构并行计算平台展开研究。一方面,阐述了传统计算平台适配实现边缘智能计算的优缺点,指出边缘端应用场景中传统计算平台算力与功耗矛盾突出等局限性,并以指令模型、通讯机制和存储体系三个关键技术为线索梳理技术发展脉络。另一方面,从运算速度、功耗等角度重点对比分析了近年来典型异构平台较新的代表性产品,然后针对不同应用场景和约束条件给出了异构平台的选择建议:优先选择CPU+X组合的异构平台。功耗要求严格约束下的应用建议优先选择CPU+FPGA组合;功能迭代更新快的场景建议优先选择CPU+GPU组合;算法成熟且对实时性和功耗均具有高要求的应用优先选择ASIC计算平台。提出了异构并行计算平台在指令模型统一、通讯机制轻量化、存储体系灵活性以及开发生态完备化四个方面的问题与挑战,期望能为该领域研究人员带来一定的启发。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号