首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
针对搜索引擎搜索索引大小不同时的效率不一致问题,文中在Hadoop分布式计算平台上利用Map-Reduce框架搭建分布式的搜索引擎及查询子系统,生成一种改进的自适应性切换搜索算法,以索引文件实现了高效的检索,索引文件较小时将其直接存入内存,索引文件较大时建立二级索引并读取内存中的索引列表,进行分布式的查询,通过设置足够多的集群的节点数进行测试。测试结果表明:当索引大小达到1 000 MB,搜索时间由原始搜索算法的16.631 s缩短至7.259 s,文中方法对索引文件的搜索效率有显著提高。在索引文件更大的情况下,文中算法的优势也更明显,从而可以为网络论坛、网站以及其他用户提供高效的分布式搜索服务。  相似文献   

2.
数字图书馆中文本信息检索技术的研究与实现   总被引:3,自引:0,他引:3  
介绍了一个并行数字图书馆原型系统PDL,和用于该系统的针对文本信息检索的一些数据结构,包括倒排索引,结构索引,RANK索引和词典等,并在此结构的基础上设计实现了基于内容和结构的查询算法。这些算法以计算机机群并行环境为基础.实验表明并行数据查询具有良好的性能。  相似文献   

3.
随着主存技术的发展,系统级分布式主存多媒体数据库存储规模不断扩大,查询越来越复杂,分布式并行索引以其高性能而逐渐成为解决此类复杂查询问题的有效手段.文章提出一种新的适合于分布式并行索引的树结构--DPHI-Tree.该索引树以B树为基础,利用PCA降维技术,将树的各层节点采用不同的维度表示,提高了缓存空间的利用率,降低了CPU负载.另外,采用标识根到节点路径的二进制编码来对节点索引,在查询数据量急剧增加时,PHI-Tree对基于树的数据随机访问具有良好性能.  相似文献   

4.
基于Hadoop MapReduce的大规模数据索引构建与集群性能分析   总被引:1,自引:0,他引:1  
为了满足搜索引擎构建索引的时空开销需求,构建高效的分布式索引,利用Hadoop搭建分布式集群环境,基于MapReduce编程实现大数据倒排索引.采用不同的网络带宽、数据量和集群节点数来评估Hadoop集群的性能.实验结果表明:网络带宽越大,集群处理效率越高;集群节点数越多,处理大数据的能力越强.可见,网络通信带宽对Ha...  相似文献   

5.
研究并设计了装备采办知识搜索引擎系统结构,包括搜索模块、索引模块、检索模块、查询扩展模块和结果聚类模块。就装备采办知识管理搜索关键技术查询扩展模块和结果聚类模块,提出了相似性度量的渐进直推式支持向量机(similarity measurement progressive tranductive support vector machine,SMPTSVM)查询扩展模型,以及基于人工免疫算法的搜索引擎结果聚类算法。实验结果表明,该模型和算法提高了搜索结果的查全率、查准率及搜索结果的平均聚类精度。  相似文献   

6.
为提高搜索引擎的查准率,提出了一种基于群用户兴趣模型的加权全局相关度查询排序算法。算法综合考虑了用户搜索意图与搜索结果的全局相关度,改进了搜索引擎的排序结果,为用户提供了准确的搜索服务。实验结果表明,与用户意图相关的搜索结果能够排在最前面,搜索准确率明显提高。  相似文献   

7.
针对目前非结构化对等网络搜索算法查询到的资源量少、查询效率不高而且系统开销巨大的缺陷,提出了基于资源规模的搜索机制.将分散在各个节点上的资源索引信息向局部区域内资源规模较大的节点进行聚集,按照索引规模描述参数的扩散方向建立起冗余的资源索引系统.执行搜索动作时,查询命令沿着资源规模最大的一条路径向前传递,并采用回溯和重新选择邻居节点的方法处理失败的查询命令,在有限的搜索生命期内尽量地向前投递查询请求.对比试验证明:该算法能够在较少的步骤内覆盖对等网络的大部分资源信息,同时系统的开销较低.算法具有较高的查询效率,有效地提高了系统的性能.  相似文献   

8.
针对分布式计算中的任务-处理器分配问题,提出了2种基于A*算法的改进算法。通过对A*算法原理的分析,得到将A*算法应用于任务分配问题的搜索树模型,和通过将搜索树在处理单元之间尽可能均匀地进行划分和通过避免不必要的节点扩展来得到最优解;实验结果表明,提出的2种改进算法,相比于传统的A*算法,不仅能够通过减少搜索空间节省内存和减少任务执行时间,而且能够通过并行分配来提高算法执行时的加速性。  相似文献   

9.
针对各检索词在整个查询中的权重不同和由检索词组合顺序不同而导致的暗含语义差异的问题,利用正排索引和倒排索引的结构特点,在基于倒排索引和向量空间检索模型的基础上加入相应的预处理算法,提出了查询步进和文档步进的概念,并分析了由此对检索带来的影响,给出了与检索词排列顺序相关的全文检索方法.  相似文献   

10.
针对现有分布式文件系统处理海量小文件时存在的主节点元数据处理性能瓶颈问题,提出采用分布式文件来存储元数据,并通过元数据缓冲和Hash映射实现元数据的分布;采用Map Reduce并行程序对元数据检索进行了实现,并指出了并行检索中存在的问题,提出采取局部位图索引对元数据检索进行了优化.最后通过实验进行了验证,实验结果证明,该方法实现了海量元数据的分布式存储与检索,避免了现有分布式文件系统在处理海量小文件时存在的主节点单点性能瓶颈.  相似文献   

11.
RPDDP:一种能源有效的无线传感器网络路由协议   总被引:1,自引:0,他引:1  
描述了不同的查询机制;分析了分布式数据处理算法及其能耗特性;提出了一种能源有效的路由协议RPDDP并给出了RPDDP的协议描述。RPDDP采用双向查询机制以节省路径建立过程的能源消耗;通过提供分布式网络数据处理有效地减少了通信开销;并且为用户提供能源节约和可靠性之间的折中机制。仿真实验结果表明与已有的传统查询机制相比,RPDDP的查询成功概率较高,平均每个分组的通信开销较低;当sink同时发送2个查询包时,网络性能最优。  相似文献   

12.
为了提高多区块链间的连接查询处理效率,提出多区块链环境下的连接查询优化算法. 该方法在传统的多区块链模型中增加语义信息,构建语义多区块链模型,为多区块链间的连接查询提供基础. 基于该模型,参考分布式数据库的索引结构,提出多区块链间的连接索引结构,将多条区块链进行属性连接,提高连接计算的效率,减少数据传输的通信代价. 在此基础上,提出多链连接查询优化算法,提升多区块链连接查询的效率. 最后,在2个真实公开的数据集上进行实验. 结果表明,多区块链间的连接索引结构稳定;与传统的直接进行连接查询的操作相比,多区块链连接查询优化方法简化了查询处理过程,通过访问连接索引直接获取查询结果,减少了本地计算负载和网络开销,提高了查询效率.  相似文献   

13.
由于传统局部敏感散列(LSH)算法的删除性能不足,阻碍了LSH算法在实际产品中的应用.提出一种基于压缩位图的改进方法,通过引入压缩位图改良传统LSH算法的桶中数据结构,以及使用标记清除策略进行算法流程优化,解决传统LSH索引实时删除性能差的问题.理论分析证明:基于压缩位图的LSH(CB-LSH)算法可以显著降低算法的空间复杂度和时间复杂度.实验结果支撑了理论分析的结论,相对于传统LSH算法,CB-LSH在降低内存消耗的同时,可显著提高索引删除、数据插入和数据查询的性能.在大型项目中的应用实践验证了在线实时更新的海量多媒体数据检索系统中,CB-LSH索引算法对于多媒体数据的高维索引是有效可行的,并显著提升了性能、降低了资源消耗.  相似文献   

14.
为解决传统FAT格式文件数据按顺序存取方式无法适应在大容量存储设备中大规模目录文件的读取查询操作等问题,在嵌入式文件系统中采用磨损平衡算法及位图存储技术对NandFlash存储介质实现Flash域磨损优化,并对嵌入式文件系统的索引存储和空闲目录进行优化管理。系统使用仿真器进行仿真程序开发,并在基于ARM9的MagicARM2410开发板进行仿真实验。实验结果表明,该文件系统能实现其基本功能,其可行性得到验证。  相似文献   

15.
目的设计基于网格索引的Top-k偏好查询算法,提高Top-k偏好查询问题的解决效率.方法利用网格索引,采用概念划分的方法,实现基于范围查询和NN查询两种方式的Top-k偏好查询算法.结果通过真实数据集测试结果表明算法能够结合网格索引的优点,与基于R树索引的传统算法相比,在k值不断增加的情况下,查询效率提高了50%,能适应多种空间特征数据对象集合.结论网格索引可以有效处理Top-k偏好查询.  相似文献   

16.
最频繁项集挖掘决定了文本关联规则挖掘算法的性能,是文本关联规则挖掘中研究的重点和难点。该文分析了当前最频繁项集挖掘方面的不足,改进了传统的倒排表,结合最小支持度阈值动态调整策略,提出了一个新的基于改进的倒排表和集合理论的Top-N最频繁项集挖掘算法。同样,给出了几个命题和推论,并把它们用于该文算法以提高性能,实验结果表明,所提算法的规则有效率和时间性能优于NApriori算法和IntvMatrix算法。  相似文献   

17.
针对大型结构的故障检测与分类问题,提出了一种基于GA进化机制的人工免疫算法.该算法将样本结构模式数据作为抗原刺激抗体集合,抗体集合经过选择、交叉、变异、构建最优抗体集合这一进化过程来提高记忆细胞质量,利用训练好的记忆细胞集合实现对实测数据的故障检测与分类.在Benchmark结构模型上的仿真实验结果表明,该算法能实现有效的故障模式识别,且提高了故障分类的成功率,引入了多父体交叉操作,扩大了算法的搜索范围,且能有效利用其他抗体的优良模式,克服了单纯人工免疫算法收敛速度慢的不足.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号