首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
分布式文本检索系统难以兼顾高效率的数据检索和低成本的索引维护。为此,提出一种基于计数型布隆过滤器的文本检索模型CBFTRM。该模型将物理节点分为数据节点和索引节点,分别采用结构化P2P进行网络覆盖。每个数据节点负责存储文档数据并维护与之相应的倒排索引,同时通过倒排索引中的关键词集合计算出计数型布隆过滤器值,发送给相应的索引节点。每个索引节点建立一棵以部分数据节点的特征信息(包括过滤器值)为叶节点、以过滤器值运算结果为内部节点的搜索树,并在叶节点发生变化时对搜索树进行维护。仿真实验结果表明,该模型文档定位快,索引维护通信量小,而且具有较高的查准率。  相似文献   

2.
针对Hadoop Database(Hbase)仅支持主索引结构,即通过主键和主键的range来检索数据的问题,提出利用Counting Bloom Filter的新变体建立二级索引来支持非主键数据的检索.分析了已有的Counting Bloom Filter(CBF)技术,针对CBF溢出概率高的问题,提出一种新的Split Counting Bloom Filter(SCBF)技术,SCBF将标准CBF分成多个相互独立的区域,由这多个区域共同存储元素的fingerprint.实验结果表明,与标准CBF相比,SCBF降低了溢出概率,充分提高了过滤器的性能,可以很好地用来建立Hbase二级索引.  相似文献   

3.
张震  付印金  胡谷雨 《计算机应用》2018,38(8):2230-2235
相变存储器(PCM)凭借低功耗的优势有望成为新一代主存储器,但是耐受性的缺陷成为其广泛应用的重要障碍。现有的随机存取存储器(DRAM)缓存技术和磨损均衡分别从减少PCM写数量以及均匀化写操作分布两个角度延长PCM使用寿命,但前者在写回数据时未考虑数据的读写倾向性,后者在空间局部性较强的应用场景下存在数据交换粒度、空间开销、随机性等诸多问题。因此,设计一种全新的混合存储架构,结合最近最少使用(LRU)算法和带有时间变化的最不经常使用(LFU-Aging)算法提出区分数据读写倾向性的缓存策略,并且基于布隆过滤器(BF)设计针对强空间局部性工作集的动态磨损均衡算法,在有效减少冗余写操作的同时实现低空间开销的组间磨损均衡操作。实验结果表明,该策略能够减少PCM上13.4%~38.6%的写操作,同时有效均匀90%以上分组的写操作分布。  相似文献   

4.
王山  孙莉  吴杰  冯锋  王洪伟 《计算机科学》2017,44(Z11):552-556
分子相似性是虚拟筛选技术的重要环节,在计算机辅助药物设计中有着关键作用。在2D Fingerprint相似性判别过程中,一些典型的分子相似性评估过程使用了Hash函数进行分子指纹映射,然而Hash函数固有的冲突问题极易降低分子指纹的映射精度。提出了一种基于计数型布隆过滤器的指纹映射方法,对相似性判别过程进行了有效改进,并采用DUD LIB VS 1.0数据集对改进方法进行了比较验证,将ROCE,AUC,awROCE,awAUC值作为评价标准。与其他原始分子相似性方法相比,所提方法有效地提高了相似性判断的准确性和骨架跃迁能力。  相似文献   

5.
针对DDS简单自动发现算法中网络传输量大、内存消耗高以及端点匹配时间长的问题,提出一种基于单哈希计数布隆过滤器的DDS自动发现算法——SDP_OHCBF。通过将标准布隆过滤器升级为计数布隆过滤器以支持元素删除操作,使用单个哈希函数和取模运算代替标准布隆过滤器中的多个哈希运算,加快布隆过滤器的元素查询过程。仿真验证结果表明,该算法降低了DDS自动发现过程的网络传输量与内存消耗,支持元素删除操作,提高了数据发布/订阅的实时性。  相似文献   

6.
数据名查找是信息中心网络、内容分发网络、5G核心网中基础功能组件的关键操作,需要面向大规模规则表进行最长前缀匹配,在查找速度、更新开销和存储开销等方面面临严峻挑战.首先设计了混合计数布隆过滤器(HyCBF),将数据名前缀和前缀标记维护在同一个计数布隆过滤器中同时保持二者的逻辑独立性.这样可在不增加额外存储开销和时间开销的情况下提供更丰富的指示信息.基于此,提出HyCBF辅助的二分数据名查找(HyBS)方法以实现高效查找.进一步,为缓解二分查找过程中因回溯导致的性能损失,为HyCBF中每个条目关联一个特征比特位图以降低其假阳性率.实验表明,HyBS相比现有方法在查找性能和更新速度方面具有明显优势,存储效率也有一定提升.此外,将HyBS集成到向量化数据包处理(VPP)框架中进行系统性能评估,结果表明HyBS可用于构建高通量可扩展的数据名查找引擎.  相似文献   

7.
李勇  相中启 《计算机应用》2018,38(9):2554-2559
云计算环境下密文检索困难,已有的可搜索加密方案存在时间效率低、文件检索索引不支持更新、检索结果不能实现按精确度排序等问题。首先基于计数型布隆过滤器构建文件检索索引,将文件集中的关键词哈希映射到计数型布隆过滤器索引向量,实现了按关键词进行密文检索,同时,支持密文检索索引的动态更新。其次,由于计数型布隆过滤器本身不具备语义功能,不能实现按相关度对检索结果排序,引入关键词频率矩阵和词频逆文本频率(TF-IDF)模型计算关键词的相关度分值,以实现按相关度分值对检索结果排序。最后,理论和实验性能分析证明了该方法的安全性、可更新能力、可排序能力和高效性。  相似文献   

8.
华文镝  高原  吕萌  谢平 《计算机应用》2022,42(6):1729-1747
布隆过滤器(BF)是一种基于哈希策略的二进制向量数据结构,凭借分摊哈希碰撞的思想、存在单向误判性的特点以及极小常数查询时间复杂度,常用于表示集合元素并作为进行集合元素查询操作的“加速器”。作为计算机工程中解决集合元素查询问题最好的数学工具,BF在网络工程、存储系统、数据库、文件系统、分布式系统等领域得到了广泛的应用和发展。近几年来,为了适用于各种硬件环境和应用场景,BF出现了大量基于改变结构、优化算法等思想的变种方案。随着大数据时代的发展,对BF自身特点和操作逻辑进行改进已经成为现有集合元素查询研究的一个重要方向。  相似文献   

9.
《软件》2016,(1)
内容管理系统的内容采集主要由爬虫进行搜集,但内容重复与否绝大多数情况下是根据内容所在的页面URI进行判定。作为一个完善的内容管理系统,必须具备对已有内容资源的识别功能。本文通过介绍布隆过滤器,并与传统的判重方式进行对比,同时改进布隆过滤器并应用于内容管理系统的资源判重的功能中,解决了内存占用无限增加,查询时间不断增长,记录内容无法删除等问题,实现了高效快速的资源判重。  相似文献   

10.
可去重云存储系统中一般采用收敛加密算法,通过计算数据的哈希值作为其加密密钥,使得重复的数据加密后得到相同的密文,可实现对重复数据的删除;然后通过所有权证明(PoW),验证用户数据的真实性来保障数据安全。针对可去重云存储系统中所有权证明时间开销过高导致整个系统性能下降问题,提出了一种基于布隆过滤器进行所有权证明的高效安全方法,实现用户计算哈希值与初始化值的快速验证。最后,提出一种支持细粒度重复数据删除的BF方案,当文件级数据存在重复时进行所有权证明,否则只需要进行局部的文件块级数据重复检测。通过仿真对比实验,结果表明所提BF方案空间开销低于经典Baseline方案,同时时间开销低于经典Baseline方案,在数据文件越大的情况下性能优势更加明显。  相似文献   

11.
张进  邬江兴  刘勤让 《软件学报》2010,21(4):1098-1114
对3 种已有的计数型Bloom filter——Na?ve Counting Bloom Filter(NCBF),Space-Code Bloom Filter (SCBF)和d-left Counting Bloom Filter(dlCBF)——的查询错误概率进行了分析,得出了NCBF 的计数器防溢出条件 以及SCBF 和dlCBF 的参数最优设置准则.提出了一种衡量计数型Bloom filter 性能的指标:负载适应性.针对dlCBF 负载适应性差的问题,对dlCBF 进行了改进,提出了一种计数型Bloom filter:Binary Shrinking d-left Counting Bloom Filter(BSdlCBF).通过仿真实验,以计数误差、空间复杂度以及负载适应性为性能指标,对上述4 种CBF 进行了比较. 实验结果表明,BSdlCBF 具有最低的空间复杂度、最小的计数误差以及最佳的负载适应性. BSdlCBF 赢得上述性能 优势的代价在于其计算复杂度比其他3 种计数型Bloom filter 略高.  相似文献   

12.
张进  邬江兴  刘勤让 《软件学报》2010,21(5):1098-1114
对3种已有的计数型Bloom filter--Na(I)ve Counting Bloom Filter(NCBF),Space-Code Bloom Filter (SCBF)和d-left Counting Bloom Filter(dlCBF)--的查询错误概率进行了分析,得出了NCBF的计数器防溢出条件以及SCBF和dlCBF的参数最优设置准则.提出了一种衡量计数型Bloom filter性能的指标:负载适应性.针对dlCBF负载适应性差的问题,对dlCBF进行了改进,提出了一种计数型Bloom filter:Binary Shrinking d-left Counting Bloom Filter(BSdlCBF).通过仿真实验,以计数误差、空间复杂度以及负载适应性为性能指标,对上述4种CBF进行了比较.实验结果表明,BSdlCBF具有最低的空间复杂度、最小的计数误差以及最佳的负载适应性. BSdlCBF赢得上述性能优势的代价在于其计算复杂度比其他3种计数型Bloom filter略高.  相似文献   

13.
本文针对扩展式布鲁姆过滤器(EBF)内存消耗过大,提出一种基于值域哈希二次过滤的布鲁姆过滤器数据结构(VHBF)和相关算法,VHBF通过在布鲁姆过滤器中对集合中的每个特征进行k次哈希,并将此k次哈希值转化为相应特征的镜像特征。然后对此镜像进行二次过滤运算,运算后的结果保存在另一布鲁姆过滤器中。在对特征进行检索时,由于无需保存特征本身,因而空间效率比EBF更高。实验表明,VHBF的假阳性误判率的比扩展型布鲁姆过滤器(EBF)低,而VHBF内存消耗也低于EBF。  相似文献   

14.
计算机集群系统是通过网络将一组PC或工作站连接起来,架构成的高可靠、可扩展的集群服务器,能够统一调度、协调运行,实现高效并行处理。负载均衡是集群系统良好性能的保障。用节点的总体资源、CPU的就绪队列长度和节点的任务数来构造遗传算法的目标函数,既考虑了集群异构的特点,又能很好的体现负载程度,通过使用网络压力测试工具对该算法进行性能测试,表明了其具有比较好的优越性。  相似文献   

15.
Bloom Filter是一种采用位向量表示数据集合并利用Hash函数支持有效数据查找的方法.它能够很好地判定某个元素是否属于给定的集合.拆分型Bloom Filter是Bloom Filter的一种改进,它能较好地缓解分布式环境下集合元素动态增长导致的查找误称率增大问题.作为一种新的K分组合型Bloom Filter,通过与Bloom Filter和拆分型Bloom Filter比较分析的结果表明,该方法能够在误称率、向量空间和平均判定时间3个指标中得到较好的平衡.  相似文献   

16.
基于文化算法的负载均衡自适应机制   总被引:6,自引:2,他引:6  
负载均衡是解决Web集群系统容量和伸缩能力的重要方法,但通常使用的单纯的加权轮叫调度算法依然会导致服务器间的负载不平衡。本文分析了影响Web服务器性能的主要因素,提出了一种负载均衡的自适应机制。该方法将文化算法(CultureAlgorithmsCA)应用到对服务器性能权值的进化计算中,通过评价服务器的负载状况,获得优化的性能权值,并自适应地转换到集群的分配器中,使事务在集群系统中得到合理分配。模拟实验证明,随着访问量的逐渐增多,每台服务器都趋近于最佳负载,系统达到好的使用效果。  相似文献   

17.
针对传统的网格工作流系统中,在分配任务的过程中,根据执行任务的最短时间选取传输路径,这样造成多条路径负载的不均衡,导致网格工作流的工作效率低的问题。文章提出一种基于遗传算法负载均衡的网格工作流算法。通过模拟自然界的生物进化过程对任务空间进行随机化搜索,根据预定任务的适应度函数,并用全局并行搜索方式找到最优节点,避免了传统均衡方法的逐次匹配执行带来的低效问题。实验表明,该新算法能够实现快速负载均衡,提高网格工作流系统的工作效率,取得令人满意的结果。  相似文献   

18.
随着过去几十年互联网服务的指数增长,各大网站的访问量急剧上升。海量的用户请求使得热门网站的网络请求率可能在几秒钟内大规模增加。一旦服务器承受不住这样的高并发请求,由此带来的网络拥塞和延迟会极大地影响用户体验。负载均衡是高可用网络基础架构的关键组件,通过在后端引入一个负载均衡器,将工作负载分布到多个服务器来缓解海量并发请求对服务器造成的巨大压力,提高后端服务器和数据库的性能以及可靠性。而Nginx作为一款高性能的HTTP和反向代理服务器,正越来越多地应用到实践中。文中将分析Nginx服务器负载均衡的体系架构,研究默认的加权轮询算法,并提出一种改进后的动态负载均衡算法,实时收集负载信息,重新计算并分配权值。通过实验测试,对比不同算法下的负载均衡性能,改进后的算法能有效提高服务器集群的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号