首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
作为一种高效的概率性结构,过滤器可以高效地解决近似集合成员查询问题。近年来,随着机器学习技术的发展,一些学习型过滤器表现出色,超越了传统的过滤器。这些学习型过滤器考虑数据分布信息,将集合成员查询问题视为二分类问题,实现了超越传统过滤器的性能。受此启发,学习型过滤器研究领域迅速发展,出现了多个变种。然而,目前还缺乏对近些年相关工作的系统性回顾和比较。为了填补上述空缺,文中全面回顾了近年来的学习型过滤器相关工作,并展望了未来的发展方向。  相似文献   

2.
随着网络的发展,越来越多的场景需要在不完整数据下进行近似成员查询,传统成员查询的布鲁姆过滤器不能满足上述要求。提出面向缺失数据的布鲁姆近似查询算法,先对高维不完整数据的缺失部分进行预填充,通过PCA算法,将高维数据转换到低维数据,使用局部敏感哈希函数与标准哈希函数结合的方式将低维数据存储到布鲁姆过滤器中。使用两个真实数据集验证了所提算法的功能,所提面向缺失数据的布鲁姆近似查询算法,能有效地解决存在缺失数据的近似成员查询问题。  相似文献   

3.
华文镝  高原  吕萌  谢平 《计算机应用》2022,42(6):1729-1747
布隆过滤器(BF)是一种基于哈希策略的二进制向量数据结构,凭借分摊哈希碰撞的思想、存在单向误判性的特点以及极小常数查询时间复杂度,常用于表示集合元素并作为进行集合元素查询操作的“加速器”。作为计算机工程中解决集合元素查询问题最好的数学工具,BF在网络工程、存储系统、数据库、文件系统、分布式系统等领域得到了广泛的应用和发展。近几年来,为了适用于各种硬件环境和应用场景,BF出现了大量基于改变结构、优化算法等思想的变种方案。随着大数据时代的发展,对BF自身特点和操作逻辑进行改进已经成为现有集合元素查询研究的一个重要方向。  相似文献   

4.
布隆过滤器(BF)可以高效查询元素是否在指定集合中,广泛应用于区块链成员查询中.针对现有的通用布隆过滤器无法充分利用区块链数据特性及通用设备计算资源的问题,提出一种新型区块链布隆过滤器(BBF).首先,改进布隆过滤器数据结构,对BBF以组为单位进行细分,从而将元素的映射范围限制在一个组内,减少访存失败次数,提高访存效率.其次,利用区块链数据的特性,提出一种简化的三阶段哈希映射函数,减少计算开销.在此基础上,使用单指令多数据流(SIMD)技术实现元素插入和查询操作的并行处理,提高BBF构建及查询速度,最终实现区块链上数据的高效查询和分析.实验结果显示,BBF与BF、OMBF两个主流布隆过滤器相比,其正向查询时的成员查询速度分别提高4倍、3倍,性能提升显著.  相似文献   

5.
分档布鲁姆过滤器的查询算法   总被引:8,自引:0,他引:8  
布鲁姆过滤器是一种能够简洁地表示集合并支持集合查询的数据结构,广泛应用于数据库、网络和分布式系统中.针对现有的布鲁姆过滤器没有考虑查询失效代价这一缺陷,文中提出一种新的代价敏感的分档布鲁姆过滤器查询算法.它将元素根据不同的查询代价分为不同的子集,通过考查每档子集最低查询失效率的关系,建立由每档子集合最低查询失效假阳性概率表示的集合最低查询失效总代价目标函数,使用类目标函数梯度遗传算法获得每档的最优Hash函数个数ki,完成集合到向量的映射与查找.仿真实验结果表明,使用新结构的查询算法和标准布鲁姆过滤器算法相比,所用的查询计算时间基本相同,因为区分对待集合元素,查询失效总代价仅为标准算法的27%.  相似文献   

6.
序列数据一类重要的数据类型,在文本、Web访问日志文件、生物数据库等应用中普遍存在,对其进行相似性查询是一种获取有用信息的重要手段.在大型序列数据库中进行高效相似性查询的关键因素之一就是查询算法的过滤能力,即设计能快速过滤与查询序列不相关序列集的过滤器十分重要.提出了结合序列距离的度量性质和序列自身特征的多重过滤算法SSQ_MF,SSQ_MF使用了长度过滤器、前缀过滤器和基于参考集的过滤器,使得算法过滤能力较基于单一过滤器算法进一步增强.此外,设计了有关数据结构对查询数据库的一些统计信息进行了预计算和保存,有效估计了各过滤器的过滤集大小,并构建了一个由过滤集大小确定的最优过滤顺序模型,使得算法的过滤代价最低.实验结果表明,算法SSQ_MF的查询性能优于单一过滤器算法和随机过滤顺序的多过滤器算法.  相似文献   

7.
相似性查询在实际应用中用途广泛,例如相似网页检测、相似图像检索、语言识别、数据清理等。而基于q-gram的字符串相似性查询作为主流方法之一.在查询的效率和灵活性上相对于其他方法都有很大的优势。实现基于q-gram的基本过滤器,并构成过滤器组合模型,用来过滤掉不匹配的字符串,得到候选集。实验结果表明,与传统的依靠编辑距离来比较每一对字符串的值相比,基于q-gram的过滤器能在保证相似性查询结果准确的前提下,在效率方面有显著的提升。  相似文献   

8.
布鲁姆过滤器查询算法   总被引:12,自引:0,他引:12  
从理论和应用两方面系统地综述了布鲁姆过滤器查询算法迄今为止的主要研究成果,分析了目前布鲁姆过滤器查询算法的研究现状,最后展望了布鲁姆过滤器查询算法未来可能的研究方向.  相似文献   

9.
一种基于MIDAS的企业级应用中提高数据查询效率的方法   总被引:1,自引:0,他引:1  
在企业级数据库管理系统的应用中,查询方式随用户对数据需求的多样性而发生变化,讨论了一种利用“过滤器”机制的查询方法,重复利用了查询结果中的大量数据。在Intranet环境中不但提高数据查询的效率,而且还减小了网络流量。  相似文献   

10.
本文提出一种基于多层次结构的树形布鲁姆过滤器TBF。多层次结构是近年来布鲁姆过滤器及相关数据结构研究的热点。这一结构使得多层次的存储方式得以实现,减轻了片上存储的负担,而且也加快了片上查找的速度。TBF是针对BloomingTree算法存在的缺陷所改进的一种更高效的算法,它能够在低于CBF的空间需求的条件下实现与CBF相同的功能。实验证明:与BloomingTree算法相比,TBF能够有效地解决BloomingTree算法在逻辑索引时的错误问题,而且比BloomingTree算法时间上更加高效:在层数不变假阳性相同条件下,查询时间平均提高13.4%;在假阳性不变层数相同条件下,插入时间平均提高17.9%,删除时间平均提高12%。  相似文献   

11.
序列数据是一种重要的数据类型,在诸多领域都有应用,比如说文本、生物数据库以及Web访问日志等。在对该类型数据进行分析的时候,对于相关信息的获取一般都是通过相似性查询得到的。本文首先根据序列查询算法的特点,提出了SSQ_MF,也就是多重过滤算法。并在此基础上设计了最优过滤顺序模型和过滤集大小估计的相关实验。实验结果表明,SSQ_MF算法的查询性能优于单一过滤器算法和随机过滤顺序的多过滤器算法。  相似文献   

12.
为了有效过滤数据流中的有害信息,通常在数据流上注册大量查询,同时构建过滤器来计算这些查询.在多媒体流环境中,查询和过滤器常常是一种“多对多”的连接,也就是说,对于单个过滤器的计算可能会同时给出多个查询的结果.在这种情况下,如何排序所有的过滤器来获得最小的过滤代价变得非常重要.对于过滤器的排序一般依赖于3个指标:过滤器本身的执行代价c、过滤器连接的查询数目p以及过滤器对于随机样本判断为真的概率s.目前基于贪心的排序算法虽然在一定程度上给出了近似最优的结果,但是还存在以下两个问题:1)指标s只是简单依据经验值设定,不能随着流的变化而自适应变化;2)将3个指标融合成一个代价函数进行排序,而没有深入分析各个指标之间的关系.考虑到以上方法存在的不足,提出一个层次排序算法(adaptive hierarchal ordering,AHO)来高效地过滤多媒体数据流.该算法首先依据过滤器的指标c和p进行分类,然后再在每个类别上按照s进行二次排序.在真实多媒体流环境中的过滤结果证明:AHO可以在不降低准确度的情况下,自适应调整过滤器顺序,其性能优于已有的贪心排序算法.  相似文献   

13.
现有的流统计信息主要侧重于流抽样而忽视全流统计。为此,提出一种使用优化设计的计数型Bloom过滤器流统计方法。针对计数型Bloom过滤器数据增长带来的计数器溢出和假阳性错误率增高的问题,分别设计动态统计和多个计数器协同统计的方案。概要化的存储结构可方便查询,而且其计数型Bloom过滤器简单的数据结构也易于硬件实现。实验结果表明,与传统哈希方法相比,计数型Bloom过滤器流统计方法的时间复杂度更低,可用于网络应用中的快速全流统计。  相似文献   

14.
一种无线传感器网络中的多维K-NN查询优化算法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出了一种基于过滤器的无线传感器网络多维K-NN查询优化算法PREDICTOR.过滤器是设置在节点端的取值分布区间,用来屏蔽节点发送属于区间内的数据,从而节省节点能耗.在服务器端保存有各节点的历史样本数据,根据K-NN查询请求和样本数据的分布范围为节点定义过滤器.提出了3种优化策略:(1) 过滤器覆盖区间大小分配策略的动态调整方法,使得进入最终查询结果可能性小的节点拥有较大的覆盖区间;(2) 节点间过滤器共享方法,使得历史样本数据相近的节点使用相同的过滤器;(3) 过滤器压缩传输方法,减少为不同K-NN查询更新过滤器的代价.通过实验评价,验证了PREDICTOR算法的能量有效性,与朴素算法相比,极大地降低了数据传输量.  相似文献   

15.
文中探讨计数布鲁姆过滤器的代数运算和集合运算的一致性关系,研究使用计数布鲁姆过滤器代数运算进行集合成员查询的性能.理论分析和实验结果表明,计数布鲁姆过滤器的并、交、补、减、异或运算产生的新过滤器依然保持计数布鲁姆过滤器的特征,支持元素的删除操作,不会出现假阴性,能用于集合并集、交集、补集、差集及对称差的成员查询;当使用两个原始的计数布鲁姆过滤器查询补集、差集及对称差元素时,会存在部分本来属于补集、差集或对称差的元素被判为不属于补集、差集或对称差的问题,而使用计数布鲁姆过滤器代数运算后的过滤器进行补集、差集及对称差成员查询,则不存在上述问题,空间效率能提高一倍,时间效率亦能显著地得到改善.计数布鲁姆过滤器代数运算的使用有利于进一步扩展计数布鲁姆过滤器的应用范围.譬如计数布鲁姆过滤器减运算可用作一种新的集合调和方法,用于分布式系统中大型文件的分发.  相似文献   

16.
可变长地址是未来网络领域的重要研究内容之一。针对传统路由查找算法在面向可变长地址时查找效率低的问题,提出一种基于平衡二叉树AVL(Adelson-Velskii and Landis)树和Bloom过滤器的适用于可变长地址的高效路由查找算法,简称为AVL-Bloom算法。首先,针对可变长地址灵活可变且无界的特点,利用多个片外哈希表分别存储前缀比特位数相同的路由条目及其下一跳信息,同时应用片上Bloom过滤器加速搜索可能匹配的路由前缀;其次,为了解决基于哈希技术的路由查找算法在查找最长前缀路由时需多次哈希对比的问题,引入AVL树技术,即通过AVL树组织每组路由前缀集合的Bloom过滤器及其哈希表,优化路由前缀长度的查询顺序,并减少哈希计算次数进而降低查询时间;最后,在3种不同的可变长地址数据集上将所提算法与METrie(Multi-Entrance-Trie)和COBF(Controlled prefix and One-hashing Bloom Filter)这两种传统路由查找算法进行对比实验。实验结果表明,AVL-Bloom算法的查询时间明显少于METrie和COBF算法,分别减少...  相似文献   

17.
吴震  孟洛明 《计算机工程》2007,33(21):15-17
当前基于体系结构的软件可靠性评估技术存在2个问题:不适合具有并行性质的软件和难以分析部件级的失效恢复行为。针对这2个问题,以管道-过滤器风格的并行软件为研究对象,该文使用基于时间的Petri网分析了管道-过滤器风格的并行软件运行阶段可靠性,并根据Petri网模型的特点,提出了一种分解模型和近似求解方法。数字实例证明了该方法的有效性和简便性。  相似文献   

18.
无线传感器网络中隐私保护通用近似查询协议   总被引:1,自引:0,他引:1  
无线传感器网络中实现隐私保护通用近似查询是具有挑战性的问题.文中提出一种无线传感器网络中隐私保护通用近似查询协议PGAQ.PGAQ将传感器节点编号和其采集数据隐藏于设计的数据结构中,在基站构造线性方程组解出直方图,根据直方图具有的统计信息,不泄露隐私地完成Top-k查询、范围查询、SUM、MAX/MIN、Median、Histogram等近似查询.PGAQ使用网内求和聚集以减少能量消耗,并且能够通过调节直方图划分粒度来平衡查询精度与能量消耗.PGAQ协议分为H-PGAQ和F-PGAQ两种模式.H-PGAQ模式使用数据扰动技术加强数据安全性,F-PGAQ使用过滤器减少连续查询通信量.通过理论分析和使用真实数据集实验验证了PGAQ的安全性和有效性.  相似文献   

19.
在分布式系统中,覆盖查询对于保持文件的完整性以及数据的一致性有重要作用。虽然布鲁姆过滤器可以支持快速的元素从属查询,但是布鲁姆过滤器只能存储和表示离散的数据集合。为此,用前缀集合表示范围规则,并提出一个前缀编码的转化函数,将每一个前缀码转化为唯一对应的二进制串。为了支持覆盖查询,将计数布鲁姆过滤器与一组链表相结合,设计一个BFrange系统来存储包含规则标识以及具体存储元素的二元组。通过BFrange进行覆盖查询,使查询时间与存储的规则个数无关,复杂度仅为O(1)。仿真实验结果验证了BFrange能实现高效和准确的覆盖查询。  相似文献   

20.
探讨双布鲁姆过滤器查询法查询集合并集、交集、补集、差集或对称差成员的性能问题。理论分析和实验结果表明,双布鲁姆过滤器查询法能够较好地支持集合并集、交集、补集、差集及对称差的成员查询问题,其中双布鲁姆过滤器并集及交集查询不会产生假阴性,仅有少量假阳性的存在,而双布鲁姆过滤器补集、差集及对称差查询则除存在少量假阳性外,还存在少量假阴性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号