排序方式: 共有3条查询结果,搜索用时 15 毫秒
1
1.
数据流是连续的、实时的无限数据,到目前为止还没有有效的方法将数据流存储起来,因此数据流上的不同值个数的估计也就成为一个比较难的研究课题。文章在对BloomFilter进行分析研究的基础上,结合数据流无限、连续、实时等特点,提出了基于循环BloomFilter的数据流上不同值个数的估计策略。将数据流中的不同值存储在循环BloomFilter中,有效地解决了在内存有限情况下,无法保存数据流中的不同值的问题。通过与现有的估计算法的比较,实验结果表明基于循环BloomFilter的估计策略是可行和有效的。 相似文献
2.
随着网络技术和电力信息化业务的不断发展,网络信息越发膨胀,将导致互联网和电力信息网中存在海量网页冗余的现象,这类现象将会使数据挖掘、快速检索的复杂度加大,从而对网络设备和存储设备的性能带来了巨大的挑战,因此研究海量网页快速去重是非常有必要的。网页去重是从给定的大量的数据集合中检测出冗余的网页,然后将冗余的网页从该数据集合中去除的过程,其中基于同源网页的URL去重的研究已经取得了很大的发,但是针对海量网页去重问题,目前还没有很好的解决方案,本文在基于MD5指纹库网页去重算法的基础上,结合Counting Bloom filter算法的特性,提出了一种快速去重算法IMP-CMFilter。该算法通过减少I/0频繁操作,来提高海量网页去重的效率。实验表明,IMP-CMFilter算法的有效性。 相似文献
3.
1