首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
重复数据检测技术能够大幅降低数据中心的存储量,节省网络带宽,减少建设和运维成本。为了克服基于内容分块(CDC)方法容易出现超长块的缺点,文章提出了基于极值点分块(EDC)的重复数据检测算法。EDC算法先计算出所有右边界在数据块上下限范围内的滑动窗口中数据的指纹,找出最后一个指纹极值,所对应的滑动窗口结束位置作为数据块的分界点,再计算该数据块的哈希值并判断是否重复块。实验结果表明,EDC算法的重复数据检测率、磁盘利用率分别是CDC算法的1.48倍和1.12倍,改进效果显著。  相似文献   

2.
郑鸿  邢玲  马强 《计算机应用》2014,34(6):1541-1545
针对大量数据片段冗余传输造成网络传输效率降低的问题,在协议无关冗余消除技术的基础上,提出了一种基于分组特性的冗余流量消除(PFRTE)算法。该算法以对数据包大小分组为基础,动态统计和分析网络流量的双峰特性和分组特性,以对冗余消除贡献大的数据包为阈值,利用滑动窗口计算数据块的边界点,对两个边界点间的数据块计算其指纹并进行指纹匹配。对重复传输的数据块进行简单编码,用编码数据替换重复传输的数据片段,再对消除冗余流量的数据包进行传输。与基于最大值选择和基于静态查找表选择等冗余流量消除算法相比,PFRTE算法动态统计网络流量分组特性,能够大大减少服务器端和客户端的CPU运行时间,同时冗余消除字节节省了8%~40%,证明了该算法的有效性。  相似文献   

3.
数据流的流动性与连续性,使得数据流所蕴含的知识会随着时间的推移而发生变化。挖掘数据流中的频繁项集是一项意义重大且具有挑战性的工作。提出一种基于滑动窗口数据流的频繁项集挖掘——FIUT-Stream算法,FIUT-Stream算法分块挖掘数据流,在内存中维持一个滑动窗口数据的概要结构,随着窗口滑动动态更新该存储结构,利用FIUT算法进行频繁项集挖掘。实验表明,该算法能节省内存空间、精确获得频繁项集。  相似文献   

4.
针对基于内容的可变长度的分块CDC算法中数字签名计算需要耗费大量CPU开销的问题,提出了一种基于位串内容感知的数据块分块算法。算法利用每一次失败匹配尝试所带来的位特征信息,最大限度地排除不能匹配的位置,从而获得最大的跳跃长度,减少中间计算和比较的开销。实验结果表明,本算法减小了数据分块过程中数字签名计算的开销,降低了确定块边界时的CPU资源消耗,从而优化了数据分块的时间性能。  相似文献   

5.
相似重复记录检测对于提高数据质量有着重要意义。为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。设计一种多字段排序改进算法,对不同字段的分块共同聚类,优先比较重复密度大的分块对,摒弃聚类较差的分块。该算法减少了检测过程中的数据比较次数,并降低了字段好坏对算法速度的影响。理论和实验分析表明,该算法能有效地提高相似重复记录检测的准确率和时间效率。  相似文献   

6.
提出了一个基于基区间的实时随机滑动窗口聚集算法。首先,按照规则将窗口中的数据项划分成一系列基区间,然后分别对这些基区间进行聚集计算,窗口中数据项的聚集等于这些基区间聚集和。窗口滑动后,窗口中数据项的聚集可以部分地利用上一次窗口聚集的结果。模拟实验表明,与对窗口中的数据整体进行聚集相比,基于基区间的聚集算法可以有效地降低窗口聚集的时间,提高数据流处理的实时性。  相似文献   

7.
高效的两轮远程文件快速同步算法   总被引:1,自引:0,他引:1       下载免费PDF全文
远程文件快速同步在文件备份与恢复、Web与ftp网站镜像、内容分发网络、Web访问中具有广泛的应用.提出了一种高效的基于内容变长分块和定长滑动块相结合的两轮快速文件同步算法--tpsync.同步算法分两轮进行,第一轮利用基于内容可变分块技术在粗粒度上定位待同步文件的局部变化数据段,第二轮对局部变化数据段采用定长滑动切块...  相似文献   

8.
为了提高频繁项集挖掘算法的准确性,在不确定性数据流频繁项集挖掘算法SRUF-mine的基础上引入最大可能误差,提出一种基于滑动窗口的false-positive挖掘算法UFIM。UFIM算法对数据流进行分块处理,在内存中维护一个存储滑动窗口内频繁项集的概要数据结构,随着窗口的滑动对该概要结构进行增量更新。实验表明,与SRUF-mine相比,UFIM算法能获得较高的频繁项集挖掘的准确性。  相似文献   

9.
针对可穿戴设备流数据可能泄露个人隐私的问题,提出了一种基于自编码器和时频变换的隐私保护数据发布方法.通过分块离散余弦变换将滑动窗口数据变换为频谱数据,再通过自编码器实现脱敏变换,最后由重构的频谱数据逆变换回滑动窗口数据.利用预训练的活动识别与身份识别分类器评估自编码器输出结果的效用性和隐私性,通过多目标损失函数与反向传播更新自编码器权重.在Motion-Sense数据集上的实验结果表明,在重构数据上活动识别的F1-score由0.944降低至0.940,而身份识别的F1-score由0.908降低至0.673,重构加速度数据与原数据之间的均方误差为0.27.与同类算法相比,该算法能够更好地保留数据的效用性以及提高数据的安全性.  相似文献   

10.
王青松  葛慧 《计算机应用》2018,38(3):677-681
针对可变长度分块(CDC)的重复数据删除算法的分块大小难以控制、指纹计算对比开销大、需要预先设置参数问题,提出Winnowing指纹串匹配的重复数据删除算法(DWFM)。首先,在数据分块前引入分块大小预测模型,较准确地根据应用场景计算出合适的分块大小;然后,在计算指纹时采用ASCⅡ/Unicode编码方式作为数据块指纹;最后,在确定分块边界时,提出指纹串匹配的分块算法,不需要预先设置参数,使得指纹计算和对比开销减少。在多种数据集上的实验结果表明,相比固定长度分块(FSP)和CDC算法,DWFM在数据的重删率上提升10%左右,在指纹计算和对比开销方面减少了18%左右。因此,DWFM的分块大小和边界更加符合数据特性,减少了参数设置对重复数据删除算法性能的影响,在处理不同类型的数据时,可以有效地消除更多的重复数据。  相似文献   

11.
为解决在大数据环境下,用于训练多分类逻辑回归模型的数据集可能会超过执行计算的客户端内存的问题,提出了块批量梯度下降算法,用于计算回归模型的系数。将训练数据集存入HBase后,通过设置表扫描对象的起始行键参数,可取出大小合适的含训练样本及结果值的数据块,同时为避免客户端到服务端频繁的RPC调用,取出的数据块可进行多次迭代计算,以加快系数的收敛。当取出的数据块达到指定的迭代次数后,再按行键次序取出下一个数据块,如此循环,直到系数收敛或达到指定的循环控制阈值。多分类的逻辑回归问题可转换为二分类来解决,因此需要为每一个分类在训练数据表中设定结果值列,结合训练样本列簇,按块批量梯度下降算法得到每个分类的回归系数。实验结果表明,得到的回归系数,能准确的对测试样本进行分类。  相似文献   

12.
针对基于互信息图像配准的局部极值问题,提出一种基于Powell算法与改进遗传算法结合的医学图像配准方法。该方法对标准遗传算法存在的收敛速度慢、易早熟、有可能导致误配的缺陷,提出了相应的改进策略; 采用Logistic混沌映射生成迭代过程中的个体; 运用基于小波变换的多分辨率分析策略,采用混合优化算法在图像的最低分辨率层进行全局优化,以全局最优值,结合Powell算法完成医学图像配准。实验结果表明,所提方法可有效避免优化算子陷入局部极值,并提高了配准速度; 相对于纯Powell方法和未改进的遗传算法,配准的精确度和性能更好。  相似文献   

13.
为了实现利用视频车辆检测器数据计算和预测路段行程时间,将排队长度数据应用到路段行程时间的计算中,采用改进粒子群的BP神经网络算法和时间序列分析对路段进行实证研究.将排队长度加入计算得到的决定系数为93.36%,比只有流量数据的BP神经网络算法改善了41.03%,比BPR(bureau of public roads)路阻函数算法改善了23.37%.利用实时的路段行程时间对后续行程时间预测通过时间序列分析得到相对误差为0.06,预测下个时段和下个周期的路段行程时间平均相对误差分别为0.14、0.15.结果表明排队长度对于路段行程时间的计算具有较高的准确性,可以用于城市道路交通时间的预测,并能有效为智能交通算法的其他指数计算提供思路,为改善交通状况提供决策支持.  相似文献   

14.
针对花朵授粉算法易陷入局部极值、后期收敛速度慢的不足,提出一种基于单纯形法和自适应步长的花朵授粉算法。该算法在基本花朵授粉算法的全局寻优部分采用自适应步长策略来更新个体位置,步长随迭代次数的增加而自适应地调整,避免局部极值;在局部寻优部分对进入下一次迭代的部分较差个体采用单纯形法的扩张、收缩/压缩操作,提高局部搜索能力,进而提高算法的寻优能力。通过八个CEC2005benchmark测试函数进行测试比较,结果表明,改进算法的寻优性能明显优于基本的花朵授粉算法,且其收敛速度、收敛精度、鲁棒性均较对比算法有较大提高。  相似文献   

15.
基于引力搜索机制的花朵授粉算法   总被引:2,自引:0,他引:2  
针对花朵授粉算法(Flower pollination algorithm,FPA)易陷入局部极值、后期收敛速度慢的不足,提出一种基于引力搜索机制的花朵授粉算法.该算法在基本花朵授粉算法的全局寻优部分,采用花朵个体间的万有引力和算法本身的莱维飞行共同实现个体位置的更新,使花朵受莱维飞行和个体间引力的双重影响,个体在通过优化信息的共享向质量大(最优位置)的个体靠近,且个体间的万有引力牵制莱维飞行的随机游走.同时又利用莱维飞行的跳跃及不均匀性步长避免个体陷入局部极值,从而提高算法的寻优能力.通过对高维单峰函数、高维多峰函数、低维函数及多峰复杂函数的优化实验结果表明,改进算法的寻优性能显著优于基本的花朵授粉算法,其收敛速度、收敛精度、鲁棒性均较对比算法有较大提升.最后,利用改进算法对弹簧张力设计问题、压力管设计问题2个工程实例进行测试,获得了较好的结果.仿真实验结果佐证了改进算法的有效性和可行性.  相似文献   

16.
The extremum graph is a succinct representation of the Morse decomposition of a scalar field. It has increasingly become a useful data structure that supports topological feature-directed visualization of 2D/3D scalar fields, and enables dimensionality reduction together with exploratory analysis of high-dimensional scalar fields. Current methods that employ the extremum graph compute it either using a simple sequential algorithm for computing the Morse decomposition or by computing the more detailed Morse–Smale complex. Both approaches are typically limited to two and three-dimensional scalar fields. We describe a GPU–CPU hybrid parallel algorithm for computing the extremum graph of scalar fields in all dimensions. The proposed shared memory algorithm utilizes both fine-grained parallelism and task parallelism to achieve efficiency. An open source software library, tachyon , that implements the algorithm exhibits superior performance and good scaling behaviour.  相似文献   

17.
In this paper, we introduce a Newton-based approach to stochastic extremum seeking and prove local stability of Newton-based stochastic extremum seeking algorithm in the sense of both almost sure convergence and convergence in probability. The convergence of the Newton algorithm is proved to be independent of the Hessian matrix and can be arbitrarily assigned, which is an advantage over the standard gradient-based stochastic extremum seeking. Simulation shows the effectiveness and advantage of the proposed algorithm over gradient-based stochastic extremum seeking.  相似文献   

18.
基于空间迭代的信道估计和译码联合算法*   总被引:1,自引:1,他引:0  
为了提高MIMO+OFDM系统在信道信息估计不准确时的译码性能,提出了一种基于SAGE(空间交替期望最大)算法的信道估计和MIMO译码联合算法。具体方法是:将发送的子帧分成若干个子块,第一个子块为导频子块,为第二个子块的译码提供信道信息;译码时对第二个子块进行内部的参数循环估计,完成该子块的译码后,解出该子块的信道信息,并将其作为下一子块译码的信道参数,依次完成所有子块的译码。经过仿真验证,该算法的性能优于LMMSE信道估计+ML译码算法的性能,运算复杂度低于EM算法。基于SAGE算法的信道估计和检测联  相似文献   

19.
陈斌  马良  刘勇 《计算机应用研究》2020,37(7):2011-2015,2036
针对标准电磁场优化算法容易陷入局部极值点、收敛精度差等问题,提出了一种多策略引导的电磁场优化算法。算法中粒子受到三种不同来源的引斥力,在迭代过程中通过计算每种移动策略的临代电差、累计电差和综合电差来决定粒子的引导方式,并通过概率变异算法来避免陷入局部最优解。在经典的基准测试函数上,对新算法与其他算法的测试结果比较进行分析,结果表明该算法具有更高的求解精度和更快的计算速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号