共查询到20条相似文献,搜索用时 62 毫秒
1.
传统方法在删除重复数据时逻辑顺序较为混乱,导致重复数据消除效果欠佳.为解决上述问题,基于文件路径,对信息集群中重复数据消除方法展开研究.根据重复数据消除方法分块理念与文件系统中的目录名称,探析文件路径的重复数据消除原理.通过分块筛选存储数据完成数据对比,从而去除数据备份并用指向唯一的实例指针代替.在界定元数据信息的基础... 相似文献
2.
为了减少分簇式传感器网络中的数据传输量并均衡网络负载,提出了一种采用混合压缩感知(compressive sensing, CS)进行数据收集的方法.1)选取各临时簇中距离簇质心最近的一些节点为候选簇头节点,然后依据已确定的簇头节点到未确定的候选簇头节点的距离依次确定簇头;2)各普通节点选择加入距离自己最近的簇中;3)贪婪构建一棵以Sink节点为根节点并连接所有簇头节点的数据传输树,对数据传输量高于门限值的节点使用CS压缩数据传输.仿真结果表明:当压缩比率为10时,数据传输量比Clustering without CS和SPT without CS分别减少了75%和65%,比SPT with Hybrid CS和Clustering with Hybrid CS分别减少了35%和20%;节点数据传输量标准差比Clustering without CS和SPT without CS分别减少了62%和81%,比SPT with Hybrid CS和Clustering with Hybrid CS分别减少了41%和19%. 相似文献
3.
徐阳 《计算机工程与应用》2015,51(2):71-75
基于多服务器架构、为多用户服务的网络文件存储系统普遍存在资源分配不均,重复文件多,存储空间浪费严重的问题。设计并实现了TNS网络文件存储系统,该系统基于多服务器存储架构,分别由用户服务器、索引服务器、数据服务器、共享服务器、管理服务器和登录服务器组成,为多用户服务,采用一致性Hash实现负载均衡,支持在客户端进行文件粒度的重复数据删除。经过实际生产环境运行测试,具有良好的负载均衡能力和重复数据删除功能,可以有效节省存储空间,提高存储设备利用率。 相似文献
4.
云存储技术已经成为当前互联网中共享存储和数据服务的基础技术,云存储系统普遍利用数据复制来提高数据可用性,增强系统容错能力和改善系统性能。提出了一种云存储系统中基于分簇的数据复制策略,该策略包括产生数据复制的时机判断、复制副本数量的决定以及如何放置复制所产生的数据副本。在放置数据副本时,设计了一种基于分簇的负载均衡副本放置方法。相关的仿真实验表明,提出的基于分簇的负载均衡副本放置方法是可行的,并且具有良好的性能。 相似文献
5.
脏数据是整个数据仓库的隐患,因此数据清理对维护数据仓库和大型数据库极有价值。本课题介绍和研究数据清理的方法和技术.重点讨论消除中文重复数据的分析方法.并且对这些方法进行验证.分析和实现。 相似文献
6.
7.
基于HDFS的小文件存储与读取优化策略 总被引:1,自引:0,他引:1
本文对HDFS分布式文件系统进行了深入的研究,在HDFS中以流式的方式访问大文件时效率很高但是对海量小文件的存取效率比较低. 本文针对这个问题提出了一个基于关系数据库的小文件合并策略,首先为每个用户建立一个用户文件,其次当用户上传小文件时把文件的元数据信息存入到关系数据库中并将文件追加写入到用户文件中,最后用户读取小文件时通过元数据信息直接以流式方式进行读取. 此外当用户读取小于一个文件块大小的文件时还采取了数据节点负载均衡策略,直接由存储数据的DataNode传送给客户端从而减轻主服务器压力提高文件传送效率. 实验结果表明通过此方案很好地解决了HDFS对大量小文件存取支持不足的缺点,提高了HDFS文件系统对海量小文件的读写性能,此方案适用于具有海量小文件的云存储系统,可以降低NameNode内存消耗提高文件读写效率. 相似文献
8.
针对无线传感器网络分簇路由协议中因簇间路由产生的簇头能量消耗不均衡的问题,提出一种簇头负载均衡的分簇算法。此算法在产生非均匀分布的簇头的基础上,建立由簇头组成的骨干传输网络的簇间转发路径,计算簇头的中转数据量。传感器节点在选择簇头时进一步考虑簇头的中转数据量,实现簇头的负载均衡。仿真实验结果表明,该路由协议有效地平衡了簇头的负载,并显著延长了网络的生存时间。 相似文献
9.
10.
11.
针对可变长度分块(CDC)的重复数据删除算法的分块大小难以控制、指纹计算对比开销大、需要预先设置参数问题,提出Winnowing指纹串匹配的重复数据删除算法(DWFM)。首先,在数据分块前引入分块大小预测模型,较准确地根据应用场景计算出合适的分块大小;然后,在计算指纹时采用ASCⅡ/Unicode编码方式作为数据块指纹;最后,在确定分块边界时,提出指纹串匹配的分块算法,不需要预先设置参数,使得指纹计算和对比开销减少。在多种数据集上的实验结果表明,相比固定长度分块(FSP)和CDC算法,DWFM在数据的重删率上提升10%左右,在指纹计算和对比开销方面减少了18%左右。因此,DWFM的分块大小和边界更加符合数据特性,减少了参数设置对重复数据删除算法性能的影响,在处理不同类型的数据时,可以有效地消除更多的重复数据。 相似文献
12.
子空间聚类的目的是将来自不同子空间的数据分割到其本质上所属的低维子空间。现有的基于数据的自我表示和谱聚类的子空间聚类算法将该问题分为两个连续的阶段:首先从高维数据中学习数据的相似性矩阵,然后通过将谱聚类应用于所学相似性矩阵来推断数据的聚类隶属。通过定义一种新的数据自适应稀疏正则项,并将其与结构稀疏子空间聚类(SSSC)模型和改进的稀疏谱聚类(SSpeC)模型相结合,给出了一个新的统一优化模型。新模型利用数据的相似度和聚类指标的相互引导克服了SSpeC稀疏性惩罚的盲目性,并使得相似度具有了判别性,这有利于将不同子空间的数据分为不同类,弥补了SSSC模型只强制来自相同子空间的数据具有相同标签的缺陷。常用数据集上的实验结果表明,所提模型增强了聚类判别的能力,优于一些经典的两阶段法和SSSC模型。 相似文献
13.
随着高校信息化的发展以及教学、科研和管理应用系统的广泛应用,数据资源如:图片、文档、视频等非结构化资源增长十分迅速。如何应对校园网络环境中不断增大的存储需求,提高存储资源的利用效率,是校园数据中心运维中一个比较重要的问题。本文介绍了基于开源软件 Swift 的云存储平台的搭建,以及带有重复数据删除功能的校园云存储系统(Dedupe_swift) 的设计与实现。通过重复数据删除功能的引入,提高了底层存储空间利用率;采用源端去重机制,为用户缩短了重复文件的上传时间;通过 Web 服务将存储作为服务提供给用户,为用户提供良好的云存储访问体验。 相似文献
14.
重复数据删除技术有效地提升了备份系统的备份效率,但重复数据的匹配开销也随之增加.针对该问题,设计并实现了一种基于重复数据删除的备份系统THBS,该系统提出了高精简的数据备份方法HAD(hierachical approach of data deduplication),依次从目录、文件、块、字节粒度分层多步,由粗及细地匹配删除重复数据,同时采用bloomfilter和倒排索引技术,以减少不必要的数据匹配与磁盘访问,提高匹配查找速度.通过两组真实数据集的实验发现,THBS在备份过程中节省了63.1%~96.7%的存储空间,比Scp和Rsync分别节约了71.3%~97.6%,41.2%~66.7%的网络带宽,累计备份时间分别为Scp和Rsync的75%~86%和91%~97%. 相似文献
15.
16.
收敛加密可以有效地解决数据加密和去重的矛盾,实现安全去重复,但是收敛加密仍然面临许多安全问题。针对传统的收敛加密容易遭受字典攻击的问题,提出基于Merkle哈希树的收敛加密方案实现数据去重复,通过执行额外的加密操作,加强数据的机密性,有效地避免字典攻击。为了克服传统的收敛加密方案的收敛密钥随着用户数量线性增长的问题,设计收敛密钥共享机制,进一步节省了收敛密钥的存储空间。 相似文献
17.
与传统的硬划分聚类相比,模糊聚类算法(以FCM为例)对数据的比例变化具有鲁棒性,能够更准确地反映数据点与类中心的实际关系,目前已得到广泛应用.然而对于时序基因表达数据来说,传统的聚类算法往往不能充分利用到数据中时间上的动态关联信息.因此可以在模糊聚类算法的基础上引入自回归(AR)模型,将时序基因表达数据作为一组时间序列进行动态的聚类分析.这样不仅可以充分利用到时序基因表达数据的内部自相关性,并且可以进一步利用隶属度函数对AR模型的预测过程进行模糊化调整,从而得到更为理想的聚类结果. 相似文献
18.
一种基于谱聚类的半监督聚类方法 总被引:6,自引:1,他引:6
半监督聚类利用少部分标签的数据辅助大量未标签的数据进行非监督的学习,从而提高聚类的性能。提出一种基于谱聚类的半监督聚类算法,其利用标签数据的信息,调整点与点之间的距离所形成的距离矩阵,而后基于被调整的距离矩阵进行谱聚类。实验表明,该算法较之于已提出的半监督聚类算法,获得了更好的聚类性能。 相似文献
19.
云存储已经成为一种主流应用模式.随着用户及存储数据量的增加,云存储提供商采用重复数据删除技术来节省存储空间和资源.现有方案普遍采用统一的流行度阈值对所有数据进行删重处理,没有考虑到不同的数据信息具有不同的隐私程度这一实际问题.提出了一种基于阈值动态调整的重复数据删除方案,确保了上传数据及相关操作的安全性.提出了理想阈值的概念,消除了传统方案中为所有数据分配统一阈值所带来的弊端.使用项目反应理论确定不同数据的敏感性及其隐私分数,保证了数据隐私分数的适用性,解决了部分用户忽视隐私的问题.提出了基于数据加密的隐私分数查询反馈机制,在此基础上,设计了流行度阈值随数据上传的动态调整方法.实验数据及对比分析结果表明,基于阈值动态调整的重复数据删除方案具有良好的可扩展性和实用性. 相似文献
20.
基于重复数据删除的连续数据保护系统可以实现时间点连续的数据保护,可以将数据回滚到任意的时刻,并且能够很好地降低存储开销,是一种理想的数据备份方式,而如何实现系统的快速回滚严重影响整个系统的性能.根据基于重复数据删除的连续数据保护系统的特点,系统实现了2种数据的快速回滚方法,并且通过cache对其中一种方法进行了加速.实验显示,2种回滚方式均能很好地实现数据回滚,并且cache起到了很好的加速效果.针对不同的回滚需求,灵活地选用不同的回滚方式,能够快速有效地实现数据回滚. 相似文献