期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

周渭博钟勇王阳《西北工业大学学报》2018,(3)

MapReduce模型是一种典型的分布式计算模型,被广泛应用于大规模数据处理,其性能很大程度上依赖于数据分布状态。由于数据内容往往都是不均衡的,再加上存储的随机性,因此MapReduce模型在计算过程中容易出现数据倾斜的问题。针对该问题,通过改进的基于MapReduce的数据直方图并行构建算法,对数据块和整个文件分别建立数据直方图,根据数据块分布情况,判断每个存储节点的数据倾斜程度,并定义了文件均衡偏差值作为数据倾斜的度量标准,进而通过数据均衡算法来降低文件均衡偏差值。改进的基于MapReduce的数据直方图并行构建算法能够适应各种类型的数据应用场景,直方图构建过程中Map端向Reduce端只需要传输直方图统计信息,不需要传输文件内容,数据传输量几乎可以忽略不计;基于直方图的数据均衡算法采用了贪心策略,可以获得均衡分布最优解的一个比较好的近似解,经过不同数据多次实验验证,该算法与随机block分布算法相比,可以降低40%左右的文件均衡偏差值,具有更好的数据均衡效果。相似文献

2.

基于存储熵的存储负载均衡算法

周渭博钟勇李振东《计算机应用》2017,37(8):2209-2213

在分布式存储系统中,一般都是以磁盘空间利用率（DU）来判断各存储节点的负载均衡程度,当所有节点的磁盘空间利用率相等时,是整个分布式存储系统的存储负载均衡点。但是在实际的应用场景中,磁盘I/O速率比较低的存储节点和可靠性比较低的存储节点往往成为影响整个存储系统数据读写性能的瓶颈,因此在异构分布式存储系统中,特别是各存储节点磁盘I/O速率和可靠性差异较大的分布式存储系统中,如果仅仅以磁盘空间利用率作为存储负载均衡的判定条件,则其数据的读写效率必然受到限制。从读写效率的角度提出一种度量分布式存储系统中存储负载均衡的新思路。根据负载均衡理论和熵理论给出存储熵（SE）的定义,并提出一种基于存储熵的负载均衡算法,该算法通过系统负载判定、单节点负载判定和负载迁移实现了对分布式存储系统存储负载的量化调整,并通过实验与基于磁盘空间利用率的负载均衡算法进行了对比分析,验证了该算法对分布式存储系统中存储负载具有良好的均衡性,有效地控制了系统负载失衡的问题,提高了分布式存储系统的整体读写效率。相似文献

3.

云数据库中等宽直方图的分布式并行构造方法

王阳钟勇周渭博杨观赐《四川大学学报(工程科学版)》2018,50(2):133-140

直方图能够直观的表示数据分布状况,在数据库查询优化中起着重要作用。为了更高效的利用计算集群中计算资源构建直方图,基于关系型云数据库提出一种直方图的分布式并行构造方法。集群中应用请求节点通过对经RPC协议传输的工作节点最值数据比较得到数据库表的全局最大值、最小值,依次将全局最值信息传送至集群中相关工作节点,使各工作节点能够在本地构建范围相同的等宽直方图,最后应用请求节点依据多个工作节点的直方图信息数据进行合并。算法利用分布式并行思想实现了关系型云数据库中直方图的构建,将计算任务划分成多个小任务并行执行,与基于MapReduce架构的直方图构建方法相比,该方法中不需要传输数据库表数据,解决了大数据环境下直方图构建过程中的网络传输量问题。相似文献

4.

在推荐系统中利用时间因素的方法

范家兵王鹏周渭博燕京京《计算机应用》2015,35(5):1324-1327

针对传统推荐算法忽略时间因素的问题,根据个体用户短期行为的相似性,利用时间衰减函数计算项目间相关关系,提出基于用户兴趣的项目关联度; 将其用于项目相似度的计算,提出基于用户兴趣的项目相似度; 同时基于项目关联度对ItemRank算法进行改进,提出一种结合时间因素的TItemRank算法.实验结果表明, 利用项目关联度对推荐算法进行改进时,在推荐项目数较少的情况下能够明显地改善推荐效果.特别地,在推荐项目数为20时,基于用户兴趣的项目相似度相比余弦相似度和Jaccard相似度,推荐准确率分别提高了21.9%、6.7%; 在推荐项目数为5时,TItemRank算法相比ItemRank算法推荐准确率提高2.9%. 相似文献