期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

廖彬张陶国冰磊于炯张旭光刘炎《计算机应用》2017,37(7):1900-1905

MapReduce计算场景下,复杂的大数据挖掘类算法通常需要多个MapReduce作业协作完成,但多个作业之间严重的冗余磁盘读写及重复的资源申请操作,使得算法的性能严重降低。为提高ItemBased推荐算法的计算效率,首先对MapReduce平台下ItemBased协同过滤算法存在的性能问题进行了分析;在此基础上利用Spark迭代计算及内存计算上的优势提高算法的执行效率,并实现了基于Spark平台的ItemBased推荐算法。实验结果表明：当集群节点规模分别为10与20时,算法在Spark中的运行时间分别只有MapReduce中的25.6%及30.8%,Spark平台下的算法相比MapReduce平台,执行效率整体提高3倍以上。相似文献

2.

基于GraphX传球网络的传球质量量化研究

廖彬张陶国冰磊于炯牛亚锋张旭光刘炎《计算机科学》2017,44(12):175-182, 201

虽然大数据技术在不断成熟,但它在竞技体育领域的相关应用研究还处于探索阶段。常规篮球统计缺乏对传球数据的记录,更缺乏对传球数据的统计分析、价值挖掘及应用等方面的研究。首先,在GraphX基础上将传球数据构建成图,为传球质量的研究奠定基础;其次,提出传球质量评估方法PESV(Pass Expectation Score Value),相比于传统的助攻数与失误数的比值ATR(Assist Turnover Ratio),PESV能更全面地评价球员传球的质量;最后,介绍基于传球网络及传球质量评估方法PESV的几种应用场景,包括传球质量对比赛结果的影响分析、基于PESV值的传球路线选择,并以华人球员林书豪为例,计算其2015－2016赛季的传球得分期望值。相似文献

3.

基于二维划分的杰卡德相似系数批量计算效率优化

廖彬张陶于炯国冰磊刘继《计算机科学》2017,44(1):219-225

随着互联网用户及内容的指数级增长,大规模数据场景下的杰卡德相似系数计算对算法的效率提出了更高的要求。为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适用于迭代型及交互型任务的特点,基于二维划分算法将算法从MapReduce平台移植到Spark平台;并通过参数调整、内存优化等方法进一步提高了算法的执行效率。两组数据集分别在3组不同规模的集群上的实验结果表明,与MapReduce相比,Spark平台下的算法执行效率提高了4倍以上,能耗效率提升了3倍以上。相似文献

4.

多MapReduce作业协同下的大数据挖掘类算法资源效率优化

廖彬张陶于炯黄静莱国冰磊刘炎《计算机应用研究》2020,37(5):1321-1325

由于任意的MapReduce作业都需要独立地进行任务调度、资源分配等一系列复杂的操作,这使得同一算法协同的多个MapReduce作业之间,存在着大量的冗余磁盘I/O及资源重复申请操作,导致计算过程中资源利用效率低下。大数据挖掘类算法通常被切分成多个MapReduce job协作完成。以ItemBased算法为例,对多MapReduce作业协同下的大数据挖掘算法存在的资源效率问题进行了分析,提出基于DistributedCache的ItemBased算法,利用DistributedCache将多个MapReduce job之间的I/O数据进行缓存处理,打破作业之间独立性的缺陷,减少map与reduce任务之间的等待时延。实验结果表明,DistributedCache能够提高MapReduce作业的数据读取速度,利用DistributedCache重构后的算法极大地减少了map与reduce任务之间的等待时延,资源效率提高3倍以上。相似文献

5.

基于数据库负载的SQL能耗预测模型

国冰磊于炯廖彬杨德先《计算机科学》2017,44(1):208-213

传统数据库以性能(吞吐量、响应时间)为首要优化目标,忽略了数据库系统的能量消耗。在一味追求性能的同时,高能耗问题日益突出,为数据库负载构建能耗模型是构建绿色数据库的基础。通过量化查询负载执行过程中对系统资源(CPU与磁盘)的消耗,将资源消耗产生的时间代价和功耗代价转化为时间代价预测模型和功率代价预测模型,在单站点数据库服务器上实现了为数据库系统构建资源单位代价统一的能耗预测模型。采用多元线性回归工具拟合模型的重要参数,实验结果验证了能耗预测模型的可行性;并分别在静态与动态的系统环境下对系统不同类型查询负载的能耗进行预测与评价,验证了该模型的准确性,使得提出的能耗模型适合于构建能耗感知的绿色数据库。相似文献

6.

一种基于MBRC值的关系型数据库负载能耗预测模型

杨德先孙华于炯国冰磊《计算机科学》2017,44(7):161-166

数据库负载的能耗解析与建模是构建节能的绿色数据库的基础。针对数据库负载的高能耗问题,将SQL语句消耗的系统资源(CPU和磁盘)映射为时间代价与功率代价,为数据库负载构建能耗预测模型。首先,根据负载的系统资源消耗模式,计算负载的功耗代价;然后,根据负载资源消耗产生的时间代价,为负载构建动态能耗预测模型;最后,利用MBRC值的设置对预测模型的准确度进行深入的研究。实验结果表明,所构建的预测模型能够对数据库负载的能量消耗进行较准确的预测,预测模型的准确度研究有助于在不同的系统环境配置下提升动态能耗预测模型的稳定性与精确度。相似文献

7.

基于Spark的MapReduce相似度计算效率优化

廖彬张陶于炯国冰磊刘炎《计算机科学》2017,44(8):46-53

随着互联网的用户及内容呈指数级增长,大规模数据场景下的相似度计算对算法的效率提出了更高的要求。为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适于迭代型及交互型任务的特点,基于二维划分算法将算法从MapReduce平台移植到Spark平台;同时,通过参数调整、内存优化等方法进一步提高算法的执行效率。通过2组数据集分别在3组不同规模的集群上的实验表明,与MapReduce相比,在Spark平台下算法的执行效率平均提高了4.715倍,平均能耗效率只有Hadoop能耗的24.86%,能耗效率提升了4倍左右。相似文献

8.

SCEA:一种适应高维海量数据的并行聚类集成算法

廖彬黄静莱王鑫孙瑞娜葛晓燕国冰磊《电子学报》2021,49(6):1077-1087

针对传统串行聚类集成算法在处理高维海量数据时效率低下的问题,提出基于Spark的并行聚类集成算法SCEA(Spark based Clustering Ensemble Algorithm).首先,通过主成分分析与成对约束结合的方法对算法输入数据进行预处理,达到数据降维并去除特征相关性的目的;其次,通过调用不同聚类算法获得基聚类成员后,采用三元组方法通过基聚类成员的簇标签构造出相似度矩阵,并调用层次聚类算法得到最终的聚类结果;最后,在调用MLlib中已有聚类算法的基础上,基于Scala对SCEA算法进行了实现.将SCEA与同类算法在多组数据集下进行对比测试,实验结果表明:总体上SCEA不仅较已有算法在准确率方面有所提高,并且通过分析运行时间、加速比以及可扩展性3个性能指标,证明了SCEA在算法性能上的优越性. 相似文献

9.

基于操作历史图的分布式Key-Value数据库一致性检测算法

廖彬张陶李敏于炯国冰磊刘炎《计算机科学》2019,46(12)

相似文献

10.

面向关系数据库查询的能耗建模及计划评价

国冰磊于炯杨德先廖彬《计算机研究与发展》2019,56(4)

相似文献