期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

蒲勇霖于炯王跃飞鲁亮廖彬侯冬雪《计算机应用》2017,37(6):1580-1586

在大数据实时分析计算领域,流式计算的重要性不断提高,但是流式计算平台处理数据的能耗不断上升。针对这一问题,改变流式计算中节点对数据的处理方式,提出了一种阈值调控节能策略（ESTC）。首先,根据系统负载差异确定工作节点的阈值情况;其次,通过工作节点的阈值对系统数据流进行随机选择,确定不同数据处理情况调节系统的物理电压;最后,根据不同的物理电压确定系统功率。实验结果和理论分析表明,在20台普通PC机构成的流式计算集群中,实施ESTC的系统比原系统有效节能约35.2%;此外,ESTC下的性能与能耗的比值为0.0803 tuple/（s·J）,而原系统性能与能耗的比值为0.0698 tuple/（s·J）。ESTC能够在不影响系统性能的前提下,有效降低了能耗。相似文献

2.

一种基于邻域系统密度差异度量的离群点检测算法

杜旭升于炯陈嘉颖王跃飞蒲勇霖叶乐乐《计算机应用研究》2020,37(7):1969-1973

针对离群点检测算法LOF在高维离散分布数据集中检测精度较低及参数敏感性较高的问题,提出了基于邻域系统密度差异度量的离群点检测NSD（neighborhood system density difference）算法。相较于传统基于密度的离群点检测方法,NSD算法引入了截取距离的概念。首先计算数据集中对象在截取距离内的邻居点个数;其次计算对象的邻域系统密度;然后将对象的密度与它邻居的密度进行比较,判定目标对象与其邻居趋向于同一簇的程度;最后输出最可能是离群点的对象。将NSD算法与LOF、LDOF、CBOF算法在真实数据集与合成数据集中对比实验发现,NSD算法具有较高的检测准确率和执行效率以及较低的参数敏感性,证明了NSD算法是有效可行的。相似文献

3.

Storm环境下基于权重的任务调度算法

鲁亮于炯卞琛英昌甜师康利蒲勇霖《计算机应用》2018,38(3):699-706

大数据流式计算平台Apache Storm默认采用轮询的方式进行任务调度,未考虑到拓扑中各任务计算开销的差异以及任务之间不同类型的通信模式,在负载均衡和通信开销方面存在较大的优化空间。针对这一问题,提出一种Storm环境下基于权重的任务调度算法（TSAW-Storm）。该算法首先根据各任务的CPU资源占用情况以及任务间的数据流大小,分别确定拓扑的点权和边权;并利用最大化边权增益的思想,逐步构建起各工作节点中承载的任务集合,在保证集群负载均衡的同时,尽可能将边权较大的节点间数据流转化为节点内数据流,从而降低网络传输开销。实验结果表明,在包含有8个工作节点的WordCount基准测试中,TSAW-Storm的系统延迟和节点间数据流大小相比Storm默认调度算法分别降低了30.0%和32.9%,且各工作节点的CPU负载标准差仅为Storm默认调度算法的25.8%;此外,在与在线调度算法的对比实验中,TSAW-Storm在系统延迟、节点间数据流大小和CPU负载标准差方面分别降低了7.76%、11.8%和5.93%,且算法的执行开销明显降低,有效提高了Storm系统的运行效率。相似文献

4.

基于成对标签的深度哈希图像检索方法

李雪于炯李梓杨陈嘉颖蒲勇霖《计算机工程与设计》2021,42(7):1981-1988

针对采用松弛-量化策略的深度哈希方法面临的二值码离散优化的难题,提出一种端到端的基于成对标签的哈希方法来学习更具有判别力的哈希码,通过优化损失函数来解决离散优化丢失信息的问题.引入锚点哈希码概念,以汉明空间中的锚点作为监督信息训练AlexNet网络,将表示图片的二值码拟合至各锚点附近,使用优化后的损失函数计算分类误差和锚点误差,使哈希函数生成具有强判别力的哈希码.在CIFOR-10数据集和ImageNet-100数据集上实验,检索精度优于当前主流方法. 相似文献

5.

Storm平台下的线程重分配与数据迁移节能策略

蒲勇霖于炯鲁亮李梓杨卞琛廖彬《软件学报》2021,32(8):2557-2579

作为流式大数据计算的主要平台之一,Storm在设计过程中由于缺乏节能的考虑,导致其存在高能耗与低效率的问题.传统的节能策略并未考虑Storm的性能约束,可能会对集群的实时性造成影响.针对这一问题,设计了资源约束模型、最优线程重分配模型以及数据迁移模型.进一步提出了Storm平台下的线程重分配与数据迁移节能策略（energy-efficient strategy based on executor reallocation and data migration in Storm,简称ERDM）,包括资源约束算法与数据迁移算法.其中,资源约束算法根据集群各工作节点CPU、内存与网络带宽的资源占用率,判断集群是否允许数据的迁移.数据迁移算法根据资源约束模型与最优线程重分配模型,设计了数据迁移的最优化方法.此外,ERDM通过分配线程减少了节点间的通信开销,并根据大数据流式计算的性能与能效评估ERDM.实验结果表明,与现有研究相比,ERDM能够有效降低节点间通信开销与能耗,并提高集群的性能. 相似文献

6.

基于SSD数据库负载的SQL能耗感知模型

李树于炯国冰磊蒲勇霖杨德先刘粟《计算机应用》2019,39(1):205-212

面对大数据带来的能耗及环境方面的严峻问题，构建节能的绿色数据库系统已成为关键需求和重要挑战。针对现有数据库系统主要以性能优化为目标，缺少对能耗的感知及优化的问题，提出基于数据库负载的能耗感知模型，并将模型应用于基于固态硬盘（SSD）的数据库系统中。首先，将数据库负载执行过程中对主要系统资源（CPU、固态硬盘）的消耗解析为时间开销和功耗开销，并基于SSD数据库负载的基本I/O类型构建时间开销模型和功耗开销模型，实现为数据库构建资源开销单位统一的能耗感知模型；然后，利用多元线性回归实现对模型的求解，并分别在独占环境和竞争环境下，验证模型对不同I/O类型的数据库负载能耗估算的准确性；最后，分析实验结果，并讨论了影响模型准确性的因素。经实验验证模型准确度较高，在DBMS独占系统资源情况下的平均误差为5.15%，绝对误差不超过9.8%；竞争环境下的准确率相对下降，但平均误差也低于12.21%，可有效构建能耗感知的绿色数据库系统。相似文献

7.

基于Storm平台的数据恢复节能策略

蒲勇霖于炯鲁亮李梓杨国冰磊廖彬《计算机研究与发展》2021,58(3):479-496

作为目前主流的大数据流式计算平台之一,Storm在设计之初以性能为目的进行研究而忽视了高能耗的问题,但是其高能耗问题已经开始制约着平台的发展.针对这一问题,分别建立了任务分配模型、拓扑信息监控模型、数据恢复模型以及能耗模型,并进一步提出了基于Storm平台的数据恢复节能策略(energy-efficient strategy based on data recovery in Storm,DR-Storm),包括吞吐量检测算法与数据恢复算法.其中吞吐量检测算法根据拓扑信息监控模型反馈的拓扑信息计算集群吞吐量,并通过信息反馈判断是否终止整个集群内拓扑的任务.数据恢复算法根据数据恢复模型选择备份节点用于数据存储,并通过拓扑信息监控模型反馈的信息判断集群拓扑是否进行数据恢复.此外,DR-Storm通过备份节点内存恢复集群拓扑内的数据,并根据大数据流式计算的系统延迟与能效评估DR-Storm.实验结果表明:与现有研究成果相比,DR-Storm在减少系统计算延迟、降低集群功率的同时,有效节约了能耗. 相似文献

8.

基于近邻传播的离群点检测算法

张倩倩于炯李梓杨蒲勇霖《计算机应用研究》2021,38(6):1662-1667

离群点是与其他正常点属性不同的一类对象,其检测技术在各行业上均有维护数据纯度、保障业内安全等重要应用,现有算法大多是基于距离、密度等传统方法判断检测离群点.本算法给每个对象分配一个"孤立度",即该点相对其邻点的孤立程度,通过排序进行判定,比传统算法效率更高.在AP(affinity propagation)聚类算法的基础上进行改进与优化,提出能检测异常数据点的算法APO(outlier detection algorithm based on affinity propagation).通过加入孤立度模块并计算处理样本点的孤立信息,并引入放大因子,使其与正常点之间的差异更明显,通过增大算法对离群点的敏感性,提高算法的准确性.分别在模拟数据集和真实数据集上进行对比实验,结果表明:该算法与AP算法相比,对离群点的敏感性更加强烈,且本算法检测离群点的同时也能聚类,是其他检测算法所不具备的. 相似文献

9.

Heron环境下基于实例重分配的传输负载优化策略

刘宇于炯蒲勇霖李梓杨张译天《计算机应用研究》2021,38(1):198-203

作为新一代大数据流式计算框架,Heron忽略了任务实例之间不同通信方式的差异以及节点资源利用率不均衡的问题导致系统性能下降。针对这一问题,设计了节点资源限制模型、通信开销优化模型和实例数据流关系模型,并在此基础上提出了Heron环境下基于实例重分配的传输负载优化策略(transmission load optimization strategy based on instance reallocation in Heron,TLIR-Heron)。该策略包括节点资源限制算法和实例重分配算法,通过判定实例重分配条件并执行重分配算法将节点间数据流转换为节点内数据流,从而降低通信开销。实验结果表明,在三组拓扑测试下,TLIR-Heron相较于Heron默认调度策略能够降低节点间通信开销和系统的计算延迟,并提升了计算节点资源利用的均衡性。相似文献

10.

基于流网络的流式计算动态任务调度策略

李梓杨于炯卞琛鲁亮蒲勇霖《计算机应用》2018,38(9):2560-2567

针对大数据流式计算平台中输入数据流速急剧上升所导致的计算延迟升高问题,提出了基于流网络模型的动态调度策略,并将其应用于Flink数据流计算平台。首先,通过定义有向无环图（DAG）中每条边的容量和流量将其转化为流网络模型,并通过容量检测算法确定每条边的容量值;然后,通过最大流算法计算对应的增进网络和优化路径,从而在输入速率上升阶段提升集群的吞吐量,并通过评估时空代价论证了算法的可行性;最后,讨论了重要参数对算法执行效果的影响,并通过实验得出了在不同类型的作业中推荐的参数取值。经实验验证得出：所提算法与Flink平台现有的任务调度策略相比,在输入速率上升阶段对不同作业类型中集群吞吐量的优化比均高于16.12%。实验结果表明动态调度策略在满足任务延迟约束的前提下有效提高了集群的吞吐量。相似文献