共查询到20条相似文献,搜索用时 15 毫秒
1.
Hadoop平台作为一个开源的在集群上运行大型数据库处理的框架受到了各个公司的青睐,然而要在Hadoop集群上运行一个作业必须手动设置将近200多个复杂的参数,如何设置这些参数对普通用户来说是非常困难的,该文针对这个问题提出了一种基于策略选择的抽样算法,通过在Hadoop中加入策略感知层,实验结果表明改进的Hadoop框架可以自动优化设置这些复杂的参数,从而提高整个系统的运行效率。 相似文献
2.
Hadoop作为大规模分布式数据处理框架已经在工业界得到广泛的应用,针对手动和经验调优方法中参数空间庞大和运行流程复杂的问题,提出了一种Hadoop参数自动优化的方法和分析框架。首先,对作业运行流程进行解耦,从可变参数直接影响的更细粒度的角度定义微操作,从而分析参数和单次微操作执行时间的关系;然后,利用微操作对作业运行流程进行重构,建立参数和作业运行时间关系的模型;最后,在此模型上应用各类搜索优化算法高效快速得出优化后的系统参数。在terasort和wordcount两个作业类型上进行了实验,实验结果表明,相对于默认参数情况,该方法使作业执行时间分别缩短了至少41%和30%。该方法能够有效提高Hadoop作业执行效率,缩短作业执行时间。 相似文献
3.
4.
现代编译器提供的优化选项众多,选择何种参数因子、选择哪些选项组合以及以何种顺序应用这些选项成为复杂的问题,其中优化次序问题是最困难的优化问题.随着传统方法的改进(迭代编译结合启发式优化搜索)以及新技术的出现(机器学习),构建一种相对高效、智能的编译器自动调优框架成为可能.文中通过调查过去数十年的相关研究,总结了前人的研... 相似文献
5.
TDW是腾讯最大的离线数据处理平台。本文主要从需求、挑战、方案和未来计划等方面,介绍了TDW在建设单个大规模集群中采取的JobTracker分散化和NameNode高可用两个优化方案。 相似文献
6.
胡上序 《计算机与应用化学》1992,9(3):161-168
本文分析了调优问题的数学实质,指出关键是建立数值仿真模型,并将建模的主要方法分为理论分析、经验机理分析和统计分析三类.作者考察了若干种多元统计分析方法的特点后,采用了一种将判别和聚类分析相结合的模式分类方法.作者用实际数据说明了复杂过程的时变特性,提出用渐进式调整方法,可达到自适应调优目标.本文指出在线自适应调优的实现需要专家知识的帮助,提出了将专家知识和仿真计算结合而构成专家仿真系统的一种模式.最后还报道了调优软件在工业装置上实际试运行取得的效果示例. 相似文献
7.
基于Internet/Intranet的远程监控模式越来越受到人们的关注,然而工业控制的远程化也使原有的网络技术面临种种挑战,时延的不确定性就是其中最为典型的问题.由于这些问题的存在,使得实时性要求高的工业控制企业真正走向Internet远程控制还有很多问题.实时性要求高的企业往往流程复杂,工艺相关性大,对专家在线指导... 相似文献
8.
Hadoop集群作业的调度算法 总被引:1,自引:0,他引:1
Hadoop集群作业调度算法一直都是社区中讨论最热门的话题之一,当前有大量的设计与实现围绕着它展开。作业调度算法已经作为Hadoop实现中一个可插拔的组件,这也为大家能够对它进行更深入的探索打开了方便之门。 相似文献
9.
10.
近年来,随着各个领域中大规模、海量数据存储和处理需求的不断增加,集群作为一种廉价的可以提供强大计算能力的并行计算技术得到越来越广泛的应用,其具有大型机的超级计算能力和较低成本投入.从而成为各种高性能计算的主流方向,如科学计算与其他需要大规模并行计算的应用服务等.本文在分析现有分布式储存和计算等关键技术基础上,结合对Hadoop的集群技术的研究以及自身的业务需求和实际软硬件实力,提出了一种基于Hadoop的海量数据处理模型. 相似文献
11.
12.
本文分析了法律数据库的结构和特点,介绍了采用面向对象设计方法和超文本数据库技术开发和实现法律信息库系统将作为重要网络资源之一为不同用户进行法律咨询服务。 相似文献
13.
当前Internet上存在着海量的日志数据,他们中蕴藏着大量可用的信息。对海量数据的存储和分析都是一个艰巨而复杂的任务,单一主机已经无法满足要求,使用分布式存储和分布式计算来分析数据已经成为了必然的趋势。分布式计算框架Hadoop已经日趋成熟,被广泛的应用于很多领域。该文描述了一个针对大日志分析的分布式集群的构建与实现过程。介绍了日志分析的现状,使用vmware虚拟机搭建了Hadoop集群和日志分析系统的构建方法,并对实验结果进行了分析。 相似文献
14.
针对常用多面体编译器Pluto默认循环调度和分块大小性能欠佳的问题,提出了一种为其调度计算多种合法置换,根据置换和分块大小构成的配置空间为循环程序自动调优的方法。通过对定义循环融合的标量维度的处理,实现了非完美嵌套循环块间和块内的同时置换。构建了4种机器学习驱动的自动调优策略,为循环程序在指定问题规模下寻找优化的置换序和分块大小组合。默认分块大小下,扩展后的Pluto编译器并行环境下生成的最佳置换相较于Pluto的默认调度取得了最高4.02和几何平均2.12的加速比。通过进一步搜索更优的置换序和分块大小组合,最好的自动调优策略在并行环境下相较于Pluto的默认优化取得了最高5.48和几何平均2.86的加速比。此外,指定问题规模下,自动调优得到的最佳配置和学习模型应用于相似问题规模时,相较于Pluto的默认优化也取得了不同程度的性能提升。 相似文献
15.
16.
Linux服务器集群系统构建 总被引:1,自引:0,他引:1
LVS集群技术是构建高性能、高伸缩性、高可用性和低成本的网络服务系统的有效技术。本文介绍了LVS服务器集群系统的主要技术特点,包括其体系结构、负载均衡技术、调度算法,并给出了构建LVS服务器集群系统的实现步骤。 相似文献
17.
介绍了一种用于Hadoop集群自动化监控、预警系统的实现。通过获取集群节点的内存、CPU、磁盘信息统计节点系统信息,同时统计集群各类Hadoop基础服务的基础信息,如服务的内存使用、存活状态等。系统对收集的信息做异常信息处理与告警,自动推送给系统运维,极大提高了运维的响应速度,缩短问题定位、解决周期。 相似文献
18.
设计并实现了一个基于Hadoop集群的分布式入侵检测系统(HDIDS)。该系统实现了数据采集的分布化,数据存储的分布化和数据分析的分布化。有效地克服单点失效问题以及数据处理能力的瓶颈问题。 相似文献
19.
Ceph系统性能受Ceph配置参数的显著影响,在Ceph集群的配置优化中,配置参数种类繁多、含义复杂,导致难以实现快速准确寻优。针对以上问题,提出一种基于随机森林(RF)和遗传算法(GA)的参数调优方法,用于自动调整Ceph参数配置以优化Ceph系统性能。该方法使用RF算法为Ceph系统构建性能预测模型,并将预测模型的输出作为GA的输入,通过GA对参数配置方案进行自动迭代优化。仿真结果表明,调优后的参数配置较默认的参数配置相比,使Ceph文件系统的读写性能提高了约1.4倍,并且寻优耗时远低于黑盒参数调优方法。 相似文献
20.
针对智能合约开发效率不高、安全漏洞频发等问题,提出了一种基于代码注释调优的智能合约自动生成方法。首先结合智能合约代码关联注释的语义信息,构建智能合约聚类分析模型,实现功能类似智能合约的快速精准聚类;接着划分注释关联的合约层、函数层、接口层等不同层次智能合约知识库,以聚类后的代码及注释信息为基础,构造多样化Prompt特征提示语句数据集;最后,以大语言模型ChatGLM2-6B为基础,借助P-Tuning v2微调技术,实现特定需求智能合约的自动生成。为检测该方法的有效性,借助双语互译质量评估辅助工具BLEU和代码安全检测工具Mythril与VaaS,同现有方法进行了对比。实验结果表明,该方法生成的代码BLEU平均值提升了13%左右,代码安全性提高6%左右。此方法将代码注释信息融入智能合约的自动生成,有效提升了智能合约的质量,为安全可靠智能合约的高效开发提供了一种新的方法。 相似文献