共查询到20条相似文献,搜索用时 84 毫秒
1.
2.
3.
Hadoop作为大规模分布式数据处理框架已经在工业界得到广泛的应用,针对手动和经验调优方法中参数空间庞大和运行流程复杂的问题,提出了一种Hadoop参数自动优化的方法和分析框架。首先,对作业运行流程进行解耦,从可变参数直接影响的更细粒度的角度定义微操作,从而分析参数和单次微操作执行时间的关系;然后,利用微操作对作业运行流程进行重构,建立参数和作业运行时间关系的模型;最后,在此模型上应用各类搜索优化算法高效快速得出优化后的系统参数。在terasort和wordcount两个作业类型上进行了实验,实验结果表明,相对于默认参数情况,该方法使作业执行时间分别缩短了至少41%和30%。该方法能够有效提高Hadoop作业执行效率,缩短作业执行时间。 相似文献
4.
为解决Ceph默认参数无法充分发挥系统读写性能,手动调整参数效率低下、浪费大量系统资源的问题,提出一种基于长短期记忆网络和精英保留遗传算法的Ceph参数自动调优方法。采集真实环境下不同参数组合所对应的系统读写性能,构成实验所需的数据集,在此基础上通过LSTM构建Ceph性能预测模型,使用精英保留遗传算法寻找最优的参数组合,减少在真实环境中测试所消耗的时间和系统资源。通过实验,验证了该方法在准确率、收敛速度和性能提升等方面优于现有方法,经过调优后的系统读写性能是默认参数的1.7倍。 相似文献
5.
6.
数据库系统具有大量的配置参数,参数配置不同会导致系统运行时很大的性能差异.参数优化技术通过选择合适的参数配置,能够提升数据库对当前场景的适应性,因此得到国内外研究人员的广泛关注.通过对现有的数据库参数调优方法进行总结分析,根据参数优化方法是否具有应对环境变化的能力,将现有工作分为固定环境下的数据库参数优化方法和变化环境下的数据库参数优化方法 2类.对于固定环境下的参数优化方法,按照方法是否具有从历史任务中学习的能力将研究工作分为传统的参数优化方法和基于机器学习的参数优化方法 2类并分别进行介绍.对于变化环境下的参数优化方法,按照不同的变化场景对现有工作进行分类介绍.最后,总结了现有工作中各类方法的优缺点,并对目前研究中待解决的问题和可能发展的方向进行了讨论. 相似文献
7.
8.
入侵检测系统中,待测数据通常存在特征数量多、具有冗余性和相关性的特点,导致检测准确率降低、检测时间增加。提出一种基于多层感知机的遗传算法,建立4层感知机神经网络,将网络的分类能力作为遗传算法适应度评价方法,筛选出最优特征子集,建立随机森林分类器,使用网格验证方法确定随机森林超参数值,利用选取出的特征子集进行入侵类型识别。实验结果表明,该方法在KDD99数据集上对正常和22种类别的入侵数据平均检测准确率达到92%以上,并且具有较好的实时性。 相似文献
9.
随机搜索法是对无约束力问题寻找最优解的一种算法.随机森林是一种集成算法,为了提高随机森林分类的准确率,需要对参数进行调参.随机森林可以通过网格搜索算法或学习曲线算法选取到合适的参数,但是训练时间过长,消耗资源过大.本文通过对随机搜索算法改进,利用改进的随机搜索算法优化随机森林调参.经过实验验证,改进的算法选取到的参数保... 相似文献
10.
11.
针对网页欺诈检测中特征的高维、冗余问题,提出一个基于信息增益和遗传算法的改进特征选择算法(IFS-BIGGA)。首先,通过信息增益(IG)给出特征重要性排序,设定动态阈值减少冗余特征;其次,改进遗传算法(GA)中染色体编码函数和选择算子,并结合随机森林(RF)的受试者工作特征曲线面积(AUC)作为适应度函数,选择高辨识度特征;最后,增加实验迭代次数避免算法随机性,产生最佳最小的特征集合(OMFS)。实验验证表明,应用IFS-BIGGA生成的OMFS与高维特征集合相比,尽管RF下的AUC减小了2%,但是真阳性率(TPR)提高了21%,并且特征维度减少了92%;同时多个常用分类器的平均检测时间减少了83%;另外,IFS-BIGGA的F1值相比传统的遗传算法(TGA)和帝国主义竞争算法(ICA)分别提高了4.2%和3.5%。实验结果表明,IFS-BIGGA可以进行高效特征降维,在实际的网页检测工程中,有效减少计算代价,提高检测效率。 相似文献
12.
针对有刷直流(DC)电机的比例积分微分(PID)参数整定工作复杂耗时的问题,提出了一种基于改进型遗传算法(GA)的PID参数整定方法。首先,提出了适应度增强淘汰法则,改进了传统GA的选择过程;然后,提出了基因感染交叉方法,保证了进化过程中平均适应度值的增加;最后,删除了传统GA中不必要的复制操作,提升了算法的运行速度。通过电机传递函数进行建模和仿真分析。实验结果表明,与常规整定方法相比,所提改进型GA能够显著提升PID参数整定效果,且改进型GA相较于传统GA,达到同样进化效果所需的进化代数减少了79%,算法运行速度提升了4.1%。所提出的改进型GA从选择和交叉两个关键操作步骤对GA进行了改进,并应用于PID参数整定使得上升时间更少、稳定时间更短、过冲更小。 相似文献
13.
14.
建立了基于支持向量机的综合水质评价模型,构建了基于浮点数编码的遗传算法来优选模型参数,运用该模型以渭河水质监测数据为例进行了水质评价,并与水质评价的单因子法、主成分分析法和神经网络方法进行了分析比较。实验结果表明,该方法可以较好地实现水质综合评价,能从整体上准确、客观地反映河流水质情况。 相似文献
15.
一种遗传模糊聚类算法及其应用 总被引:2,自引:1,他引:1
研究一种基于遗传算法的模糊聚类方法,即将遗传算法得到的聚类中心作为模糊C-均值(FCM)聚类算法初值,这样既可以克服FCM算法对初始中心敏感的缺点,也可以解决遗传算法只能找到近似解的问题。将算法用于通信信号的星座聚类,根据聚类有效性函数自适应地确定聚类中心,并完成信号类型的识别。仿真实验证明,当存在较小的定时误差时,算法对PSK和QAM信号仍然是有效的。 相似文献
16.
针对大数据样例选择问题,提出了一种基于随机森林(RF)和投票机制的大数据样例选择算法。首先,将大数据集划分成两个子集,要求第一个子集是大型的,第二个子集是中小型的。然后,将第一个大型子集划分成q个规模较小的子集,并将这些子集部署到q个云计算节点,并将第二个中小型子集广播到q个云计算节点。接下来,在各个节点用本地数据子集训练随机森林,并用随机森林从第二个中小型子集中选择样例,之后合并在各个节点选择的样例以得到这一次所选样例的子集。重复上述过程p次,得到p个样例子集。最后,用这p个子集进行投票,得到最终选择的样例子集。在Hadoop和Spark两种大数据平台上实现了提出的算法,比较了两种大数据平台的实现机制。此外,在6个大数据集上将所提算法与压缩最近邻(CNN)算法和约简最近邻(RNN)算法进行了比较,实验结果显示数据集的规模越大时,与这两个算法相比,提出的算法测试精度更高且时间消耗更短。证明了提出的算法在大数据处理上具有良好的泛化能力和较高的运行效率,可以有效地解决大数据的样例选择问题。 相似文献
17.
一种基于遗传算法和卡尔曼滤波的运动目标跟踪方法 总被引:1,自引:0,他引:1
提出了一种基于遗传算法和卡尔曼滤波的运动目标跟踪方法。该方法利用卡尔曼滤波预测目标中心在下一帧图像中可能出现的位置,以该位置为中心,建立候选的目标搜索区域。以跟踪目标的灰度统计特征为模板,以Bhattacharyya系数来度量目标模板与候选目标区域的相似性,并以此相似性作为遗传算法适应度函数,以候选目标中心坐标作为参数编码,利用遗传算法进行匹配搜索,最终获得最佳候选区域中心位置,同时以该位置作为观测值,进行下一帧预测。实验结果表明,该方法具有较好的实时性和鲁棒性。 相似文献
18.
自组织映射(SOM)算法作为一种聚类和高维可视化的无监督学习算法,为进行中文Web文档聚类提供了有力的手段。但是SOM算法天然存在着对网络初始权值敏感的缺陷,从而影响聚类质量。为此,引进遗传算法对SOM网络加以优化。提出了以遗传算法优化SOM网络的文本聚类算法(GSTCA);进行了对比实验,实验表明,改进后的算法GSTCA比SOM算法在Web中文文档聚类中具有更高的准确率,其F-measure值平均提高了14%,同时,实验还表明,GSTCA算法对网络初始权值是不敏感的,从而提高了算法的稳定性。 相似文献
19.
20.
基于遗传算法的模糊聚类研究及其应用 总被引:4,自引:0,他引:4
为了克服传统聚类算法对初始化敏感的缺点,提出了一种基于增强型遗传算法的模糊聚类方法。它把遗传结束的准则与传统算法的终止准则有机地结合起来,不仅提高了算法的聚类分析性能,也提高了算法的收敛速度。比盲目的搜索效率要高,也比专门的针对特定问题的算法通用性强。通过在国内一家大型乳业集团的HRM系统中的成功运用,说明了该算法的有效性和通用性。 相似文献