首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
在传统的联邦学习中,多个客户端的本地模型由其隐私数据独立训练,中心服务器通过聚合本地模型生成共享的全局模型。然而,由于非独立同分布(Non-IID)数据等统计异质性,一个全局模型往往无法适应每个客户端。为了解决这个问题,本文提出一种针对Non-IID数据的基于AP聚类算法的联邦学习聚合算法(APFL)。在APFL中,服务器会根据客户端的数据特征,计算出每个客户端之间的相似度矩阵,再利用AP聚类算法对客户端划分不同的集群,构建多中心框架,为每个客户端计算出适合的个性化模型权重。将本文算法在FMINST数据集和CIFAR10数据集上进行实验,与传统联邦学习FedAvg相比,APFL在FMNIST数据集上提升了1.88个百分点,在CIFAR10数据集上提升了6.08个百分点。实验结果表明,本文所提出的APFL在Non-IID数据上可以提高联邦学习的精度性能。  相似文献   

2.
随着大数据时代的到来,数据分析需求日趋多样化,大数据分析工具自带的算法库已无法满足个性化的数据分析需求,亟需开发或集成新的算法。但现有的大数据分析工具算法开发集成学习成本高,给新算法的开发集成带来一定困难。提出一种针对大数据分析工具自动化开发集成算法的方法,算法以组件的形式集成到分析工具中。首先定义组件模型,其次给出组件模型自动化生成流程,最后重点分析组件代码的自动生成和代码检测问题,给出基于元信息的代码生成方案和基于Soot控制流的静态代码检测方法。实验表明,该方法可以完成大数据分析组件的自动化开发集成。  相似文献   

3.
大数据分析中基于MapReduce的空间权重创建方法研究   总被引:1,自引:0,他引:1  
大数据空间分析是Cyber-GIS的重要方面。然而,如何利用现有的网络基础设施(比如大规模计算集群)对大数据进行并行分布式空间分析仍然是一大难题。为此,本文提出一种基于MapReduce的空间权重创建方法。该方法依托Hadoop框架组织计算资源,基于MapReduce模式从大规模空间数据集中高效创建出空间权重:大空间数据首先被分为多个数据块,然后将映射器分布给计算集群中的不同节点,以便在数据中寻找出空间对象的相邻对象,最后由约简器从不同节点处收集相关结果并生成权重文件。利用Amazon公司弹性MapReduce的Hadoop框架,从人工空间数据中创建基于邻近概念的权重矩阵进行仿真,实验结果表明,本文方法的性能优于传统方法,解决了大数据的空间权重创建问题。  相似文献   

4.
目的 随着实际应用场景中海量数据采集技术的发展和数据标注成本的不断增加,自监督学习成为海量数据分析的一个重要策略。然而,如何从海量数据中抽取有用的监督信息,并该监督信息下开展有效的学习仍然是制约该方向发展的研究难点。为此,提出了一个基于共识图学习的自监督集成聚类框架。方法 框架主要包括3个功能模块。首先,利用集成学习中多个基学习器构建共识图;其次,利用图神经网络分析共识图,捕获节点优化表示和节点的聚类结构,并从聚类中挑选高置信度的节点子集及对应的类标签生成监督信息;再次,在此标签监督下,联合其他无标注样本更新集成成员基学习器。交替迭代上述功能块,最终提高无监督聚类的性能。结果 为验证该框架的有效性,在标准数据集(包括图像和文本数据)上设计了一系列实验。实验结果表明,所提方法在性能上一致优于现有聚类方法。尤其是在MNIST-Test(modified national institute of standards and technology database)上,本文方法实现了97.78%的准确率,比已有最佳方法高出3.85%。结论 该方法旨在利用图表示学习提升自监督学习中监督信息捕获...  相似文献   

5.
随着数据交易市场的建立和规范化,多方协同进行机器学习建模成为新需求。联邦学习允许多个数据拥有方联合训练一个机器学习模型,适用于模型共建共用场景,但现有联邦学习计算框架无法适用于数据拥有方和模型需求方诉求不同、模型共建不共用的场景。提出一种不依赖于第三方计算平台且基于同态加密的隐私保护逻辑回归协同计算方案,包括由数据拥有方、模型需求方和密钥生成者构成的多方协同计算框架,以及基于该框架的多方交互协同计算流程,在不泄露模型信息及各方数据隐私的前提下协作完成模型训练任务,通过建立攻击模型分析协同计算方案的安全性。基于先进的浮点数全同态加密方案CKKS在小型计算机集群上实现协同计算的原型系统,并对原型系统进行计算和通信优化,包括提前终止训练和将密文同态运算卸载到GPU上提高计算效率。实验结果表明,计算优化措施获得了约50倍的速度提升,协同计算原型系统在中小规模的数据集上可满足实用性要求。  相似文献   

6.
地铁站与外界之间的低频无线电通信受噪声干扰严重,为了实现对噪声的有效抑制,在武汉市采集了多个地铁站内的低频电磁噪声数据,分别从时域、频域和统计域的角度对噪声特性进行了分析,提出采用Alpha稳定分布模型描述噪声的统计特性,通过无穷方差检验、Q-Q图、基于特征函数的P值拟合优度检验、计算R_square指标等方法分析了Alpha稳定分布对噪声数据的拟合性能.研究结果表明,地铁站低频电磁噪声分布具有非高斯特征,可以用Alpha稳定分布很好地描述其分布特性.  相似文献   

7.
近年来,深度学习在诸多任务上展现了优异的性能,其一般基于海量数据并采用有监督的学习方式,依赖于完整的数据标签信息.然而在现实应用场景中,收集大量标签往往成本高昂.因此,如何利用未经充分标注的数据进行学习成为了当下的主要挑战.二分类问题中的从正例和无标签(Positive-Unlabeled,PU)样本数据进行学习,简称PU学习,即为其一.当前主流的PU学习算法需要准确无误的类别先验知识,但实际上类别先验通常难以获得,需要估计.已有的类别先验估计算法则主要面向传统的机器学习分类器进行设计,无法直接运用在大规模数据集上,因而不利于发挥深度学习在大规模数据集上的优势.为克服以上问题,本文提出了一个基于无监督混合模型的迭代式深度PU学习与类别先验估计框架.它利用了深度神经网络对正例和负例给出的预测分数具有不同的分布这一特性,使用双高斯成分的混合模型近似拟合预测分数的混合分布.其中,各个高斯分量分别代表了正类和负类的条件概率分布,混合权重系数代表了类别先验.结合半监督学习中的平均教师和温度锐化技术,所提框架在类别先验未知以及数据缺失负例监督的条件下,估计类别先验的同时进行PU数据上的深度学习,二...  相似文献   

8.
纪冲  刘岩 《计算机仿真》2021,38(7):313-316
传统的数据集成挖掘方法在集成与挖掘两个步骤之间存在较大误差,导致大数据出现乱码问题,数据显示不全.为解决上述问题,提出基于半监督深度学习法的大数据集成挖掘方法.利用有监督与无监督深度学习间的机器学习,组成半监督深度学习.利用支持向量数据组建立超球体.依据超球体结合标记样本,组建半监督深度学习数据检测模型,筛选样本特征词,利用半监督深度学习方法训练单分类SVDD模型,实现网络大数据集成挖掘.仿真结果证明,所提方法能够高精度、高效的对大数据完成集成挖掘,具有理想的应用性能.  相似文献   

9.
近年来,面向确定性知识图谱的嵌入模型在知识图谱补全等任务中取得了长足的进展,但如何设计和训练面向非确定性知识图谱的嵌入模型仍然是一个重要挑战。不同于确定性知识图谱,非确定性知识图谱的每个事实三元组都有着对应的置信度,因此,非确定性知识图谱嵌入模型需要准确地计算出每个三元组的置信度。现有的非确定性知识图谱嵌入模型结构较为简单,只能处理对称关系,并且无法很好地处理假负(false-negative)样本问题。为了解决上述问题,该文首先提出了一个用于训练非确定性知识图谱嵌入模型的统一框架,该框架使用基于多模型的半监督学习方法训练非确定性知识图谱嵌入模型。为了解决半监督学习中半监督样本噪声过高的问题,我们还使用蒙特卡洛Dropout计算出模型对输出结果的不确定度,并根据该不确定度有效地过滤了半监督样本中的噪声数据。此外,为了更好地表示非确定性知识图谱中实体和关系的不确定性以处理更复杂的关系,该文还提出了基于Beta分布的非确定性知识图谱嵌入模型UBetaE,该模型将实体、关系均表示为一组相互独立的Beta分布。在公开数据集上的实验结果表明,结合该文所提出的半监督学习方法和UBetaE模型,不仅...  相似文献   

10.
在大数据环境背景下,传统机器学习算法多采用单机离线训练的方式,显然已经无法适应持续增长的大规模流式数据的变化。针对该问题,提出一种基于Flink平台的分布式在线集成学习算法。该方法基于Flink分布式计算框架,首先通过数据并行的方式对在线学习算法进行分布式在线训练;然后将训练出的多个子模型通过随机梯度下降算法进行模型的动态权重分配,实现对多个子模型的结果聚合;与此同时,对于训练效果不好的模型利用其样本进行在线更新;最后通过单机与集群环境在不同数据集上做实验对比分析。实验结果表明,在线学习算法结合Flink框架的分布式集成训练,能达到集中训练方式下的性能,同时大大提高了训练的时间效率。  相似文献   

11.
目前已有的不完整数据填充方法大多局限于单一类型的缺失变量,对大规模数据的填充效果相对弱势.为了解决真实大数据中混合类型变量的缺失问题,本文提出了一个新的模型——SXGBI(Spark-based eXtreme Gradient Boosting Imputation),其适应于连续型和分类型两种缺失变量并存的不完整数据填充,同时具备快速处理大数据的泛化能力.该方法通过对集成学习方法XGBoost的改进,将多种补全算法结合在一起,构建了一个集成学习器,并结合Spark分布式计算框架进行了并行化设计,能较好地运行于Spark分布式集群上.实验表明,随着缺失率的增长,SXGBI在RMSE、PFC和F1几项评价指标上都取得了比实验中其它填充方法更好的填充结果.此外,它还可以有效地运用在大规模的数据集上.  相似文献   

12.
In the big data era, extreme learning machine (ELM) can be a good solution for the learning of large sample data as it has high generalization performance and fast training speed. However, the emerging big and distributed data blocks may still challenge the method as they may cause large-scale training which is hard to be finished by a common commodity machine in a limited time. In this paper, we propose a MapReduce-based distributed framework named MR-ELM to enable large-scale ELM training. Under the framework, ELM submodels are trained parallelly with the distributed data blocks on the cluster and then combined as a complete single-hidden layer feedforward neural network. Both classification and regression capabilities of MR-ELM have been theoretically proven, and its generalization performance is shown to be as high as that of the original ELM and some common ELM ensemble methods through many typical benchmarks. Compared with the original ELM and the other parallel ELM algorithms, MR-ELM is a general and scalable ELM training framework for both classification and regression and is suitable for big data learning under the cloud environment where the data are usually distributed instead of being located in one machine.  相似文献   

13.
随着大数据和机器学习的火热发展,面向机器学习的分布式大数据计算引擎随之兴起.这些系统既可以支持批量的分布式学习,也可以支持流式的增量学习和验证,具有低延迟、高性能的特点.然而,当前的一些主流系统采用了随机的任务调度策略,忽略了节点的性能差异,因此容易导致负载不均和性能下降.同时,对于某些任务,如果资源要求不满足,则会导...  相似文献   

14.
Ensemble methods aim at combining multiple learning machines to improve the efficacy in a learning task in terms of prediction accuracy, scalability, and other measures. These methods have been applied to evolutionary machine learning techniques including learning classifier systems (LCSs). In this article, we first propose a conceptual framework that allows us to appropriately categorize ensemble‐based methods for fair comparison and highlights the gaps in the corresponding literature. The framework is generic and consists of three sequential stages: a pre‐gate stage concerned with data preparation; the member stage to account for the types of learning machines used to build the ensemble; and a post‐gate stage concerned with the methods to combine ensemble output. A taxonomy of LCSs‐based ensembles is then presented using this framework. The article then focuses on comparing LCS ensembles that use feature selection in the pre‐gate stage. An evaluation methodology is proposed to systematically analyze the performance of these methods. Specifically, random feature sampling and rough set feature selection‐based LCS ensemble methods are compared. Experimental results show that the rough set‐based approach performs significantly better than the random subspace method in terms of classification accuracy in problems with high numbers of irrelevant features. The performance of the two approaches are comparable in problems with high numbers of redundant features.  相似文献   

15.
为推进大数据技术在油田领域的快速融合和应用,提出一种覆盖大数据处理整个生命周期的多功能大数据处理平台。平台融合各类大数据分析框架和机器学习框架,设计面向油田领域,能够支持实时和离线处理的数据挖掘功能。基于Docker容器封装各类计算框架和算法服务,并基于Kubernetes框架完成容器的编排与调度。在系统的架构方式上采用基于微服务的架构方式,将不同技术栈的应用独立分解为单个服务模块,以此来保证业务系统服务的可靠性、可扩展性。这使得企业数据分析人员能够专注于业务数据分析问题,而不必花费大量时间学习框架部署和其他大型数据挖掘技术细节。  相似文献   

16.
对于大数据而言,机器学习技术是不可或缺的;对于机器学习而言,大规模的数据可以提升模型的精准度。然而复杂的机器学习算法从时间和性能上都急需分布式内存计算这种关键技术。Spark分布式内存计算可以实现算法的并行操作,有利于机器学习算法处理大数据集。因此本文提出在Spark分布式内存环境下实现非线性机器学习算法,其中包括多层可变神经网络、BPPGD SVM、K-means,并在实现的基础上进行数据压缩、数据偏向抽样或者数据加载等方面的优化。为了实现充分配置资源批量运行脚本,本文也实现SparkML调度框架来调度以上优化算法。实验结果表明,优化后的3种算法平均误差降低了40%,平均时间缩短了90%。  相似文献   

17.
高性能计算集群用于高效并行计算,具有很高的性价比和良好的可扩展性,如何测试和评价集群系统性能成为一个关键问题。本文基于6个节点的集群进行Linpack测试,测试不同问题规模、计算节点数、求解矩阵数据分块NB、处理器网格拓扑P×Q、网络通信等重要因素,将单机与集群的计算性能进行对比,测试集群性能,结果表明:该集群的并行计算性能良好,可扩展性强,但硬件通讯能力需进一步改善。应用该集群到实际的地震大数据计算中,该集群的并行计算能力得到了很大的提升。  相似文献   

18.
数据分块数的选择是并行/分布式机器学习模型选择的基本问题之一,直接影响着机器学习算法的泛化性和运行效率。现有并行/分布式机器学习方法往往根据经验或处理器个数来选择数据分块数,没有明确的数据分块数选择准则。提出一个并行效率敏感的并行/分布式机器学习数据分块数选择准则,该准则可在保证并行/分布式机器学习模型测试精度的情况下,提高计算效率。首先推导并行/分布式机器学习模型的泛化误差与分块数目的关系。然后以此为基础,提出折衷泛化性与并行效率的数据分块数选择准则。最后,在ADMM框架下随机傅里叶特征空间中,给出采用该数据分块数选择准则的大规模支持向量机实现方案,并在高性能计算集群和大规模标准数据集上对所提出的数据分块数选择准则的有效性进行实验验证。  相似文献   

19.
针对Hadoop平台MapReduce分布式计算模型运行机制中的顺序制约而产生的计算资源浪费问题,从提高平台中每个执行节点的细粒度并行数据处理角度出发,结合Java共享内存多线程编程技术,对该模型进行了优化,提出一种MapReduce+OpenMP粗细粒度相结合的分布式并行计算模型。并在由四个节点组成的Hadoop集群环境下对不同规模大小的出租车GPS轨迹数据分析处理,验证该模型的性能和效率,实验结果证明MapReduce+OpenMP分布式并行计算模型确实能够提高针对大数据集的计算效率,是对Hadoop平台大数据分析处理模型有效的完善和优化。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号