首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在传统的联邦学习中,多个客户端的本地模型由其隐私数据独立训练,中心服务器通过聚合本地模型生成共享的全局模型。然而,由于非独立同分布(Non-IID)数据等统计异质性,一个全局模型往往无法适应每个客户端。为了解决这个问题,本文提出一种针对Non-IID数据的基于AP聚类算法的联邦学习聚合算法(APFL)。在APFL中,服务器会根据客户端的数据特征,计算出每个客户端之间的相似度矩阵,再利用AP聚类算法对客户端划分不同的集群,构建多中心框架,为每个客户端计算出适合的个性化模型权重。将本文算法在FMINST数据集和CIFAR10数据集上进行实验,与传统联邦学习FedAvg相比,APFL在FMNIST数据集上提升了1.88个百分点,在CIFAR10数据集上提升了6.08个百分点。实验结果表明,本文所提出的APFL在Non-IID数据上可以提高联邦学习的精度性能。  相似文献   

2.
联邦学习是一种新兴的保护隐私的机器学习算法,它正在广泛应用于工业物联网(IIoT)中,在联邦学习中中心服务器协调多个客户端(如物联网设备)在本地训练模型,最后融合成一个全局模型.最近,区块链在工业物联网和联邦学习中得到了利用,以用来维护数据完整性和实现激励机制,吸引足够的客户数据和计算资源用于培训.然而,基于区块链的联邦学习系统缺乏系统的架构设计来支持系统化开发.此外,目前的解决方案没有考虑激励机制设计和区块链的可扩展性问题.因此,在本文中,我们提出了一个应用于工业物联网中基于区块链的联邦学习系统架构,在此架构中,每个客户端托管一个用于本地模型训练的服务器,并管理一个完整的区块链节点.为了实现客户端数据的可验证完整性,同时考虑到区块链的可扩展问题,因此每个客户端服务器会定期创建一个默克尔树,其中每个叶节点表示一个客户端数据记录,然后将树的根节点存储在区块链上.为了鼓励客户积极参与联邦学习,基于本地模型培训中使用的客户数据集大小,设计了一种链上激励机制,准确、及时地计算出每个客户的贡献.在实验中实现了提出的架构的原型,并对其可行性、准确性和性能进行了评估.结果表明,该方法维护了数据的完整性,并具有良好的预测精度和性能.  相似文献   

3.
联邦学习中由于不同客户端本地数据分布异质,在本地数据集上训练的客户端模型优化目标与全局模型不一致,导致出现客户端漂移现象,影响全局模型性能.为了解决非独立同分布数据带来的联邦学习模型性能下降甚至发散的问题,文中从本地模型的通用性角度出发,提出基于结构增强的异质数据联邦学习模型正则优化算法.在客户端利用数据分布异质的本地数据进行训练时,以结构化的方式采样子网络,并对客户端本地数据进行数据增强,使用不同的增强数据训练不同的子网络学习增强表示,得到泛化性较强的客户端网络模型,对抗本地数据异质带来的客户端漂移现象,在联邦聚合中得到性能更优的全局模型.在CIFAR-10、CIFAR-100、ImageNet-200数据集上的大量实验表明,文中算法性能较优.  相似文献   

4.
柏财通  崔翛龙  李爱 《计算机工程》2022,48(10):103-109
当联邦学习(FL)算法应用于鲁棒语音识别任务时,为解决训练数据非独立同分布(Non-IID)与客户端模型缺乏个性化问题,提出基于个性化本地蒸馏的联邦学习(PLD-FLD)算法。客户端通过上行链路上传本地Logits并在中心服务器聚合后下传参数,当边缘端模型测试性能优于本地模型时,利用下载链路接收中心服务器参数,确保了本地模型的个性化与泛化性,同时将模型参数与全局Logits通过下行链路下传至客户端,实现本地蒸馏学习,解决了训练数据的Non-IID问题。在AISHELL与PERSONAL数据集上的实验结果表明,PLD-FLD算法能在模型性能与通信成本之间取得较好的平衡,面向军事装备控制任务的语音识别准确率高达91%,相比于分布式训练的FL和FLD算法具有更快的收敛速度和更强的鲁棒性。  相似文献   

5.
联邦学习是一种多设备参与的,保护数据隐私的深度学习技术.它能够在私有数据不出本地的同时训练全局共享模型.然而,在复杂的物联网环境中,联邦学习面临着统计异构性和系统异构性的挑战.不同的本地数据分布和高额的通信计算成本,使得过参数化的模型不适合在物联网应用中直接部署.同时,非独立同分布的数据也使采用参数平均聚合的联邦学习更加难以收敛.联邦学习场景下的研究难点在于,如何根据私有数据为每个客户端建立个性化的轻量级模型的同时,把这些模型汇总成为联合模型.为了解决这一问题,本文提出了一种基于进化策略的自适应联邦学习算法.该方法将模型结构进行编码,把每个参与者视作进化策略中的个体,通过全局优化来为每个客户端自适应地生成不同的个性化子模型.客户端根据网络单元重要性和编码在服务器端超网中抽取相应的子网来进行本地更新,而这种网络局部更新的方法天然契合dropout的思想.在真实数据集上进行的大量实验证明,本文提出的框架相比于经典的联邦学习方法,模型性能得到了显著改善.在客户端数据非独立同分布的情况下,该算法在有效降低了客户端在通信带宽和计算力受限条件下参与联邦学习门槛的同时,提高了全局模型的泛化能力.  相似文献   

6.
联邦学习能够在不泄露数据隐私的情况下合作训练全局模型,但这种协作式的训练方式在现实环境下面临参与方数据非独立同分布(Non-IID)的挑战:模型收敛慢、精度降低的问题。许多现有的联邦学习方法仅从全局模型聚合和本地客户端更新中的一个角度进行改进,难免会引发另一角度带来的影响,降低全局模型的质量。提出一种分层持续学习的联邦学习优化方法(FedMas)。FedMas基于分层融合的思想,首先,采用客户端分层策略,利用DBSCAN算法将相似数据分布的客户端划分到不同的层中,每次仅挑选某个层的部分客户端进行训练,避免服务器端全局模型聚合时因数据分布不同产生的权重分歧现象;进一步,由于每个层的数据分布不同,客户端在局部更新时结合持续学习灾难性遗忘的解决方案,有效地融合不同层客户端数据间的差异性,从而保证全局模型的性能。在MNIST和CIFAR-10标准数据集上的实验结果表明,FedMas与FedProx、Scaffold和FedCurv联邦学习算法相比,全局模型测试准确率平均提高0.3~2.2个百分点。  相似文献   

7.
联邦学习作为分布式机器学习框架,在数据不离开本地的情况下,通过共享模型参数达到协作训练的目标,一定程度上解决了隐私保护问题,但其存在中心参数服务器无法应对单点故障、潜在恶意客户端梯度攻击、客户端数据偏态分布导致训练性能低下等问题。将去中心化的区块链技术与联邦学习相结合,提出基于超级账本的集群联邦优化模型。以超级账本作为分布式训练的架构基础,客户端初始化后在本地训练向超级账本传输模型参数及分布信息,通过聚类优化联邦学习模型在客户端数据非独立同分布下的训练表现。在此基础上,随机选举客户端成为领导者,由领导者代替中央服务器的功能,领导者根据分布相似度和余弦相似度聚类并下载模型参数聚合,最后客户端获取聚合模型继续迭代训练。以EMNIST数据集为例,数据非独立同分布情况下该模型平均准确率为79.26%,较FedAvg提高17.26%,在保证准确率的前提下,较集群联邦学习训练至收敛的通信轮次减少36.3%。  相似文献   

8.
手机、可穿戴设备等终端设备每天产生海量数据,但这些数据往往涉及敏感隐私而不能直接公开并使用.为解决隐私保护下的机器学习问题,联邦学习应运而生,旨在通过构建协同训练机制,在不共享客户端数据条件下,训练高性能全局模型.然而,在实际应用中,现有联邦学习机制面临两大不足:(1)全局模型需考虑多个客户端的数据,但各客户端往往仅包含部分类别数据且类别间数据量严重不均衡,使得全局模型难以训练;(2)各客户端之间的数据分布往往存在较大差异,导致各客户端模型往往差异较大,使得传统通过模型参数加权平均以获得全局模型的方法难以奏效.为降低客户端类别不均衡和数据分布差异的影响,本文提出一种基于数据生成的类别均衡联邦学习(Class-Balanced Federated Learning,CBFL)方法. CBFL旨在通过数据生成技术,针对各客户端构造符合全局模型学习的类别均衡数据集.为此,CBFL设计了一个包含类别均衡采样器和数据生成器的类别分布均衡器.其中,类别均衡采样器对客户端数据量不足的类别以较高概率进行采样.然后,数据生成器则根据所采样的类别生成相应的虚拟数据以均衡客户端数据的类别分布并用于后续的模型...  相似文献   

9.
王树芬  张哲  马士尧  陈俞强  伍一 《计算机工程》2022,48(6):107-114+123
联邦学习允许边缘设备或客户端将数据存储在本地来合作训练共享的全局模型。主流联邦学习系统通常基于客户端本地数据有标签这一假设,然而客户端数据一般没有真实标签,且数据可用性和数据异构性是联邦学习系统面临的主要挑战。针对客户端本地数据无标签的场景,设计一种鲁棒的半监督联邦学习系统。利用FedMix方法分析全局模型迭代之间的隐式关系,将在标签数据和无标签数据上学习到的监督模型和无监督模型进行分离学习。采用FedLoss聚合方法缓解客户端之间数据的非独立同分布(non-IID)对全局模型收敛速度和稳定性的影响,根据客户端模型损失函数值动态调整局部模型在全局模型中所占的权重。在CIFAR-10数据集上的实验结果表明,该系统的分类准确率相比于主流联邦学习系统约提升了3个百分点,并且对不同non-IID水平的客户端数据更具鲁棒性。  相似文献   

10.
联邦学习技术是一种新型多机构协同训练模型范式,广泛应用于多领域,其中模型参数隐私保护是一个关键问题.针对CT影像综合性病灶检测任务,提出隐私保护的联邦学习算法.首先部署松散耦合的客户端-服务器架构;其次在各客户端使用改进的RetinaNet检测器,引入上下文卷积和后向注意力机制;最后完成联邦训练.各客户端使用局部更新策略,采用自适应训练周期,局部目标函数中加入了限制项;服务器使用自适应梯度裁剪策略和高斯噪声差分隐私算法更新全局模型参数.在DeepLesion数据集上的消融分析说明了算法各部分的重要性.实验结果表明,改进的RetinaNet检测器有效地提升了多尺度病灶的检测精度.与集中数据训练模型范式相比,联邦学习所得模型性能略低(mAP分别为75.33%和72.80%),但训练用时缩短近38%,有效地实现了隐私保护、通信效率和模型性能的良好权衡.  相似文献   

11.
参与联邦学习的客户端只需在各自的本地数据集上训练本地模型,并在服务器上聚合全局模型.然而,数据异构会导致本地模型与全局最优模型收敛方向不一致,影响全局模型性能.现有工作主要集中在直接与全局模型做趋同,并未考虑全局模型合理性.本文研究了一种基于局部模型偏移的性能优化方案,本地训练过程中结合所有客户端模型关键参数,提高全局聚合模型可信度.具体来说,计算待训练模型与其他客户端模型参数差值,然后乘以其他客户端梯度,将结果作为正则项加入本地损失函数,从而抑制局部模型偏移.实验结果表明,该方案在MNIST,FMNIST,CIFAR上的图像识别正确率方面优于现有方法5个百分点以上.  相似文献   

12.
联邦学习是一种能够保护数据隐私的机器学习设置,然而高昂的通信成本和客户端的异质性问题阻碍了联邦学习的规模化落地。针对这两个问题,提出一种面向通信成本优化的联邦学习算法。首先,服务器接收来自客户端的生成模型并生成模拟数据;然后,服务器利用模拟数据训练全局模型并将其发送给客户端,客户端利用全局模型进行微调后得到最终模型。所提算法仅需要客户端与服务器之间的一轮通信,并且利用微调客户端模型来解决客户端异质性问题。在客户端数量为20个时,在MNIST和CIFAR-10这两个数据集上进行了实验。结果表明,所提算法能够在保证准确率的前提下,在MNIST数据集上将通信的数据量减少至联邦平均(FedAvg)算法的1/10,在CIFAR-10数据集上将通信数据量减少至FedAvg算法的1/100。  相似文献   

13.
随着数据的爆炸式增长以及企业和个人对隐私问题的关注,传统的集中式机器学习已经不能满足现有的需求.联邦学习是一种新兴的分布式机器学习框架,旨在不分享私有数据的前提下利用分散的客户端训练一个全局模型,解决数据隐私和数据孤岛问题.然而,由于联邦学习的分布式和隐私保护特性,其容易受到各种各样的攻击,后门攻击则是联邦学习系统受到的攻击之一.目前,业界已提出大量的鲁邦算法来抵抗联邦学习系统遭受的后门攻击.然而,现有的鲁棒算法大多有较强的假设,例如受到不同客户端数据分布和恶意后门客户端数量的限制.我们的研究表明了现有的鲁棒算法不能解决在非独立同分布场景下,大量后门客户端共同攻击的问题.为解决这一难题,本文提出了一种鲁棒算法Poly.Poly算法包含两部分:一部分利用相似度矩阵和聚类算法进行聚类分析;另一部分则基于余弦相似度选择最优的类去聚合全局模型.由于Poly算法能完全去除恶意后门模型,从而完全避免了后门污染全局模型.为了验证Poly算法的性能,实验利用了MNIST、Fashion-MNIST、CIFAR-10和Reddit四种数据集,考虑了数据不平衡和类别不平衡两种非独立同分布场景以及独立同分布...  相似文献   

14.
侯坤池  王楠  张可佳  宋蕾  袁琪  苗凤娟 《计算机应用研究》2022,39(4):1071-1074+1104
联邦学习是一种新型的分布式机器学习方法,可以使得各客户端在不分享隐私数据的前提下共同建立共享模型。然而现有的联邦学习框架仅适用于监督学习,即默认所有客户端数据均带有标签。由于现实中标记数据难以获取,联邦学习模型训练的前提假设通常很难成立。为解决此问题,对原有联邦学习进行扩展,提出了一种基于自编码神经网络的半监督联邦学习模型ANN-SSFL,该模型允许无标记的客户端参与联邦学习。无标记数据利用自编码神经网络学习得到可被分类的潜在特征,从而在联邦学习中提供无标记数据的特征信息来作出自身贡献。在MNIST数据集上进行实验,实验结果表明,提出的ANN-SSFL模型实际可行,在监督客户端数量不变的情况下,增加无监督客户端可以提高原有联邦学习精度。  相似文献   

15.
联邦学习在保证各分布式客户端训练数据不出本地的情况下,由中心服务器收集梯度协同训练全局网络模型,具有良好的性能与隐私保护优势。但研究表明,联邦学习存在梯度传递引起的数据隐私泄漏问题。针对现有安全联邦学习算法存在的模型学习效果差、计算开销大和防御攻击种类单一等问题,提出了一种抗推理攻击的隐私增强联邦学习算法。首先,构建了逆推得到的训练数据与训练数据距离最大化的优化问题,基于拟牛顿法求解该优化问题,获得具有抗推理攻击能力的新特征。其次,利用新特征生成梯度实现梯度重构,基于重构后的梯度更新网络模型参数,可提升网络模型的隐私保护能力。最后,仿真结果表明所提算法能够同时抵御两类推理攻击,并且相较于其他安全方案,所提算法在保护效果与收敛速度上更具优势。  相似文献   

16.
吴柿红  田有亮 《软件学报》2024,35(3):1418-1439
联邦学习作为解决数据孤岛问题的有效方法,在服务器计算全部梯度的过程中,由于服务器的惰性和自利性会存在全局梯度不正确计算问题,因此需要验证全局梯度的完整性.现有的基于密码算法的方案验证开销过大.针对这些问题,提出一种理性与可验证的联邦学习框架.首先,结合博弈论,设计囚徒合约与背叛合约迫使服务器诚实.其次,所提方案使用基于复制的验证方案实现全局梯度的完整性验证,且支持客户端离线.最后,经分析证明所提方案的正确性,并经实验表明,该方案与已有的验证算法相比,客户端的计算开销降为0,一次迭代的通信轮数由原来的3轮优化到2轮,且训练开销与客户端的离线率成反比.  相似文献   

17.
在联邦学习背景下,由于行业竞争、隐私保护等壁垒,用户数据保留在本地,无法集中在一处训练.为充分利用用户的数据和算力,用户可通过中央服务器协同训练模型,训练得到的公共模型为用户共享,但公共模型对于不同用户会产生相同输出,难以适应用户数据是异质的常见情形.针对该问题,提出一种基于元学习方法 Reptile的新算法,为用户学习个性化联邦学习模型. Reptile可高效学习多任务的模型初始化参数,在新任务到来时,仅需几步梯度下降就能收敛到良好的模型参数.利用这一优势,将Reptile与联邦平均(federated averaging, FedAvg)相结合,用户终端利用Reptile处理多任务并更新参数,之后中央服务器将用户更新的参数进行平均聚合,迭代学习更好的模型初始化参数,最后将其应用于各用户数据后仅需几步梯度下降即可获得个性化模型.实验中使用模拟数据和真实数据设置了联邦学习场景,实验表明该算法相比其他算法能够更快收敛,具有更好的个性化学习能力.  相似文献   

18.
联邦学习的提出解决了在隐私保护下完成多客户合作的机器学习问题,而激励客户参与联邦学习是模型性能提高的一个重要前提。针对客户数据非独立同分布特征会导致联邦学习性能下降这一问题,考虑预算约束下,设计了基于单位数据成本和数据特征—EMD距离的客户端筛选方式,提出一种有效的联邦学习激励机制(EMD-FLIM),从理论上证明了机制具有诚实性,即每个客户会诚实披露数据成本和数据分布信息,同时机制具有预算可行性,个人理性及计算有效性。实验结果显示,提出的激励机制在数据分布不平衡情况下模型精度至少能达到数据量最优选择(不考虑激励)下的 94%以上,与不考虑数据分布特征的激励机制相比较,模型精度平均可提高5%以上。  相似文献   

19.
近年来,将公共安全数据转换为图的形式,通过图神经网络构造节点表示应用于下游任务的方法,充分利用了公共安全数据的实体与关联信息,取得了较好的效果.为了提高模型的有效性,需要大量的高质量数据,但是高质量的数据通常归属于政府、公司和组织,很难通过数据集中的方式使模型学习到有效的事件检测模型.由于各数据拥有方的关注主题与收集时间不同,数据之间存在Non-IID的问题.传统的假设一个全局模型可以适合所有客户端的方法难以解决此类问题.本文提出了基于强化联邦图神经网络的公共安全突发事件检测方法PPSED,各客户端采用多方协作的方式训练个性化的模型来解决本地的突发事件检测任务.设计联邦公共安全突发事件检测模型的本地训练与梯度量化模块,采用基于图采样的minibatch机制的GraphSage构造公共安全突发事件检测本地模型,以减小数据Non-IID的影响,采用梯度量化方法减小梯度通信的消耗.设计基于随机图嵌入的客户端状态感知模块,在保护隐私的同时更好地保留客户端模型有价值的梯度信息.设计强化联邦图神经网络的个性化梯度聚合与量化策略,采用DDPG拟合个性化联邦学习梯度聚合加权策略,并根据权重决定是否对梯度进行量化,对模型的性能与通信压力进行平衡.通过在微博平台收集的公共安全数据集和三个公开的图数据集进行了大量的实验,实验结果表明了提出的方法的有效性.  相似文献   

20.
刘艳  王田  彭绍亮  王国军  贾维嘉 《计算机学报》2021,44(12):2515-2528
参与联邦学习的终端设备只需在各自的本地数据集上训练本地模型,并在服务器的协同下共同训练一个全局预测模型.因此,联邦学习可以在不共享终端设备的隐私和敏感数据的情况下实现机器学习的目的 .然而,大量终端设备对服务器的高并发访问会增加模型更新的传输延迟,并且本地模型可能是与全局模型收敛方向相反的恶意模型,因此联邦学习过程中会产生大量额外的通信成本.现有工作主要集中在减少通信轮数或清除本地脏数据,本文研究了一种基于边缘的模型清洗和设备聚类方法,以减少本地更新总数.具体来说,通过计算本地更新参数和全局模型参数在多维上的余弦相似度来判断本地更新是否是必要的,从而避免不必要的通信.同时,终端设备根据其所在的网络位置聚类,并通过移动边缘节点以簇的形式与云端通信,从而避免与服务器高并发访问相关的延迟.本文以Softmax回归和卷积神经网络实现MNIST手写数字识别为例验证了所提方法在提高通信效率上的有效性.实验结果表明,相比传统的联邦学习,本文提出的基于边缘的模型清洗和设备聚类方法减少了60%的本地更新数,模型的收敛速度提高了10.3%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号