首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
联邦学习(FL)是一种新的分布式机器学习范式,它在保护设备数据隐私的同时打破数据壁垒,从而使各方能在不共享本地数据的前提下协作训练机器学习模型。然而,如何处理不同客户端的非独立同分布(Non-IID)数据仍是FL面临的一个巨大挑战,目前提出的一些解决方案没有利用好本地模型和全局模型的隐含关系,无法简单而高效地解决问题。针对FL中不同客户端数据的Non-IID问题,提出新的FL优化算法——联邦自正则(FedSR)和动态联邦自正则(Dyn-FedSR)。FedSR在每一轮训练过程中引入自正则化惩罚项动态修改本地损失函数,并通过构建本地模型和全局模型的关系来让本地模型靠近聚合丰富知识的全局模型,从而缓解Non-IID数据带来的客户端偏移问题;Dyn-FedSR则在FedSR基础上通过计算本地模型和全局模型的相似度来动态确定自正则项系数。对不同任务进行的大量实验分析表明,FedSR和Dyn-FedSR这两个算法在各种场景下的表现都明显优于联邦平均(FedAvg)算法、联邦近端(FedProx)优化算法和随机控制平均算法(SCAFFOLD)等FL算法,能够实现高效通信,正确率较高,且对不平衡数据...  相似文献   

2.
随着联邦学习的不断兴起,梯度提升决策树(GBDT)作为一种传统的机器学习方法,逐渐应用于联邦学习中以达到理想的分类效果。针对现有GBDT的横向联邦学习模型,存在精度受非独立同分布数据的影响较大、信息泄露和通信成本高等问题,提出了一种面向非独立同分布数据的联邦梯度提升决策树(federated GBDT for non-IID dataset,nFL-GBDT)。首先,采用局部敏感哈希(LSH)来计算各个参与方之间的相似样本,通过加权梯度来构建第一棵树。其次,由可靠第三方计算只需要一轮通信的全局叶权重来更新树模型。最后,实验分析表明了该算法能够实现对原始数据的隐私保护,并且通信成本低于simFL和FederBoost。同时,实验按照不平衡比率来划分三组公共的数据集,结果表明该算法与Individual、TFL及F-GBDT-G相比,准确率分别提升了3.53%、5.46%和4.43%。  相似文献   

3.
联邦学习能够在不泄露数据隐私的情况下合作训练全局模型,但这种协作式的训练方式在现实环境下面临参与方数据非独立同分布(Non-IID)的挑战:模型收敛慢、精度降低的问题。许多现有的联邦学习方法仅从全局模型聚合和本地客户端更新中的一个角度进行改进,难免会引发另一角度带来的影响,降低全局模型的质量。提出一种分层持续学习的联邦学习优化方法(FedMas)。FedMas基于分层融合的思想,首先,采用客户端分层策略,利用DBSCAN算法将相似数据分布的客户端划分到不同的层中,每次仅挑选某个层的部分客户端进行训练,避免服务器端全局模型聚合时因数据分布不同产生的权重分歧现象;进一步,由于每个层的数据分布不同,客户端在局部更新时结合持续学习灾难性遗忘的解决方案,有效地融合不同层客户端数据间的差异性,从而保证全局模型的性能。在MNIST和CIFAR-10标准数据集上的实验结果表明,FedMas与FedProx、Scaffold和FedCurv联邦学习算法相比,全局模型测试准确率平均提高0.3~2.2个百分点。  相似文献   

4.
近些年, 联邦学习(Federated learning, FL)由于能够打破数据壁垒, 实现孤岛数据价值变现, 受到了工业界和学术界的广泛关注. 然而, 在实际工程应用中, 联邦学习存在着数据隐私泄露和模型性能损失的问题. 为此, 首先对这两个问题进行数学描述与分析. 然后, 提出一种自适应模型聚合方案, 该方案能够设定各参与者的Mini-batch值和自适应调整全局模型聚合间隔, 旨在保证模型精度的同时, 提高联邦学习训练效率. 并且, 混沌系统被首次引入联邦学习领域中, 用于构建一种基于混沌系统和同态加密的混合隐私保护方案, 从而进一步提升系统的隐私保护水平. 理论分析与实验结果表明, 提出的联邦学习算法能够保证参与者的数据隐私安全. 并且, 在非独立同分布数据的场景下, 该算法能够在保证模型精度的前提下提高训练效率, 降低系统通信成本, 具备实际工业场景应用的可行性.  相似文献   

5.
在传统的联邦学习中,多个客户端的本地模型由其隐私数据独立训练,中心服务器通过聚合本地模型生成共享的全局模型。然而,由于非独立同分布(Non-IID)数据等统计异质性,一个全局模型往往无法适应每个客户端。为了解决这个问题,本文提出一种针对Non-IID数据的基于AP聚类算法的联邦学习聚合算法(APFL)。在APFL中,服务器会根据客户端的数据特征,计算出每个客户端之间的相似度矩阵,再利用AP聚类算法对客户端划分不同的集群,构建多中心框架,为每个客户端计算出适合的个性化模型权重。将本文算法在FMINST数据集和CIFAR10数据集上进行实验,与传统联邦学习FedAvg相比,APFL在FMNIST数据集上提升了1.88个百分点,在CIFAR10数据集上提升了6.08个百分点。实验结果表明,本文所提出的APFL在Non-IID数据上可以提高联邦学习的精度性能。  相似文献   

6.
联邦学习中由于不同客户端本地数据分布异质,在本地数据集上训练的客户端模型优化目标与全局模型不一致,导致出现客户端漂移现象,影响全局模型性能.为了解决非独立同分布数据带来的联邦学习模型性能下降甚至发散的问题,文中从本地模型的通用性角度出发,提出基于结构增强的异质数据联邦学习模型正则优化算法.在客户端利用数据分布异质的本地数据进行训练时,以结构化的方式采样子网络,并对客户端本地数据进行数据增强,使用不同的增强数据训练不同的子网络学习增强表示,得到泛化性较强的客户端网络模型,对抗本地数据异质带来的客户端漂移现象,在联邦聚合中得到性能更优的全局模型.在CIFAR-10、CIFAR-100、ImageNet-200数据集上的大量实验表明,文中算法性能较优.  相似文献   

7.
非独立同分布文本的情感分析往往极具挑战,因其是一类包含词句间耦合关系和同词(句)多义性特点的复杂文本。现有方法中,几乎没有可以全面捕获非独立同分布文本特性的方法用于情感分析。面向情感分析的非独立同分布文本表示学习方法对文本中层次化存在的耦合关系和多义性问题进行建模,将这些决定着情感极性的非独立同分布特点嵌入到文本的向量表示中。非独立同分布文本表示学习方法通过一种带注意力机制的多尺度层次化深度神经网络实现。该神经网络利用多尺度卷积循环结构捕获文本中的耦合关系,利用注意力机制消除文本中的多义性。同时,该神经网络层次化地融合了由深度学习生成的隐式特征表示和由文本情感先验知识构造的显示特征表示,以防止数据过拟合问题并强化情感表示能力。充分的实验表明,非独立同分布文本表示学习方法可以显著增强文本情感分析的性能。  相似文献   

8.
区块链具有不可篡改性和去中心化的特点,其与联邦学习的结合成为人工智能领域的热门主题。目前去中心化联邦学习存在训练数据非独立同分布导致的性能下降问题,为了解决这个问题,提出一种模型相似度的计算方法,然后设计一种基于该模型相似度的去中心化联邦学习策略,并使用五个联邦学习任务进行测试,分别是CNN模型训练fashion-mnist数据集、alexnet模型训练cifar10数据集、TextRnn模型训练THUsnews数据集、Resnet18模型训练SVHN数据集和LSTM模型训练sentiment140数据集。实验结果表明,设计的策略在五个任务非独立同分布的数据下进行去中心化联邦学习,准确率分别提升了2.51、5.16、17.58、2.46和5.23个百分点。  相似文献   

9.
联邦学习作为一种新兴的分布式机器学习方法,保证了物联网(Internet of things,IoT)设备在数据不出本地的前提下,仅通过传递模型参数来共同维护中央服务器模型,从而达到保护数据隐私安全的目的.传统的联邦学习方法常常在基于设备数据独立同分布的场景下进行联合学习.然而,在实际场景中各设备间的数据样本分布存在差异,使得传统联邦学习方法在非独立同分布(non-independent and identically distributed,Non-IID)的场景下效果不佳.面向Non-IID场景下的混合数据分布问题,提出了新型的联邦自适应交互模型(federated adaptive interaction model,FedAIM)框架,该框架可以同时对不同偏置程度的混合数据进行自适应地交互学习.具体来说,首先,通过引入陆地移动距离(earth mover’s distance,EMD)对各客户端的数据分布进行偏置程度度量(bias measurement),并设计极偏服务器和非极偏服务器2个模块分别处理不同偏置程度的数据分布.其次,提出了基于信息熵的模型参数交互机制,使得Fed...  相似文献   

10.
相同生产工艺的工业过程协同建模是解决工业难测参数在线软测量的有效方法,但因生产原料、设备等因素差异,所形成的分布式数据往往呈现非独立同分布特性(Nonindependent Identically Distribution, Non-IID).同时,受生产环境变化影响,数据分布特性会随时间发生变化.因此,工业建模场景对模型的个性化配置和自主调整能力提出了更高的要求.为此,本文提出一种结构与参数并行优化的联邦增量迁移学习方法(Federated Incremental Transfer Learning, FITL).所提方法在增量式联邦学习框架下,建立了基于模型输出信息的联邦共识组织,并利用横向联邦进行组内增强;进而,面向联邦共识组织,通过最小化组间共识差异增量迁移不同共识组织信息;最后,结合组内横向增强和跨组织迁移学习,构造增量迁移下的联邦学习模型.在工业数据集和基准数据集上的实验结果表明,与现有方法相比,所提模型能更好地实现不同工况Non-IID情况下的协同建模.在过程工业回归任务和公开数据集的分类任务中,FITL能在多工况环境下相较基线方法提升9%和16%的模型预测精度.  相似文献   

11.
联邦学习通过聚合客户端训练的模型,保证数据留在客户端本地,从而保护用户隐私.由于参与训练的设备数目庞大,存在数据非独立同分布和通信带宽受限的情况.因此,降低通信成本是联邦学习的重要研究方向.梯度压缩是提升联邦学习通信效率的有效方法,然而目前常用的梯度压缩方法大多针对独立同分布的数据,未考虑联邦学习的特性.针对数据非独立同分布的联邦场景,本文提出了基于投影的稀疏三元压缩算法,通过在客户端和服务端进行梯度压缩,降低通信成本,并在服务端采用梯度投影的聚合策略以缓解客户端数据非独立同分布导致的不利影响.实验结果表明,本文提出的算法不仅提升了通信效率,而且在收敛速度和准确率上均优于现有的梯度压缩算法.  相似文献   

12.
联邦学习系统中, 在资源受限的边缘端进行本地模型训练存在一定的挑战. 计算、存储、能耗等方面的限制时刻影响着模型规模及效果. 传统的联邦剪枝方法在联邦训练过程中对模型进行剪裁, 但仍存在无法根据模型所处环境自适应修剪以及移除一些重要参数导致模型性能下降的情况. 本文提出基于联邦强化学习的分布式模型剪枝方法以解决此问题. 首先, 将模型剪枝过程抽象化, 建立马尔可夫决策过程, 使用DQN算法构建通用强化剪枝模型, 动态调整剪枝率, 提高模型的泛化性能. 其次设计针对稀疏模型的聚合方法, 辅助强化泛化剪枝方法, 更好地优化模型结构, 降低模型的复杂度. 最后, 在多个公开数据集上将本方法与不同基线方法进行比较. 实验结果表明, 本文所提出的方法在保持模型效果的同时减少模型复杂度.  相似文献   

13.
多示例多标签学习是一种新型的机器学习框架。在多示例多标签学习中,样本以包的形式存在,一个包由多个示例组成,并被标记多个标签。以往的多示例多标签学习研究中,通常认为包中的示例是独立同分布的,但这个假设在实际应用中是很难保证的。为了利用包中示例的相关性特征,提出了一种基于示例非独立同分布的多示例多标签分类算法。该算法首先通过建立相关性矩阵表示出包内示例的相关关系,每个多示例包由一个相关性矩阵表示;然后建立基于不同尺度的相关性矩阵的核函数;最后考虑到不同标签的预测对应不同的核函数,引入多核学习构造并训练针对不同标签预测的多核SVM分类器。图像和文本数据集上的实验结果表明,该算法大大提高了多标签分类的准确性。  相似文献   

14.
在非可信中心服务器下的隐私保护联邦学习框架中,存在以下两个问题。(1)在中心服务器上聚合分布式学习模型时使用固定的权重,通常是每个参与方的数据集大小。然而,不同参与方具有非独立同分布的数据,设置固定聚合权重会使全局模型的效用无法达到最优。(2)现有框架建立在中心服务器是诚实的假定下,没有考虑中央服务器不可信导致的参与方的数据隐私泄露问题。为了解决上述问题,基于比较流行的DP-Fed Avg算法,提出了一种非可信中心服务器下的动态聚合权重的隐私保护联邦学习DP-DFL框架,其设定了一种动态的模型聚合权重,该方法从不同参与方的数据中直接学习联邦学习中的模型聚合权重,从而适用于非独立同分布的数据环境。此外,在本地模型隐私保护阶段注入噪声进行模型参数的隐私保护,满足不可信中心服务器的设定,从而降低本地参与方模型参数上传中的隐私泄露风险。在数据集CIFAR-10上的实验证明,DP-DFL框架不仅提供本地隐私保证,同时可以实现更高的准确率,相较DP-Fed Avg算法模型的平均准确率提高了2.09%。  相似文献   

15.
在联邦学习背景下,由于行业竞争、隐私保护等壁垒,用户数据保留在本地,无法集中在一处训练.为充分利用用户的数据和算力,用户可通过中央服务器协同训练模型,训练得到的公共模型为用户共享,但公共模型对于不同用户会产生相同输出,难以适应用户数据是异质的常见情形.针对该问题,提出一种基于元学习方法 Reptile的新算法,为用户学习个性化联邦学习模型. Reptile可高效学习多任务的模型初始化参数,在新任务到来时,仅需几步梯度下降就能收敛到良好的模型参数.利用这一优势,将Reptile与联邦平均(federated averaging, FedAvg)相结合,用户终端利用Reptile处理多任务并更新参数,之后中央服务器将用户更新的参数进行平均聚合,迭代学习更好的模型初始化参数,最后将其应用于各用户数据后仅需几步梯度下降即可获得个性化模型.实验中使用模拟数据和真实数据设置了联邦学习场景,实验表明该算法相比其他算法能够更快收敛,具有更好的个性化学习能力.  相似文献   

16.
针对大部分联邦学习防御方法存在降低联邦学习实用性、计算效率低和防御攻击种类单一等问题,文章提出一种基于变分自编码器的属性修改框架,在客户端对数据预处理以达到保护联邦学习的目的。首先,为了提高算法计算效率,文章提出一种基于迁移学习的变分自编码器训练方案来减少客户端训练周期;其次,利用变分自编码器具有连续性的潜变量,设计了一种基于属性分布约束规则的属性修改方案来实现客户端训练数据的重构。实验结果表明,属性修改方案可以成功分离和控制图像的属性向量,通过将原始图像改变为带有相应属性的重构图像,保护了客户端数据隐私。将修改后的图像用于训练联邦学习分类任务,其准确率可达94.44%,体现了方案的可用性,并且该方案可以成功防御非主属性隐私泄露和基于数据中毒的后门攻击。  相似文献   

17.
随着科技的迅猛发展,具有计算和存储能力的边缘设备数量不断增加,产生的数据流量更是呈指数式增长,这使得以云计算为核心的集中式处理模式难以高效处理边缘设备产生的数据.另外,由于边缘网络设备的多样性以及数据表示手段的不断丰富,多模态数据广泛存在.为充分利用边缘设备上的异构数据,解决边缘计算中由于数据隐私引起的“数据通信壁垒”问题,提出了一种联邦学习中基于Tucker分解的多源异构数据融合算法.该算法针对异构数据在无交互条件下的融合问题,引入张量Tucker分解理论,通过构建一个具有异构空间维度特性的高阶张量以捕捉异构数据的高维特征,从而实现联邦学习中多源异构数据的融合.最后,在MOSI数据集上验证了算法的有效性.  相似文献   

18.
随着物联网和移动设备性能的不断提高,一种新型计算架构——边缘计算——应运而生.边缘计算的出现改变了数据需要集中上传到云端进行处理的局面,最大化利用边缘物联网设备的计算和存储能力.边缘计算节点对本地数据进行处理,不再需要把大量的本地数据上传到云端进行处理,减少了数据传输的延时.在边缘网络设备上进行人工智能运算的需求也在逐日增大,因为联邦学习机制不需要把数据集中后进行模型训练,所以更适合于节点平均数据量有限的边缘网络机器学习的场景.针对以上挑战,提出了一种面向边缘网络计算的高效异步联邦学习机制(efficient asynchronous federated learning mechanism for edge network computing, EAFLM),根据自适应的阈值对训练过程中节点与参数服务器之间的冗余通信进行压缩.其中,双重权重修正的梯度更新算法,允许节点在学习的任何过程中加入或退出联邦学习.实验显示提出的方法将梯度通信压缩至原通信次数的8.77%时,准确率仅降低0.03%.  相似文献   

19.
With the emergence and accumulation of massive data, data governance has become an important manner to improve data quality and maximize data value. Specifically, data error detection is a crucial step to improve data quality, which has attracted wide attention from both industry and academia. At present, various detection methods tailored for a single data source have been proposed. However, in many real-world scenarios, data are not centrally stored or managed. Data from different sources but highly correlated can be employed to improve the accuracy of error detection. Unfortunately, due to privacy/security issues, cross-source data are often not allowed to be integrated centrally. To this end, this paper proposes FeLeDetect, a cross-source data error detection method based on federated learning, so as to improve the error detection accuracy by using cross-source data information on the premise of data privacy. First, a Graph-based Error Detection Model, namely GEDM, is presented to capture sufficient data features from each data source. On this basis, the paper then designs a federated co-training algorithm, namely FCTA, to collaboratively train GEDM by using different cross-source data without privacy leakage of data. Furthermore, the paper designs a series of optimization methods to reduce communication costs during federated learning and manual labeling efforts. Finally, extensive experiments on three real-world datasets demonstrate that (1) GEDM achieves an average improvement of 10.3% and 25.2% in terms of the $F1$ score in the local and centralized scenarios, respectively, outperforming all the five existing state-of-the-art methods for error detection; (2) the F1 score of the error detection by FeLeDetect is 23.2% on average higher than that by GEDM in the local scenario.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号