首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
联邦学习(federated learning, FL)是一种可用于解决数据孤岛问题的分布式机器学习框架,多个参与方在保持数据本地私有的情况下协作训练一个共同模型.但是,传统的联邦学习没有考虑公平性的问题,在实际场景中,参与者之间的数据具有高度异构和数据量差距较大的特点,常规的聚合操作会不经意地偏向一些设备,使得最终聚合模型在不同参与者数据上的准确率表现出较大差距.针对这一问题,提出了一种有效的公平算法,称为α-FedAvg.它可以使聚合模型更公平,即其在所有参与者本地数据上的准确率分布更均衡.同时,给出了确定参数α的方法,能够在尽可能保证聚合模型性能的情况下提升其公平性.最后,在MNIST和CIFAR-10数据集上进行了实验和性能分析,并在多个数据集上与其他3种公平方案进行了对比.实验结果表明:相较于已有算法,所提方案在公平性和有效性上达到了更好的平衡.  相似文献   

2.
随着海量数据的涌现和不断积累,数据治理成为提高数据质量、最大化数据价值的重要手段.其中,数据错误检测是提高数据质量的关键步骤,近年来引起了学术界及工业界的广泛关注.目前,绝大多数错误检测方法只适用于单数据源场景.然而在现实场景中,数据往往不集中存储与管理.不同来源且高度相关的数据能够提升错误检测的精度.但由于数据隐私安全问题,跨源数据往往不允许集中共享.鉴于此,提出了一种基于联邦学习的跨源数据错误检测方法 FeLeDetect,以在数据隐私保证的前提下,利用跨源数据信息提高错误检测精度.为了充分捕获每一个数据源的数据特征,首先提出一种基于图的错误检测模型GEDM,并在此基础上设计了一种联邦协同训练算法FCTA,以支持在各方数据不出本地的前提下,利用跨源数据协同训练GEDM.此外,为了降低联邦训练的通信开销和人工标注成本,还提出了一系列优化方法.最后,在3个真实数据集上进行了大量的实验.实验结果表明:(1)相较于5种现有最先进的错误检测方法,GEDM在本地场景和集中场景下,错误检测结果的F1分数平均提高了10.3%和25.2%;(2) FeLeDetect错误检测结果的F1分数较本地场景...  相似文献   

3.
王勇  李国良  李开宇 《软件学报》2023,34(3):1168-1192
数据不动的联邦学习框架是多个数据持有方合作训练机器学习模型的新范式.多个数据持有方参与联邦学习时的贡献评估是联邦学习的核心问题之一.参与方贡献评估需要兼顾有效性、公平性和合理性等要素,在理论方法与实际应用中均面临多项挑战.贡献评估首先需要明确如何度量数据价值,然而数据估值存在主观性与依赖于实际任务场景的特点,如何设计有效、可靠并对恶意数据鲁棒的数据估值指标是第一大挑战.其次,联邦学习合作中的参与方贡献评估是经典的合作博弈问题,如何制定公平合理的参与方贡献评估方案,实现参与方一致认可的博弈平衡是第二大挑战.最后,参与方贡献评估往往计算复杂度高,同时,联邦学习中围绕模型的数据估值时间开销大,因此,在实践中如何设计高效且准确的近似算法是第三大挑战.近年来,为了有效地解决上述挑战,学术界对联邦学习中的贡献评估问题展开了广泛的研究.首先,简要介绍联邦学习与参与方贡献评估的背景知识;然后,综述数据估值指标、参与方贡献评估方案和相关优化技术;最后,讨论了联邦学习贡献评估仍面临的挑战并展望未来研究的发展方向.  相似文献   

4.
在跨孤岛联邦学习中,各参与者对最终训练出的模型贡献各异,如何评估他们的贡献并给予适当激励,成为联邦学习研究中一项关键问题。目前的激励方法主要着眼于奖励有效模型更新的参与者,同时惩罚不诚实者,侧重于激励计算行为。然而,参与者所提供的数据质量同样影响学习效果,但现有方法未充分考虑数据质量,并缺乏鉴定数据真实性的手段。为提升激励的准确性,需对参与者数据质量进行评估。通过融合零知识证明与区块链技术,文章提出一种评估参与者数据质量的协议,构建了全新联邦学习激励方案。该方案可在不泄露明文数据的前提下,评估参与者所用数据集质量,通过区块链系统向合格参与者发放激励,拒绝不合格者。实验证实,在部分用户提供虚假数据的情况下,该方案仍能准确给出激励结果,同时提升联邦学习模型的准确率。  相似文献   

5.
联邦学习是一种新兴的分布式机器学习范式,在保护数据隐私的同时协作训练全局模型,但也面临着在数据异构情况下全局模型收敛慢、精度低的问题。针对上述问题,提出一种面向异构数据的个性化联邦多任务学习优化(federated multi-task learning optimization,FedMTO)算法。在包含全局任务和本地任务的多任务学习框架下,考虑个性化联邦优化问题。首先,FedMTO采用参数分解的思想,通过学习自适应分类器组合权重来协调全局分类器和局部分类器,提取全局分类器知识,实现对本地任务的个性化建模;其次,由于本地任务的数据分布不同,FedMTO在本地更新时结合正则化多任务学习策略,关注任务之间的相关性,减小不同本地任务间的差异,从而保证联邦学习过程的公平性;最后,模拟不同的数据异构场景,在MNIST和CIFAR-10数据集上进行实验。实验结果表明,与现有算法相比,FedMTO实现了更高的准确率和更好的公平性,验证了该方法针对联邦学习中的异构数据问题有着良好的效果。  相似文献   

6.
目前电力大数据的质量不高,提高电力大数据的质量有利于提高电网智能化水平.根据对电力系统数据质量评估流程及架构的分析,提出了MapReduce并行化的K-means算法,用于对大数据进行分类处理;构建了电力大数据评价指标体系;采用熵权法确定电力大数据的指标权重;最后通过灰色评估方法求取数据质量评价等级.最后对所提方法进行...  相似文献   

7.
8.

近年来,联邦学习作为破解数据共享壁垒的有效解决方案被广泛关注,并被逐步应用于医疗、金融和智慧城市等领域.联邦学习框架是联邦学习学术研究和工业应用的基石.虽然Google、OpenMined、微众银行和百度等企业开源了各自的联邦学习框架和系统,然而,目前缺少对这些联邦学习开源框架的技术原理、适用场景、存在问题等的深入研究和比较.为此,根据各开源框架在业界的受众程度,选取了目前应用较广和影响较大的联邦学习开源框架进行深入研究.针对不同类型的联邦学习框架,首先分别从系统架构和系统功能2个层次对各框架进行剖析;其次从隐私机制、机器学习算法、计算范式、学习类型、训练架构、通信协议、可视化等多个维度对各框架进行深入对比分析.而且,为了帮助读者更好地选择和使用开源框架实现联邦学习应用,给出了面向2个不同应用场景的联邦学习实验.最后,基于目前框架存在的开放性问题,从隐私安全、激励机制、跨框架交互等方面讨论了未来可能的研究发展方向,旨在为开源框架的开发创新、架构优化、安全改进以及算法优化等提供参考和思路.

  相似文献   

9.
联邦学习用于解决数据共享与隐私安全之间的矛盾,旨在通过安全地交互不可逆的信息(如模型参数或梯度更新)来构建一个联邦模型。然而,联邦学习在模型的本地训练、信息交互、参数传递等过程中依然存在恶意攻击和隐私泄漏的风险,这给联邦学习的实际应用带来了重大挑战。文中针对联邦学习在建模和部署过程中存在的攻击行为及相应的防御策略进行了详细调研。首先,简要介绍了联邦学习的基本流程和相关攻防知识;接着,从机密性、可用性和正直性3个角度对联邦学习训练和部署中的攻击行为进行了分类,并梳理了相关的隐私窃取和恶意攻击的最新研究;然后,从防御诚实但好奇(honest-but-curious)攻击者和恶意攻击者两个方向对防御方法进行了划分,并分析了不同策略的防御能力;最后,总结了防御方法在联邦学习实践中存在的问题及可能导致的攻击风险,并探讨了联邦系统的防御策略在未来的发展方向。  相似文献   

10.
联邦学习是一种保证数据隐私安全的分布式机器学习方案.与传统的机器学习的可解释性问题类似,如何对联邦学习进行解释是一个新的挑战.文中面向联邦学习方法的分布式与隐私安全性的特性,探讨联邦学习的可视化框架设计.传统的可视化任务需要使用大量的数据,而联邦学习的隐私性决定了其无法获取用户数据.因此,可用的数据主要来自服务器端的训练过程,包括服务器端模型参数和用户训练状态.基于对联邦学习可解释性的挑战的分析,文中综合考虑用户、服务器端和联邦学习模型3个方面设计可视化框架,其包括经典联邦学习模型、数据中心、数据处理和可视分析4个模块.最后,介绍并分析了2个已有的可视化案例,对未来通用的联邦学习可视分析方法提出了展望.  相似文献   

11.
近年来,随着人工智能中数据孤岛、数据隐私和安全等问题的逐步显现,联邦学习作为能解决上述问题的技术而被广泛关注,目前已被应用于金融、医疗等领域.介绍了联邦学习的定义、分类、国内外的开源架构,剖析了联邦学习中的用户隐私和数据安全,指出了联邦学习面临的困难与挑战,并做出了展望.  相似文献   

12.
手机、可穿戴设备等终端设备每天产生海量数据,但这些数据往往涉及敏感隐私而不能直接公开并使用.为解决隐私保护下的机器学习问题,联邦学习应运而生,旨在通过构建协同训练机制,在不共享客户端数据条件下,训练高性能全局模型.然而,在实际应用中,现有联邦学习机制面临两大不足:(1)全局模型需考虑多个客户端的数据,但各客户端往往仅包含部分类别数据且类别间数据量严重不均衡,使得全局模型难以训练;(2)各客户端之间的数据分布往往存在较大差异,导致各客户端模型往往差异较大,使得传统通过模型参数加权平均以获得全局模型的方法难以奏效.为降低客户端类别不均衡和数据分布差异的影响,本文提出一种基于数据生成的类别均衡联邦学习(Class-Balanced Federated Learning,CBFL)方法. CBFL旨在通过数据生成技术,针对各客户端构造符合全局模型学习的类别均衡数据集.为此,CBFL设计了一个包含类别均衡采样器和数据生成器的类别分布均衡器.其中,类别均衡采样器对客户端数据量不足的类别以较高概率进行采样.然后,数据生成器则根据所采样的类别生成相应的虚拟数据以均衡客户端数据的类别分布并用于后续的模型...  相似文献   

13.
联邦学习作为一种分布式机器学习框架,客户端可以在不向服务器传输数据的情况下进行全局模型训练,解决了数据分散和数据隐私的问题.联邦学习可以在具有相似数据特征和分布的客户端上很好地工作.但是在很多场景中,客户端数据在分布、数量和概念上的不同,造成了全局模型训练困难.为此,个性化联邦学习作为一种新的联邦学习范式被提出,它旨在通过客户端与服务器的协作来保证客户端个性化模型的有效性.直观来讲,为具有相似数据特征和分布的客户端提供更紧密的协作关系可以有利于个性化模型的构建.然而,由于客户端数据的不可见性,如何细粒度地提取客户端特征,并定义它们之间的协作关系是一个挑战.设计了一个注意力增强元学习网络(attention-enhanced meta-learning network,AMN)来解决这个问题. AMN可以利用客户基础模型参数作为输入特征,训练元学习网络为每个客户端提供一个额外的元模型,自动分析客户特征相似性.基于双层网络设计,有效地实现客户端个性与共性的权衡,提供了包含有益客户信息的融合模型.考虑到训练过程中需要同时训练元学习网络和客户本地基础网络,设计了一种交替训练策略,以端到端的方式...  相似文献   

14.
联邦平均(Fedavg)算法采用权重更新来更新全局模型,该算法在权重更新时仅考虑每个客户端数据量的大小,未考虑数据质量对模型的影响。针对该问题,文中提出了基于层次分析改进的联邦平均算法,首次从数据质量的角度来处理多源数据。首先采用熵权法计算数据中各属性的重要度,并将其作为层次分析中准则层的数值,计算每个客户端数据的质量,然后结合客户端数据量的大小,重新计算全局模型中的权重。仿真实验的结果表明,对于中小型数据集而言,使用支持向量机训练的模型准确度最高,达到了85.715 2%;对于大型数据集而言,采用随机森林训练的模型准确率最高,达到了91.932 1%。与传统联邦平均方法相比,所提方法在中小数据集上准确率提升了3.5%,在大数据集上提升了1.3%,能够在提升模型准确率的同时提高数据与模型的安全性。  相似文献   

15.
随着科技的迅猛发展,具有计算和存储能力的边缘设备数量不断增加,产生的数据流量更是呈指数式增长,这使得以云计算为核心的集中式处理模式难以高效处理边缘设备产生的数据.另外,由于边缘网络设备的多样性以及数据表示手段的不断丰富,多模态数据广泛存在.为充分利用边缘设备上的异构数据,解决边缘计算中由于数据隐私引起的“数据通信壁垒”问题,提出了一种联邦学习中基于Tucker分解的多源异构数据融合算法.该算法针对异构数据在无交互条件下的融合问题,引入张量Tucker分解理论,通过构建一个具有异构空间维度特性的高阶张量以捕捉异构数据的高维特征,从而实现联邦学习中多源异构数据的融合.最后,在MOSI数据集上验证了算法的有效性.  相似文献   

16.
数据质量评估方法研究   总被引:24,自引:0,他引:24  
数据质量管理已经成为当今数据管理的关键问题,并得到了广泛的研究和应用。数据质量评估作为数据质量管理中的必要过程和基础部分,目前缺乏一种定量的系统的方法。针对数据质量评估中的这一问题,该文介绍了一些基本的数据质量评估指标,提出了一种数据质量评估模型,并阐述了该模型的构造技术和计算方法。  相似文献   

17.
数据保护的约束使得数据被限制在不同企业和组织之间,形成了众多“数据孤岛”,难以发挥其蕴含的重要价值。联邦学习的出现使得数据在组织之间共享成为可能,但利益分配方案不明确、通信成本高、中心化等问题使其难以满足数据交易场景的多方位需求。针对这些问题,提出一种基于联邦学习的多技术融合数据交易方法(MTFDT)。通过结合可信执行环境与沙普利值进行激励机制设计,并对交易过程中模型数据同步机制进行优化,提出一种基于树型拓扑结构的模型同步方案,使得同步时间复杂度由线性级降低至对数级。同时,设计基于区块链的利益分配数据和模型数据存储方案,使得交易过程信息不可篡改并能够通过溯源的方式进行追责。基于公开数据集进行仿真对比,实验结果表明,MTFDT能够实现模型训练效果的精确评估,提高利益分配的公平性,相比已有方案,模型同步时间消耗最多减少34%且对带宽要求更低。  相似文献   

18.
排序学习(learning-to-rank,简称LTR)模型在信息检索领域取得了显著成果,而该模型的传统训练方法需要收集大规模文本数据.然而,随着数据隐私保护日渐受到人们重视,从多个数据拥有者(如企业)手中收集数据训练排序学习模型的方式变得不可行.各企业之间数据被迫独立存储,形成了数据孤岛.由于排序模型训练需要使用查询...  相似文献   

19.
联邦学习(federated learning)可以解决分布式机器学习中基于隐私保护的数据碎片化和数据隔离问题。在联邦学习系统中,各参与者节点合作训练模型,利用本地数据训练局部模型,并将训练好的局部模型上传到服务器节点进行聚合。在真实的应用环境中,各节点之间的数据分布往往具有很大差异,导致联邦学习模型精确度较低。为了解决非独立同分布数据对模型精确度的影响,利用不同节点之间数据分布的相似性,提出了一个聚类联邦学习框架。在Synthetic、CIFAR-10和FEMNIST标准数据集上进行了广泛实验。与其他联邦学习方法相比,基于数据分布的聚类联邦学习对模型的准确率有较大提升,且所需的计算量也更少。  相似文献   

20.
为了实现联邦学习中公平的收益分配,需要有一个指标来量化每个数据提供者对联合模型的贡献。针对现有的贡献评价方案存在的隐私泄露、不透明和依赖中心服务器等问题,提出一种基于区块链的透明的联邦学习贡献评价方案。首先,提出基于改进的Paillier安全聚合算法,通过联合解密避免了在模型聚合阶段对用户本地数据的推断。其次,提出一种基于用户累计提交的梯度来近似计算其贡献的方法,解决了现有贡献评估方案存在的隐私泄露问题。此外,将贡献的评估融入到区块链的共识过程中,使其评估结果具备了可审计性。最后,基于MNIST数据集进行的实验表明,所提出的方法可以有效地评估贡献。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号