共查询到20条相似文献,搜索用时 129 毫秒
1.
随着海量数据的涌现和不断积累,数据治理成为提高数据质量、最大化数据价值的重要手段.其中,数据错误检测是提高数据质量的关键步骤,近年来引起了学术界及工业界的广泛关注.目前,绝大多数错误检测方法只适用于单数据源场景.然而在现实场景中,数据往往不集中存储与管理.不同来源且高度相关的数据能够提升错误检测的精度.但由于数据隐私安全问题,跨源数据往往不允许集中共享.鉴于此,提出了一种基于联邦学习的跨源数据错误检测方法 FeLeDetect,以在数据隐私保证的前提下,利用跨源数据信息提高错误检测精度.为了充分捕获每一个数据源的数据特征,首先提出一种基于图的错误检测模型GEDM,并在此基础上设计了一种联邦协同训练算法FCTA,以支持在各方数据不出本地的前提下,利用跨源数据协同训练GEDM.此外,为了降低联邦训练的通信开销和人工标注成本,还提出了一系列优化方法.最后,在3个真实数据集上进行了大量的实验.实验结果表明:(1)相较于5种现有最先进的错误检测方法,GEDM在本地场景和集中场景下,错误检测结果的F1分数平均提高了10.3%和25.2%;(2) FeLeDetect错误检测结果的F1分数较本地场景... 相似文献
2.
大数据时代的到来使得数据成为社会发展的重要战略资源。然而随着网络环境日趋复杂化,隐私泄露和恶意攻击事件层出不穷。联邦学习作为一种新型数据共享模型,能够在保护数据隐私的前提下进行数据共享,有效解决了传统入侵检测模型的弊端。文章首先介绍了联邦学习及入侵检测模型的构成及特点,提出了基于联邦学习的入侵检测机制,并深入分析了该检测机制在检测准确率及效率上有效提升的可行性。通过对模型进行需求分析和设计,并以函数编程进行模拟仿真实验,实现原型系统开发。实验表明联邦学习机制能够在保证参与客户端数据隐私安全的前提下实现多方攻击行为日志的共享。多组控制变量的对照实验表明,基于联邦学习的入侵检测机制在检测准确率及效率上得到明显改善。 相似文献
3.
随着科技的迅猛发展,具有计算和存储能力的边缘设备数量不断增加,产生的数据流量更是呈指数式增长,这使得以云计算为核心的集中式处理模式难以高效处理边缘设备产生的数据.另外,由于边缘网络设备的多样性以及数据表示手段的不断丰富,多模态数据广泛存在.为充分利用边缘设备上的异构数据,解决边缘计算中由于数据隐私引起的“数据通信壁垒”问题,提出了一种联邦学习中基于Tucker分解的多源异构数据融合算法.该算法针对异构数据在无交互条件下的融合问题,引入张量Tucker分解理论,通过构建一个具有异构空间维度特性的高阶张量以捕捉异构数据的高维特征,从而实现联邦学习中多源异构数据的融合.最后,在MOSI数据集上验证了算法的有效性. 相似文献
4.
在高速网络环境中,对复杂多样的网络入侵进行快速准确的检测成为目前亟待解决的问题。联邦学习作为一种新兴技术,在缩短入侵检测时间与提高数据安全性上取得了很好的效果,同时深度神经网络(DNN)在处理海量数据时具有较好的并行计算能力。结合联邦学习框架并将基于自动编码器优化的DNN作为通用模型,建立一种网络入侵检测模型DFC-NID。对初始数据进行符号数据预处理与归一化处理,使用自动编码器技术对DNN实现特征降维,以得到DNN通用模型模块。利用联邦学习特性使得多个参与方使用通用模型参与训练,训练完成后将参数上传至中心服务器并不断迭代更新通用模型,通过Softmax分类器得到最终的分类预测结果。实验结果表明,DFC-NID模型在NSL-KDD与KDDCup99数据集上的准确率平均达到94.1%,与决策树、随机森林等常用入侵检测模型相比,准确率平均提升3.1%,在攻击类DoS与Probe上,DFC-NID的准确率分别达到99.8%与98.7%。此外,相较不使用联邦学习的NO-FC模型,DFC-NID减少了83.9%的训练时间。 相似文献
5.
输电塔上的螺母是连接两个或多个输电塔部件之间的媒介, 销钉是确保螺母不脱落的重要保障. 销钉缺失会使各部件之间的连接处存在安全隐患.本文将联邦学习与目标检测算法结合起来, 在保证各地区数据不互通的情况下, 上传局部模型, 经过中心节点生成融合模型, 采用Faster RCNN检测算法对螺母进行检测, 同时用分类网络对螺母进行分类, 最终得出销钉是否缺失. 实验结果表明, 联邦学习融合后的模型比各局部模型在检测任务的mAP上提升3%–6%, 在分类任务的准确率上提升2%–3%. 相似文献
6.
针对大部分联邦学习防御方法存在降低联邦学习实用性、计算效率低和防御攻击种类单一等问题,文章提出一种基于变分自编码器的属性修改框架,在客户端对数据预处理以达到保护联邦学习的目的。首先,为了提高算法计算效率,文章提出一种基于迁移学习的变分自编码器训练方案来减少客户端训练周期;其次,利用变分自编码器具有连续性的潜变量,设计了一种基于属性分布约束规则的属性修改方案来实现客户端训练数据的重构。实验结果表明,属性修改方案可以成功分离和控制图像的属性向量,通过将原始图像改变为带有相应属性的重构图像,保护了客户端数据隐私。将修改后的图像用于训练联邦学习分类任务,其准确率可达94.44%,体现了方案的可用性,并且该方案可以成功防御非主属性隐私泄露和基于数据中毒的后门攻击。 相似文献
7.
数据隐私保护问题已成为推荐系统面临的主要挑战之一.随着《中华人民共和国网络安全法》的颁布和欧盟《通用数据保护条例》的实施,数据隐私和安全成为了世界性的趋势.联邦学习可通过不交换数据训练全局模型,不会泄露用户隐私.但是联邦学习存在每台设备数据量少、模型容易过拟合、数据稀疏导致训练好的模型很难达到较高的预测精度等问题.同时,随着5G (the 5th generation mobile communication technology)时代的到来,个人设备数据量和传输速率预计比当前提高10~100倍,因此要求模型执行效率更高.针对此问题,知识蒸馏可以将教师模型中的知识迁移到更为紧凑的学生模型中去,让学生模型能尽可能逼近或是超过教师网络,从而有效解决模型参数多和通信开销大的问题.但往往蒸馏后的学生模型在精度上会低于教师模型.提出一种面向推荐系统的联邦蒸馏方法,该方法首先在联邦蒸馏的目标函数中加入Kullback-Leibler散度和正则项,减少教师网络和学生网络间的差异性影响;引入多头注意力机制丰富编码信息,提升模型精度;并提出一个改进的自适应学习率训练策略来自动切换优化算法,选择合适的学习率,提升模型的收敛速度.实验验证了该方法的有效性:相比基准算法,模型的训练时间缩短52%,模型的准确率提升了13%,平均误差减少17%,NDCG值提升了10%. 相似文献
8.
联邦学习系统中, 在资源受限的边缘端进行本地模型训练存在一定的挑战. 计算、存储、能耗等方面的限制时刻影响着模型规模及效果. 传统的联邦剪枝方法在联邦训练过程中对模型进行剪裁, 但仍存在无法根据模型所处环境自适应修剪以及移除一些重要参数导致模型性能下降的情况. 本文提出基于联邦强化学习的分布式模型剪枝方法以解决此问题. 首先, 将模型剪枝过程抽象化, 建立马尔可夫决策过程, 使用DQN算法构建通用强化剪枝模型, 动态调整剪枝率, 提高模型的泛化性能. 其次设计针对稀疏模型的聚合方法, 辅助强化泛化剪枝方法, 更好地优化模型结构, 降低模型的复杂度. 最后, 在多个公开数据集上将本方法与不同基线方法进行比较. 实验结果表明, 本文所提出的方法在保持模型效果的同时减少模型复杂度. 相似文献
9.
在联邦学习背景下,由于行业竞争、隐私保护等壁垒,用户数据保留在本地,无法集中在一处训练.为充分利用用户的数据和算力,用户可通过中央服务器协同训练模型,训练得到的公共模型为用户共享,但公共模型对于不同用户会产生相同输出,难以适应用户数据是异质的常见情形.针对该问题,提出一种基于元学习方法 Reptile的新算法,为用户学习个性化联邦学习模型. Reptile可高效学习多任务的模型初始化参数,在新任务到来时,仅需几步梯度下降就能收敛到良好的模型参数.利用这一优势,将Reptile与联邦平均(federated averaging, FedAvg)相结合,用户终端利用Reptile处理多任务并更新参数,之后中央服务器将用户更新的参数进行平均聚合,迭代学习更好的模型初始化参数,最后将其应用于各用户数据后仅需几步梯度下降即可获得个性化模型.实验中使用模拟数据和真实数据设置了联邦学习场景,实验表明该算法相比其他算法能够更快收敛,具有更好的个性化学习能力. 相似文献
10.
区块链具有不可篡改性和去中心化的特点,其与联邦学习的结合成为人工智能领域的热门主题。目前去中心化联邦学习存在训练数据非独立同分布导致的性能下降问题,为了解决这个问题,提出一种模型相似度的计算方法,然后设计一种基于该模型相似度的去中心化联邦学习策略,并使用五个联邦学习任务进行测试,分别是CNN模型训练fashion-mnist数据集、alexnet模型训练cifar10数据集、TextRnn模型训练THUsnews数据集、Resnet18模型训练SVHN数据集和LSTM模型训练sentiment140数据集。实验结果表明,设计的策略在五个任务非独立同分布的数据下进行去中心化联邦学习,准确率分别提升了2.51、5.16、17.58、2.46和5.23个百分点。 相似文献
11.
联邦学习是一种保证数据隐私安全的分布式机器学习方案.与传统的机器学习的可解释性问题类似,如何对联邦学习进行解释是一个新的挑战.文中面向联邦学习方法的分布式与隐私安全性的特性,探讨联邦学习的可视化框架设计.传统的可视化任务需要使用大量的数据,而联邦学习的隐私性决定了其无法获取用户数据.因此,可用的数据主要来自服务器端的训练过程,包括服务器端模型参数和用户训练状态.基于对联邦学习可解释性的挑战的分析,文中综合考虑用户、服务器端和联邦学习模型3个方面设计可视化框架,其包括经典联邦学习模型、数据中心、数据处理和可视分析4个模块.最后,介绍并分析了2个已有的可视化案例,对未来通用的联邦学习可视分析方法提出了展望. 相似文献
12.
随着实时传感器在诸如机场、发电厂、智能工厂和医疗保健系统等各种领域的广泛运用,对多变量时间序列数据的异常检测变得更加重要。然而,目前面临两个关键的挑战。数据机构的敏感数据通常以孤岛的形式存在,这使得在保护隐私安全的前提下难以融合数据,无法训练出高性能的异常检测模型。不同数据机构的数据存在统计异构性,在个性化数据场景下,使用统一的异常检测模型的性能不佳。提出了一种面向多元时序数据的个性化联邦异常检测框架FedPAD(federated personalized anomaly detection)。FedPAD基于联邦学习架构,在保护隐私的前提下进行数据聚合,通过微调构建相对个性化的模型。在NASA航天器数据集上的实验表明,FedPAD能够实现准确和个性化的异常检测,相比于基准方法F1分数平均提高了6.9%。 相似文献
13.
14.
在联邦学习环境中选取适宜的优化器是提高模型性能的有效途径, 尤其在数据高度异构的情况下. 本文选取FedAvg算法与FedALA算法作为主要研究对象, 并提出其改进算法pFedALA. pFedALA通过令客户端在等待期间继续本地训练, 有效降低了由于同步需求导致的资源浪费. 在此基础上, 本文重点分析这3种算法中优化器的作用, 通过在MNIST和CIFAR-10数据集上测试, 比较了SGD、Adam、ASGD以及AdaGrad等多种优化器在处理非独立同分布(Non-IID)、数据不平衡时的性能. 其中重点关注了基于狄利克雷分布的实用异构以及极端的异构数据设置. 实验结果表明: 1) pFedALA算法呈现出比FedALA算法更优的性能, 表现为其平均测试准确率较FedALA提升约1%; 2)传统单机深度学习环境中的优化器在联邦学习环境中表现存在显著差异, 与其他主流优化器相比, SGD、ASGD与AdaGrad优化器在联邦学习环境中展现出更强的适应性和鲁棒性. 相似文献
15.
数据不动的联邦学习框架是多个数据持有方合作训练机器学习模型的新范式.多个数据持有方参与联邦学习时的贡献评估是联邦学习的核心问题之一.参与方贡献评估需要兼顾有效性、公平性和合理性等要素,在理论方法与实际应用中均面临多项挑战.贡献评估首先需要明确如何度量数据价值,然而数据估值存在主观性与依赖于实际任务场景的特点,如何设计有效、可靠并对恶意数据鲁棒的数据估值指标是第一大挑战.其次,联邦学习合作中的参与方贡献评估是经典的合作博弈问题,如何制定公平合理的参与方贡献评估方案,实现参与方一致认可的博弈平衡是第二大挑战.最后,参与方贡献评估往往计算复杂度高,同时,联邦学习中围绕模型的数据估值时间开销大,因此,在实践中如何设计高效且准确的近似算法是第三大挑战.近年来,为了有效地解决上述挑战,学术界对联邦学习中的贡献评估问题展开了广泛的研究.首先,简要介绍联邦学习与参与方贡献评估的背景知识;然后,综述数据估值指标、参与方贡献评估方案和相关优化技术;最后,讨论了联邦学习贡献评估仍面临的挑战并展望未来研究的发展方向. 相似文献
16.
17.
针对目前已有的基于深度学习的数据竞争检测方法提取特征单一和准确率低的问题,提出一种基于深度学习的数据竞争检测方法DeleRace,该方法首先利用程序静态分析工具WALA从多个实际应用程序中提取指令、方法和文件等多个级别的特征,对其向量化并构造训练样本数据;然后通过ConRacer工具对真实数据竞争进行判定进而标记样本数据,采用SMOTE增强算法使正负数据样本分布均衡化;最后构建并训练CNN-LSTM深度神经网络进行数据竞争检测.从DaCapo,JGF,IBM Contest,PJBench基准测试程序套件中分别选取26个不同应用领域的基准测试程序进行训练数据样本抽取和数据竞争检测,结果表明DeleRace的数据竞争检测准确率为96.79%,与目前已有的基于深度学习的检测方法DeepRace相比提升了4.65%.此外还将DeleRace与已有的动态数据竞争检测工具(Said和RVPredict)和静态数据竞争检测工具(SRD和ConRacer)进行比较,验证了DeleRace的有效性. 相似文献
18.
张彤 《计算机测量与控制》2020,28(10):16-19
传统技术缺少对数据处理部分,导致测量误差较大,为了避免该技术对雷达测量带来的弊端,提出了基于数据挖掘的雷达探测目标误差测量技术研究。在小波变换下对雷达采集到的图像进行去噪处理,通过构建网络层识别模型进行图像切割、归一化处理,由此设计具体识别流程。为剔除冗杂多余且空洞无用数据,对其进行相应的转换、集成和匹配,将数据处理成一致形式,以此读取雷达数据文件,完成数据预处理。依靠决策树在SQL Server 2005中进行误差数据挖掘,由此完成雷达探测目标误差测量。假设四种雷达运动轨迹目标类型,如此进行雷达仿真验证分析,由实验结果可知,该技术误差测量精准度与实际值相差较小,最大误差为2.0公里,在实际误差允许范围内,为雷达精准探测奠定基础。 相似文献
19.
随着大数据、云计算等领域的蓬勃发展,重视数据安全与隐私已经成为世界性的趋势,不同团体为保护自身利益和隐私不愿贡献数据,形成了数据孤岛.联邦学习使数据不出本地就可被多方利用,为解决数据碎片化和数据隔离等问题提供了解决思路.然而越来越多研究表明,由谷歌首先提出的联邦学习算法不足以抵抗精心设计的隐私攻击,因此如何进一步加强隐私防护,保护联邦学习场景下的用户数据隐私成为一个重要问题.对近些年来联邦学习隐私攻击与防护领域取得的成果进行了系统总结.首先介绍了联邦学习的定义、特点和分类;然后分析了联邦学习场景下隐私威胁的敌手模型,并根据敌手攻击目标对隐私攻击方法进行了分类和梳理;介绍了联邦学习中的主流隐私防护技术,并比较了各技术在实际应用中的优缺点;分析并总结了6类目前联邦学习的隐私保护方案;最后指出目前联邦学习隐私保护面临的挑战,展望了未来可能的研究方向. 相似文献
20.
联邦学习(Federated Learning,FL)是一种分布式神经网络训练的方法,它使多个终端协作训练一个共享的神经网络模型,同时保证训练数据存在于终端上。然而,FL涉及数千个异构分布式终端设备。在这种情况下,低效的通信是FL的关键瓶颈。为了解决上述问题,一种融合边缘计算的分层联邦学习(Hierarchical FL,HFL)框架被提出来了。尽管HFL有上述的巨大好处,但是激励机制设计的挑战在HFL框架中尚未得到解决。因此,提出了一种基于契约论的双层激励机制方法;然后,基于CIFAR10数据集的实验结果验证了该激励机制的有效性。 相似文献