首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
针对攻击者利用生成式对抗网络技术(GAN)还原出训练集中的数据,泄露用户隐私信息的问题,提出了一种差分隐私保护梯度惩罚Wasserstein生成对抗网络(WGAN-GP)的方法.该方法在深度学习训练过程中对梯度添加精确计算后的高斯噪声,并使用梯度惩罚进行梯度修正,实现差分隐私保护.利用梯度惩罚Wasser-stein生成对抗网络与原始数据相似的数据.实验结果表明,在保证数据可用性的前提下,该方法可以有效保护数据的隐私信息,且生成数据具有较好的质量.  相似文献   

2.
训练基于深度学习的计算机辅助诊断系统可以有效地从肺部CT图像中检测出是否受到COVID-19感染, 但目前面临的主要问题是缺乏高质量带标注的CT图像用于训练. 为了有效的解决该问题, 本文提出了一种基于生成对抗网络来扩增肺部CT图像的方法. 新方法通过生成不同感染区域的标签并通过泊松融合以增加生成图像的多样性; 通过训练对抗网络模型实现图像的转换生成, 以达到扩增CT图像的目的. 为验证生成数据的有效性, 基于扩增数据进一步做了分割实验. 通过图像生成实验和分割实验, 结果都表明, 本文提出的图像生成方法取得了较好的效果.  相似文献   

3.
机器学习任务中通常将真实数据直接作为训练集会造成隐私泄露的风险,针对这一问题,本文以研究序列对抗网络模型(Seq GAN,Sequence Generative adversarial networks)结合差分隐私(DP,Differential privacy)来保护真实数据的方法上,提出了基于差分隐私保护的仿真数据生成方案。首先,对获取的数据采用满足差分隐私的加噪策略获得噪声数据,从源头防范原始数据在生成模型训练过程中的隐私风险;其次,提出了一种基于GRU的改进SeqGAN模型:GRU-SeqGAN,来提高生成的噪声仿真数据可用性;最后,以高校学业预警为背景来生成安全的学生仿真数据作为完成下游任务的训练集。实验证明,仿真数据原理上保障了隐私安全的同时,GRUSeqGAN生成的噪声仿真数据相比SeqGAN可用性更高,模型训练效率更高。  相似文献   

4.
联邦学习是解决多组织协同训练问题的一种有效手段,但是现有的联邦学习存在不支持用户掉线、模型API泄露敏感信息等问题。文章提出一种面向用户的支持用户掉线的联邦学习数据隐私保护方法,可以在用户掉线和保护的模型参数下训练出一个差分隐私扰动模型。该方法利用联邦学习框架设计了基于深度学习的数据隐私保护模型,主要包含两个执行协议:服务器和用户执行协议。用户在本地训练一个深度模型,在本地模型参数上添加差分隐私扰动,在聚合的参数上添加掉线用户的噪声和,使得联邦学习过程满足(ε,δ)-差分隐私。实验表明,当用户数为50、ε=1时,可以在模型隐私性与可用性之间达到平衡。  相似文献   

5.
联邦学习(federated learning, FL)是一种以保护客户隐私数据为中心的分布式处理网络,为解决隐私泄露问题提供了前景良好的解决方案.然而, FL的一个主要困境是高度非独立同分布(nonindependent and identically distributed, non-IID)的数据会导致全局模型性能很差.尽管相关研究已经探讨了这个问题,但本文发现当面对non-IID数据、不稳定的客户端参与以及深度模型时,现有方案和标准基线FedAvg相比,只有微弱的优势或甚至更差,因此严重阻碍了FL的隐私保护应用价值.为解决这个问题,本文提出了一种对non-IID数据鲁棒的优化方案:FedUp.该方案在保留FL隐私保护特点的前提下,进一步提升了全局模型的泛化鲁棒性. FedUp的核心思路是最小化全局经验损失函数的上限来保证模型具有低的泛化误差.大量仿真实验表明, FedUp显著优于现有方案,并对高度non-IID数据以及不稳定和大规模客户端的参与具有鲁棒性.  相似文献   

6.
人工智能和深度学习算法正在高速发展,这些新兴技术在音视频识别、自然语言处理等领域已经得到了广泛应用。然而,近年来研究者发现,当前主流的人工智能模型中存在着诸多安全隐患,并且这些隐患会限制人工智能技术的进一步发展。因此,研究了人工智能模型中的数据安全与隐私保护问题。对于数据与隐私泄露问题,主要研究了基于模型输出的数据泄露问题和基于模型更新的数据泄露问题。在基于模型输出的数据泄露问题中,主要探讨了模型窃取攻击、模型逆向攻击、成员推断攻击的原理和研究现状;在基于模型更新的数据泄露问题中,探讨了在分布式训练过程中,攻击者如何窃取隐私数据的相关研究。对于数据与隐私保护问题,主要研究了常用的3类防御方法,即模型结构防御,信息混淆防御,查询控制防御。综上,围绕人工智能深度学习模型的数据安全与隐私保护领域中最前沿的研究成果,探讨了人工智能深度学习模型的数据窃取和防御技术的理论基础、重要成果以及相关应用。  相似文献   

7.
教师模型全体的隐私聚合(PATE)是一种重要的隐私保护方法,但该方法中存在训练数据集小时训练模型不精确的问题。为了解决该问题,提出了一种基于联邦学习的PATE教师模型聚合优化方法。首先,将联邦学习引入到教师模型全体隐私聚合方案的教师模型训练中,用来提高训练数据少时模型训练的精确度。其次,在该优化方案中,利用差分隐私的思想来保护模型参数的隐私,以降低其被攻击的隐私泄露风险。最后,通过在MNIST数据集下验证该方案的可行性,实验结果表明,在同样的隐私保护水平下该方案训练模型的精确度优于传统的隐私聚合方案。  相似文献   

8.
排序学习(Learning-to-Rank,LTR)模型在信息检索领域取得了显著成果.而该模型的传统训练方法需要收集大规模文本数据.然而,随着数据隐私保护日渐受到人们重视,从多个数据拥有者(如企业)手中收集数据训练排序学习模型的方式变得不可行.各企业之间数据被迫独立存储,形成了数据孤岛.由于排序模型训练需要使用查询记录、文档等诸多隐私信息,数据孤岛难以融合打通,这制约了排序学习模型的训练.联邦学习能够让多数据拥有方在隐私保护的前提下联合训练模型,是一种打通数据孤岛的新方法.本文在其启发下提出了一种新的框架,即面向企业数据孤岛的联邦排序学习,它同时解决了联邦学习场景下排序学习所面临的两大挑战,即交叉特征生成与缺失标签处理.为了应对多方交叉特征的生成问题,本文使用了一种基于略图(Sketch)数据结构与差分隐私的方法,其相比于传统加密方法具有更高的效率,同时还具有隐私性与结果精度的理论保证.为了应对缺失标签问题,本文提出了一种新的联邦半监督学习方法.最终,本文通过在公开数据集上的大量实验验证了所提方法的有效性.  相似文献   

9.
近年来,联邦学习成为解决机器学习中数据孤岛与隐私泄露问题的新思路。联邦学习架构不需要多方共享数据资源,只要参与方在本地数据上训练局部模型,并周期性地将参数上传至服务器来更新全局模型,就可以获得在大规模全局数据上建立的机器学习模型。联邦学习架构具有数据隐私保护的特质,是未来大规模数据机器学习的新方案。然而,该架构的参数交互方式可能导致数据隐私泄露。目前,研究如何加强联邦学习架构中的隐私保护机制已经成为新的热点。从联邦学习中存在的隐私泄露问题出发,探讨了联邦学习中的攻击模型与敏感信息泄露途径,并重点综述了联邦学习中的几类隐私保护技术:以差分隐私为基础的隐私保护技术、以同态加密为基础的隐私保护技术、以安全多方计算(SMC)为基础的隐私保护技术。最后,探讨了联邦学习中隐私保护中的若干关键问题,并展望了未来研究方向。  相似文献   

10.
基于生成对抗网络的图像识别方法拥有很高的识别率,但训练时需要大量有标签样本,在有标签样本较少的情况时识别效果不佳。针对这个问题,结合深度卷积生成对抗网络和半监督生成对抗网络的特点建立半监督深度生成对抗网络。根据有标签样本和无标签样本分布,模型生成拟合真实分布的样本输入并训练分类器,增加了训练样本数从而提升识别率。将模型优化调整并进行图像识别实验,结果表明,该方法仅用少量有标签样本即可实现准确的图像识别。  相似文献   

11.
3D shape recognition has been actively investigated in the field of computer graphics. With the rapid development of deep learning, various deep models have been introduced and achieved remarkable results. Most 3D shape recognition methods are supervised and learn only from the large amount of labeled shapes. However, it is expensive and time consuming to obtain such a large training set. In contrast to these methods, this paper studies a semi-supervised learning framework to train a deep model for 3D shape recognition by using both labeled and unlabeled shapes. Inspired by the co-training algorithm, our method iterates between model training and pseudo-label generation phases. In the model training phase, we train two deep networks based on the point cloud and multi-view representation simultaneously. In the pseudo-label generation phase, we generate the pseudo-labels of the unlabeled shapes using the joint prediction of two networks, which augments the labeled set for the next iteration. To extract more reliable consensus information from multiple representations, we propose an uncertainty-aware consistency loss function to combine the two networks into a multimodal network. This not only encourages the two networks to give similar predictions on the unlabeled set, but also eliminates the negative influence of the large performance gap between the two networks. Experiments on the benchmark ModelNet40 demonstrate that, with only 10% labeled training data, our approach achieves competitive performance to the results reported by supervised methods.  相似文献   

12.
命名实体识别(NER)是自然语言处理的核心应用任务之一。传统和深度命名实体识别方法严重依赖于大量具有相同分布的标注训练数据,模型可移植性差。然而在实际应用中数据往往都是小数据、个性化数据,收集足够的训练数据是非常困难的。在命名实体识别中引入迁移学习,利用源域数据和模型完成目标域任务模型构建,提高目标领域的标注数据量和降低目标域模型对标注数据数量的需求,在处理资源匮乏命名实体识别任务上,具有非常好的效果。首先对命名实体识别方法和难点以及迁移学习方法进行概述;然后对近些年应用于命名实体识别的迁移学习方法,包括基于数据迁移学习、基于模型迁移学习和对抗迁移学习,进行全面综述,重点阐述了对抗迁移学习方法;最后进一步思考当前存在的问题并对未来的研究方向进行了展望。  相似文献   

13.
近年来,深度学习技术广泛应用于侧信道攻击(side channel attack,SCA)领域.针对在基于深度学习的侧信道攻击中训练集数量不足的问题,提出了一种用于侧信道攻击的功耗轨迹扩充技术,使用条件生成对抗网络(conditional generate against network,CGAN)实现对原始功耗轨迹的...  相似文献   

14.
自然场景下采集的卡证、文档中存在的可见水印,是影响人们阅读效率、机器识别准确度的障碍.为此,提出了一种结合基于特征点匹配的水印检测和基于条件生成对抗网络CGAN的水印去除方案.水印检测部分,通过SIFT特征点检测、FLANN特征点匹配和PROSAC误匹配消隐,估计出几何变换的最佳透视模型实现目标水印定位.水印去除部分采...  相似文献   

15.
小样本学习研究综述   总被引:1,自引:0,他引:1  
小样本学习旨在通过少量样本学习到解决问题的模型.近年来,在大数据训练模型的趋势下,机器学习和深度学习在许多领域中取得了成功.但是在现实世界中的很多应用场景中,样本量很少或者标注样本很少,而对大量无标签样本进行标注工作将会耗费很大的人力.所以,如何用少量样本进行学习就成为目前人们需要关注的问题.系统地梳理了当前小样本学习...  相似文献   

16.
目的 基于深度学习的飞机目标识别方法在遥感图像解译领域取得了很大进步,但其泛化能力依赖于大规模数据集。条件生成对抗网络(conditional generative adversarial network,CGAN)可用于产生逼真的生成样本以扩充真实数据集,但对复杂遥感场景的建模能力有限,生成样本质量低。针对这些问题,提出了一种结合CGAN样本生成的飞机识别框架。方法 改进条件生成对抗网络,利用感知损失提高生成器对遥感图像的建模能力,提出了基于掩膜的结构相似性(structural similarity,SSIM)度量损失函数(masked-SSIM loss)以提高生成样本中飞机区域的图像质量,该损失函数与飞机的掩膜相结合以保证只作用于图像中的飞机区域而不影响背景区域。选取一个基于残差网络的识别模型,与改进后的生成模型结合,构成飞机识别框架,训练过程中利用生成样本代替真实的卫星图像,降低了对实际卫星数据规模的需求。结果 采用生成样本与真实样本训练的识别模型在真实样本上的进行实验,前者的准确率比后者低0.33%;对于生成模型,在加入感知损失后,生成样本的峰值信噪比(peak signal to noise ratio,PSNR)提高了0.79 dB,SSIM提高了0.094;在加入基于掩膜的结构相似性度量损失函数后,生成样本的PSNR提高了0.09 dB,SSIM提高了0.252。结论 本文提出的基于样本生成的飞机识别框架生成了质量更高的样本,这些样本可以替代真实样本对识别模型进行训练,有效地解决了飞机识别任务中的样本不足问题。  相似文献   

17.
Structural health monitoring has received remarkable attention due to the arising structural safety problems. Most of these structural health problems are accumulative damages such as slight changes in structural deformations which are very hard to be detected. In addition, the complexity of real structure and environmental noises make structural health monitoring more difficult. Existing methods largely use various types of sensors to collect useful parameters and then train a machine learning model to diagnose damage level and location, in which a large amount of training data are needed for the model training, while the labeled data are rare in the real world. To overcome this problem, sparse coding is employed in this paper to achieve structural health monitoring of a bridge equipped with a wireless sensor network, so that a large amount of unlabeled examples can be used to train a feature extractor based on the sparse coding algorithm. Features learned from sparse coding are then used to train a neural network classifier to distinguish different statuses of the bridge. Experimental results show the sparse coding-based deep learning algorithm achieves higher accuracy for structural health monitoring under the same level of environmental noises, compared with some existing methods.  相似文献   

18.
With the extensive applications of machine learning, it has been witnessed that machine learning has been applied in various fields such as e-commerce, mobile data processing, health analytics and behavioral analytics etc. Word vector training is usually deployed in machine learning to provide a model architecture and optimization, for example, to learn word embeddings from a large amount of datasets. Training word vector in machine learning needs a lot of datasets to train and then outputs a model, however, some of which might contain private and sensitive information, and the training phase will lead to the exposure of the trained model and user datasets. In order to offer utilizable, plausible, and personalized alternatives to users, this process usually also entails a breach of their privacy. For instance, the user data might contain of face,irirs and personal identities etc. This will release serious problem in the machine learning. In this article, we investigate the problem of training high-quality word vectors on encrypted datasets by using privacy-preserving learning algorithms. Firstly, we use a pseudo-random function to generate a statistical token for each word to help build the vocabulary of the word vector. Then we employ functional inner-product encryption to calculate the activation function to obtain the inner product, securely. Finally, we use BGN cryptosystem to encrypt and hide the sensitive datasets, and complete the homomorphic operation over the ciphertexts to perform the training procedure. In order to implement the privacy preservation of word vector training, we propose four privacy-preserving machine learning schemes to provide the privacy protection in our scheme. We analyze the security and efficiency of our protocols and give the numerical experiments. Compared with the existing solutions, it indicates that our scheme can provide a higher efficiency and less communication overhead.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号