首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 46 毫秒
1.
针对多数隐私保护的频繁模式挖掘算法需要多次数据库扫描以及计数时需要进行多次比较的不足,提出了一种增量的基于位图的部分隐藏随机化回答(IBRRPH)算法。首先,引入bitmap表示数据库中的事务,采用"位与"操作有效提高支持度的计算速度;其次,通过分析增量访问关系,引入增量更新模型,使得在数据增量更新时频繁模式挖掘最大限度地利用了之前挖掘结果。针对增量分别为1000至40000,与顾铖等提出的算法(顾铖,朱保平,张金康.一种改进的隐私保护关联规则挖掘算法.南京航空航天大学学报,2015,47(1):119-124)进行了对比测试实验。实验结果表明,与顾铖等提出的算法相比,IBRRPH算法的效率提高幅度超过21%。  相似文献   

2.
为了提高挖掘结果的准确性,提出基于样例学习和项集同步随机化的隐私保护频繁模式挖掘方法(learning and synchronized privacy preserving frequent pattern mining,简称LS-PPFM).该方法充分利用不需要隐私保护的个体数据,首先对不需要保护的数据学习,得到样...  相似文献   

3.
已有的随机化回答模型调控的数据范围宽、粒度粗,对隐私数据的保护粒度缺乏灵活性,无法实现精细化、个性化、差异化的隐私保护。提出三类多参数随机化回答模型,包括行多参、复合多参、分组多参共11种随机化回答模型,给出了模型的分类框架和分类层次。细粒度多参数随机化模型可实现精细化、个性化、差异化的隐私保护效果。  相似文献   

4.
高效隐私保护频繁模式挖掘算法研究   总被引:1,自引:0,他引:1  
阐述了隐私保护数据挖掘的目标,即在获取有效的数据挖掘结果的同时,满足用户对隐私保护的要求.针对个体用户及组织用户的隐私保护,论述了不同的方法,并归纳出隐私保护数据挖掘中所采用的两种主流算法.改进了高效隐私保护关联规则挖掘算法(EMASK)中需要完全的数据库扫描并且进行多次比较操作的弊端,提出了基于粒度计算的高效隐私保护频繁模式挖掘算法(BEMASK).该算法将关系数据表转换成面向机器的关系模型,数据处理被转换成粒度计算的方式,计算频繁项集变成了计算基本颗粒的交集.特别是数据的垂直Bitmap表示,在保证准确性不降低的情况下,一方面减少了I/O操作的次数,另一方面较大地提高了效率.  相似文献   

5.
序列数据中可能包含大量敏感信息,因此直接对序列数据的频繁模式进行挖掘存在泄露用户隐私信息的风险。本地化差分隐私(LDP)能够抵御具有任意背景知识的攻击者,可以对敏感信息提供更全面的保护。序列数据内在序列性和高维度的特点为LDP应用于频繁序列模式挖掘带来了挑战。为解决这个问题,提出一种满足ε-LDP的top-k频繁序列模式挖掘算法PrivSPM。该算法结合填充和采样技术、自适应频率估计算法与频繁项预测技术来构造候选集;基于新域,利用基于指数机制的策略对用户数据进行扰动,并结合频率估计算法识别最终的频繁序列模式。理论分析证明了该算法满足ε-LDP。在3个真实数据集上的实验结果表明,PrivSPM算法在纳真率(TPR)和归一化累积排名(NCR)上明显高于对比算法,能有效提高挖掘结果的准确度。  相似文献   

6.
针对当数据集含有敏感信息时,直接发布频繁序列模式本身及其支持度计数都有可能泄露用户隐私信息的问题,提出一种满足差分隐私(DP)的频繁序列模式挖掘(DP-FSM)算法。该算法利用向下封闭性质生成候选序列模式集,基于智能截断方法从候选模式中挑选出频繁的序列模式,最后采用几何机制对所选出模式的真实支持度添加噪声进行扰动。另外,为了提高挖掘结果的可用性,设计了一个阈值修正的策略来减小挖掘过程中的截断误差和传播误差。理论分析证明了该算法满足ε-差分隐私。实验结果表明了该算法在拒真率(FNR)和相对支持度误差(RSE)两个指标上明显低于对比算法PFS2,有效地提高了挖掘结果的准确度。  相似文献   

7.
差分隐私保护下一种精确挖掘top-k频繁模式方法   总被引:1,自引:0,他引:1  
频繁模式挖掘是分析事务数据集常用技术.然而,当事务数据集含有敏感数据时(如用户行为记录、电子病例等),直接发布频繁模式及其支持度计数会给个人隐私带来相当大的风险.对此提出了一种满足ε-差分隐私的top-k频繁模式挖掘算法DP-topkP(differentially private top-k pattern mining).该算法利用指数机制从候选频繁模式集合中挑选出top-k个携带真实支持度计数的模式;采用拉普拉斯机制产生的噪音扰动所选模式的真实支持度计数;为了增强输出模式的可用性,采用后置处理技术对top-k个模式的噪音支持度计数进行求精处理.从理论角度证明了该算法满足ε-差分隐私,并符合(λ,δ)-useful要求.实验结果证明了DP-topkP算法具有较好的准确性、可用性和可扩展性.  相似文献   

8.
给出将跨两表频繁项集挖掘方法扩展到跨三表频繁项集挖掘方法的技术,以三表频繁项集的公共属性记数集作为三方安全协议的参数,设计一个跨三表频繁项集挖掘的隐私保护算法,以便在挖掘求出跨三表频繁项集的同时保护三表中的隐私信息。理论分析和实验结果表明,算法安全、高效,具有可扩展性。  相似文献   

9.
研究针对序列模式有关隐私保护议题,提出有效的SDRF序列模式隐藏算法,让分享序列模式时也能保护自己的核心信息。  相似文献   

10.
频繁序列模式挖掘是数据挖掘领域的1个基本问题,然而模式本身及其支持度计数都有可能泄露用户隐私信息.差分隐私(differential privacy, DP)作为一种新出现的隐私保护技术,定义了一个相当严格的攻击模型,通过添加噪音使数据失真达到隐私保护的目的.由于序列数据内在序列性和高维度的特点,给差分隐私应用于频繁序列模式挖掘带来了挑战.对此提出了一种基于交互式差分隐私保护框架的频繁序列模式挖掘算法Diff-FSPM(differential-privacy frequent sequential pattern mining).该算法利用指数机制获取最优序列长度,并采用一种维规约策略获得原始序列数据集的规约表示,有效降低序列维度的影响;应用前缀树压缩频繁序列模式,利用拉普拉斯机制产生的噪音扰动频繁模式的真实支持度计数,同时采用闭频繁序列模式和Markov假设,有效分配隐私预算,并利用一致性约束后置处理,增强输出模式的可用性.理论角度证明算法满足ε-差分隐私,实验结果验证算法具有较好的可用性.  相似文献   

11.
描述隐私保护数据挖掘技术研究进展,对主流算法进行了分类。由于隐私保护关联规则挖掘算法EMASK对Apriori算法具有较高的依赖性,计算效率较低,同时也不适用于动态变化数据库。本文用粒度计算的思想对EMASK算法进行改进,利用位操作的方法来保证准确性不降低的情况下,减少了I/O操作的次数,降低空间开销,同时在生成频繁项集的时候,也记录了其在扭曲后数据中的支持度,减少了文件的访问次数,由此提高计算效率。针对现实世界事务数据库变化情况,利用增量式更新算法FUP技术解决增量式事务数据库频繁项集计算问题。结果证明,无论是固定增量集数据库还是可变增量集数据库处理中,BIEMASK相对于EMASK而言,效率时间都有较大幅度的提高。  相似文献   

12.
基于隐私保护的数据挖掘是信息安全和知识发现相结合的产物.提出一种基于隐私保护的序列模式挖掘算法PP-SPM.算法以修改原始数据库中的敏感数据来降低受限序列模式的支持度为原则,首先构建SPAM序列树,根据一定的启发式规则,从中获得敏感序列,再进一步在原始数据库中找到敏感数据,对其做布尔操作,实现数据库的清洗.实验表明,该算法在完全保护隐私的情况下,对于D6C10T2.5S4I4数据集,当修改3.5%的原始数据后,其序列模式丢失率为2%.  相似文献   

13.
隐私保护是当前数据挖掘领域的一个研究热点,其目标是在不暴露原始数据信息的前提下准确地实现挖掘任务。针对隐私保护序列模式挖掘问题,提出了项集的布尔集合关系概念,设计了基于随机集和扰乱函数对原始序列库进行数据干扰的方法模型,并通过扰乱函数的特性还原出原始序列库的频繁序列模式的真实支持度,完成了在保护原始数据隐私的前提下准确地挖掘出频繁序列模式的任务。理论分析和实验结果表明,该方法模型具有很好的数据隐私保护性、挖掘结果准确性和算法执行高效性。  相似文献   

14.
吕品  董武世 《计算机工程与应用》2006,42(24):179-180,186
数据挖掘作为应用于数据分析的工具,往往会从大型数据库中毫无保留地揭露某些重要信息,这些重要信息由于一定的原因不能向外界透露。所以可以通过构造具有与原始的频繁集一样的特征的虚拟数据集来替代频繁集挖掘结果。文章给出了一种近似的反频繁集挖掘方法,分析了它的可计算复杂度,得出了近似反频繁集挖掘是一个NP完全问题,提出了近似的反频繁集挖掘的下一步研究重点。  相似文献   

15.
基于隐私保护的数据挖掘   总被引:1,自引:0,他引:1       下载免费PDF全文
基于隐私保护的数据挖掘(PPDM)的目标是在保护原始数据的情况下建立挖掘模型并得到理想的分析结果。该文从PPDM的总体需求出发,基于数据隐藏,将PPDM技术分为安全多方计算技术、匿名技术和数据转换技术。从准确性、隐私性和复杂性3个方面对PPDM技术进行了评估。  相似文献   

16.
基于移项的隐私保护关联规则挖掘算法   总被引:2,自引:1,他引:1  
基于启发式规则的隐私保护关联规则挖掘算法中均通过删除项或增加项改变规则的支持度,对非敏感规则的支持度影响很大。针对上述不足,提出一种将删除项和增加项2种操作相结合的方法,在执行删除项操作后寻找合适的事务,对该事务执行增加项操作。实验结果表明,利用该算法清洗数据库所产生的规则丢失率和相异度均有所下降。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号