共查询到19条相似文献,搜索用时 109 毫秒
1.
2.
针对垂直分布下的隐私保护关联规则挖掘算法安全性不高和挖掘效率较低的问题,提出了一种隐私保护关联规则挖掘算法.算法采用一种新的点积协议,通过引入逆矩阵和随机数隐藏原始输入信息,具有较好的安全性;利用挖掘最大频繁项集来代替挖掘所有频繁项集,采用深度优先遍历策略,结合各种剪枝策略,明显加快了频繁项集的生成速度,大大减少计算代价.实验结果表明,挖掘效率得到了很大提高. 相似文献
3.
4.
一种隐私保护关联规则挖掘的混合算法* 总被引:3,自引:2,他引:1
针对现有的隐私保护关联规则挖掘算法无法满足效率与精度之间较好的折中问题,提出了一种基于安全多方计算与随机干扰相结合的混合算法。算法基于半诚实模型,首先使用项集随机干扰矩阵对各个分布站点的数据进行变换和隐藏,然后提出一种方法恢复项集的全局支持数。由于采用的是对项集进行干扰,克服了传统方法由于独立地干扰每个项而破坏项之间相关性,导致恢复精度下降的缺陷。将小于阈值的项集进行剪枝,再使用安全多方计算在剪枝后的空间中精确找出全局频繁项集,进而生成全局关联规则。实验表明,该算法在保持隐私度的情况下,能够获得精度和效率之间较好的折中。 相似文献
5.
分布式数据库关联规则的安全挖掘算法研究 总被引:1,自引:0,他引:1
分布式环境中,进行分布式数据库关联规则的挖掘而不泄露用户的隐私,是非常重要的问题.提出了分布式数据库的关联规则的安全挖掘算法PPDMA(Privacy Preserving Distributed Mining Algorithms),通过应用密码学方法对站点间传送的用于挖掘全局频繁项集的被约束子树及其它信息进行加密,而在接受站点对加密信息进行解密,达到不披露用户信息,起到保护用户隐私的作用,以进行关联规则的安全挖掘.分析表明,该算法是正确可行的. 相似文献
6.
频繁项集挖掘在加入差分隐私后将带来敏感度过高、噪声过大、数据可用性较差的问题。为了解决这些问题,提出了基于事务分离的差分隐私频繁项集挖掘方法。利用指数机制对事务最大限制长度进行筛选,将长事务分离成为多个短事务,以此降低全局敏感度并避免截断误差的产生。在数据挖掘过程中,采用Apriori算法挖掘频繁项集,利用双阈值进行项集判断以及修正支持度,减小传输误差的产生和噪音。实验结果表明,该方法满足差分隐私的要求,可有效提高数据可用性。 相似文献
7.
8.
对现有的基于MapReduce的并行频繁项集挖掘算法进行了研究, 提出一种基于后缀项表的并行闭频繁项集挖掘算法, 通过后缀项表的引入及以闭频繁项集挖掘的形式, 减少组分间的数据传送量, 提高挖掘效率。实验表明, 该算法可以有效缩短平均挖掘时间, 对于高维大数据具有较好的性能。 相似文献
9.
基于不确定数据的频繁项集挖掘算法已经得到了广泛的研究。对于记录用户敏感信息的不确定数据,攻击者可以利用自己掌握的背景信息,通过分析基于不确定数据的频繁项集,从而获得用户的敏感信息。为了从不确定的数据集中挖掘出基于期望支持度的前K个最频繁的频繁项集,并且保证挖掘结果满足差分隐私,在本文中,FIMUDDP算法(Frequent Itemsets Mining for Uncertain Data based on Differential Privacy)被提出来。FIMUDDP利用差分隐私的指数机制和拉普拉斯机制确保从不确定数据中挖掘出的基于期望支持度的前K个最频繁的频繁项集和这些频繁项集的期望支持度满足差分隐私。通过对FIMUDDP进行理论分析和实验评估,验证了FIMUDDP的有效性。 相似文献
10.
高效隐私保护频繁模式挖掘算法研究 总被引:1,自引:0,他引:1
阐述了隐私保护数据挖掘的目标,即在获取有效的数据挖掘结果的同时,满足用户对隐私保护的要求.针对个体用户及组织用户的隐私保护,论述了不同的方法,并归纳出隐私保护数据挖掘中所采用的两种主流算法.改进了高效隐私保护关联规则挖掘算法(EMASK)中需要完全的数据库扫描并且进行多次比较操作的弊端,提出了基于粒度计算的高效隐私保护频繁模式挖掘算法(BEMASK).该算法将关系数据表转换成面向机器的关系模型,数据处理被转换成粒度计算的方式,计算频繁项集变成了计算基本颗粒的交集.特别是数据的垂直Bitmap表示,在保证准确性不降低的情况下,一方面减少了I/O操作的次数,另一方面较大地提高了效率. 相似文献
11.
12.
挖掘频繁项集是挖掘数据流的基本任务。许多近似算法能够有效地对数据流进行频繁项挖掘,但不能有效地控制内存资源消耗和挖掘运行时间。为了提高数据流频繁项集挖掘的时空效率,通过引入矩阵作为概要数据结构,提出了一种新的数据流频繁项集挖掘算法。最后通过实验证明了该算法的有效性。 相似文献
13.
如何有效地约简频繁项集的数量是目前数据挖掘研究的热点。对频繁项集进行聚类是该问题的解决方法之一。由于生成子是全体频繁项集的无损精简表示,故对生成子进行聚类与对全体频繁项集进行聚类具有相同的效果。提出了一种基于生成子的频繁项集聚类算法。首先,利用最小描述长度原理,讨论了选择生成子进行聚类的合理性;其次,给出了生成子的剪枝策略及挖掘算法;最后,在一种新的项集相似性的度量标准的基础上,给生成子的聚类算法。实验结果表明,该方法可有效地减少项集的数量,并具有较高的挖掘效率。 相似文献
14.
传统频繁项集挖掘算法的执行效率较低。提出了一种基于矩阵与前缀树的频繁项集挖掘算法MPFI,能快速地挖掘事务数据库中的频繁项集。MPFI算法只需扫描事务数据库一次,构建垂直方向的二进制矩阵,应用二进制位向量表达频繁项集信息,利用前缀树压缩存储频繁项集的相关信息,不产生候选项集。理论分析与实验结果表明,MPFI算法能有效地提高频繁项集挖掘效率。 相似文献
15.
16.
针对现有自顶向下挖掘算法的不足,即在非频繁项目产生子集时和修剪重复产生的子集时存在冗余计算,提出一种基于定位子集的自顶向下挖掘算法,其适合于挖掘较长频繁项目集;算法按自顶向下策略用定位子集的方法产生非频繁项的子集,并有效地修剪冗余子集和减少重复计算,提高了算法的效率。实验证明,与现有的自顶向下挖掘算法相比,该算法是快速而有效的。 相似文献
17.
18.
19.
对于大型数据,频繁项集挖掘显得庞大而冗余,挖掘最大频繁项集可以减少挖出的频繁项集的个数。可是对于不确定性数据流,传统判断项集是否频繁的方法已不能准确表达项集的频繁性,而且目前还没有在不确定数据流上挖掘最大频繁项集的相关研究。因此,针对上述不足,提出了一种基于衰减模型的不确定性数据流最大频繁项集挖掘算法TUFSMax。该算法采用标记树结点的方法,使得算法不需要超集检测就可挖掘出所有的最大频繁项集,节约了超集检测时间。实验证明了提出的算法在时间和空间上具有高效性。 相似文献