共查询到19条相似文献,搜索用时 156 毫秒
1.
信息技术的发展为人们生活带来便利的同时也带来了个人隐私泄露的风险,数据匿名化是阻止隐私泄露的有效方法。然而,已有的匿名化方法主要考虑切断准标识符属性和敏感属性之间的关联,而没有考虑准标识符属性之间,以及准标识符属性和敏感属性之间存在的函数依赖关系。针对隐私保护的数据发布中存在的问题,研究数据之间存在函数依赖时,如何有效保护用户的隐私信息。首先针对数据集中存在函数依赖情况,提出(l,α)-多样性隐私保护模型;其次,为更好地实现用户隐私保护以及数据效用的增加,提出结合扰动和概化/隐匿的杂合方法实现匿名化算法。最后,实验验证了算法的有效性和效率,并对结果做了理论分析。 相似文献
2.
针对现有的匿名方案往往较少考虑离群数据的敏感问题以及信息损失与时间效率的最优化问题,提出一种基于约束聚类的k-匿名隐私保护方法.通过K近邻思想划分初始集群,根据设定的阈值δ将集群进行重新划分,划分过程始终遵循信息损失最小化原则,得到每个等价类元组数都在k与2k之间,过程中分类考察准标识符属性并充分考虑离群点对聚类结果的... 相似文献
3.
函数型数据回归是一种特殊的回归分析,其响应或协变量包含函数型数据,即样本元素为连续函数的数据。函数型数据在医疗保健、社交媒体、传感网络等诸多领域都有重要应用,通常包含一些敏感信息,在回归分析的过程中,不加保护会引起隐私的泄露。针对函数型数据回归分析中缺少隐私保护的问题,提出了一种基于拉普拉斯机制的函数回归的差分隐私保护算法。首先,对响应数据进行降维,将响应函数建模为相互正交的B样条基的张量积,建立函数回归的数学模型;其次,对回归模型的未知参数取值使用惩罚最小二乘法估计,并通过正交基函数的数量控制粗糙度;最后,对估计参数加入服从拉普拉斯分布的噪声扰动,得到最终的回归结果。理论分析和实验表明,函数回归的差分隐私保护算法满足拉普拉斯机制的差分隐私保护,并且随着隐私预算的减小,算法效率越高,在保证数据安全性的同时达到了良好的可用性。 相似文献
4.
面向表数据发布隐私保护的贪心聚类匿名方法 总被引:1,自引:0,他引:1
为了防范隐私泄露,表数据一般需要匿名处理后发布.现有匿名方案较少分类考察准标识属性概化,并缺少同时考虑信息损失量和时间效率的最优化.利用贪心法和聚类划分的思想,提出一种贪心聚类匿名方法:分类概化准标识属性,并分别度量其信息损失,有利于减小并合理评价信息损失.对元组间距离和元组与等价类距离,建立与最小合并概化信息损失值正相关的距离定义,聚类过程始终选取具有最小距离值的元组添加,从而保证信息损失总量趋于最小.按照k值控制逐一聚类,实现等价类均衡划分,减少了距离计算总量,节省了运行时间.实验结果表明,该方法在减少信息损失和运行时间方面是有效的. 相似文献
5.
目前绝大部分冲突消解方法都是基于迭代计算数据源可靠度和事实可信度的机制。当数据源较少时,数据源的可靠度难于进行评估,仅凭投票来消解冲突往往会造成较大误差。针对数据源较少时的冲突消解问题,提出基于常量条件函数依赖的冲突消解算法。根据多个数据源之间的冲突,找出冲突匹配对及对应的冲突候选值集合。考虑常量条件函数依赖中具体到部分实例子集的约束关系,将常量条件函数依赖集作为先验知识,通过判断候选值是否符合常量条件函数依赖来选择正确的候选值,避免了错误数据比例较大时直接投票选择产生的误差。通过两个真实数据集上的对比实验验证了上述算法的有效性。 相似文献
6.
随着车联网不断地发展,车联网为驾乘者提供便捷服务的同时,也带来了相应的隐私保护问题.轨迹数据发布将可能泄露用户位置隐私,从而危害用户人身安全;为改变已有差分隐私保护方法中添加随机噪音的弊端,提出一种基于统计差分隐私的轨迹隐私保护方法.车辆行驶轨迹具有Markov过程的特点,根据车辆轨迹的特征计算轨迹中位置节点敏感度;并根据位置敏感度,统计阈值和敏感度阈值添加适量Laplace噪音;使用平均相对误差评价轨迹数据的可用性大小.实验证实了基于统计差分隐私的轨迹隐私保护方法的可用性和有效性. 相似文献
7.
8.
基于聚类的k-匿名机制是共享数据脱敏的主要方法,它能有效防范针对隐私信息的背景攻击和链接攻击。然而,现有方案都是通过寻找最优k-等价集来平衡隐私性与可用性.从全局看,k-等价集并不一定是满足k-匿名的最优等价集,隐私机制的可用性最优化问题仍然未得到解决.针对上述问题,提出一种基于最优聚类的k-匿名隐私保护机制.通过建立数据距离与信息损失间的函数关系,将k-匿名机制的最优化问题转化为数据集的最优聚类问题;然后利用贪婪算法和二分机制,寻找满足k-匿名约束条件的最优聚类,从而实现k-匿名模型的可用性最优化;最后给出了问题求解的理论证明和实验分析.实验结果表明该机制能最大程度减少聚类匿名的信息损失,并且在运行时间方面是可行有效的. 相似文献
9.
10.
随着经济与信息技术的发展,在许多应用中均产生大量数据.然而,受硬件设备、人工操作、多源数据集成等诸多因素的影响,在这些应用之中往往存在较为严重的数据质量问题,特别是不一致性问题,从而无法有效管理数据.因此,首要的任务就是开发新型数据清洗技术来提升数据质量,以支持后续的数据管理与分析.现有工作主要研究基于函数依赖的数据修复技术,即以函数依赖来描述数据一致性约束,通过变更数据库中部分元组的属性值(而非增加/删除元组)来使得整个数据库遵循函数依赖集合.从一致性约束描述的角度来看,函数依赖并非是唯一的表达方式,还存在其他表达方式,例如硬约束、数量约束、等值约束、非等值约束等.然而,随着一致性约束种类的增加,其处理难度也远比仅有函数依赖的场景要困难.本文考虑以函数依赖与其他一致性约束共同表述数据库的一致性约束,并在此基础上设计数据修复算法,从而提升数据质量.实验结果表明,本文所提方法的执行效率较高. 相似文献
11.
Data publishing has generated much concern on individual privacy. Recent work has shown that different background knowledge can bring various threats to the privacy of published data. In this paper, we study the privacy threat from the full functional dependency (FFD) that is used as part of adversary knowledge. We show that the cross-attribute correlations by FFDs (e.g., Phone → Zipcode) can bring potential vulnerability. Unfortunately, none of the existing anonymization principles (e.g., k-anonymity, ?-diversity, etc.) can effectively prevent against an FFD-based privacy attack. We formalize the FFD-based privacy attack and define the privacy model, (d,?)-inference, to combat the FD-based attack. We distinguish the safe FFDs that will not jeopardize privacy from the unsafe ones. We design robust algorithms that can efficiently anonymize the microdata with low information loss when the unsafe FFDs are present. The efficiency and effectiveness of our approach are demonstrated by the empirical study. 相似文献
12.
针对轨迹数据发布时轨迹和非敏感信息引起的隐私泄露问题,提出一种基于非敏感信息分析的轨迹数据隐私保护发布算法。首先,分析轨迹和非敏感信息的关联性构建轨迹隐私泄露判定模型,得到最小违反序列元组(MVS),然后借鉴公共子序列的思想,在消除MVS带来的隐私泄露风险时,选择MVS中对轨迹数据损失最小的时序序列作为抑制对象,从而生成具有隐私能力和低数据损失率的匿名轨迹数据集。仿真实验结果表明,与LKC-Local算法和Trad-Local算法相比,在序列长度为3的情况下,该算法平均实例损失率分别降低了6%和30%,平均最大频繁序列(MFS)损失率分别降低了7%和60%,因此所提算法能够有效用于提高推荐服务质量。 相似文献
13.
条件函数依赖是函数依赖在语义上的扩充,可以应用于数据清洗工作,在数据库一致性的修复上应用广泛。讨论了条件函数依赖的相关语义规则,重点研究了基于条件函数依赖对违反数据库一致性元组的检测工作,并引入置信度评价机制,对相关的检测规则进行了改进。改进后的检测方法在基于多个函数依赖的检测中显示出了优越性,使得检测工作更为精简,检测标准更加明确。 相似文献
14.
This paper defines a new kind of rule,probability functional dependency rule.The functional dependency degree can be depicted by this kind of rule.Five algorithms,from the simple to the complex,are presented to mine this kind of rule in different condition.The related theorems are proved to ensure the high efficiency and the correctness of the above algorithms. 相似文献
15.
针对XML函数依赖(XFD)不能充分检测XML局部数据源语义上的数据不一致,借鉴关系数据库中条件函数依赖(CFD)的概念,并根据XML自身结构和约束特性,提出了基于内容感知发现(CAD)XML条件函数依赖(XCFD),CAD使用隐藏在数据值中的内容发现局部XML文档的XCFDs,检测异构数据源中数据一致性,提高数据的质量,并给出了详细的算法,同时引入修剪规则集减少搜索点阵和候选的XCFD的数量,提高算法的效率,使得XCFD无冗余、最小化.通过案例研究表明,基于CAD方法发现的XCFD比现有XFD发现更多的函数依赖和语义约束. 相似文献
16.
分析了基于隐私保持的分布式数据挖掘的特点,对现有的保持隐私的分布式数据挖掘技术进行了分类和总结,最后详细讨论了评价指标。 相似文献
17.
Liya Ma Chen Li Siqi Sun Shu Guo Lihong Wang Jianxin Li 《Concurrency and Computation》2024,36(10):e7963
Social networks collect enormous amounts of user personal and behavioral data, which could threaten users' privacy if published or shared directly. Privacy-preserving graph publishing (PPGP) can make user data available while protecting private information. For this purpose, in PPGP, anonymization methods like perturbation and generalization are commonly used. However, traditional anonymization methods are challenging in balancing high-level privacy and utility, ineffective at defending against both various link and hybrid inference attacks, as well as vulnerable to graph neural network (GNN)-based attacks. To solve those problems, we present a novel privacy-disentangled approach that disentangles private and non-private information for a better privacy-utility trade-off. Moreover, we propose a unified graph deep learning framework for PPGP, denoted privacy-disentangled variational information bottleneck (PDVIB). Using low-dimensional perturbations, the model generates an anonymized graph to defend against various inference attacks, including GNN-based attacks. Particularly, the model fits various privacy settings by employing adjustable perturbations at the node level. With three real-world datasets, PDVIB is demonstrated to generate robust anonymous graphs that defend against various privacy inference attacks while maintaining the utility of non-private information. 相似文献
18.
参与式感知中用户不仅对数据匹配度有要求,对数据差异化也同样有要求,为了既能满足用户对数据匹配度和差异化数据的需求,也能保护用户的偏好隐私,提出了一种隐私保护的差异化数据分享协议。该协议首先将交互双方的数据表示为两个整数集合,并且利用计数布隆过滤器(CBF)计算两个集合的集合交,以集合交的结果作为数据类型匹配度;其次利用CBF能删除元素的功能,计算两个集合的差异化数据值;最后将数据类型匹配度和差异化数据值与预先设定的阈值比较,判断是否符合交互条件,同时,对CBF的构造方法进行了改进,用以保护用户的偏好隐私。理论分析和实验结果表明,与基于布隆过滤器(BF)的非加密匹配协议相比,该协议克服了匹配结果偏大的缺陷,同时计算开销减少了50%以上。该协议在保护用户偏好隐私和满足用户对差异化数据需求的同时,具有较高的匹配精度和效率。 相似文献
19.
企业数据中心作为辅助决策的重要工具,保证其数据的及时性、准确性和科学性是最基本的要求和最核心的原则。对于数据异常的情况,若仅依靠人为的经验在海量数据中进行判断是很困难的,也是不科学且低效的。针对企业购销存数据的准确性问题,研究了基于机器学习的数据异常检测算法。由于购销存数据是由一组相对固定的数据项组成,可以看作是一个结构化数据序列,因此选择了解决结构化序列预测问题最为有效的条件随机场模型CRFs。通过对大量历史数据进行学习,分析出数据的自身规律以及关联关系,使计算机具备自动检测异常的能力。实验结果表明了该算法的有效性。 相似文献