共查询到20条相似文献,搜索用时 62 毫秒
1.
一种基于最小选择度优先的多敏感属性个性化l-多样性算法 总被引:1,自引:0,他引:1
数据发布中的隐私保护技术一直是数据挖掘与信息安全领域关注的重要问题.目前大部分的研究都仅限于单敏感属性的隐私保护技术,而现实生活中存在着大量包含多敏感属性的数据信息.同时,随着个性需求的不断提出,隐私保护中的个性化服务越来越受研究者的关注.为了扩展单敏感属性数据的隐私保护技术以及满足个性化服务的需求问题,研究了数据发布过程中面向多敏感属性的个性化隐私保护方法.在单敏感属性l-多样性原则的基础上,引入基于值域等级划分的个性化定制方案,定义了多敏感属性个性化l-多样性模型,并提出了一种基于最小选择度优先的多敏感属性个性化l-多样性算法.实验结果表明:该方法不仅可以满足隐私个性化的需求,而且能有效地保护数据的隐私,减少信息的隐匿率,保证发布数据的可用性. 相似文献
2.
针对现有k-匿名方法直接用于多敏感属性数据发布中存在大量隐私泄露的问题,提出一种基于语义相似和多维加权的联合敏感属性隐私保护算法。该算法通过语义相似性反聚类思想和灵活设置多敏感属性值的权值,实现了联合敏感属性值和语义多样性分组的隐私保护,并根据应用需要为数据提供不同的隐私保护力度。实验结果表明,该方法能有效保护数据隐私,增强了数据发布的安全性和实用性。 相似文献
3.
面向数值型敏感属性的分级l-多样性模型 总被引:1,自引:0,他引:1
近年来,数据发布隐私保护问题受到了广泛关注,相继提出了多种隐私保护匿名模型.l-多样性模型是其中保护个体隐私的有效方法,但现有的l-多样性模型只适合处理分类型敏感属性,不适合处理数值型敏感属性.为此,提出面向数值型敏感属性的分级l-多样性模型,包括分级相异l-多样性、分级信息熵l-多样性和分级递归(c,l)-多样性.所提出的模型首先将数值型敏感属性域分级,再基于分级信息实现数值型敏感属性的l-多样性.设计了实现这些模型的l-Incognito算法.并且从匿名表的多样性角度进行了比较,实验表明分级l-多样性表比未分级的l-多样性表具有更高的多样度,因此具有更强的抵制同质性攻击和背景知识攻击的能力. 相似文献
4.
5.
现有的微数据发布隐私保护匿名模型均没有考虑敏感属性间的关联关系,不能抵制基于敏感属性间关系的攻击.为此,论文提出抵制敏感属性关联攻击的(l,m)-多样性模型,该模型要求匿名数据的每个等价类中,每维敏感属性上多样性至少为l,并且当某一敏感值从等价类中删除后,该等价类剩下的敏感值仍满足(l-1,m)-多样性.本文也提出了实现(l,m)-多样性的两个算法-BottomUp算法和TopDown算法.实验表明,所提出的算法均能实现面向多敏感属性的(l,m)-多样性模型,有效保护多敏感属性微数据的个体隐私. 相似文献
6.
数据发布中面向多敏感属性的隐私保护方法 总被引:12,自引:0,他引:12
现有的隐私数据发布技术通常关注单敏感属性数据,直接应用于多敏感属性数据会导致大量隐私信息的泄漏.文中首次对多敏感属性数据发布问题进行详细研究,继承了基于有损连接对隐私数据进行保护的思想,提出了针对多敏感属性隐私数据发布的多维桶分组技术——MSB(Multi-Sensitive Bucketization).为了避免高复杂性的穷举方法,首先提出3种不同的线性时间的贪心算法:最大桶优先算法(MBF)、最大单维容量优先算法(MSDCF)和最大多维容量优先算法(MMDCF).另外,针对实际应用中发布数据的重要性差异,提出加权多维桶分组技术.实际数据集上的大量实验结果表明,所提出的前3种算法的附加信息损失度为0.04,而隐匿率都低于0.06.加权多维桶分组技术对数据拥有者定义的重要信息的可发布性达到70%以上. 相似文献
7.
8.
一种基于权重属性熵的分类匿名算法 总被引:2,自引:0,他引:2
为了在高效地保护数据隐私不被泄露的同时保证数据效用,提出了一种基于权重属性熵的分类匿名方法(Weight-properties Entropy for Classification Anonymous,WECA)。该方法在数据分类挖掘的特定应用背景下,通过信息熵的概念来计算数据集中不同准标识符属性对敏感属性的分类重要程度,选取分类权重属性熵比率最高的准标识符属性对分类树进行有利的划分,同时构建了分类匿名信息损失度量,在更好地保护隐私数据的前提下确保了数据分类效用。最后,在标准数据集上的实验结果表明,该算法在保证较少的匿名损失的同时具有较高的分类精度,提高了数据可用性。 相似文献
9.
如何对生产环境中经代码混淆的结构化数据集的敏感属性(字段)进行自动化识别、分类分级,已成为对结构化数据隐私保护的瓶颈。提出一种面向结构化数据集的敏感属性自动化识别与分级算法,利用信息熵定义了属性敏感度,通过对敏感度聚类和属性间关联规则挖掘,将任意结构化数据集的敏感属性进行识别和敏感度量化;通过对敏感属性簇中属性间的互信息相关性和关联规则分析,对敏感属性进行分组并量化其平均敏感度,实现敏感属性的分类分级。实验表明,该算法可识别、分类、分级任意结构化数据集的敏感属性,效率和精确率更高;对比分析表明,该算法可同时实现敏感属性的识别与分级,无须预知属性特征、敏感特征字典,兼顾了属性间的相关性和关联关系。 相似文献
10.
11.
12.
变精度粗糙集的属性核和最小属性约简算法 总被引:6,自引:0,他引:6
文中深入研究了变精度粗糙集的属性约简问题,给出了3种属性约简的概念,针对不同概念的属性约简,分别提出了两种不同的求解变精度粗糙集最小属性约简算法:基于容差矩阵和属性核的最小约简.提出了变精度粗糙集的属性核思想,对其进行了形式化描述,说明了变精度粗糙集的属性核真正具备了核的本质特征,从而更深层地提出了基于属性核的启发式约简以求解最小约简.理论分析和实例表明,所提出的两种最小约简算法可以减小属性约简的搜索空间,提高约简的效率,使得变精度粗糙集的属性约简具有了实用性. 相似文献
13.
14.
Endre Boros Takashi Horiyama Toshihide Ibaraki Kazuhisa Makino Mutsunori Yagiura 《Annals of Mathematics and Artificial Intelligence》2003,39(3):223-257
We consider data sets that consist of n-dimensional binary vectors representing positive and negative examples for some (possibly unknown) phenomenon. A subset S of the attributes (or variables) of such a data set is called a support set if the positive and negative examples can be distinguished by using only the attributes in S. In this paper we study the problem of finding small support sets, a frequently arising task in various fields, including knowledge discovery, data mining, learning theory, logical analysis of data, etc. We study the distribution of support sets in randomly generated data, and discuss why finding small support sets is important. We propose several measures of separation (real valued set functions over the subsets of attributes), formulate optimization models for finding the smallest subsets maximizing these measures, and devise efficient heuristic algorithms to solve these (typically NP-hard) optimization problems. We prove that several of the proposed heuristics have a guaranteed constant approximation ratio, and we report on computational experience comparing these heuristics with some others from the literature both on randomly generated and on real world data sets. 相似文献
15.
16.
This paper presents a method of constructing new attributes as a linear combination of original ones. Decision table based on n classification attributes and containing k-objects is seen in this paper as a collection of k points in n-dimensional space. For simplicity reason, it is assumed that the decision attribute is a binary one and the objects are partitioned into positive and negative. The problem is to find an efficient procedure for constructing possibly the smallest number of hyperplanes so each area surrounded by them only contains either positive or negative points. What is new in this paper is a strategy used to construct such hyperplanes. The work suggests unified approach to determine such attributes and use them for discovering new, more effective rules in decision systems. 相似文献
17.
信息抽取是数据挖掘的一个重要领域,文本信息抽取是指从一段自由文本中抽取出指定的信息并将其结构化数
据存入知识库供用户查询或下一步处理所用。人物属性信息抽取是智能人物类搜索引擎构建的重要基础,同时结构化信
息也是计算机所能理解的一种数据格式。作者提出了一种自动获取百科人物属性的方法,该方法利用各属性值的词性信
息来定位到百科自由文本中,通过统计的方法发现规则,再根据规则匹配从百科文本中获取人物属性信息。实验表明该
方法从百科文本中抽取人物属性信息是有效的。抽取的结果可以用来构建人物属性知识库。 相似文献
18.
如何安全、有效地选择信任度满足要求的服务提供者是目前信任研究领域的热点问题。文中提出了一种多属性决策的层次化信任模型,将决策属性分为定量属性和定性属性,有利于属性的分类度量、属性的系统化分析和信任等级的设定,同时给出了对具有不同信任等级的属性进行融合的方法。用置信区间来表示定性属性,可以很好地表达主观不确定性和风险意识。利用推荐者的推荐信息可以快速建立实体间的信任关系,针对网络中存在的恶意实体的推荐,列举了检验推荐信息可信度的方法并分析了各自的优缺点.介绍了几种典型的信任模型并提出了建立信任模型的关键。 相似文献
19.
在数据备份时难以保持文件原来的时间属性,Windows也没有提供直接设置时间属性的工具。对此,首先介绍了API函数和时间格式,总结出利用VB和API解决问题的方法,具有良好的应用前景。 相似文献
20.
General and Efficient Multisplitting of Numerical Attributes 总被引:10,自引:0,他引:10
Often in supervised learning numerical attributes require special treatment and do not fit the learning scheme as well as one could hope. Nevertheless, they are common in practical tasks and, therefore, need to be taken into account. We characterize the well-behavedness of an evaluation function, a property that guarantees the optimal multi-partition of an arbitrary numerical domain to be defined on boundary points. Well-behavedness reduces the number of candidate cut points that need to be examined in multisplitting numerical attributes. Many commonly used attribute evaluation functions possess this property; we demonstrate that the cumulative functions Information Gain and Training Set Error as well as the non-cumulative functions Gain Ratio and Normalized Distance Measure are all well-behaved. We also devise a method of finding optimal multisplits efficiently by examining the minimum number of boundary point combinations that is required to produce partitions which are optimal with respect to a cumulative and well-behaved evaluation function. Our empirical experiments validate the utility of optimal multisplitting: it produces constantly better partitions than alternative approaches do and it only requires comparable time. In top-down induction of decision trees the choice of evaluation function has a more decisive effect on the result than the choice of partitioning strategy; optimizing the value of most common attribute evaluation functions does not raise the accuracy of the produced decision trees. In our tests the construction time using optimal multisplitting was, on the average, twice that required by greedy multisplitting, which in its part required on the average twice the time of binary splitting. 相似文献