首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
杨静  王波 《计算机研究与发展》2012,49(12):2603-2610
数据发布中的隐私保护技术一直是数据挖掘与信息安全领域关注的重要问题.目前大部分的研究都仅限于单敏感属性的隐私保护技术,而现实生活中存在着大量包含多敏感属性的数据信息.同时,随着个性需求的不断提出,隐私保护中的个性化服务越来越受研究者的关注.为了扩展单敏感属性数据的隐私保护技术以及满足个性化服务的需求问题,研究了数据发布过程中面向多敏感属性的个性化隐私保护方法.在单敏感属性l-多样性原则的基础上,引入基于值域等级划分的个性化定制方案,定义了多敏感属性个性化l-多样性模型,并提出了一种基于最小选择度优先的多敏感属性个性化l-多样性算法.实验结果表明:该方法不仅可以满足隐私个性化的需求,而且能有效地保护数据的隐私,减少信息的隐匿率,保证发布数据的可用性.  相似文献   

2.
徐龙琴  刘双印 《计算机应用》2011,31(4):999-1002
针对现有k-匿名方法直接用于多敏感属性数据发布中存在大量隐私泄露的问题,提出一种基于语义相似和多维加权的联合敏感属性隐私保护算法。该算法通过语义相似性反聚类思想和灵活设置多敏感属性值的权值,实现了联合敏感属性值和语义多样性分组的隐私保护,并根据应用需要为数据提供不同的隐私保护力度。实验结果表明,该方法能有效保护数据隐私,增强了数据发布的安全性和实用性。  相似文献   

3.
面向数值型敏感属性的分级l-多样性模型   总被引:1,自引:0,他引:1  
近年来,数据发布隐私保护问题受到了广泛关注,相继提出了多种隐私保护匿名模型.l-多样性模型是其中保护个体隐私的有效方法,但现有的l-多样性模型只适合处理分类型敏感属性,不适合处理数值型敏感属性.为此,提出面向数值型敏感属性的分级l-多样性模型,包括分级相异l-多样性、分级信息熵l-多样性和分级递归(c,l)-多样性.所提出的模型首先将数值型敏感属性域分级,再基于分级信息实现数值型敏感属性的l-多样性.设计了实现这些模型的l-Incognito算法.并且从匿名表的多样性角度进行了比较,实验表明分级l-多样性表比未分级的l-多样性表具有更高的多样度,因此具有更强的抵制同质性攻击和背景知识攻击的能力.  相似文献   

4.
差异化多敏感属性Lq-Diversity模型和算法   总被引:1,自引:0,他引:1  
针对多维敏感属性数据发布面临的一般泄露、交叉泄露、相似性泄露、多维独立泄露的威胁,本文提出了敏感属性敏感等级和敏感属性值敏感等级的概念,基于单维l-diversity模型,对各维敏感属性进行单独分组,提出了差异化多维敏感属性模型,验证了该模型在面向多敏感属性数据发布的安全性,并根据此模型提出了相应的DMSA算法,通过实验验证,该算法正确可行,且隐匿率和附加信息损失度的值都很低,数据可用性高,具有良好的隐私保护效果.  相似文献   

5.
现有的微数据发布隐私保护匿名模型均没有考虑敏感属性间的关联关系,不能抵制基于敏感属性间关系的攻击.为此,论文提出抵制敏感属性关联攻击的(l,m)-多样性模型,该模型要求匿名数据的每个等价类中,每维敏感属性上多样性至少为l,并且当某一敏感值从等价类中删除后,该等价类剩下的敏感值仍满足(l-1,m)-多样性.本文也提出了实现(l,m)-多样性的两个算法-BottomUp算法和TopDown算法.实验表明,所提出的算法均能实现面向多敏感属性的(l,m)-多样性模型,有效保护多敏感属性微数据的个体隐私.  相似文献   

6.
数据发布中面向多敏感属性的隐私保护方法   总被引:12,自引:0,他引:12  
现有的隐私数据发布技术通常关注单敏感属性数据,直接应用于多敏感属性数据会导致大量隐私信息的泄漏.文中首次对多敏感属性数据发布问题进行详细研究,继承了基于有损连接对隐私数据进行保护的思想,提出了针对多敏感属性隐私数据发布的多维桶分组技术——MSB(Multi-Sensitive Bucketization).为了避免高复杂性的穷举方法,首先提出3种不同的线性时间的贪心算法:最大桶优先算法(MBF)、最大单维容量优先算法(MSDCF)和最大多维容量优先算法(MMDCF).另外,针对实际应用中发布数据的重要性差异,提出加权多维桶分组技术.实际数据集上的大量实验结果表明,所提出的前3种算法的附加信息损失度为0.04,而隐匿率都低于0.06.加权多维桶分组技术对数据拥有者定义的重要信息的可发布性达到70%以上.  相似文献   

7.
面向多敏感属性医疗数据发布的隐私保护技术   总被引:1,自引:0,他引:1  
金华  刘善成  鞠时光 《计算机科学》2011,38(12):171-177
针对目前多敏感属性医疗数据发布问题,在分析多维桶分组技术的基础上,继承了有损连接对隐私数据进行保护的思想,提出了一种基于相同敏感属性集的L-覆盖性聚类分组方法。首先计算每条记录的相同敏感属性集,然后按照聚类的思想将满足L-覆盖性的记录进行分组。同时给出了L-覆盖性聚类分组的实现算法(LCCU)。实际数据集上的大量实验结果表明,该方法可以有效防止隐私泄露,同时增强数据的可用性。  相似文献   

8.
一种基于权重属性熵的分类匿名算法   总被引:2,自引:0,他引:2  
为了在高效地保护数据隐私不被泄露的同时保证数据效用,提出了一种基于权重属性熵的分类匿名方法(Weight-properties Entropy for Classification Anonymous,WECA)。该方法在数据分类挖掘的特定应用背景下,通过信息熵的概念来计算数据集中不同准标识符属性对敏感属性的分类重要程度,选取分类权重属性熵比率最高的准标识符属性对分类树进行有利的划分,同时构建了分类匿名信息损失度量,在更好地保护隐私数据的前提下确保了数据分类效用。最后,在标准数据集上的实验结果表明,该算法在保证较少的匿名损失的同时具有较高的分类精度,提高了数据可用性。  相似文献   

9.
如何对生产环境中经代码混淆的结构化数据集的敏感属性(字段)进行自动化识别、分类分级,已成为对结构化数据隐私保护的瓶颈。提出一种面向结构化数据集的敏感属性自动化识别与分级算法,利用信息熵定义了属性敏感度,通过对敏感度聚类和属性间关联规则挖掘,将任意结构化数据集的敏感属性进行识别和敏感度量化;通过对敏感属性簇中属性间的互信息相关性和关联规则分析,对敏感属性进行分组并量化其平均敏感度,实现敏感属性的分类分级。实验表明,该算法可识别、分类、分级任意结构化数据集的敏感属性,效率和精确率更高;对比分析表明,该算法可同时实现敏感属性的识别与分级,无须预知属性特征、敏感特征字典,兼顾了属性间的相关性和关联关系。  相似文献   

10.
数据发布中面向多敏感属性的隐私保护技术*   总被引:1,自引:0,他引:1  
针对多敏感属性数据发布中存在的隐私泄露问题,在分析多维桶分组技术的基础上,继承了基于有损连接对隐私数据进行保护的思想,提出了一种(g,l)-分组方法,首先对多敏感属性根据各自的敏感度进行分组,然后将分组数作为多维桶的各个维的维数。同时还给出了2种不同的线性时间的分组算法:一般(g,l)-分组算法(GGLG)和最大敏感度优先算法(MSF)。实际数据集上的大量实验结果表明,该方法可以明显地减少隐私泄露,增强数据发布的安全性。  相似文献   

11.
龚安  牛秋丽  高博  刘华山 《微计算机应用》2007,28(11):1138-1141
针对目前粗糙集属性约简速度比较慢、不能得到属性约简集的问题,提出了一种新的属性约简算法。通过理论分析、具体的实例和UCI数据集验证,该算法可以确保得到决策表的一个约简,并能减少计算量,提高计算速度。同时算法中引入了强等价集,很好地解决了属性加权频率值相同的问题。  相似文献   

12.
变精度粗糙集的属性核和最小属性约简算法   总被引:6,自引:0,他引:6  
陈昊  杨俊安  庄镇泉 《计算机学报》2012,35(5):1011-1017
文中深入研究了变精度粗糙集的属性约简问题,给出了3种属性约简的概念,针对不同概念的属性约简,分别提出了两种不同的求解变精度粗糙集最小属性约简算法:基于容差矩阵和属性核的最小约简.提出了变精度粗糙集的属性核思想,对其进行了形式化描述,说明了变精度粗糙集的属性核真正具备了核的本质特征,从而更深层地提出了基于属性核的启发式约简以求解最小约简.理论分析和实例表明,所提出的两种最小约简算法可以减小属性约简的搜索空间,提高约简的效率,使得变精度粗糙集的属性约简具有了实用性.  相似文献   

13.
商家属性是指商家本身具备的一些属性,比如就餐环境、停车位等。商家属性对于用户决策有很大的帮助,比如用户开车去就餐,就会关心饭店是否提供停车位。该文提出了一种新的基于整数线性规划的商家属性抽取模型,用来自动地从评论文本中抽取商家属性。首先使用最大熵分类器从用户发表的评论中抽取单个商家属性,然后利用整数线性规划模型,通过添加不同属性之间的关联条件,对整个模型进行协同优化学习。实验证明该方法能够有效地抽取商家属性。  相似文献   

14.
We consider data sets that consist of n-dimensional binary vectors representing positive and negative examples for some (possibly unknown) phenomenon. A subset S of the attributes (or variables) of such a data set is called a support set if the positive and negative examples can be distinguished by using only the attributes in S. In this paper we study the problem of finding small support sets, a frequently arising task in various fields, including knowledge discovery, data mining, learning theory, logical analysis of data, etc. We study the distribution of support sets in randomly generated data, and discuss why finding small support sets is important. We propose several measures of separation (real valued set functions over the subsets of attributes), formulate optimization models for finding the smallest subsets maximizing these measures, and devise efficient heuristic algorithms to solve these (typically NP-hard) optimization problems. We prove that several of the proposed heuristics have a guaranteed constant approximation ratio, and we report on computational experience comparing these heuristics with some others from the literature both on randomly generated and on real world data sets.  相似文献   

15.
支持敏感属性保护的ABS-OSBE协议   总被引:1,自引:0,他引:1  
针对基于属性访问控制模型中敏感属性容易泄露的问题,提出了基于属性签名的无记忆签名信封(ABSOSBE)协议。ABS-OSBE协议使用基于属性的签名机制,给出属性协商双方交互信息时所使用的参数计算方法,以确保只有满足属性访问树结构的用户才能通过计算,从而获得敏感属性。通过扩展属性的描述方式,验签者定义的属性访问树结构能支持描述"非"关系。给出了"非"关系的匹配规则,最后证明了ABS-OSBE协议的安全性。  相似文献   

16.
This paper presents a method of constructing new attributes as a linear combination of original ones. Decision table based on n classification attributes and containing k-objects is seen in this paper as a collection of k points in n-dimensional space. For simplicity reason, it is assumed that the decision attribute is a binary one and the objects are partitioned into positive and negative. The problem is to find an efficient procedure for constructing possibly the smallest number of hyperplanes so each area surrounded by them only contains either positive or negative points. What is new in this paper is a strategy used to construct such hyperplanes. The work suggests unified approach to determine such attributes and use them for discovering new, more effective rules in decision systems.  相似文献   

17.
信息抽取是数据挖掘的一个重要领域,文本信息抽取是指从一段自由文本中抽取出指定的信息并将其结构化数 据存入知识库供用户查询或下一步处理所用。人物属性信息抽取是智能人物类搜索引擎构建的重要基础,同时结构化信 息也是计算机所能理解的一种数据格式。作者提出了一种自动获取百科人物属性的方法,该方法利用各属性值的词性信 息来定位到百科自由文本中,通过统计的方法发现规则,再根据规则匹配从百科文本中获取人物属性信息。实验表明该 方法从百科文本中抽取人物属性信息是有效的。抽取的结果可以用来构建人物属性知识库。  相似文献   

18.
李坤  姜浩 《微机发展》2010,(3):36-39,43
如何安全、有效地选择信任度满足要求的服务提供者是目前信任研究领域的热点问题。文中提出了一种多属性决策的层次化信任模型,将决策属性分为定量属性和定性属性,有利于属性的分类度量、属性的系统化分析和信任等级的设定,同时给出了对具有不同信任等级的属性进行融合的方法。用置信区间来表示定性属性,可以很好地表达主观不确定性和风险意识。利用推荐者的推荐信息可以快速建立实体间的信任关系,针对网络中存在的恶意实体的推荐,列举了检验推荐信息可信度的方法并分析了各自的优缺点.介绍了几种典型的信任模型并提出了建立信任模型的关键。  相似文献   

19.
在数据备份时难以保持文件原来的时间属性,Windows也没有提供直接设置时间属性的工具。对此,首先介绍了API函数和时间格式,总结出利用VB和API解决问题的方法,具有良好的应用前景。  相似文献   

20.
General and Efficient Multisplitting of Numerical Attributes   总被引:10,自引:0,他引:10  
Elomaa  Tapio  Rousu  Juho 《Machine Learning》1999,36(3):201-244
Often in supervised learning numerical attributes require special treatment and do not fit the learning scheme as well as one could hope. Nevertheless, they are common in practical tasks and, therefore, need to be taken into account. We characterize the well-behavedness of an evaluation function, a property that guarantees the optimal multi-partition of an arbitrary numerical domain to be defined on boundary points. Well-behavedness reduces the number of candidate cut points that need to be examined in multisplitting numerical attributes. Many commonly used attribute evaluation functions possess this property; we demonstrate that the cumulative functions Information Gain and Training Set Error as well as the non-cumulative functions Gain Ratio and Normalized Distance Measure are all well-behaved. We also devise a method of finding optimal multisplits efficiently by examining the minimum number of boundary point combinations that is required to produce partitions which are optimal with respect to a cumulative and well-behaved evaluation function. Our empirical experiments validate the utility of optimal multisplitting: it produces constantly better partitions than alternative approaches do and it only requires comparable time. In top-down induction of decision trees the choice of evaluation function has a more decisive effect on the result than the choice of partitioning strategy; optimizing the value of most common attribute evaluation functions does not raise the accuracy of the produced decision trees. In our tests the construction time using optimal multisplitting was, on the average, twice that required by greedy multisplitting, which in its part required on the average twice the time of binary splitting.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号