首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
针对基于随机响应的隐私保护分类挖掘算法仅适用于原始数据属性值是二元的问题,设计了一种适用于多属性值原始数据的隐私保护分类挖掘算法。算法分为两个部分:a)通过比较参数设定值和随机产生数之间的大小,决定是否改变原始数据的顺序,以实现对原始数据进行变换,从而起到保护数据隐私性的目的;b)通过求解信息增益比例的概率估计值,在伪装后的数据上构造决策树。  相似文献   

2.
针对基于随机响应的隐私保护分类挖掘算法仅适用于原始数据属性值是二元的问题,设计了一种适用于多属性值原始数据的隐私保护分类挖掘算法。算法分为两个部分:a)通过比较参数设定值和随机产生数之间的大小,决定是否改变原始数据的顺序,以实现对原始数据进行变换,从而起到保护数据隐私性的目的;b)通过求解信息增益比例的概率估计值,在伪装后的数据上构造决策树。  相似文献   

3.
水平分布数据集的隐私保护关联挖掘算法   总被引:1,自引:0,他引:1       下载免费PDF全文
研究水平分布数据集的隐私保护关联规则挖掘算法。针对现有算法需要多次扫描数据集的缺点,提出一种只须对数据集进行2次扫描、基于分布式FP—tree的隐私保护挖掘算法。该算法可以有效降低通信量,能在保证准确度的同时保护原始数据。  相似文献   

4.
李光  王亚东  苏小红 《计算机工程》2012,38(3):12-13,18
在现有的基于数据扰动的隐私保持分类挖掘算法中,扰动数据和原始数据相关联,对隐私数据的保护并不完善,且扰动算法和分类算法耦合度高,不适合在实际中使用。为此,提出一种基于概率论的隐私保持分类挖掘算法。扰动后可得到一组与原始数据独立同分布的数据,使扰动数据和原始数据不再相互关联,各种分类算法也可直接应用于扰动后的数据。  相似文献   

5.
隐私保护是数据挖掘中很有意义的研究方向。M.Kantarcioglu等提出了针对水平分割数据的保持隐私的关联规则挖掘的算法,探讨了如何在两个垂直分布的私有数据库的联合样本集上施行数据挖掘算法,同时保证不向对方泄露任何与结果无关的数据库数据,针对资料分类算法中应用非常普遍的关联规则挖掘算法,利用安全两方计算协议.给出一个保持隐私的关联规则挖掘协议。  相似文献   

6.
为了提高隐私数据的保护程度和挖掘结果的准确性.将数据干扰和查询限制策略有机地结合起来。提出一种新的数据随机处理方法——部分隐藏的转移概率矩阵(PHTPM)数据变换方法,然后利用PHTPM对原始事务集进行变换和隐藏,并在此基础上,提出一种关联规则挖掘算法AOPAM。理论分析和实验结果表明,该算法具有更好的隐私保护性。挖掘结果更准确。  相似文献   

7.
石秀金  胡艳玲 《计算机科学》2017,44(5):120-124, 165
基于分类树的差分隐私保护方法有效地对静态集值型数据进行了保护,但对于动态集值型数据却没有相应的保护方法,因此提出一种基于分类树的差分隐私保护下的动态集值型数据发布的算法。该算法首先根据数据集中项的全集构造关系矩阵,挑选关系最紧密的项集构造分类树;然后设定一个边界值来限制数据的增量更新,并将新增的记录添加到分类树的根节点中,按照初始分类树的分配法迭代分配每个记录;最后根据拉普拉斯机制向叶子节点中加入噪音,保证整个算法满足差分隐私的要求。相对已有算法,所提算法优化了分类树,使所发布数据建立的分类树模型有少量的叶子节点产生,减少了噪音的添加。实验用两组真实的数据集验证了所提算法的有效性和相对于其他算法的优越性。  相似文献   

8.
隐私保护的分布式决策树分类算法的研究*   总被引:1,自引:0,他引:1  
针对分布式决策树构造过程中的隐私保护问题,引入安全多方计算方法设计了可以保护隐私的分布式C4.5决策树分类算法。该算法适用于数据集垂直分布和水平分布两种情况,同时提出了一种新的隐私保护程度的度量方法。实验结果证明设计的隐私保护分布式决策树分类算法不仅很好地保护了原始数据不泄露,同时保持了较高的分类精度。  相似文献   

9.
差分隐私是一种提供强大隐私保护的模型。在非交互式框架下,数据管理者可发布采用差分隐私保护技术处理的数据集供研究人员进行挖掘分析。但是在数据发布过程中需要加入大量噪声,会破坏数据可用性。因此,提出了一种基于k-prototype聚类的差分隐私混合数据发布算法。首先改进k-prototype聚类算法,按数据类型的不同,对数值型属性和分类型属性分别选用不同的属性差异度计算方法,将混合数据集中更可能相关的记录分组,从而降低差分隐私敏感度;结合聚类中心值,采用差分隐私保护技术对数据记录进行处理保护,针对数值型属性使用Laplace机制,分类型属性使用指数机制;从差分隐私的概念及组合性质两方面对该算法进行隐私分析证明。实验结果表明:该算法能够有效提高数据可用性。  相似文献   

10.
对文献[1]中影响保护隐私挖掘算法准确率的变换概率进行分析,并给出变换概率与挖掘算法准确性之间的关系式。计算表明,从10000个事务的数据集中,选取样本的数据量超过数据集10%所产生的关系式,其相对误差,即用该关系式算出变换概率代人基于随机响应技术的挖掘算法产生的误差与希望达到的误差相比,不超过6%;并通过计笋表明关系式的相对误差,随数据集规模的增加而减少。因此,该挖掘算法能适用于实际问题的需要。  相似文献   

11.
基于隐私保护的序列模式挖掘   总被引:1,自引:1,他引:0  
基于隐私保护的数据挖掘是信息安全和知识发现相结合的产物.提出一种基于隐私保护的序列模式挖掘算法PP-SPM.算法以修改原始数据库中的敏感数据来降低受限序列模式的支持度为原则,首先构建SPAM序列树,根据一定的启发式规则,从中获得敏感序列,再进一步在原始数据库中找到敏感数据,对其做布尔操作,实现数据库的清洗.实验表明,该算法在完全保护隐私的情况下,对于D6C10T2.5S4I4数据集,当修改3.5%的原始数据后,其序列模式丢失率为2%.  相似文献   

12.
一种多变量决策树的构造与研究   总被引:3,自引:0,他引:3       下载免费PDF全文
单变量决策树算法造成树的规模庞大、规则复杂、不易理解,而多变量决策树是一种有效用于分类的数据挖掘方法,构造的关键是根据属性之间的相关性选择合适的属性组合构成一个新的属性作为节点。结合粗糙集原理中的知识依赖性度量和信息系统中条件属性集的离散度概念,提出了一种多变量决策树的构造算法(RD)。在UCI上部分数据集的实验结果表明,提出的多变量决策树算法的分类效果与传统的ID3算法以及基于核方法的多变量决策树的分类效果相比,有一定的提高。  相似文献   

13.
摘 要: 多维分类根据数据实例的特征向量将数据实例在多个维度上进行分类,具有广泛的应用前景。在多维分类算法的模型学习过程中,海量的训练数据使得准确的分类算法需要很长的模型训练时间。为了提高多维分类的执行效率,同时保持高的预测准确性,本文提出了一种基于贝叶斯网络的多维分类学习方法。首先,将多维分类问题描述为条件概率分布问题。其次,根据类别向量之间的依赖关系建立了条件树贝叶斯网络模型。最后,根据训练数据集对条件树贝叶斯网络模型的结构和参数进行学习,并提出了一种多维分类预测算法。大量的真实数据集实验表明,本文提出的方法与当前最好的多维分类算法MMOC相比,在保持高准确性的同时将模型的训练时间降低了两个数量级。因此,本文提出的方法更适用于海量数据的多维分类应用中。  相似文献   

14.
从大数据的基本特点和医疗大数据研究现状出发,分析处理过程中存在的问题,提出在决策树算法下的医疗大数据填补及分类方法。分析医疗数据的关联规则,采用关联分析(Apriori)算法和频繁模式树(Frequent Pattern Growth,FP-Growth)算法挖掘数据。以挖掘数据为基础填补其中的缺失数据,按照医疗数据特点搭建决策树,并运用ID3和C4.5决策树算法,实现医疗大数据的分类,得出数据分类结果。由仿真得出,与传统方法相比,填补量提高了50%,分类精度提高了11.40%、14.80%,无论从数据的填补方面还是分类方法,上述方法均有较高的应用价值,为医疗大数据体系的构建开辟了新的思路。  相似文献   

15.
基于SQL Server 2000下数据挖掘算法的研究   总被引:1,自引:0,他引:1  
微软的SQL Server2000是当今最流行的数据库管理软件之一,研究了在SQL Server 2000上数据挖掘实现方面的决策树算法.决策树算法通过构造精度高、小规模的决策树采掘训练集中的分类知识.SQL Server 2000/Analysis Service两层结构决策树,采用了以类记数表及深度优先策略生成,在建树算法和数据库间设立数据挖掘中间件.并讨论了通过使用像SQL Server 2000 Analysis Service这样的典型工具来如何实现数据挖掘模型的创建,且为商业组织的决定挖掘出必要的数据.  相似文献   

16.
决策树是归纳学习和数据挖掘的重要方法,主要用于分类和预测。文章引入了广义决策树的概念,实现了分类规则集和决策树结构的统一。同时,提出一种新颖的基于DNA编码遗传算法构造决策树的方法。先用C4.5算法对数据集进行分类得到初始规则集,再通过文章中算法优化规则集并由此构建决策树。实验证明了该方法有效地避免了传统决策树构建过程的缺点,且有较好的并行性。  相似文献   

17.
Privacy Preserving Data Mining (PPDM) can prevent private data from disclosure in data mining. However, the current PPDM methods damaged the values of original data where knowledge from the mined data cannot be verified from the original data. In this paper, we combine the concept and technique based on the reversible data hiding to propose the reversible privacy preserving data mining scheme in order to solve the irrecoverable problem of PPDM. In the proposed privacy difference expansion (PDE) method, the original data is perturbed and embedded with a fragile watermark to accomplish privacy preserving and data integrity of mined data and to also recover the original data. Experimental tests are performed on classification accuracy, probabilistic information loss, and privacy disclosure risk used to evaluate the efficiency of PDE for privacy preserving and knowledge verification.  相似文献   

18.
基于MapReduce的决策树算法并行化   总被引:1,自引:0,他引:1  
陆秋  程小辉 《计算机应用》2012,32(9):2463-2465
针对传统决策树算法不能解决海量数据挖掘以及ID3算法的多值偏向问题,设计和实现了一种基于MapReduce架构的并行决策树分类算法。该算法采用属性相似度作为测试属性的选择标准来避免ID3算法的多值偏向问题,采用MapReduce模型来解决海量数据挖掘问题。在用普通PC搭建的Hadoop集群的实验结果表明:基于MapReduce的决策树算法可以处理大规模数据的分类问题,具有较好的可扩展性,在保证分类正确率的情况下能获得接近线性的加速比。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号