首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
分布式决策树挖掘的隐私保护研究   总被引:2,自引:0,他引:2  
数据挖掘中的隐私保护是试图在不精确访问原始数据值的前提下,挖掘出准确的模式与规则.围绕分布式决策树挖掘的隐私保护问题展开研究,提出一种基于同态加密技术的决策树挖掘算法,使各参与方在不共享其隐私信息的前提下达到集中式挖掘的效果.理论分析和实验结果表明,该算法具有很好的隐私性、准确性和适用性.  相似文献   

2.
在分布式环境下,实现隐私保护的数据挖掘,已成为该领域的研究热点。文中着重研究在垂直分布数据中,实现隐私保护的决策树分类模型。该模型创建新型的隐私保护决策树,即由在茫然半诚实方存储的全局决策表和各站点存储的局部决策树组成,并结合索引数组和秘密数据比较协议,实现在不泄漏原始信息的前提下决策树的生成和分类。经过理论分析和实验验证,证明该模型具有较好的安全性、准确性和适用性。  相似文献   

3.
为了应对信息时代隐私保护和数据挖掘两方面的要求,提出了一种基于函数秘密共享的决策树隐私计算协议。在机器学习即服务的模型下,服务提供商拥有训练好的决策树模型,用户拥有希望分类的数据,双方都想保护自己的数据不被泄漏。在这个场景下,该协议可以保护决策树的参数、分类数据以及最终分类结果的隐私。使用了基于函数秘密共享的分段函数协议、隐私比较协议、加性秘密共享等安全多方协议,在不影响正确率的情况下实现了隐私保护。  相似文献   

4.
分布式数据库关联规则的安全挖掘算法研究   总被引:1,自引:0,他引:1  
分布式环境中,进行分布式数据库关联规则的挖掘而不泄露用户的隐私,是非常重要的问题.提出了分布式数据库的关联规则的安全挖掘算法PPDMA(Privacy Preserving Distributed Mining Algorithms),通过应用密码学方法对站点间传送的用于挖掘全局频繁项集的被约束子树及其它信息进行加密,而在接受站点对加密信息进行解密,达到不披露用户信息,起到保护用户隐私的作用,以进行关联规则的安全挖掘.分析表明,该算法是正确可行的.  相似文献   

5.
数据隐私问题引起人们的广泛关注,如何在分布式数据库的环境下挖掘关联规则成为研究的热点。该文探讨在垂直划分数据库中,如何在保护各方隐私数据的前提下挖掘全局频繁项集。各分布式数据库包含全局数据库的一部分属性,共同参与全局挖掘,同时各方不向外泄漏隐私数据。在商品服务器模型的研究基础上,提出一种基于可逆方阵的加密协议,对于垂直划分的分布式数据库,该协议具有较好的隐蔽性、高效性和准确性。  相似文献   

6.
为了解决分布式环境中多个参与方在不共享各自隐私数据的情况下完成全局属性约简计算的问题,提出了一种水平划分多决策表下基于相对粒度的隐私保护属性约简算法。该算法基于相对粒度约简理论实现了分布式环境下全局属性约简的求解,利用半可信第三方与安全多方基础协议,设计了安全多方计算相对粒度协议,使各参与方在不共享其隐私信息的前提下达到集中式属性约简的效果。分析结果表明,该算法是有效可行的。  相似文献   

7.
针对基于随机响应的隐私保护分类挖掘算法仅适用于原始数据属性值是二元的问题,设计了一种适用于多属性值原始数据的隐私保护分类挖掘算法。算法分为两个部分:a)通过比较参数设定值和随机产生数之间的大小,决定是否改变原始数据的顺序,以实现对原始数据进行变换,从而起到保护数据隐私性的目的;b)通过求解信息增益比例的概率估计值,在伪装后的数据上构造决策树。  相似文献   

8.
针对基于随机响应的隐私保护分类挖掘算法仅适用于原始数据属性值是二元的问题,设计了一种适用于多属性值原始数据的隐私保护分类挖掘算法。算法分为两个部分:a)通过比较参数设定值和随机产生数之间的大小,决定是否改变原始数据的顺序,以实现对原始数据进行变换,从而起到保护数据隐私性的目的;b)通过求解信息增益比例的概率估计值,在伪装后的数据上构造决策树。  相似文献   

9.
针对传统的信息更新方法存在的更新效率低、隐私信息泄露风险大的问题,研究设计了一种分布式数据库隐私信息增量式更新方法.首先分析分布式数据库的存储结构和工作模式,在注册分布式数据库的基础上捕获增量变更数据.以捕获的变更数据为基础,加密保护数据库隐私信息.再通过数据转换、制定数据映射文件、数据加载、复制等步骤,实现分布式数据...  相似文献   

10.
很多学者和机构在研究隐私保护的分布数据挖掘方法时,通过挖掘全局数据以保护各站点数据的隐私和安全。但是这些方法假设数据集成已经完成,隐私保护数据挖掘处理的是集成问题解决后的知识获取问题。因此,在隐私保护数据处理之前的数据集成中,如何保护来源数据的隐私信息,是一个必须解决的问题。文章在考虑数据的时效性因素下,提出了一种采用Shamir′s秘密共享方法的时间约束隐私保护数据查询方法,重点介绍了时间约束下隐私保护数据集成与共享中的聚集操作方法。实验结果表明本文方法可以有效提高隐私保护数据查询的效率,大大降低隐私保护数据查询的响应时间。  相似文献   

11.
基于信息熵的决策属性分类挖掘算法及应用   总被引:10,自引:0,他引:10  
在利用判定树进行分类挖掘时,需事先知道属性的分类。对不具体的或未知的属性分类,利用“高类聚、低耦合”原理对属性进行最优分类。在属性分类的基础上,利用基于信息熵的属性期望信息及对应的信息增益理论选择最佳分类决策属性,并按最佳分类决策属性引出分枝形成判定树。该文对属性的最优分类理论及算法进行了描述,并讨论了选择最佳决策属性构造判定树的算法,结合具体应用实例进行了验证并构造了判定树。  相似文献   

12.
特定信息增益决策森林分类器研究   总被引:2,自引:1,他引:1       下载免费PDF全文
传统的决策树是利用决策属性的信息增益来进行建模的,而有时决策属性的信息增益是根据属性的不同取值而动态变化的。改进了决策树算法,考虑了决策属性取值不同产生的信息增益的差别。根据决策属性的不同取值创建了基于特定信息增益的决策森林分类模型。实验结果表明虽然决策森林模型的建模过程比决策树复杂,但是具有比较高的分类精度。  相似文献   

13.
一种健壮有效的决策树改进模型   总被引:2,自引:0,他引:2  
提出了一种健壮有效的决策树改进模型AJD3.该决策树模型基于经典的ID3决策树模型,在属性的选取上进行了改进.利用引入属性优先关联度参数计算节点的修正信息增益,并选择具有最高修正增益的属性作为当前节点的测试属性.实验表明,AID3决策树模型在提高分类准确率的同时,有效地增强了模型的健壮性.  相似文献   

14.
节点属性的选择是决策树生成过程中的关键环节,以ID3和C4.5为代表的经典决策树算法中,树节点的选择是通过子集样本数计算信息增益或增益比例得到的。但是,对于连续性属性,由于离散化分割导致了子集边界元素在隶属关系上的模糊,使样本计算的方式存在了一定的不合理性,为解决这一问题,采用了模糊集理论并以模糊度的方式取代样本个数参与增益比例的计算,给出了一种获得决策树分类中不确定性尺度的可行途径。  相似文献   

15.
基于自适应快速决策树的不确定数据流概念漂移分类算法   总被引:1,自引:0,他引:1  

由于不确定数据流中一般隐藏着概念漂移问题, 对其进行有效分类存在着很多困难. 为此, 提出一种基于自适应快速决策树的算法. 该算法基于一般决策树算法的原理, 以自适应学习规则计算信息增益, 以无标记情景学习拆分原理检测不确定数据流中的不确定数值属性, 通过自适应快速决策树节点的拆分方法将不确定数值属性转化为不确定分类属性, 以实现对不确定数据流的有效分类, 进而有效检测到其中隐含的概念漂移现象. 仿真结果验证了所提出方法的可靠性.

  相似文献   

16.
一种基于修正信息增益的ID3算法   总被引:2,自引:0,他引:2       下载免费PDF全文
ID3算法是决策树中影响最大的算法之一,它以信息增益为标准选择决策树的测试属性。这种算法存在不足之处,在选择合适的测试属性时,倾向于选择取值较多的属性,而在实际应用中,取值较多的属性未必是重要的。针对此算法的不足,本文提出了一种对增益修正的 ID3算法,为改善 ID3的多值偏向问题提供了一种有效途径。通过理论分析和实验证明,这种算法能较好地解决多值倾向的问题。  相似文献   

17.
针对传统的异常信息流检测方法的不足,设计了一个异常信息流检测模型,该模型采用了神经网络中的决策树算法对信息流进行归纳分类,采用信息增益作为分类属性选择标准来构造规则决策树,针对网络流量进行分析,能提高检测速度。开辟了一条检测异常信息流的新途径。  相似文献   

18.
基于隐私保护的分类挖掘   总被引:9,自引:0,他引:9  
基于隐私保护的分类挖掘是近年来数据挖掘领域的热点之一,如何对原始真实数据进行变换,然后在变换后的数据集上构造判定树是研究的重点.基于转移概率矩阵提出了一个新颖的基于隐私保护的分类挖掘算法,可以适用于非字符型数据(布尔类型、分类类型和数字类型)和非均匀分布的原始数据,可以变换标签属性.实验表明该算法在变换后的数据集上构造的分类树具有较高的精度.  相似文献   

19.
《Knowledge》1999,12(5-6):269-275
An algorithm for decision-tree induction is presented in which attribute selection is based on the evidence-gathering strategies used by doctors in sequential diagnosis. Since the attribute selected by the algorithm at a given node is often the best attribute according to the Quinlan's information gain criterion, the decision tree it induces is often identical to the ID3 tree when the number of attributes is small. In problem-solving applications of the induced decision tree, an advantage of the approach is that the relevance of a selected attribute or test can be explained in strategic terms. An implementation of the algorithm in an environment providing integrated support for incremental learning, problem solving and explanation is presented.  相似文献   

20.
变精度粗糙集模型在决策树构造中的应用   总被引:1,自引:0,他引:1       下载免费PDF全文
针对ID3算法构造决策树复杂、分类效率不高等问题,本文基于变精度粗糙集模型提出了一种新的决策树构造算法。该算法采用加权分类粗糙度作为节点选择属性的启发函数,与信息增益相比,该标准更能够全面地刻画属性分类的综合贡献能力,计算简单,并且可以消除噪声数据对选择属性和生成叶节点的影响。实验结果证明,本算法构造的决策树在规模与分类效率上均优于ID3算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号