共查询到19条相似文献,搜索用时 109 毫秒
1.
基于Shamir秘密共享的隐私保护分类算法 总被引:1,自引:0,他引:1
为了在分布式环境下进行数据分类挖掘,使每部分的隐私得到保护,根据Shamir秘密共享思想,提出了一种基于分布式环境下的决策树分类算法.在对集中数据库决策树分类属性的最大的信息增益公式分析的基础上,推导了分布式数据库的同一分类属性的息增益公式.在此基础上对Shamir秘密共享的加密原理进行分析,将其应用到求分布式数据库决策树分类属性的最大的信息增益公式中,并对隐私保护值求和的过程进行了实例分析.实验结果表明,该方法能有效地对分布式同构样本数据集进行隐私保护的决策树分类挖掘. 相似文献
2.
主要研究在对不完全数据集进行决策树分析时,如何加入差分隐私保护技术。首先简单介绍了差分隐私ID3算法和差分隐私随机森林决策树算法;然后针对上述算法存在的缺陷和不足进行了修改,提出指数机制的差分隐私随机森林决策树算法;最后对于不完全数据集提出了一种新的WP(Weight Partition)缺失值处理方法,能够在不需要插值的情况下,使决策树分析算法既能满足差分隐私保护,也能拥有更高的预测准确率和适应性。实验证明,无论是Laplace机制还是指数机制,无论是ID3算法还是随机森林决策树算法,都能适用于所提方法。 相似文献
3.
4.
在分布式环境下,实现隐私保护的数据挖掘,已成为该领域的研究热点。文中着重研究在垂直分布数据中,实现隐私保护的决策树分类模型。该模型创建新型的隐私保护决策树,即由在茫然半诚实方存储的全局决策表和各站点存储的局部决策树组成,并结合索引数组和秘密数据比较协议,实现在不泄漏原始信息的前提下决策树的生成和分类。经过理论分析和实验验证,证明该模型具有较好的安全性、准确性和适用性。 相似文献
5.
6.
7.
8.
9.
在分析基于加密技术的挖掘算法的基础上,提出了一种基于保序加密的隐私保护数据挖掘算法.在保证挖掘结果的前提下,利用保序加密的同态特性解决了数据挖掘中的密文数值比较问题,从而降低了通信复杂度.实验结果表明该算法能显著减小挖掘算法中的通信开销. 相似文献
10.
基于隐私保护的决策树构造 总被引:1,自引:0,他引:1
将隐私保护引入决策树构造过程中。对于数据集的3种不同分布情况,即数据仅分布在单方、数据水平分布和数据垂直分布,分别讨论了在保护隐私的前提下构造决策树的方法。 相似文献
11.
基于IP网络流量数据仓库的KDD实现 总被引:1,自引:0,他引:1
通过对IP网络流量数据仓库进行多表关联检索和决策树模型的数据挖掘,可以从中发现若干有用的知识和相互关联的规则,用于分析流量增长的趋势和寻找IP地址分布与流量大小之间的普遍规律。有助于资源的控制和异常情况的发现。另外,将多表关联算法和决策树挖掘用于星型构架的多维数据集,可以显著地提高数据对象之间的关联性能和数据挖掘的效率。 相似文献
12.
张晓 《电脑编程技巧与维护》2011,1(16):110-111,124
C4.5算法是基于信息熵理论进行数据分类分析的经典决策树数据挖掘算法,它主要包括数据预处理、决策树生成、决策树修剪、决策树规则提取等步骤。将C4.5算法应用于高校财务预警系统的数据分析中,通过对调查数据挖掘分析表明,数据挖掘在高校财务预警调查数据分析中具有广泛的应用前景。 相似文献
13.
分类在数据挖掘中是一项非常重要的任务.分类的目的是学会一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个,从而用于数据分类或预测.决策树是归纳学习和数据挖掘的重要方法,通常用来形成分类器和预测模型.主要研究了数据挖掘中的一种基于决策树的分类算法,以及在公交系统数据预测中的应用.在此基础上进一步讨论了ID3算法存在的一些问题并给出了解决方案和实现过程.其研究结果对开发交通规划决策支持系统具有重要的参考价值. 相似文献
14.
对于高校就业管理信息系统中积累的大量数据,运用数据挖掘算法中的决策村方法挖掘出潜在的有用的信息,为高校开展就业工作提供决策支持.根据就业数据的特点,采用C4.5决策树算法,对就业数据进行预处理,选取决策属性,实现挖掘算法并抽取规则知识,由规则知识指出哪些决策属性决定了就业单位的类别.挖掘结果表明,该算法能够正确将就业数据分类,并得到若干有价值的结论,供决策分析. 相似文献
15.
提出了基于数据抽取器的知识发现模型。在模型中,将知识发现过程分成数据预处理、数据抽取、数据挖掘和结果分析四个阶段。该模型利用标准的SQL语言构造数据抽取器,为不同的学习算法准备数据,减少数据挖掘算法对数据库直接调用的次数,避免了直接对大型数据库的数据进行调用,使得对大型数据库进行快速数据挖掘成为可能。可以加快知识发现过程,提高数据挖掘效率,实现对于大型数据库的知识发现。最后设计了SQL-C4.5算法,该算法实现了利用数据抽取器为决策树算法C4.5抽取必要的统计数据,实现了C4.5决策树的构建。 相似文献
16.
重点研究了数据流分类挖掘中存在的概念漂移问题,并在CVFDT算法改进的基础上,提出了一种多重选择决策树算法mCVFDT.该算法将多重属性的选择机制加入到节点结构中,克服了CVFDT无法自动检测概念漂移的缺陷,同时避免了对决策树的重复遍历,提高了算法的分类精度和效率.实验结果证明该,算法随着样本数目的增加,在分类精度上比CVFDT算法有更好的表现. 相似文献
17.
远程教育考试成绩分析决策树的构造方法 总被引:5,自引:2,他引:5
介绍了数据挖掘技术在远程教育学生考试成绩分析上的应用和用ID3算法构造决策树的方法,并结合一组学生考试成绩样本数据,采用决策树分析方法进行了分类,给出了一个远程教育中成功应用数据挖掘的思路和模式。 相似文献
18.
处理连续属性离散化是决策树分类方法中C5.0算法在创建决策树时对数据表示空间的简化的一个重要问题,采用合理有效的连续属性离散化方法可以提高创建决策树的分类预测精度.在分析C5.0算法的离散化方法的不足之处后,提出一种改进Chi2算法的方法,能更合理更准确地对连续属性进行离散化,在此基础上创建的决策树具有更好的准确率.实验结果表明,基于改进方法的C5.0算法创建的决策树分类模型具有较高的分类准确率. 相似文献
19.
关联词语的出现在汉语文章中占有很大的比重,它们可以在复句分析中起到非常重要的作用。该文主要讨论如何在语料库中提取反映关联词语用法的各种特征信息,再通过数据挖掘算法将这些信息整理为关联词语的知识库,作为关联词识别的依据,并对有歧义的关联词语提出了基于决策树的消歧方法。最后,通过开放测试证明了该方法的有效性。 相似文献