首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
隐私保护数据挖掘*   总被引:4,自引:0,他引:4  
隐私保护数据挖掘的目标是寻找一种数据集变换方法,使得敏感数据或敏感知识在实施数据挖掘的过程中不被发现。近年出现了大量相关算法,按照隐私保持技术可将它们分为基于启发式技术、基于安全多方技术和基于重构技术三种。结合目前研究的热点对关联规则和分类规则的隐私保护数据挖掘进行介绍,并给出算法的评估方法,最后提出了关联规则隐私保护数据挖掘未来研究工作的方向。  相似文献   

2.
分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型。该函数或模型能够把数据库中的数据记录映射到给定类别中的某一个,从而可以应用于数据预测。大部分数据挖掘工具采用规则发现或决策树分类技术来发现数据模式和规则,其核心是某种归纳算法。这类工具通常是对数据库的数据进行开采,生产规则和决策树,然后对新数据进行分析和预测。本文研究基于SLIQ的数据挖掘分类算法。  相似文献   

3.
利用数据库技术实现的可扩展的分类算法   总被引:9,自引:0,他引:9  
刘红岩  陆宏钧  陈剑 《软件学报》2002,13(6):1075-1081
重点研究将数据挖掘中的分类技术与数据库技术紧密结合的高效的可扩展的分类算法.提出一种基于分组记数技术构造分类器的方法,利用数据库系统的结构化查询语言来实现主要计算任务.为了提高算法的执行效率,还提出了优化策略和冗余规则的剪裁策略,并将分类规则的发现过程与相关属性的选择方法有机地结合在一起.使用这些方法和策略,分类算法能够从大规模数据集中快速地发现一组简洁的规则.除了具有与现有分类算法相当的准确度和较高的执行效率以外,该分类算法还具有良好的基于训练集元组个数和属性个数两方面的可扩展性和易于实现的特点.  相似文献   

4.
决策树是归纳学习和数据挖掘的重要方法,主要用于分类和预测。文章引入了广义决策树的概念,实现了分类规则集和决策树结构的统一。同时,提出一种新颖的基于DNA编码遗传算法构造决策树的方法。先用C4.5算法对数据集进行分类得到初始规则集,再通过文章中算法优化规则集并由此构建决策树。实验证明了该方法有效地避免了传统决策树构建过程的缺点,且有较好的并行性。  相似文献   

5.
一个最优分类关联规则算法   总被引:1,自引:0,他引:1  
分类和关联规则发现是数据挖掘中的两个重要领域。使用关联规则算法挖掘分类规则被叫做分类关联规则算法,是一个有较好前景的方法。本文提出了一个最优分类关联规则算法——OCARA。该算法使用最优关联规则挖掘算法挖掘分类规则,并对最优规则集排序,从而获得一个分类精度较高的分类器。将OCARA与传统分类算法C4.5和一般分类关联规则算法CBA、RMR在8个UCI数据集上进行实验比较,结果显示OCARA具有更好的性能,证明OCARA是一个有效的分类关联规则挖掘算法。  相似文献   

6.
为深入研究和评估蚁群算法在分类规则挖掘应用中具有的特点和作用,针对目前基本蚁群算法在数据挖掘方面所存在的不足,引入了改进的蚁群算法模型最大最小蚂蚁系统(MMAS)。并根据分类算法比较原则,通过实验分析对分类规则挖掘算法进行比较。根据使用不同数据集实验结果的对比分析,从仿真的精确度、速度等方面展示和证实了基于改进的蚁群算法模型MMAS的数据分类规则挖掘工具AntMiner+在分类规则挖掘中体现出的特点和优势。  相似文献   

7.
一种结合关联规则技术在数据库中挖掘分类规则的方法   总被引:3,自引:0,他引:3  
在数据库中发现分类规则是数据挖掘的一个重要内容,由于数据集往往由不精确数据组成,所以数据集不能截然划分为正例集和反倒集,因而无法直接采用示例学习的方法发现分类规则。本文结合关联规则技术,将原始数据集转换为决策表,使决策表具有无噪声和代表性高的特点,通过对决策表进行示例学习便可以挖掘出分类规则。  相似文献   

8.
刘晓平 《计算机仿真》2005,22(12):76-79
用于知识发现的大部分数据挖掘工具均采用规则发现和决策树分类技术来发现数据模式和规则。该文通过采用基于仿真属性的离散化方法,基于概率统计的未知属性与噪声数据处理方法以及基于误差的剪枝算法,实现了用于自动生成决策树的通用算法模板。利用该模板,决策树算法的设计者可以快速验证为解决特定决策问题而设计的新算法。构造决策树的基本机制是算法的设计者利用其自己定义的公式来初始化通用算法模板。然后利用该系统提供的交互式图形环境,针对不同的决策问题测试该算法,从而找出适合特定问题的算法。  相似文献   

9.
针对故障知识获取这一瓶颈难题,对基于数据挖掘的数据库技术去实现故障知识规则自动发现的方法进行了研究;在SQLSERVER 2005平台上,利用该平台提供的数据挖掘决策树算法,采用了将决策树算法与数据库系统的性能进行高效耦合的数据处理模式,建立了一种利用故障数据集自动获取故障知识规则的数据处理流程;最后利用转子故障实验获得的故障特征数据集进行的验证表明,该流程具有通过对故障数据集进行实时处理,自动建立起一种描述故障知识的决策树模型,并且通过对决策树枝进行结构元素的描述,可自动生成故障知识规则集合的功能;结果表明,SQL SERVER 2005数据挖掘平台提供的决策树算法,为基于故障数据资源的驱动挖掘出故障知识提供了一种新途径。  相似文献   

10.
基于并行遗传算法的规则发现研究   总被引:1,自引:0,他引:1  
阐述了传统遗传算法的基本思想、原理和步骤及其在数据挖掘(规则集发现)中的应用,给出了基于遗传算法的知识规则挖掘算法的基本思想和关键问题,包括知识规则表示、适应度函数定义等,继而提出多种群并行进化结构,利用精英重组策略,产生池进化模型以及自适应参数的手段调整并行遗传算法进行数据挖掘.在算法具体实现过程中,采用了动态变异交叉概率等方法,有效避免了并行遗传算法中早熟现象的发生.以北美香菇数据为例,进行并行遗传算法挖掘分类规则,实验说明了该算法在发现和进化规则方面的有效性.  相似文献   

11.
蚁群优化算法作为群智能理论的主要算法之一,已经成功应用在众多研究领域的优化问题上,但是在遥感数据处理领域还是一个新的研究课题。蚁群优化具有自组织、合作、通信等智能化优点,对数据无需统计分布参数的先验知识,因此在遥感数据处理领域具有很大的潜在优势。介绍了将蚁群优化分类规则挖掘算法应用到遥感图像分类研究领域的理论与算法流程。并采用北京地区的CBERS遥感数据作为实验数据,通过蚁群优化算法构造分类规则,对选择的遥感数据进行了分类实验,并和最大似然分类方法进行对比,实验结果表明,蚁群优化分类规则挖掘算法为遥感图像的分类提供了一种新方法。  相似文献   

12.
数据库是一个庞大的系统,在数据挖掘过程中,对数据处理的算法有多种方式,但每种方式都有其优优势和不足,本文基于数据库技术应用的特点,分析了数据库技术数据处理中的决策树算法、贝叶斯分类方法、关联规则分类方法、以及基于数据库本身技术方法等几种算法分类,通过比较分析得出每种方法存在的利弊,旨在帮助提高数据库技术算法的有效性,也为使用者选择算法或改进算法提供了一定依据.  相似文献   

13.
阐明决策树分类器在用于分类的数据挖掘技术中依然重要,论述基于决策树归纳分类的ID3、C4.5算法,并且对决策属性的选取法则进行说明。通过实例解析ID3、C4.5算法实现过程,结果表明C4.5算法相比较于ID3算法的优越性.尤其在处理具有多属性值的数据时的更加合理和正确。  相似文献   

14.
为了解决传统算法中存在的频繁模式集生成的瓶颈问题,本文将启发式背景知识和归纳背景知识同时运用在频繁模式的生成过程中,提出了一种基于背景知识的关联规则挖掘算法BasedBackground。该算法不仅通过启发式背景知识,有效降低了模式的计数代价,而且通过由样本挖掘获取的归纳背景知识,有效地减少I/O代价,因此提高了挖掘的效串和质量。本文最後通过恒星光谱数据作为实验数据集,验证了该算法的有效性。  相似文献   

15.
决策树算法及其在乳腺疾病图像数据挖掘中的应用   总被引:5,自引:1,他引:5  
介绍了ID3决策树算法建立决策树的基本原理,着重介绍了决策树的修剪问题和两种典型的修剪算法-减少分类错误修剪算法和最小代价-复杂度修剪算法,并利用介绍的决策树算法和修剪算法对乳腺疾病图像进行数据挖掘,得到了一些有实际参考价值的规则,获得了很高的分类准确率,证明了决策树算法在医学图像数据挖掘领域有着广泛的应用前景。  相似文献   

16.
它概述了数据挖掘的几种常用算法,在权衡利弊的情况下,选择了决策树算法,它的优点是描述简单、分类速度快.特别适合大规模的数据处理,另外,以其易于提取显式规则、计算量相对较小、可以显示重要的决策属性和具有较高的分类准确率,综合以上优点及教学评估数据的结构化特性,选择分类技术中的决策树方法用于教学评估数据挖掘系统。  相似文献   

17.
遗传算法在决策支持系统和数据挖掘中的应用   总被引:2,自引:0,他引:2  
决策支持系统和数据挖掘技术的应用已深入到企业管理、金融、办公及日常生活等各个领域。使用原先决策支持系统中的传统方法已远远不能满足决策者的需要,从而出现许多新技术新方法来辅助和完善决策支持过程。文中在介绍遗传算法的基础上,提出了一种将遗传算法与决策支持系统相结合的观点,阐述了基于遗传算法的决策支持系统的模型设计,且深入讨论了遗传进化技术在数据挖掘中的应用。  相似文献   

18.
它概述了数据挖掘的几种常用算法,在权衡利弊的情况下,选择了决策树算法,它的优点是描述简单、分类速度快,特别适合大规模的数据处理,另外,以其易于提取显式规则、计算量相对较小、可以显示重要的决策属性和具有较高的分类准确率,综合以上优点及教学评估数据的结构化特性,选择分类技术中的决策树方法用于教学评估数据挖掘系统。  相似文献   

19.
One of the known classification approaches in data mining is rule induction (RI). RI algorithms such as PRISM usually produce If-Then classifiers, which have a comparable predictive performance to other traditional classification approaches such as decision trees and associative classification. Hence, these classifiers are favourable for carrying out decisions by users and therefore they can be utilised as decision making tools. Nevertheless, RI methods, including PRISM and its successors, suffer from a number of drawbacks primarily the large number of rules derived. This can be a burden especially when the input data is largely dimensional. Therefore, pruning unnecessary rules becomes essential for the success of this type of classifiers. This article proposes a new RI algorithm that reduces the search space for candidate rules by early pruning any irrelevant items during the process of building the classifier. Whenever a rule is generated, our algorithm updates the candidate items frequency to reflect the discarded data examples associated with the rules derived. This makes items frequency dynamic rather static and ensures that irrelevant rules are deleted in preliminary stages when they don't hold enough data representation. The major benefit will be a concise set of decision making rules that are easy to understand and controlled by the decision maker. The proposed algorithm has been implemented in WEKA (Waikato Environment for Knowledge Analysis) environment and hence it can now be utilised by different types of users such as managers, researchers, students and others. Experimental results using real data from the security domain as well as sixteen classification datasets from University of California Irvine (UCI) repository reveal that the proposed algorithm is competitive in regards to classification accuracy when compared to known RI algorithms. Moreover, the classifiers produced by our algorithm are smaller in size which increase their possible use in practical applications.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号