共查询到19条相似文献,搜索用时 62 毫秒
1.
2.
提出了一种针对离群数据规则挖掘的决策树构造方法。通过给出一个平均致密度的新定义和对离群数据产生机制的深入分析,提出离群数据的致密度往往比正常样本数据高的新认识,指出离群数据本质上也是不平衡数据,基于此提出了一种自动标记离群数据的新算法,并进一步在该算法和C4.5算法部分功能的基础上提出了一种基于离群数据自动标记的模糊决策树构造方法。仿真实验结果表明,该方法具有高效的离群数据规则挖掘能力,能处理不平衡数据,优化决策树的结构,挖掘出更高信任度的规则,有一定的实用价值。 相似文献
3.
离群数据的挖掘方法研究 总被引:12,自引:0,他引:12
离群数据的挖掘是数据挖掘的一个重要部分,本文介绍了几个重要的离群数据挖掘方法,给出了一个新的基于距离的离群数据发现方法:第k个最近邻居法;其主要思想是,离群数据总是远离大部分的正常数据。 相似文献
4.
5.
离群数据挖掘是指从大量数据中挖掘明显偏离、不满足一般行为模式的数据。现有的离群数据挖掘算法大多对密集的交易数据库缺乏有效的处理,文中提出了一种高效的基于规则的离群挖掘算法。该算法使用了多层最大离群支持度及最小离群兴趣度,计算1-离群条件集的幂集,并在数据结构中存储了交易标识符链表,使得扫描数据库的次数仅为一次,从而提高了挖掘的速度、效率且使得结果更具有决策意义。文中使用此算法对某一商场的部分销售数据库进行了实验,结果表明该算法能有效、迅速地发现密集数据库中的离群数据。 相似文献
6.
唐锐 《计算机工程与应用》2007,43(9):174-175,230
提出了分布式系统中各站点离群数据之间模式相似性挖掘算法,该算法首先利用基于距离的离群数据挖掘算法挖掘各自站点的离群数据,然后计算离群数据的知识集,最后依据各站点知识集的分布情况来判断离群数据之间的类别相似性和行为相似性。 相似文献
7.
由于数据集规模、维数,以及复杂程度的不断提高,导致对其离群点的挖掘难度越来越大,提出了基于邻域密度的局部离群点挖掘算法.首先依据节点计算性能对高维数据进行区域分割,通过各个维度的数据分布来评价区域分割的效果.然后采取核密度来描述局部密度,根据高斯分布得到数据出现次数,进一步计算出数据邻域密度.再由邻域及密度关系计算得到各数据离群度,从而判断异构数据中的离群点.最后针对可能存在的离群误判情况,采取离群分数计算,为增强此过程的检测性能,利用权重进行剪枝处理.人工与UCI数据集上的仿真结果表明,当数据量和数据维数改变时,算法对离群点挖掘的准确度几乎不受影响,挖掘时间和覆盖率指标也显著优于其它方法;同时对于不同类型和复杂度的异构数据,算法仍然保持良好的挖掘准确度和效率. 相似文献
8.
9.
当前的数据集离群点挖掘方法一般设置为引导式结构,挖掘效率较低。为此,提出基于谱聚类算法的人力资源数据集离群点快速挖掘方法。先预处理多维人力资源数据集,采用多节点机制提高挖掘的效率,然后构建谱聚类测算离群点快速挖掘模型,采用回归处理实现快速挖掘。测试结果表明,相同的测试周期中,文章提出的方法最多可以挖掘27次,说明在谱聚类算法的辅助下,该算法的挖掘效率更高。 相似文献
10.
属性分组是高维离群检测中的有效手段之一,可以有效缓解“维度灾难”的干扰,但现有的属性分组离群检测方法未能体现属性组之间的差异性,以及属性组的偏离程度,严重影响了高维离群检测的效果与性能。该文采用信息熵累加和刻画与描述属性组之间的差异性,提出了一种基于属性组权重的分类离群检测方法。首先,根据数据模式频率和编码长度,定义了属性组偏离因子,并将其作为属性组之间的合并依据,有效地刻画了属性组的偏离程度,进一步提高了属性分组过程中的搜索效率;其次,利用信息熵累加和定义了属性组权重,有效地体现了不同属性组之间的差异性;然后,依据属性组权重,重新定义了离群得分函数,并提出了一种基于属性组权重的分类数据离群检测算法;最后,采用UCI,NTU,KEEL和人工合成数据集,实验验证了该离群检测算法不仅具有较高的检测精度和效率,而且也具有良好的可扩展性与伸缩性,可适用于高维海量分类属性数据集的离群检测任务。 相似文献
11.
动态数据挖掘过程中矛盾性知识的研究 总被引:1,自引:0,他引:1
目前知识发现领域中前沿的、棘手的但又是亟待解决的问题之一就是有关矛盾性知识的问题。本文在积累多年来对知识发现内在机理研究成果的基础上,进一步探求在动态大系统的知识发现过程中,矛盾性知识的概念模型及其突变规律,对当前主流的发展、解决KDD所面临的若干难题和挑战将具有一定的理论意义和实际意义。 相似文献
12.
在数据挖掘中基于SOM网络的数据分析可视化设计 总被引:2,自引:0,他引:2
阐述了SOM(Self-Organizing Map)自组织神经网络和Davies-Bouldin聚类判定法,采用SOM网络构建了数据挖掘中数据模型,设计了SOM网络数据分析可视化软件,并进行了详细的可视化数据分析,同时,设计的软件已经初步应用到数据挖掘当中,取得了良好的效果。 相似文献
13.
可视化数据挖掘技术研究 总被引:6,自引:1,他引:6
总结了目前数据挖掘领域中可视化方法的研究状况。结合国外先进的数据挖掘工具,分析了当前可视化数据挖掘技术的应用现状。基于可视化数据挖掘的任务和目标,阐述了可视化数据挖掘技术的发展趋势。 相似文献
14.
基于距离的异常数据挖掘算法及其应用 总被引:6,自引:0,他引:6
给出了基于距离的异常数据的数量化定义,提出了基于距离的多指标的异常数据挖掘算法,这种算法适合于一般的海量数据库中的数据分析,以学生考试成绩作为实例进行了分析,可以从中动态地挖掘异常数据。作为特例,把单指标的异常数据挖掘算法应用于校园网Web服务器日志文件,给出了上网用户的频率分析图。 相似文献
15.
16.
多策略通用数据采掘工具MSMiner 总被引:6,自引:0,他引:6
介绍了一种多策略通用数据采掘工具MSMiner的设计与实现。MSMiner建立在数据仓库之一,采用面向对象的方法描述关于数据源、采掘算法、采掘步骤和用户的元数据,该系统集成决策树、关联规则、传统统计分析、聚类分析、神经网络和可视化等多种数据采掘算法,以任务模型的形式生成和执行数据 采掘及决策支持任务。其特点是支持数据库、数据仓库、文本以及Web页面等形式数据源,可以动态地添加采掘算法,对数据和采掘策略的组织灵活有效,具有很好的可扩充性和通用性。 相似文献
17.
带Rough算子的决策规则及数据挖掘中的软计算 总被引:25,自引:3,他引:25
文中讨论决策规则及其与演绎推理中的假言推理规则之间的关系,通过数据挖掘中的软计算使决策表中的属性简化和性值区间化,从而找到一种具有广泛表达能力的数据隐含格式,从中选择有代表性的,并删去冗余或过剩的规则,并保持决策表的原有用途和的有性能,我们通过开发一个中医诊疗专家系统的实例说明了这种软计算的过程,并分别用于统计或专家计算带可信度因子的产生式规则和基于Rough集方法计算带Rough算子的决策规则两 相似文献
18.
数据可视化在数据挖掘中的应用 总被引:2,自引:0,他引:2
数据挖掘是从大量历史数据中抽取潜在的、有价值的知识或规则的过程。数据可视化对于快速分析数据,表示高维数据方面非常直观、有效。本文首先讨论了几种可视化技术,随后就数据可视化在数据挖掘的模型、过程中的应用进行探讨。 相似文献