共查询到19条相似文献,搜索用时 125 毫秒
1.
简单随机抽样是在分析处理大规模数据集时最常用的数据约简方法,但该方法在处理内部分布不均匀的数据集时容易造成类的丢失。基于固定网格划分的密度偏差抽样算法虽能有效解决该问题,但其速度及效果易受网格划分粒度影响。为此提出了基于可变网格划分的密度偏差抽样算法,根据原始数据集每一维的分布特征确定该维相应的划分粒度,进而构建与原始数据集分布特征一致的网格空间。实验结果表明,在可变网格划分的基础上进行密度偏差抽样,样本质量明显提升,而且相对于基于固定网格划分的密度偏差抽样算法,抽样效率亦有所提高。 相似文献
2.
基于距离的孤立点检测研究 总被引:15,自引:0,他引:15
孤立点检测是一个重要的知识发现任务,在分析基于距离的孤立点及其检测算法的基础上,文章提出了一个判定孤立点的新定义,并设计了基于抽样的近似检测算法,用实际数据进行了实验。实验结果表明,新的定义不仅与DB(p,d)孤立点定义有着相同的结果,而且简化了孤立点检测对用户的要求,同时给出了数据对象在数据集中的孤立程度。 相似文献
3.
4.
5.
LDC-mine——基于局部偏差系数的孤立点挖掘算法 总被引:1,自引:0,他引:1
孤立点检测一直是知识发现(KDD)中一个活跃的领域,如信用卡欺诈,入侵检测等。在这些应用领域中研究孤立点的异常行为能够发现隐藏在数据集中更有价值的知识。提出了一个新的度量LDC(局部偏差系数)因子和基于LDC的孤立点挖掘的算法LDC-mine。实验证明:该算法能够有效地检测出孤立点。 相似文献
6.
提出一种基于引力的孤立点检测算法.通过综合考虑数据对象周围的密度及数据对象之间的距离等因素对孤立点定义的影响来挖掘出数据集中隐含的孤立点.给出了与该算法相关的概念与技术,详细介绍了该算法,并用实际数据进行了实验.实验表明:该算法对数据集的维度具有很好的扩展性,能有效地识别孤立点,同时能反映出数据对象在数据集中的孤立程度. 相似文献
7.
基于距离的孤立点检测及其应用 总被引:13,自引:2,他引:13
孤立点检测是一个有趣的知识发现任务,文章介绍了基于距离的孤立点检测及其相关概念,分析了几种有代表性的算法。最后,文章给出了一个判定孤立点的新的定义,并按此定义进行了检测算法,用实际数据进行了实验。实验结果表明,新的定义不仅与DB(p,d)孤立点定义有着相同的结果,而且简化了孤立点检测对用户的需求,同时给出了数据对象在数据集中的孤立程度。 相似文献
8.
一种基于孤立点检测的入侵检测方法 总被引:3,自引:0,他引:3
孤立点检测在入侵检测中有着重要的意义,故将基于RNN的孤立点检测方法应用于网络入侵检测当中。先将数据集用于神经网络的训练,然后使用训练后的RNN对网络数据进行孤立度测量,根据度量结果判定是否为入侵行为。实验表明,该算法取得了很好的效果。 相似文献
9.
孤立点检测在入侵检测中有着重要的意义,故将基于RNN的孤立点检测方法应用于网络入侵检测当中.先将数据集用于神经网络的训练,然后使用训练后的RNN对网络数据进行孤立度测量,根据度量结果判定是否为入侵行为.实验表明,该算法取得了很好的效果. 相似文献
10.
11.
聚类算法是数据挖掘里的一个重要研究问题.简单介绍CLARANS算法的基本思想,详尽描述了改进的CLARANS算法的基本思想和基本步骤,通过实验数据对其进行进一步分析.并对其应用领域做出简单概要. 相似文献
12.
Web挖掘是数据挖掘的重要研究分支之一。Web日志文件为Web挖掘提供了数据源,日志信息的孤立点检测是数据预处理的重要环节。介绍Web日志文件的构成,提出一种基于Web日志文件的孤立点检测算法,通过实验对算法进行进一步分析,并对其应用领域做简单概括。 相似文献
13.
局部离群点检测是近年来数据挖掘领域的热点问题之一.针对交通数据去噪问题,提出一种基于局部估计密度的局部离群点检测算法,算法使用核密度估计方法计算每个数据对象的密度估计值,来表示该数据对象的局部估计密度,并在核函数的带宽函数计算中引入数据对象的k-邻域平均距离作为其邻域信息,然后利用求出的局部估计密度计算数据对象的局部离群因子,依据局部离群因子的大小来判断数据对象是否为离群点.实验表明,该算法在UCI标准数据集与模拟数据集上都可以取得较好的表现. 相似文献
14.
15.
局部离群点挖掘算法研究 总被引:14,自引:0,他引:14
离群点可分为全局离群点和局部离群点.在很多情况下,局部离群点的挖掘比全局离群点的挖掘更有意义.现有的基于局部离群度的离群点挖掘算法存在检测精度依赖于用户给定的参数、计算复杂度高等局限.文中提出将对象属性分为固有属性和环境属性,用环境属性确定对象邻域、固有属性计算离群度的方法克服上述局限;并以空间数据为例,将空间属性与非空间属性分开,用空间属性确定空间邻域,用非空间属性计算空间离群度,设计了空间离群点挖掘算法.实验结果表明,所提算法具有对用户依赖性少、检测精度高、可伸缩性强和运算效率高的优点. 相似文献
16.
17.
针对在大规模数据集上进行聚类困难的问题,分析了抽样技术的优点,研究了数据挖掘领域中的随机抽样的特点,并在此基础上提出了一种基于密度的偏差抽样方法.利用密度偏差抽样所获得的样本数据集能够较准确地反映总体数据集的特征,并且能够灵活地控制对数据集不同区域的抽样率.实验证明,在大规模数据集上进行聚类时,密度偏差抽样在时间复杂度上要优于随机抽样. 相似文献
18.
Outlier Detection Algorithms in Data Mining Systems 总被引:6,自引:0,他引:6
The paper discusses outlier detection algorithms used in data mining systems. Basic approaches currently used for solving this problem are considered, and their advantages and disadvantages are discussed. A new outlier detection algorithm is suggested. It is based on methods of fuzzy set theory and the use of kernel functions and possesses a number of advantages compared to the existing methods. The performance of the algorithm suggested is studied by the example of the applied problem of anomaly detection arising in computer protection systems, the so-called intrusion detection systems. 相似文献
19.
支持向量机是一种基于统计学习理论的新颖的机器学习方法,该方法已广泛用于解决分类和回归问题。该文利用支持向量回归算法中结构风险函数的性质以及KT条件,提出一种回归中的异常值检测方法。仿真实验结果表明了所给方法的可行性和有效性。 相似文献