共查询到19条相似文献,搜索用时 93 毫秒
1.
2.
IncLOF:动态环境下局部异常的增量挖掘算法 总被引:12,自引:1,他引:12
异常检测是数据挖掘领域研究的最基本的问题之一,它在欺诈甄别、贷款审批、气象预报、客户分类等方面有广泛的应用,以前的异常检测算法只适应于静态环境,在数据更新时需要进行重新计算,在基于密度的局部异常检测算法LOF的基础上,提出一种在动态环境下局部异常挖掘的增量算法IncLOF,当数据库中的数据更新时,只对受到影响的点进行重新计算,这样可以大大提高异常的挖掘速度,实验表明,在动态环境下IncLOF的运行时间远远小于LOF的运行时间,并且用户定义的邻域中的最小对象个数与记录数之比越小,效果越明显. 相似文献
3.
4.
异常检测是数据挖掘领域研究的基本问题之一,已被广泛应用于气象预报、网络入侵检测、电信和信用卡欺诈侦察等领域.基于密度的异常检测算法LOF具有较好的检测效果和适用性,但其计算量较大,运行效率不够高,且在进行对象之间的距离计算时忽略了不同属性对异常值的不同影响.针对以上不足,本文提出了一种高效的LOF改进算法iLOF*.该算法利用网格进行数据约简,从而提高了算法的运行效率;同时,在进行对象之间的距离计算时,引入信息熵,给不同属性赋予不同的权值,从而提高了算法的准确率.另外,用MapReduce计算框架将iLOF*算法并行化,进一步提高了算法在大规模数据集上的运行效率.最后的实验结果验证了iLOF*算法的有效性和高效性. 相似文献
5.
为了提高数据挖掘中异常检测算法在数据量增大时的准确度、灵敏度和执行效率,本文提出了一种基于MapReduce框架和Local Outlier Factor (LOF)算法的并行异常检测算法(MR-DLOF)。首先,将存放在Hadoop分布式文件系统(HDFS)上的数据集逻辑地切分为多个数据块。然后,利用MapReduce原理将各个数据块中的数据并行处理,使得每个数据点的k-邻近距离和LOF值的计算仅在单个块中执行,从而提高了算法的执行效率;同时重新定义了k-邻近距离的概念,避免了数据集中存在大于或等于k个重复点而导致局部密度为无穷大的情况。最后,将LOF值较大的数据点合并重新计算其LOF值,从而提高算法准确度和灵敏度。通过真实数据集验证了MR-DLOF算法的有效性、高效性和可扩展性。 相似文献
6.
7.
针对现有电力大数据的异常检测方法存在的准确度低、检测效率慢等问题,在数据挖掘的基础上,提出了一种将孤立森林算法和局部离群因子算法相结合的电力大数据异常检测方法。从全局和局部两个方面对电力大数据进行异常检测,提高了电力大数据检测的优越性。为了验证该方法检测结果的优越性,通过仿真对该方法进行对比分析。结果表明,与传统的异常检测方法相比,该方法具有更高的检测效率,能够更准确地检测出用户侧电力数据异常值。 相似文献
8.
时间序列挖掘中不同的数据集中的异常模式的长度未必相同.提出的算法使用异常因子作为模式的异常度量,利用模式的k-距离和中位数来计算异常因子,使用二次回归算法来探测时间序列中的所有模式和其长度范围,在这个范围内使用变长方法来判断一个模式是否异常,然后合并相邻的异常模式.为了验证算法的有效性和健壮性,使用人工合成数据和标准数据集对算法进行了测试,得到了较为满意的效果. 相似文献
9.
异常点检测(outlier detection)领域的大量研究都集中于一类“基于密度的”方法,这类方法能够克服许多传统异常点检测方法的缺陷,但仍大多使用基于几何距离的方式进行数据点局部密度的估计,导致在某些情况下反直观结果的出现.针对该问题,用一种基于邻域链的方法取代传统方法进行局部密度的估计,设计新的异常点检测方法.实验结果表明,对比经典的基于密度的异常点检测方法LOF(Local outlier factor)以及几种基于LOF的改进方法,所提出的方法能够更加准确地区分正常和异常数据点,避免反直观结果的出现. 相似文献
10.
K-Means 和 DBSCAN算法初始聚类中心的选择对数据挖掘结果的影响较大。针对上述问题,利用信息熵改进初始聚类中心选择方法,提高数据挖掘效率。将改进的K-Means算法与DBSCAN算法结合应用于入侵检测系统,对一个通用检测记录集进行异常检测测试,实验结果证明了该方法的有效性。 相似文献
11.
离群点检测算法在网络入侵检测、医疗辅助诊断等领域具有十分广泛的应用。针对LDOF、CBOF及LOF算法在大规模数据集和高维数据集的检测过程中存在的执行时间长及检测率较低的问题,提出了基于图上随机游走(BGRW)的离群点检测算法。首先初始化迭代次数、阻尼因子以及数据集中每个对象的离群值;其次根据对象之间的欧氏距离推导出漫步者在各对象之间的转移概率;然后通过迭代计算得到数据集中每个对象的离群值;最后将数据集中离群值最高的对象判定为离群点并输出。在UCI真实数据集与复杂分布的合成数据集上进行实验,将BGRW算法与LDOF、CBOF和LOF算法在执行时间、检测率和误报率指标上进行对比。实验结果表明,BGRW算法能够有效降低执行时间并在检测率及误报率指标上优于对比算法。 相似文献
12.
在基于信息熵的离群点检测算法的基础上,提出一种适用于动态数据环境的检测算法。该算法在有数据对象插入或删除的时候,不必计算所有数据对象的相对离群点因子(ROF)值,而只需重新计算受影响的点的ROF值。实验结果表明,该算法在动态数据环境下的运行时间小于原来的算法。 相似文献
13.
一种基于聚类和快速计算的异常数据挖掘算法 总被引:1,自引:0,他引:1
传统局部离群因子(LOF)算法在动态增量数据库环境下,进行二次异常数据挖掘需重新计算所有数据对象局部偏离因子,存在效率较低的问题。为此,提出一种基于聚类和快速计算的异常数据挖掘算法。对传统DBSCAN算法进行改进,并且在该改进算法聚类的基础上,仅对部分数据对象计算局部偏离因子。实验结果表明,该算法在动态增量数据库环境下,与 LOF 与 lncLOF算法相比,不仅计算时间效率高,而且能提高挖掘异常数据的精度。 相似文献
14.
异常数据检测是数据挖掘研究的热点之一。本文在对现有异常点检测算法分析的基础上,提出了一种基于属性的异常点检测算法。简要地介绍了异常检测的现状,对基于属性的异常检测算法进行了详细分析,包括算法设计基础、算法描述、复杂度分析等。并通过与基于距离的异常点检测算法进行实验比较,表明了算法的优越性。 相似文献
15.
针对离群点检测算法LOF在高维离散分布数据集中检测精度较低及参数敏感性较高的问题,提出了基于邻域系统密度差异度量的离群点检测NSD(neighborhood system density difference)算法。相较于传统基于密度的离群点检测方法,NSD算法引入了截取距离的概念。首先计算数据集中对象在截取距离内的邻居点个数;其次计算对象的邻域系统密度;然后将对象的密度与它邻居的密度进行比较,判定目标对象与其邻居趋向于同一簇的程度;最后输出最可能是离群点的对象。将NSD算法与LOF、LDOF、CBOF算法在真实数据集与合成数据集中对比实验发现,NSD算法具有较高的检测准确率和执行效率以及较低的参数敏感性,证明了NSD算法是有效可行的。 相似文献
16.
针对多工况过程数据的批次不等长、中心漂移、工况结构不同等特点,提出基于统计模量和局部近邻标准化的局部离群因子故障检测方法(SP-LNS-LOF)。首先计算每个训练样本的统计模量;然后使用局部近邻集标准化统计模量,得到标准样本;最后计算标准化样本的局部离群因子,并将其作为检测指标,将局部离群因子的分位点作为检测控制限,当在线样本的局部离群因子大于检测控制限时,判定其为故障;否则为正常。统计模量提取过程的主要信息,且消除批次不等长的影响;局部近邻标准化克服工况中心漂移和工况结构不同的困难;局部离群因子度量样本的相似度,实现故障样本和正常样本的分离。进行了半导体蚀刻过程故障检测仿真实验,实验结果表明SP-LNS-LOF检测出了全部21个故障,比主元分析(PCA)、核主元分析(kPCA)、基于k近邻的故障检测(FD-kNN)、局部离群因子(LOF)方法具有更高的检测率。理论分析和仿真实验说明SP-LNS-LOF方法适用于多工况过程故障检测,具有较高的故障检测效率,能保证多工况生产过程的安全性。 相似文献
17.
基于密度的局部离群点检测算法 总被引:1,自引:0,他引:1
基于统计学和基于距离的离群点检测都依赖与给定数据点集的全局分布,然而数据通常并非都是均匀分布的。当分析分布密度相差很大的数据时,基于密度的局部离群点检测方法有着很好的识别局部离群点的能力。但存在时间复杂度较大,文章提出了一种改进的算法,能降低时间复杂度,实现有效的局部离群点的检测。 相似文献
18.
提出了基于聚类的孤立点检测算法,减小了孤立点检测的时间复杂度,理论和实验证明了基于聚类的孤立点检测算法的有效性. 相似文献