首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 262 毫秒
1.
研究网络热点事件准确检测问题,收集网络文本数据中含有大量的离群点,由于离群点一些噪声数据,对网络热点事件检测产生不利影响.为提高检测正确率,提出一种采用离群点剔除的网络热点事件挖掘算法.首先通过计算数据点的密度相似度,将小于阈值的离群点剔除,降低计算复杂度和离群点的不利影响,然后采用模糊C均值聚类算法对网络文本进行聚类,发现其中的热点事件,最后通过仿真测试算法的有效性.仿真结果表明,改进算法剔除网络中的离群点,不仅提高了网络热点事件检测正确率,而且降低算法计算复杂度,加快了网络热点事件挖掘速度,更加适合于网络热点事件在线挖掘要求.  相似文献   

2.
曹洪其  孙志挥 《计算机应用》2007,27(10):2369-2371
提出了一种基于网格技术的高维大数据集离群点挖掘算法(OMAGT)。该算法针对高维大数据集的分布特性,首先采用基于网格技术的方法寻找出聚类区域,并删除聚类区域内不可能成为离群点的聚类点集,然后运用局部离群因子(LOF)算法对剩下的点集进行离群点挖掘。OMAGT算法较好地实现了聚类信息的动态释放,将保留的离群点挖掘信息控制在一定的内存容量范围内,提高了算法的时间效率和空间效率。理论分析与实验结果表明OMAGT算法是可行和有效的。  相似文献   

3.
针对基于距离的离群点检测算法受全局阈值的限制, 只能检测全局离群点, 提出了基于聚类划分的两阶段离群点检测算法挖掘局部离群点。首先基于凝聚层次聚类迭代出K-means所需的k值, 然后再利用K-means的方法将数据集划分成若干个微聚类; 其次为了提高挖掘效率, 提出基于信息熵的聚类过滤机制, 判定微聚类中是否包含离群点; 最后从包含离群点的微聚类中利用基于距离的方法挖掘出相应的局部离群点。实验结果表明, 该算法效率高、检测精度高、时间复杂度低。  相似文献   

4.
基于密度的离群点挖掘在入侵检测中的应用   总被引:1,自引:0,他引:1       下载免费PDF全文
闫少华  张巍  滕少华 《计算机工程》2011,37(18):240-242
给出一种基于密度的局部离群点挖掘方法。采用KDD99数据集进行实验,对数据集中的41个属性提取特征,利用基于密度的聚类对统计处理过的数据集实行剪枝操作,剪除数据集中大部分密集的数据对象,保留未被剪除的候选离群对象集。采用局部离群挖掘方法计算离群候选对象的离群因子,检测出异常攻击。实验结果表明,该方法能保证较高的检测率和较低的误报率。  相似文献   

5.
在数据密集型计算环境中,数据的海量、高维、分布存储等特点,为数据挖掘算法的设计与实现带来了新的挑战。基于 MapReduce模型提出网格技术与基于密度的方法相结合的离群点挖掘算法,该算法分为两步:Map阶段采用网格技术删除大量不可能成为离群点的正常数据,将代表点信息发送给主节点;Reduce阶段采用基于密度的聚类方法,通过改进其核心对象选取,可以挖掘任意形状的离群点。实验结果表明,在数据密集型计算环境中,该方法能有效的对离群点进行挖掘。  相似文献   

6.
基于数据间内在关联性的自适应模糊聚类模型   总被引:2,自引:0,他引:2  
唐成龙  王石刚 《自动化学报》2010,36(11):1544-1556
提出了一种新的模糊聚类模型(Fuzzy C-means clustering model, FCM), 称为自适应模糊聚类(Adaptive FCM, AFCM). 和现有的大多数模糊聚类方法不同的是, AFCM考虑了数据集中全体数据的内在关联性, 模型中引入了自适应度向量W和自适应指数p. 其中, W在迭代过程中是自适应的, p是一个给定参数. W和p共同作用调控聚类过程. AFCM同时输出三组参数: 模糊隶属度集U, 自适应度向量W, 以及聚类原型集V. 本文给出了两组数据实验验证AFCM的性能. 第1组实验验证AFCM的聚类性能, 以FCM为比较对象. 实验表明 AFCM可以得到更好的聚类质量, 而且通过合理选择自适应指数p, AFCM和FCM在时间复杂性上保持同一水平. 第2组实验检验了AFCM的离群点挖掘性能, 以目前常用的基于密度的LOF为比较对象. 实验表明AFCM算法具有极大的计算效率优势, 且AFCM得到的离群点是全局的, 反映的是离群点和整个数据集的关系, 离群点涵盖的信息也更丰富. 文章指出, AFCM在挖掘大数据集和实时数据中的离群点应用方面, 以及获得高质量的聚类结果的应用方面, 特别在聚类的同时需要挖掘离群点的应用方面具有独特的优势.  相似文献   

7.
为解决传统关联聚类算法挖掘网络异常数据时间复杂度高、精确度不理想等问题,提出Spark-MML聚类算法。为Apriori关联规则算法设计并行化频繁项集挖掘环境,使用兴趣度约束与支持度自适应策略挖掘网络数据特征量强关联规则;利用可变网格的局部离群点检测算法剔除K-means聚类离群点,基于最大最小距离确定聚类中心及数值K,将网络数据分为异常和非异常。测试结果表明,该方法避免聚类中心选取陷入局部最优,降低了异常数据挖掘的时间复杂度,有效节约算法运行空间,是一种可靠的网络异常数据挖掘方法。  相似文献   

8.
对于犯罪检测、网络入侵检测等应用,离群点检测是数据挖掘的一种重要算法.局部离群因子是对数据对象离群点的程度定义,计算所有数据对象局部离群因子需要大量计算. 一种基于聚类分析局部离群点挖掘改进算法得以实现,此改进算法以聚类分析为预处理,只对聚类之外的数据对象计算局部离群因子,避免了大量计算,并改进了对数据对象k距离邻域的求解.通过仿真数据和轨道交通AFC(automatic fare collecting system)客流数据的实验,证实此改进算法不仅能更高效地挖掘出值得关注的离群点,而且还能更好地达到解析目的.  相似文献   

9.
基于聚类高维空间算法的离群数据挖掘技术研究   总被引:3,自引:1,他引:2  
离群数据挖掘是数据挖掘领域的一个研究分支,而聚类算法分析则是进行离群数据挖掘的重要研究方法之一。文中首先分析研究离群数据挖掘方法,对多个离群数据挖掘算法进行分析比较,讨论各自的优点和不足,同时针对高维空间数据的特点,分析挖掘高维空间数据中的离群点方法。其次对聚类分析算法进行讨论,分析一种基于网格和基于密度的聚类方法——聚类高维空间算法(CLIQUE算法),运用它可以更好地挖掘高维空间中的离群数据。提出了CLIQUE算法的有待改进的思想,为以后的研究指明方向。  相似文献   

10.
项响琴  汪彩梅 《微机发展》2010,(1):124-127,131
离群数据挖掘是数据挖掘领域的一个研究分支,而聚类算法分析则是进行离群数据挖掘的重要研究方法之一。文中首先分析研究离群数据挖掘方法,对多个离群数据挖掘算法进行分析比较,讨论各自的优点和不足,同时针对高维空间数据的特点,分析挖掘高维空间数据中的离群点方法。其次对聚类分析算法进行讨论,分析一种基于网格和基于密度的聚类方法——聚类高维空间算法(CLIQUE算法),运用它可以更好地挖掘高维空间中的离群数据。提出了CLIQUE算法的有待改进的思想,为以后的研究指明方向。  相似文献   

11.
异常值的检测问题是时下数据挖掘领域的研究热点。目前已经有许多种成熟的异常值检测方法,但当数据是高维混合型属性,或者存在成片孤立点时,这些方法就变得很不理想甚至不再适用。因此,针对这些现有方法的不足之处,提出了新的孤立点检测方法,并设计了时域和空域的异常值检测平台。对于时间和空间序列数据集,该平台分别采用基于互相关分析和自组织竞争(self-organizing maps, SOM)神经网络的异常值检测方法。经实验验证,检测平台具有较高的检测率和可靠性。同时,在搭建该平台时充分考虑了模块化和层次化的方式,使得平台具有良好的可扩展性和开放性。  相似文献   

12.
Multilayer perceptron has been widely used in time series forecasting for last two decades. However, it is a well-known fact that the forecasting performance of multilayer perceptron is negatively affected when data have outliers and this is an important problem. In recent years, some alternative neuron models such as generalized-mean neuron, geometric mean neuron, and single multiplicative neuron have been also proposed in the literature. However, it is expected that forecasting performance of artificial neural network approaches based on these neuron models can be also negatively affected by outliers since the aggregation function employed in these models is based on mean value. In this study, a new multilayer feed forward neural network, which is called median neuron model multilayer feed forward (MNM-MFF) model, is proposed in order to deal with this problem caused by outliers and to reach high accuracy level. In the proposed model, unlike other models suggested in the literature, MNM which has median-based aggregation function is employed. MNM is also firstly defined in this study. MNM-MFF is a robust neural network method since aggregation functions in MNM-MFF are based on median, which is not affected much by outliers. In addition, to train MNM-MFF model, particle swarm optimization method was utilized. MNM-MFF was applied to two well-known time series in order to evaluate the performance of the proposed approach. As a result of the implementation, it was observed that the proposed MNM-MFF model has high forecasting accuracy and it is not affected by outlier as much as multilayer perceptron model. Proposed method brings improvement in 7 % for data without outlier, in 90 % for data with outlier, in 95 % for data with bigger outlier.  相似文献   

13.
离群点检测是数据挖掘领域的重要研究方向之一,可以从大量数据中发现少量与多数数据有明显区别的数据对象。在诸如网络入侵、无线传感器网络异常事件等检测应用中,离群点检测是一项具有很高应用价值的技术。为了提高离群点检测准确度,文中在局部离群测度(SLOM)算法的基础上,作了一些改进,提出了一种基于密度的局部离群点检测算法ESLOM。引入信息熵确定数据对象的离群属性,并对对象距离采用加权距离,以提高离群点检测准确度。理论分析和实验表明该算法是可行有效的。  相似文献   

14.
一种基于关键域子空间的离群数据聚类算法   总被引:4,自引:0,他引:4  
离群数据发现与分析是数据挖掘的重要组成部分,现有离群数据挖掘算法主要针对如何检测离群对象,缺乏对挖掘出的离群数据集进行解释与分析的有效方法.通过对离群数据来源及特性进行分析并结合粗糙集理论,定义了离群划分相似度的概念,提出了一种基于关键属性域子空间的离群数据聚类算法COKAS,该算法不仅揭示了离群数据子空间特性,进一步获取了扩展知识,而且有助于对整体数据集的理解.对两个多维数据集的实验结果表明,该算法具有良好的适应性及有效性.  相似文献   

15.
基于密度偏倚抽样的局部距离异常检测方法   总被引:1,自引:0,他引:1  
付培国  胡晓惠 《软件学报》2017,28(10):2625-2639
异常检测是数据挖掘的重要研究领域,当前基于距离或者最近邻概念的异常数据检测方法,在进行海量高维数据异常检测时,存在运算时间过长的问题.许多改进的异常检测方法虽然提高了算法运算效率,然而检测效果欠佳.基于此本文提出一种基于密度偏倚抽样的局部距离异常检测算法,首先利用基于密度偏倚的概率抽样方法对所需检测的数据集合进行概率抽样,之后对抽样数据利用基于局部距离的局部异常检测方法.对抽样集合进行局部异常系数计算,得到的异常系数既是抽样数据的局部异常系数,又是数据集的近似全局异常系数.之后对得到的每个数据点的局部异常系数进行排序,异常系数值越大的数据点越可能是异常点.实验结果表明,和已有的算法相比,本算法具有更高的检测精确度和更少的运算时间,并且该算法对各种维度和数据规模的数据都具有很好的检测效果,可扩展性强.  相似文献   

16.
一种时序数据的离群数据挖掘新算法   总被引:11,自引:0,他引:11  
离群数据挖掘是数据挖掘的重要内容,针对时序数据进行离群数据挖掘方法的研究。首先通过对时序数据进行离散傅立叶变换将其从时域空间变换到频域空间,将时序数据映射为多维空间的点,在此基础上,提出一种新的基于距离的离群数据挖掘算法。对某钢铁企业电力负荷时序数据进行仿真实验,结果表明了算法的有效性。  相似文献   

17.
We are concerned with the issue of detecting outliers and change points from time series. In the area of data mining, there have been increased interest in these issues since outlier detection is related to fraud detection, rare event discovery, etc., while change-point detection is related to event/trend change detection, activity monitoring, etc. Although, in most previous work, outlier detection and change point detection have not been related explicitly, this paper presents a unifying framework for dealing with both of them. In this framework, a probabilistic model of time series is incrementally learned using an online discounting learning algorithm, which can track a drifting data source adaptively by forgetting out-of-date statistics gradually. A score for any given data is calculated in terms of its deviation from the learned model, with a higher score indicating a high possibility of being an outlier. By taking an average of the scores over a window of a fixed length and sliding the window, we may obtain a new time series consisting of moving-averaged scores. Change point detection is then reduced to the issue of detecting outliers in that time series. We compare the performance of our framework with those of conventional methods to demonstrate its validity through simulation and experimental applications to incidents detection in network security.  相似文献   

18.
郝井华  刘民  吴澄  陈少卿 《控制工程》2005,12(3):207-209,265
以国家重大建设项目稽察中的数据一致性判别问题为应用背景,针对时间序列型高维数据提出了一种基于局部线性映射(Local Linear Mapping,LLM)的数据变换方法,该方法将各高维数据点通过其相邻点的线性重构映射至低维空间,从而很好地保留了高维空间中各数据点与相邻数据点的相关性。基于LLM的映射特性,提出了三种异常指标,并将其应用于面向国家重大建设项目稽察数据一致性判别问题的高维时间序列数据异常检测中。数值计算表明,所提出的方法对时间序列异常检测具有很好的效果,适合于较大规模高维时间序列数据的异常检测应用。  相似文献   

19.
基于离群指数的时序数据离群挖掘   总被引:12,自引:0,他引:12  
离群数据挖掘(0utlier mining,简称离群挖掘)是数据挖掘的重要内容.该文针对时序 数据进行离群数据挖掘方法的研究,提出了离群指数的概念,在此基础上设计了时序数据离群数 据挖掘算法,并对某钢铁企业电力负荷时序数据进行离群数据挖掘,结果表明了算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号