首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 195 毫秒
1.
离群数据检测,主要目的是从海量数据中发现异常数据。其有以下两点好处:第一,作为数据预处理工作,减少噪声点对模型的影响;第二,针对特定场景检测出异常,并对异常现象本身进行挖掘,也非常有价值。目前,国内外主流的方法像LOF、KNN、ORCA等,无法兼顾全局离群点、局部离群点和离群簇同时存在的复杂场景的检测。 针对这一情况,提出了一种新的离群数据检测模型。为了能够最大限度对全局、局部离群数据以及离群簇的全面检测,基于iForest、LOF、DBSCAN分别对于全局离群点、局部离群点、离群簇的高度敏感度,选定该三种特定基分类器,并且改变其目标函数,修正框架的错误率计算方式,进行融合,形成了新的离群数据检测模型ILD-BOOST。实验结果表明,该模型充分兼顾了全局和局部离群数据及离群簇的检测,且效果优于目前主流的离群数据检测方法。  相似文献   

2.
基于频繁模式的离群点挖掘在入侵检测中的应用   总被引:1,自引:0,他引:1  
王茜  唐锐 《计算机应用研究》2013,30(4):1208-1211
针对网络安全数据高维度的特征,对传统离群点检测不能有效发现的网络数据中入侵行为细节进行检测。提出一种基于频繁模式的算法,通过检测数据项的频繁模式和关联规则,剥离数据流中或安全日志数据中的噪声和异常点,计算安全数据的加权频繁离群因子,精确定位离群点,最后从中自动筛选出异常属性。实验证明,该方法在较好的空间复杂性与时间复杂性下,能有效地发现在高维安全数据中异常的属性。  相似文献   

3.
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种基于局部线性加权的离群点检测算法.该算法利用LLE算法的思想寻找样本数据的内在嵌入分布,并通过距离公式和离群点权值判别式进行权值数据判定,根据权值的大小标识出数据集中的离群点.仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点.与此同时,该算法具有参数估计简单、参数影响不大等优点.该算法为离群点检测问题的机器学习提供了一条新的途径.  相似文献   

4.
针对现有电力大数据的异常检测方法存在的准确度低、检测效率慢等问题,在数据挖掘的基础上,提出了一种将孤立森林算法和局部离群因子算法相结合的电力大数据异常检测方法。从全局和局部两个方面对电力大数据进行异常检测,提高了电力大数据检测的优越性。为了验证该方法检测结果的优越性,通过仿真对该方法进行对比分析。结果表明,与传统的异常检测方法相比,该方法具有更高的检测效率,能够更准确地检测出用户侧电力数据异常值。  相似文献   

5.
离群点检测问题中的数据可被看作是正常点与异常点在空间中的高度混合,在减少正常点损失的前提下,离群点通常包含在离聚类中心最远的样本集中。受这种思想启发,提出一种针对高维稀疏数据的基于插值的离群点检测方法,该方法在K-means基础上应用遗传算法对原始数据进行插值处理,解决了K-means聚类中稀疏数据容易被合并的问题。实验结果表明,对比基于传统K-means聚类的离群点检测方法以及几种典型的基于改进K-means的检测方法,本文 方法损失的正常点更少,提高了检测的准确率和精确率。  相似文献   

6.
针对智慧城市边缘感知数据类型多、数据维度大和存在数据异常等问题,提出基于时序的边缘检测异常数据算法。对解决该问题的基于边缘计算的智慧城市物联网、大数据分析框架进行设计,同时设计边缘服务增强现实框架;对智慧城市边缘检测异常数据问题进行定义,设计检测流程和时序关联计算算法,提出基于时序关联的智慧城市边缘检测异常数据算法。对设计的算法,利用感知设备采集数据,进行大量实验与仿真对比分析,实验结果表明,该算法在解决时序关联多维数据异常检测的准确率和召回率方面,具有一定的优越性。  相似文献   

7.
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群点检测算法,首先将非线性问题转化为高维特征空间中的线性问题,然后利用非线性数据变换进行维数约减,对从高维采样数据中恢复得到低维数据集,通过本文提出的离群数据假设,并结合本文给出的离群聚类方法对所得数据对象投影分量是否是离群数据进行判别。仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。与此同时,该算法具有参数估计简单、参数影响不大等优点,为离群点检测问题的机器学习提供了一条新的途径。  相似文献   

8.
提出了在高维空间中利用特征抽取提高离群点检测性能问题的解决方法。近年来,传统的检测技术已经不能适应高维的数据。介绍了一种有效的基于特征抽取的DROPT方法,该方法整合ERE策略和APCDA方法进行无特征损失的本征空间规则化之后降维,能够大大提高离群点检测精度,在此基础上还可以减小检测难度。实验证明这种在离群点检测中应用特征抽取的方法有一定的实用性。  相似文献   

9.
为解决传统关联聚类算法挖掘网络异常数据时间复杂度高、精确度不理想等问题,提出Spark-MML聚类算法。为Apriori关联规则算法设计并行化频繁项集挖掘环境,使用兴趣度约束与支持度自适应策略挖掘网络数据特征量强关联规则;利用可变网格的局部离群点检测算法剔除K-means聚类离群点,基于最大最小距离确定聚类中心及数值K,将网络数据分为异常和非异常。测试结果表明,该方法避免聚类中心选取陷入局部最优,降低了异常数据挖掘的时间复杂度,有效节约算法运行空间,是一种可靠的网络异常数据挖掘方法。  相似文献   

10.
军事训练领域的特殊性造成其相关数据存在大量的噪声点,同时也为噪声检测算法提出了相应的要求。分析现有数据噪声点检测算法,提出将数据属性分为空间属性、环境属性、特征属性,利用空间属性确定数据对象的分类,利用环境属性确定具有不同特征的数据对象邻域,利用特征属性计算离群度。改进了基于相对密度的离群度计算方法,提出LRDF算法,实验结果表明,该方法有效地提高了噪声点检测的精度和效率,增强算法可用性。  相似文献   

11.
轨迹大数据异常检测:研究进展及系统框架   总被引:1,自引:0,他引:1  
定位技术与普适计算的蓬勃发展催生了轨迹大数据,轨迹大数据表现为定位设备所产生的大规模高速数据流。及时、有效地对以数据流形式出现的轨迹大数据进行分析处理,可以发现隐含在轨迹数据中的异常现象,从而服务于城市规划、交通管理、安全管控等应用。受限于轨迹大数据固有的不确定性、无限性、时变进化性、稀疏性和偏态分布性等特征,传统的异常检测技术不能直接应用于轨迹大数据的异常检测。由于静态轨迹数据集的异常检测方法通常假定数据分布先验已知,忽视了轨迹数据的时间特征,也不能评测轨迹大数据中动态演化的异常行为。面对轨迹大数据低劣的数据质量和快速的数据更新,需要利用有限的系统资源处理因时变带来的概念漂移,实时检测多样化的轨迹异常,分析轨迹异常间的因果联系,继而识别更大时空区域内进化的、关联的轨迹异常,这是轨迹大数据异常检测的核心研究内容。此外,融合与位置服务应用相关的多源异质数据,剖析异常轨迹的起因以及其隐含的异常事件,也是轨迹大数据异常检测当下亟待研究的问题。为解决上述问题,对轨迹异常检测技术的研究成果进行了分类总结。针对现有轨迹异常检测方法的局限性,提出了轨迹大数据异常检测的系统架构。最后,在面向轨迹流的在线异常检测、轨迹异常的演化分析、轨迹异常检测系统的基准评测、异常检测结果语义分析的数据融合、以及轨迹异常检测的可视化技术等方面探讨了今后的研究工作。  相似文献   

12.
基于数学形态学的模糊异常点检测   总被引:1,自引:0,他引:1  
异常点检测作为数据挖掘的一项重要任务,可能会导致意想不到的知识发现.但传统的异常点检测技术都忽略了数据的自然结构,即异常点与簇的联系.然而,把异常点得分和聚类方法结合起来有利于对异常点与簇的联系的研究.提出基于数学形态学的模糊异常点检测与分析,把数学形态学技术和基于连接的异常点检测方法集成到一个模糊模型中,从异常隶属度和模糊隶属度这两个方面来分析对象与簇集的模糊关系.通过充分的实验证明,该算法能够对复杂面状和变密度的数据集,正确、高效地找出异常点,同时发现与异常点相关联的簇信息,探索异常点与簇核的关联深度,对异常点本身的意义具有启发作用.  相似文献   

13.
针对无线传感器网络的离群点检测算法由于没有充分考虑数据的时空关联性和网络的分布特性,导致检测精度低、通信量大和计算复杂度高等局限,提出了基于时空关联的分布计算与过滤的在线离群点检测算法。该算法在各传感器节点上利用传感器读数的时间关联性生成候选离群点,并利用空间关联性对候选离群点进行过滤得到局部离群点,最终将所有传感器节点上的局部离群点集中到sink节点上获得全局离群点。利用时空关联性提高了检测精度,利用分布计算与过滤减少了通信量和计算量,理论分析和实验结果均表明该算法优于现有算法。  相似文献   

14.
讨论了基于无指导离群点检测的网络入侵检测技术及实现框架.技术方法首先在网络数据包上通过改进的随机森林算法建立了网络服务模型,然后通过确定网络服务模型上的离群点实现网络入侵检测.还通过在KDD'99数据集上对所提出的技术实现入侵检测的实验及结果进行了讨论并与其他无指导异常检测方法进行了比较.  相似文献   

15.
针对现有的无线传感器网络(WSNs)的局部离群点检测算法由于存在未考虑监测环境的异质性而造成邻域划分不准确、检测精度低的问题,提出适用于异质监测环境的基于椭球模型的无线传感器网络的局部离群点检测算法.算法用椭球模型刻画数据分布,节点间只传输模型参数,用椭球参数式方程计算椭球间的相异度;将数据分布的不一致性引入到邻域划分的过程中,最终利用传感数据的时空关联性来确定局部离群点.实验结果表明,提出的算法具有通信量低、检测精度高和误检率低的优点.  相似文献   

16.
针对传感数据中离群点造成结果精确度低的问题,设计了一种基于局部异常检测方法的改进离群数据检测算法。利用节点数据的时空相关性建立了时空变化因子模型,对局部异常检测算法中距离计算进行改进,使弥散数据更加密集,提高检测精确性。此外,还利用了不同数据间的属性相关性构建了一个线性回归模型,用于处理误差数据。为了验证算法的可行性,选用多个数据集进行对比测试。实验结果表明,该算法能够在实现高检测精度的前提下,将虚警率控制在较低水平。  相似文献   

17.
基于密度的局部离群点检测算法   总被引:1,自引:0,他引:1  
基于统计学和基于距离的离群点检测都依赖与给定数据点集的全局分布,然而数据通常并非都是均匀分布的。当分析分布密度相差很大的数据时,基于密度的局部离群点检测方法有着很好的识别局部离群点的能力。但存在时间复杂度较大,文章提出了一种改进的算法,能降低时间复杂度,实现有效的局部离群点的检测。  相似文献   

18.
Defective wafer detection is essential to avoid loss of yield due to process abnormalities in semiconductor manufacturing. For most complex processes in semiconductor manufacturing, various sensors are installed on equipment to capture process information and equipment conditions, including pressure, gas flow, temperature, and power. Because defective wafers are rare in current practice, supervised learning methods usually perform poorly as there are not enough defective wafers for fault detection (FD). The existing methods of anomaly detection often rely on linear excursion detection, such as principal component analysis (PCA), k-nearest neighbor (kNN) classifier, or manual inspection of equipment sensor data. However, conventional methods of observing equipment sensor readings directly often cannot identify the critical features or statistics for detection of defective wafers. To bridge the gap between research-based knowledge and semiconductor practice, this paper proposes an anomaly detection method that uses a denoise autoencoder (DAE) to learn a main representation of normal wafers from equipment sensor readings and serve as the one-class classification model. Typically, the maximum reconstruction error (MaxRE) is used as a threshold to differentiate between normal and defective wafers. However, the threshold by MaxRE usually yields a high false positive rate of normal wafers due to the outliers in an imbalanced data set. To resolve this difficulty, the Hampel identifier, a robust method of outlier detection, is adopted to determine a new threshold for detecting defective wafers, called MaxRE without outlier (MaxREwoo). The proposed method is illustrated using an empirical study based on the real data of a wafer fabrication. Based on the experimental results, the proposed DAE shows great promise as a viable solution for on-line FD in semiconductor manufacturing.  相似文献   

19.
Wireless sensor networks (WSNs) consist of small sensors with limited computational and communication capabilities. Reading data in WSN is not always reliable due to open environmental factors such as noise, weakly received signal strength, and intrusion attacks. The process of detecting highly noisy data is called anomaly or outlier detection. The challenging aspect of noise detection in WSN is related to the limited computational and communication capabilities of sensors. The purpose of this research is to design a local time-series-based data noise and anomaly detection approach for WSN. The proposed local outlier detection algorithm (LODA) is a decentralized noise detection algorithm that runs on each sensor node individually with three important features: reduction mechanism that eliminates the noneffective features, determination of the memory size of data histogram to accomplish the effective available memory, and classification for predicting noisy data. An adaptive Bayesian network is used as the classification algorithm for prediction and identification of outliers in each sensor node locally. Results of our approach are compared with four well-known algorithms using benchmark real-life datasets, which demonstrate that LODA can achieve higher (up to 89%) accuracy in the prediction of outliers in real sensory data.  相似文献   

20.
周璨  李伯阳  黄斌  刘刘 《计算机工程》2008,34(8):184-186
通过分析现有入侵检测技术的不足,探讨基于孤立点挖掘的入侵检测技术的优势,提出一种基于核密度估计的入侵检测方法。该方法通过核密度估计求出孤立点的近似集,再通过筛选近似集获得最终的孤立点集合,从而检测入侵记录。阐述了具体实现方案,通过仿真实验验证了该方法的可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号