首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
郝井华  刘民  吴澄  陈少卿 《控制工程》2005,12(3):207-209,265
以国家重大建设项目稽察中的数据一致性判别问题为应用背景,针对时间序列型高维数据提出了一种基于局部线性映射(Local Linear Mapping,LLM)的数据变换方法,该方法将各高维数据点通过其相邻点的线性重构映射至低维空间,从而很好地保留了高维空间中各数据点与相邻数据点的相关性。基于LLM的映射特性,提出了三种异常指标,并将其应用于面向国家重大建设项目稽察数据一致性判别问题的高维时间序列数据异常检测中。数值计算表明,所提出的方法对时间序列异常检测具有很好的效果,适合于较大规模高维时间序列数据的异常检测应用。  相似文献   

2.
针对传统基于距离度量的聚类算法难以适合高维数据聚类以及高维数据之间相似度难定义的问题,提出了一种新的高维数据聚类算法.该算法基于一个能够更准确地表达出高维对象之间相似性的度量函数,首先计算对象两两之间的相似度并得出一个相似度矩阵,然后根据该相似度矩阵和阈值大小自底向上对数据进行聚类分析.实验结果显示,该算法能够获得质量更高的聚类结果,并且不受孤立点影响,对输入数据顺序也不敏感.  相似文献   

3.
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群点检测算法,首先将非线性问题转化为高维特征空间中的线性问题,然后利用非线性数据变换进行维数约减,对从高维采样数据中恢复得到低维数据集,通过本文提出的离群数据假设,并结合本文给出的离群聚类方法对所得数据对象投影分量是否是离群数据进行判别。仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。与此同时,该算法具有参数估计简单、参数影响不大等优点,为离群点检测问题的机器学习提供了一条新的途径。  相似文献   

4.
基于密度偏倚抽样的局部距离异常检测方法   总被引:1,自引:0,他引:1  
付培国  胡晓惠 《软件学报》2017,28(10):2625-2639
异常检测是数据挖掘的重要研究领域,当前基于距离或者最近邻概念的异常数据检测方法,在进行海量高维数据异常检测时,存在运算时间过长的问题.许多改进的异常检测方法虽然提高了算法运算效率,然而检测效果欠佳.基于此本文提出一种基于密度偏倚抽样的局部距离异常检测算法,首先利用基于密度偏倚的概率抽样方法对所需检测的数据集合进行概率抽样,之后对抽样数据利用基于局部距离的局部异常检测方法.对抽样集合进行局部异常系数计算,得到的异常系数既是抽样数据的局部异常系数,又是数据集的近似全局异常系数.之后对得到的每个数据点的局部异常系数进行排序,异常系数值越大的数据点越可能是异常点.实验结果表明,和已有的算法相比,本算法具有更高的检测精确度和更少的运算时间,并且该算法对各种维度和数据规模的数据都具有很好的检测效果,可扩展性强.  相似文献   

5.
近几年,随着数据流和不确定数据的产生,不确定数据流上的异常点检测成为新的研究热点。然而,现有的不确定数据的异常点定义中涉及3个参数,这对于用户是非常难设定的,以致不能查询到适合的异常点。在大多时候,用户更想知道最可能是异常点的对象,因此提出了不确定数据流上的top-k异常点查询算法。该算法通过估计数据对象异常点的概率范围而进行剪枝,从而减少了一些不必要的计算,同时增量地计算数据对象异常点的概率范围。在真实数据集和合成数据集上进行了一系列的模拟实验,证明了算法的性能。  相似文献   

6.
针对高维数据集中存在不相关的属性与冗余数据导致无法检测出异常值的问题,提出了一种新的基于稀疏子空间的局部异常值检测算法(SSLOD)。根据数据对象在每个维度上的局部密度定义了对象的异常因子;依据异常因子阈值约简数据集中与局部异常值不相关的属性以及冗余的数据对象;用改进的粒子群优化算法在约简后的数据集中搜索稀疏子空间,该子空间中的数据对象即为异常值。通过在仿真数据集和真实数据集上的综合实验验证了该算法的有效性和准确性。  相似文献   

7.
top-k查询主要用来从海量的数据中返回用户最为偏好的k个对象.目前已经有大量的研究工作致力于top-k查询中的性能研究,近年来针对top-k查询结果进行解释的研究逐渐得到了广泛的关注.在top-k查询中,由于用户不能精确地指定自己的偏好,因此针对top-k查询的结果用户可能产生这样的质疑:"既然连对象p都出现在top-k结果中,为什么我期望的对象m块没有出现在top-k结果/"针对用户这样的疑问,提出了一种基于用户反馈的top-k查询修改算法,该算法首先定义了用来衡量初始化top-k查询变化的评估模型函数,基于该评估模型函数,使用抽样方法得到候选权重集合,针对每一个候选权重通过渐进式top-k算法来得到新的最优化查询.最后在模拟数据上验证了提出算法的效率.  相似文献   

8.
基于信息论的高维海量数据离群点挖掘   总被引:1,自引:1,他引:0  
针对高维海量数据集离群点挖掘存在“维数灾难”的问题,提出了基于信息论的高维海量数据的离群点挖掘算法。该算法采用属性选择,去除冗余属性降维。利用信息嫡作为离群点判断的度量标准,消除距离和密度量纲的弊端。在真实数据集上的实验结果表明,算法对高维海量数据离群点挖掘是有效可行的,其效率和精度得到了明显提高。  相似文献   

9.
基于改进符号化度量方法的机场噪声异常检测   总被引:1,自引:0,他引:1  
机场噪声中的异常情况拥有很大价值,利用它能够及时完善飞机和机场的设备。结合机场噪声数据的特点,对上述问题进行研究并提出一种基于改进的符号化聚集近似(Symbolic Aggregate Approximation,SAX)相似性度量的单监测点的时间序列异常检测方法。其运用相似性度量方法计算出度量结果,再运用k近邻异常检测方法进行异常发现,最后发现异常时间段。该方法在理论验证可行性之后在某机场的实测数据中进行应用,取得了良好的效果。  相似文献   

10.
对于数据库中数据操作产生的各种异常问题,分析其来源及异常类型。在各种运算中,关系代数的运算对象是关系。该文主要通过运用关系运算中的传统集合运算及投影运算,结合具体的关系实例,逐步运算从而得到消除关系中的数据冗余、插入、更新异常等问题的方法。  相似文献   

11.
移动对象聚集模式是指由移动对象参与的一组群体事件,通常用来预测交通系统中出现的异常现象.然而由于海量移动轨迹数据的产生,已有的研究方法难以准确、高效地挖掘特定的聚集模式.为此,提出一种基于时空图的移动对象聚集模式挖掘方法.该方法首先通过改进的空间聚类算法(DBScan)分析轨迹数据,从而获得移动对象聚类;然后,利用时空图模型代替单独存储轨迹数据的方式,用于实时观测移动对象聚类的时空变化特征.最后提出基于最大完全子图查找的聚集检索算法及其改进算法,用于查找满足时空约束的最大完全子图.基于真实大规模轨迹数据集上的实验结果表明,所提出的方法在移动对象聚集模式挖掘的准确性和高效性方面优于其他方法.  相似文献   

12.
3维地理信息系统数据模型的设计   总被引:5,自引:0,他引:5  
空间数据模型是地理信息系统设计的核心和基础。该文详细地介绍了在实际工作过程中设计的一种面向对象的3维数据模型,供大家参考。该数据模型有很强的可扩充性,十分灵活。  相似文献   

13.
数据挖掘是致力于数据分析和理解,揭示数据内部蕴藏知识的技术。它是未来信息技术应用的重要目标之一。而高维数据在实际应用中的使用,使得对高维数据挖掘的研究有着非常重要的意义。文章介绍了高维数据挖掘对数据挖掘的挑战及应对策略,提出了一些挖掘模型的创新点。  相似文献   

14.
赵雪峰  姜淑娟  张艳梅 《计算机工程》2011,37(11):94-96,102
现有异常传播分析方法大多局限于单个类内部,不能满足现实软件开发的需求。为此,提出一种面向对象程序的异常传播分析方法,在类控制流图的基础上构建面向对象异常传播分析(OEPAG)图,通过得到异常在类间的传播路径并确定类间关系,从而对控制流和数据流进行有效分析。应用结果表明,将OEPAG图用于含异常处理结构的程序切片时的结果比传统程序切片结果更准确。  相似文献   

15.
随着大数据与AI技术的发展,由数据驱动的预测模型层出不穷,数据清洗在提升这些模型预测中起着重要的作用。从公交车运行数据的时空相关性入手,分析了公交大数据存在的四类异常,接着在对时间相关性、空间邻近性、时空依赖性等公交大数据特性的分析基础上,提出了整合缓冲区、四分位数、时间依赖网络等时空处理方法的冗余清洗、范围清洗、异常清洗、补全清洗四种清洗方法,然后对公交进出站、轨迹数据集用这几种清洗方法进行了清洗。在不同清洗数据集下,通过LSTM公交到达时间预测精度的比较分析,证明了数据清洗对预测精度的提升是显著的。  相似文献   

16.

Enabling information systems to face anomalies in the presence of uncertainty is a compelling and challenging task. In this work the problem of unsupervised outlier detection in large collections of data objects modeled by means of arbitrary multidimensional probability density functions is considered. We present a novel definition of uncertain distance-based outlier under the attribute level uncertainty model, according to which an uncertain object is an object that always exists but its actual value is modeled by a multivariate pdf. According to this definition an uncertain object is declared to be an outlier on the basis of the expected number of its neighbors in the dataset. To the best of our knowledge this is the first work that considers the unsupervised outlier detection problem on data objects modeled by means of arbitrarily shaped multidimensional distribution functions. We present the UDBOD algorithm which efficiently detects the outliers in an input uncertain dataset by taking advantages of three optimized phases, that are parameter estimation, candidate selection, and the candidate filtering. An experimental campaign is presented, including a sensitivity analysis, a study of the effectiveness of the technique, a comparison with related algorithms, also in presence of high dimensional data, and a discussion about the behavior of our technique in real case scenarios.

  相似文献   

17.
当前,面对科学、工程和商业领域中海量的多维数据,用户迫切需要使用有效的可视化工具在知识发现、信息认知及信息决策过程中对其进行理解。针对传统基于降维映射的数据可视化方法计算复杂度高且无法提供维度分布信息的缺点,提出一种基于正2k边形的多维数据可视化方法RPES,通过建立多维数据空间的低维"参照物"——正2k边形坐标系,以减小多维对象在正2k边形坐标系及多维数据空间中的坐标差别为准则,使用最优化方法对其进行降维,以点云的形式标绘在低维可视空间中,完成多维数据的降维可视展现。实验证明,RPES的降维算法高效、容易实现,适用于数据量较大、维度较高的数据集,可视化结果不仅易于理解,而且能够有效提供维度分布信息,有利于用户发掘隐性知识,辅助其进行基于多维数据的决策。  相似文献   

18.
The rapid evolution of technology has led to the generation of high dimensional data streams in a wide range of fields, such as genomics, signal processing, and finance. The combination of the streaming scenario and high dimensionality is particularly challenging especially for the outlier detection task. This is due to the special characteristics of the data stream such as the concept drift, the limited time and space requirements, in addition to the impact of the well-known curse of dimensionality in high dimensional space. To the best of our knowledge, few studies have addressed these challenges simultaneously, and therefore detecting anomalies in this context requires a great deal of attention. The main objective of this work is to study the main approaches existing in the literature, to identify a set of comparison criteria, such as the computational cost and the interpretation of outliers, which will help us to reveal the different challenges and additional research directions associated with this problem. At the end of this study, we will draw up a summary report which summarizes the main limits identified and we will detail the different directions of research related to this issue in order to promote research for this community.  相似文献   

19.
高维数据挖掘由于特征空间占用开销较大,挖掘的复杂度较高,挖掘精度不高,为了提高对高维数据挖掘的准确性能,提出一种基于相空间重构和K-L变换特征压缩的高维数据挖掘数学建模方法。采用集成学习技术,对高维数据信息流进行相空间重构处理,考虑类间的数据不平衡性,求得高维数据的关联维特征参量,根据数据的链距离进行稀疏性融合,计算高维数据流模型的最大Lyapunove指数谱,根据谱分析方法实现数据聚类,对聚类后的数据采用K-L特征压缩方法进行降维处理,降低数据挖掘的内存及计算开销。仿真结果表明,采用该方法进行高维数据挖掘,数据挖掘的准确概率较高,占用内存消耗较少,计算开销较小。  相似文献   

20.
针对传统基于相似度的离群点检测算法在高维不均衡数据集上效果不够理想的问题,提出一种新颖的基于随机投影与集成学习的离群点检测(ensemble learning and random projection-based outlier detection,EROD)框架。算法首先集成多个随机投影方法对高维数据进行降维,提升数据多样性;然后集成多个不同的传统离群点检测器构建异质集成模型,增加算法鲁棒性;最后使用异质模型对降维后的数据进行训练,训练后的模型经过两次优化组合以降低泛化误差,输出最终的对象离群值,离群值高的对象被算法判定为离群点。分别在四个不同领域的高维不均衡真实数据集上进行对比实验,结果表明该算法与传统离群点检测算法和基于集成学习的离群点检测算法相比,在AUC和precision@n值上平均提高了3.6%和14.45%,证明EROD算法具有处理高维不均衡数据异常的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号