首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 85 毫秒
1.
离群点检测是数据挖掘领域的一个重要的研究方向.针对高维数据空间中离群数据的挖掘速度和准确度的问题,提出一种基于单元格的离群点检测算法.该算法在高维数据空间中对数据进行降维,并且将数据依据属性权重划分成若干空间单元,从而减少查询次数,提高离群数据的挖掘速度.另外,通过对属性的加权处理能够更有效地突出属性的特殊性,从而提高挖掘的准确度.理论分析和实验结果表明了该方法是有效可行的.  相似文献   

2.
NLOF:一种新的基于密度的局部离群点检测算法   总被引:1,自引:0,他引:1  
基于密度的局部离群点检测算法(LOF)的时间复杂度较高且不适用于大规模数据集和高维数据集的离群点检测。通过对LOF算法的分析,提出了一种新的局部离群点检测算法NLOF,该算法的主要思想如下:在数据对象邻域查询过程中,尽可能地利用已知信息优化邻近对象的邻域查询操作,有关邻域的计算查找都采用这种思想。首先通过聚类算法DBSCAN对数据集进行预处理,得到初步的异常数据集。然后利用LOF算法中计算局部异常因子的方法计算初步异常数据集中对象的局部异常程度。在计算数据对象的局部异常因子的过程中,引入去一划分信息熵增量,用去一划分信息熵差确定属性的权重,対属性的权值做具体的量化,在计算各对象之间的距离时采用加权距离。 在真实数据集上 对NLOF算法进行了充分的验证。结果显示,该算法能够提高离群点检测的精度,降低时间复杂度,实现有效的局部离群点的检测。  相似文献   

3.
基于全局最近邻的离群点检测算法   总被引:1,自引:0,他引:1  
胡云  施珺  王崇骏  李慧 《计算机应用》2011,31(10):2778-2781
针对全局最近邻离群点检测算法的效率问题,为了能够在数据集中快速准确地检测离群点,运用属性约简技术,将离群点的搜索简约到较小的最具代表性的属性子空间中进行,从而有效降低属性空间搜索的复杂度。在此基础上,通过计算基于近邻的加权离群因子实现离群点的检测并提出了相应的算法。实验表明,该离群点算法具有较好的适应性和有效性。  相似文献   

4.
离群点检测是数据挖掘领域的重要研究方向之一,可以从大量数据中发现少量与多数数据有明显区别的数据对象。在诸如网络入侵、无线传感器网络异常事件等检测应用中,离群点检测是一项具有很高应用价值的技术。为了提高离群点检测准确度,文中在局部离群测度(SLOM)算法的基础上,作了一些改进,提出了一种基于密度的局部离群点检测算法ESLOM。引入信息熵确定数据对象的离群属性,并对对象距离采用加权距离,以提高离群点检测准确度。理论分析和实验表明该算法是可行有效的。  相似文献   

5.
基于频繁模式的离群点挖掘在入侵检测中的应用   总被引:1,自引:0,他引:1  
王茜  唐锐 《计算机应用研究》2013,30(4):1208-1211
针对网络安全数据高维度的特征,对传统离群点检测不能有效发现的网络数据中入侵行为细节进行检测。提出一种基于频繁模式的算法,通过检测数据项的频繁模式和关联规则,剥离数据流中或安全日志数据中的噪声和异常点,计算安全数据的加权频繁离群因子,精确定位离群点,最后从中自动筛选出异常属性。实验证明,该方法在较好的空间复杂性与时间复杂性下,能有效地发现在高维安全数据中异常的属性。  相似文献   

6.
一种基于密度的局部离群点检测算法DLOF   总被引:3,自引:0,他引:3  
离群点可分为全局离群点和局部离群点.在很多情况下,局部离群点的挖掘比全局离群点的挖掘更有意义.提出了一种基于密度的局部离群点检测算法DLOF.该方法通过引入信息熵用于确定各对象的离群属性,在计算各对象之间的距离时采用加权距离,并给离群属性较大的权重,从而提高离群点检测的准确度.另外,该算法在计算离群因子时,采用了两步优化技术,并对采用这两步优化技术后算法的时间复杂度进行了详细分析.理论分析和实验结果表明了该方法是有效可行的.  相似文献   

7.
胡云  潘祝山  施珺 《计算机工程》2011,37(21):38-39,42
针对传统离群点检测过程中属性多、维度大等问题,结合粗糙集理论,提出一种基于近邻关系的离群约简搜索算法。利用属性约简技术解决对象不相容的问题,并有效缩减离群搜索的属性空间。计算任意点与其他所有点间的距离和,通过计算基于近邻的加权离群因子来判定离群点,并在通用数据集上进行测试。实验结果表明,该离群检测算法的搜索精度较高。  相似文献   

8.
对高维数据离群点降维方法进行研究,从而提高挖掘算法的准确度以及挖掘的速度。针对传统的离群点挖掘算法对于高维数据的不适用性,提出了基于属性的局部离群点挖掘算法,该算法以局部线性嵌入降维算法为基础,利用研究对象的特征属性和环境属性来实现降维的目的。实验证明,该方法可以通过约简对象属性的方式达到降维的目的,相比于传统算法更为有效。  相似文献   

9.
基于信息论的高维海量数据离群点挖掘   总被引:1,自引:1,他引:0  
针对高维海量数据集离群点挖掘存在“维数灾难”的问题,提出了基于信息论的高维海量数据的离群点挖掘算法。该算法采用属性选择,去除冗余属性降维。利用信息嫡作为离群点判断的度量标准,消除距离和密度量纲的弊端。在真实数据集上的实验结果表明,算法对高维海量数据离群点挖掘是有效可行的,其效率和精度得到了明显提高。  相似文献   

10.
离群点检测在欺诈检测、网络鲁棒性分析和入侵检测等领域有着重要的应用.Aggarwal和Yu提出的基于子空间投影和遗传算法(GA)的离群点检测方法是处理高维数据的一个有效方法.由于该算法的交叉重组过程采用贪心策略选择子串,并且随着变异概率的改变可能导致发现不了一些有意义的离群数据.文中对该算法的交叉过程和变异过程进行改进,提出一种改进的算法,提高了检测的精度并且不受变异概率改变的影响.  相似文献   

11.
高维数据挖掘算法的研究与进展   总被引:1,自引:1,他引:1  
生物信息学和电子商务应用的迅速发展积累了大量高维数据,对高维数据的挖掘变得越来越重要,一般的数据挖掘方法在处理高维数据时会遇到维灾的问题,同时传统相似性度量在高维空间中也变得没有意义。文章从频繁项集挖掘、聚类、分类等三个方面对最新的高维数据挖掘算法的现状进行了综述,对这些算法如何解决高维数据挖掘存在的问题进行研究。  相似文献   

12.
During the last decade, the deluge of multimedia data has impacted a wide range of research areas, including multimedia retrieval, 3D tracking, database management, data mining, machine learning, social media analysis, medical imaging, and so on. Machine learning is largely involved in multimedia applications of building models for classification and regression tasks, etc., and the learning principle consists in designing the models based on the information contained in the multimedia dataset. While many paradigms exist and are widely used in the context of machine learning, most of them suffer from the ‘curse of dimensionality’, which means that some strange phenomena appears when data are represented in a high-dimensional space. Given the high dimensionality and the high complexity of multimedia data, it is important to investigate new machine learning algorithms to facilitate multimedia data analysis. To deal with the impact of high dimensionality, an intuitive way is to reduce the dimensionality. On the other hand, some researchers devoted themselves to designing some effective learning schemes for high-dimensional data. In this survey, we cover feature transformation, feature selection and feature encoding, three approaches fighting the consequences of the curse of dimensionality. Next, we briefly introduce some recent progress of effective learning algorithms. Finally, promising future trends on multimedia learning are envisaged.  相似文献   

13.
李海林  杨丽彬 《控制与决策》2013,28(11):1718-1722

数据降维和特征表示是解决时间序列维灾问题的关键技术和重要方法, 它们在时间序列数据挖掘中起基础性作用. 鉴于此, 提出一种新的时间序列数据降维和特征表示方法, 利用正交多项式回归模型对时间序列实现特征提取, 结合特征序列长度对时间序列的拟合分析结果, 运用奇异值分解方法对特征序列进一步降维处理, 进而得到保存大部分信息且维数更低的特征序列. 数值实验结果表明, 新方法可以在维度较低的特征空间下取得较好的数据挖掘聚类和分类效果.

  相似文献   

14.
金字塔多维索引分析及其算法实现   总被引:1,自引:0,他引:1       下载免费PDF全文
许多多维索引结构随着维度的增加会遇到“维度灾难”问题,而金字塔技术是基于一种依赖特殊优化数据维度的非平均分割策略,能够克服“维度灾难”问题。本文提出了基于金字塔技术的完整算法集,并针对完备高维索引算法,对金字塔索引技术的性能特性进行了深入分析。  相似文献   

15.
Nearest neighbor (NN) classifier is the most popular non-parametric classifier. It is a simple classifier with no design phase and shows good performance. Important factors affecting the efficiency and performance of NN classifier are (i) memory required to store the training set, (ii) classification time required to search the nearest neighbor of a given test pattern, and (iii) due to the curse of dimensionality the number of training patterns needed by it to achieve a given classification accuracy becomes prohibitively large when the dimensionality of the data is high. In this paper, we propose novel techniques to improve the performance of NN classifier and at the same time to reduce its computational burden. These techniques are broadly based on: (i) overlap based pattern synthesis which can generate a larger number of artificial patterns than the number of input patterns and thus can reduce the curse of dimensionality effect, (ii) a compact representation of the given set of training patterns called overlap pattern graph (OLP-graph) which can be incrementally built by scanning the training set only once and (iii) an efficient NN classifier called OLP-NNC which directly works with OLP-graph and does implicit overlap based pattern synthesis. A comparison based on experimental results is given between some of the relevant classifiers. The proposed schemes are suitable for applications dealing with large and high dimensional datasets like those in data mining.  相似文献   

16.
The problem of variable selection in system identification of a high dimensional nonlinear non-parametric system is described. The inherent difficulty, the curse of dimensionality, is introduced. Then ...  相似文献   

17.
ABSTRACT

Data mining techniques can be used to discover useful information by exploring and analyzing data. The aim of this article is to propose a new fuzzy-data mining method to find a compact set consisting of fuzzy if-then classification rules with high classification capability using the genetic algorithm. Furthermore, for not reducing the usefulness of the proposed method for classification problems with high dimensional feature space, the curse dimensionality resulting from the grid partition is overcome in the proposed method by employing the principal component analysis to reduce the dimensions. Through computer simulations, it can be seen that the proposed method is comparable to the other fuzzy classification methods on the well-known iris data, the appendicitis data, and the cancer data.  相似文献   

18.
黄维辉  熊翱 《软件》2013,(11):77-79
多维数据的处理已经成为影响很多领域发展的关键因素,特别是多维数据的相似性查询已经被用在很多领域中。当数据维度很大的时候,大多数索引结构处理的性能下降,这现象被称为“维度灾难”。针对多维度灾难,RAKDB-Tree是本文提出的一种高效处理多维数据的索引结构。该索引结构首先把数据空间划分为子空间,然后使用改进的KDB—Tree对子空间建立索引。RAKDB—Tree的查询、插入、删除等算法使得,索引结构一直保持较优状态。实验结果表明,RAKDB.Tree能够很好解决因为数据维度增加而带来的各种问题。  相似文献   

19.
轧钢生产过程是极其复杂的大系统,模糊神经网络进行质量建模将不可避免地陷入维数灾。分层模糊神经网络是解决维数灾的有效手段。文中采用分层模糊神经网络对轧钢产品质量进行建模,并用预处理后的数据进行训练和校验。仿真结果表明所建质量模型能够较好地拟合建模数据,表明了该方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号