首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 358 毫秒
1.
在传统的基于[K]近邻的算法中,需要为算法设置邻居参数[k]的值,只有具备相关的先验知识才能确定合适的参数值。为了减少参数对于离群点检测的影响,提出了一种无需参数的基于Delaunay三角剖分的离群点检测算法。Delaunay三角剖分是数值分析以及图形学中的重要基础理论,它的构建无需任何参数,在三角剖分图中的每个数据对象与它空间上相邻的点都存在边直接相连,因此可以形成一种有效的邻居关系。算法首先通过Delaunay三角剖分形成每个点的空间邻居集合,然后根据每个点与它们空间邻居之间的分布特征,计算它们的离群程度,根据离群程度的大小判断该点是否为离群点。通过实验与相关的算法比较,算法具有更好的效果。  相似文献   

2.
冯骥  冉瑞生  魏延 《智能系统学报》2019,14(5):998-1006
数据挖掘领域,基于最近邻居思想的离群检测算法在面对复杂数据时,很难在没有足够先验知识条件下进行适当的参数选择。为了解决这个问题,本文在自然邻居方法的基础上,提出一种利用加权自然邻居邻域图进行离群检测的算法。该算法在整个过程不需要人为设置参数,并且能在不同分布特征的数据中准确找到数据集中的全局离群点和局部离群点。人工数据集和真实数据的离群检测结果均证明,本算法能够取得和有参数的算法中最优参数相近的效果,算法检测结果远好于对参数敏感算法的大部分情况,且更优于对参数不敏感的算法,具有更强的普适性和实用性。  相似文献   

3.
传统KNN算法是在基于距离的离群检测算法的基础上提出的一种在大数据集下进行离群点挖掘的算法,然而KNN算法只以最近的第k个邻居的距离作为判断是否是离群点的标准有时也失准确性.给出了一种在大数据集下基于KNN的离群点检测算法,即在传统KNN方法的基础上为每个数据点增加了权重,权重值为与最近的k个邻居的平均距离,离群点为那些与第k个邻居的距离最大且相同条件下权重最大的点.算法能提高离群点检测的准确性,通过实验验证了算法的可行性,并与传统KNN算法的性能进行了对比.  相似文献   

4.
邹云峰  张昕  宋世渊  倪巍伟 《计算机应用》2017,37(10):2932-2937
已有的密度离群点检测算法LOF不能适应数据分布异常情况离群点检测,INFLO算法虽引入反向k近邻点集有效地解决了数据分布异常情况的离群点检测问题,但存在需要对所有数据点不加区分地分析其k近邻和反向k近邻点集导致的效率降低问题。针对该问题,提出局部密度离群点检测算法--LDBO,引入强k近邻点和弱k近邻点概念,通过分析邻近数据点的离群相关性,对数据点区别对待;并提出数据点离群性预判断策略,尽可能避免不必要的反向k近邻分析,有效提高数据分布异常情况离群点检测算法的效率。理论分析和实验结果表明,LDBO算法效率优于INFLO,算法是有效可行的。  相似文献   

5.
为适应数据集分布形状多样性以及克服数据集密度问题,针对已有算法对离群簇检测效果欠佳的现状,提出了一种基于K-近邻树的离群检测算法KNMOD(outlier detection based on K-nearest neighborhood MST).算法结合密度与方向因素,提出一种基于K-近邻的不相似性度量,然后带约束切割基于此度量构建的最小生成树从而获得离群点.算法可以有效地检测出局部离群点以及局部离群簇,与LOF、COF、KNN及INFLO算法的对比结果也证实了算法的优越性能.  相似文献   

6.
一种基于加权KNN的大数据集下离群检测算法   总被引:3,自引:1,他引:2  
王茜  杨正宽 《计算机科学》2011,38(10):177-180
传统KNN算法是在基于距离的离群检测算法的基础上提出的一种在大数据集下进行离群点挖掘的算法, 然而KNN算法只以最近的第k个部居的距离作为判断是否是离群点的标准有时也失准确性。给出了一种在大数据 集下基于KNN的离群点检测算法,即在传统KNN方法的基础上为每个数据点增加了权重,权重值为与最近的k个 邻居的平均距离,离群点为那些与第k个部居的距离最大且相同条件下权重最大的点。算法能提高离群点检测的准 确性,通过实验验证了算法的可行性,并与传统KNN算法的性能进行了对比。  相似文献   

7.
离群点检测和分析离群模式隐含的特征是离群点挖掘的重要研究内容.现有离群点检测算法存在两个明显的不足:根据离群度检测离群点,难以确定离群点的数量;忽略了与离群点邻接的聚类信息,不能提供解析离群模式的有效证据.为此,提出一种基于共享反K近邻的离群点检测算法,首先定义了一种对密度和维数变化不敏感的共享反K近邻相似度,然后应用聚类方法将数据集划分为聚类簇和包含离群点的离群簇,从而获取数据集中的离群点及解析离群点的聚类结构.仿真结果表明,反K近邻算法比现有方法更能精确地检测数据集中的局部离群点,具有很好的控制性能.  相似文献   

8.
针对基于密度的局部离群因子算法(LOF),需要计算距离矩阵来进行[k]近邻查寻,算法时间复杂度高,不适合大规模数据集检测的问题,提出基于网格查询的局部离群点检测算法。算法利用距离目标网格中的数据点最近的[k]个其他数据点,一定在该目标网格或在该目标网格的最近邻接网格中这一特性,来改进LOF算法的邻域查询操作,以此减少LOF算法在邻域查询时的计算量。实验结果证明,提出的LOGD算法在与原LOF算法具有基本相同的检测准确率的情况下,能够有效地降低离群点检测的时间。  相似文献   

9.
现有反k邻域的流数据离群点挖掘算法存在一些不足之处,即需要遍历每个数据对象,计算复杂度较高,稳定性较差。为了解决这些问题,本文提出一种改进的基于反k近邻的离群点检测算法OL-ORND。该算法采用细胞邻域思想,加入伪反k邻域点概念(反k邻域为空集的点对象),增加了算法的严密性,从而大大提高了算法的效率和准确率。实验表明,算法具有较好的性能。  相似文献   

10.
基于全局最近邻的离群点检测算法   总被引:1,自引:0,他引:1  
胡云  施珺  王崇骏  李慧 《计算机应用》2011,31(10):2778-2781
针对全局最近邻离群点检测算法的效率问题,为了能够在数据集中快速准确地检测离群点,运用属性约简技术,将离群点的搜索简约到较小的最具代表性的属性子空间中进行,从而有效降低属性空间搜索的复杂度。在此基础上,通过计算基于近邻的加权离群因子实现离群点的检测并提出了相应的算法。实验表明,该离群点算法具有较好的适应性和有效性。  相似文献   

11.
空间对象的反最近邻查询   总被引:4,自引:0,他引:4  
郝忠孝  刘永山 《计算机科学》2005,32(11):115-118
本文在对现有反最近邻查询方法研究的基础上,提出了一种新的索引结构一SRdnn-树;在此基础上提出了基于SRdn矿树的反最近邻查询方法,并给出了该结构上的最近邻查询方法,以及插入和删除方法,第5节实验表明,基于SRdnn-树的反最近邻查询在性能上优于以往查询方法。  相似文献   

12.
冯骥  张程  朱庆生 《计算机科学》2017,44(12):194-201
传统的最近邻居算法主要分为k-最近邻居和逆最近邻居,然而二者均在邻域参数选择问题中饱受困扰。在这两种思想的基础上,提出 一种具有动态邻域特点的最近邻居算法——自然邻居,并围绕其概念与特性形成了一套有效的方法。该算法从根本上克服了传统最近邻居思想在任意形状(如流型)数据集中参数选择的难题,摆脱了传统方法的参数依赖,并且取得了极佳的效果。自然邻居思想具有完善的理论模型和详细的实现算法,并且经验证其具有很强的鲁棒性和适应性。  相似文献   

13.
??-NN分类算法已广泛应用于文本挖掘和模式识别等领域,其近邻数??直接影响着分类精度,??值过小时??-NN会受到噪声的影响,??值过大时同样会降低分类精度,为此提出一种快速选取??值的方法。首先给出??值的候选集,然后在候选集上快速地选取??值。在100个公开数据集上的实验结果表明,所提出的算法能够选取一个有效的近邻数??,是一种效果好、有潜力的方法。  相似文献   

14.
Cluster analysis plays an important role in identifying the natural structure of the target dataset. It has been widely used in many fields, such as pattern recognition, machine learning, image segmentation, document clustering and so on. There are many different methods to conduct cluster analysis. Namely, most real datasets are non-spherical and have complex shapes. Although these methods are widely used to deal with clustering tasks, they are susceptible to noise and arbitrary shapes. Thus, we propose a novel clustering algorithm (called RNN-NSDC) in this paper, which is based on the natural reverse nearest neighbor structure. Firstly, we apply the reverse nearest neighbors in the algorithm to extract core objects. Secondly, our algorithm uses the neighbor structure information of core objects to cluster. And excluding noise effects, core sets can well represent the structure of clusters. Therefore, the RNN-NSDC can obtain the optimal cluster numbers for the datasets which contain clusters of outliers and arbitrary shapes. To verify the efficiency and accuracy of the RNN-NSDC, synthetic datasets and real datasets are used for experiments. The results indicate the superiority of the RNN-NSDC compared with K-means, DBSCAN, DPC, SNNDPC, DCore and NaNLORE.  相似文献   

15.
针对DBSCAN算法聚类参数敏感不易获取、参数固定无法适应密度不均匀数据等问题。提出了动态近邻的概念,即聚类参数随密度动态变化。设计了用于调整动态参数的近邻规模演化算法,即通过限制相对密度变化率,逐步调整近邻规模。最后根据动态的近邻规模,重新定义了DBSCAN算法核心对象的概念,并设计了基于动态近邻的DN-DBSCAN算法。仿真结果表明,DN-DBSCAN能够有效识别非凸及密度分布不均匀的数据样本,聚类效果优于传统DBSCAN算法和其他经典改进算法。  相似文献   

16.
k-NN 分类算法已广泛应用于文本挖掘和模式识别等领域, 其近邻数k直接影响着分类精度, k 值过小
时k-NN 会受到噪声的影响, k值过大时同样会降低分类精度, 为此提出一种快速选取k值的方法. 首先给出k 值的
候选集, 然后在候选集上快速地选取k 值. 在100 个公开数据集上的实验结果表明, 所提出的算法能够选取一个有效
的近邻数k 是一种效果好、有潜力的方法.   相似文献   

17.
基于移动对象增量最近邻居查询(INCNN),提出一种移动对象增量组最近邻居查询方法(INCGNN)。该方法以较小的代价求出每次更新时刻的组最近邻居。针对组最近邻居查询的特点,给出了k+1组最近邻居查询改进算法,椭圆剪枝和延迟更新3种优化查询的策略。实验结果表明,INCGNN明显优于REEGNN,3种优化策略能较好地提高查询性能。  相似文献   

18.
最近邻查询是地理信息系统领域经常遇到的问题,而反最近邻查询是在最近邻查询的基础上提出的一种新的查询类型。在分析利用Voronoi图进行最近邻查询的基础上,提出了基于Voronoi图及其对偶图Delaunay图的反最近邻查询,大大缩小了在海量空间数据库中进行反最近邻查询的查询范围。  相似文献   

19.
We present a novel strategy for approximate furthest neighbor search that selects a set of candidate points using the data distribution. This strategy leads to an algorithm, which we call DrusillaSelect, that is able to outperform existing approximate furthest neighbor strategies. Our strategy is motivated by a study of the behavior of the furthest neighbor search problem, which has significantly different structure than the nearest neighbor search problem, and can be understood with the help of an information-theoretic hardness measure that we introduce. We also present a variant of the algorithm that gives an absolute approximation guarantee; under some assumptions, the guaranteed approximation can be achieved in provably less time than brute-force search. Performance studies indicate that DrusillaSelect can achieve comparable levels of approximation to other algorithms, even on the hardest datasets, while giving up to an order of magnitude speedup. An implementation is available in the mlpack machine learning library (found at http://www.mlpack.org).  相似文献   

20.
传统的路网上的反最远邻查询是直接找出查询点的反最远邻,这种方法不但效率不高,而且需要大量内存资源进行预计算。为了更有效地解决基于路网的单色和双色反k最远邻查询问题,提高反k最远邻查询的效率,提出了从反最近邻的角度来分析反最远邻查询问题,把反最远邻查询转化为反最近邻问题。根据这一理论,提出了一种有效的基于路网的单色和双色的反k最远邻查询算法。通过实验与实验分析表明,该方法具有良好的实用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号