首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 531 毫秒
1.
利用单元间的数据分布特征,提出了二分网格的多密度聚类算法BGMC.该算法根据两相邻单元的相邻区域中样本数量的积比两相邻单元的数据量积的相对数,判断两单元间的关系,寻找相似单元和边界单元,确定边界单元数据归属.实验结果表明,该算法可以很好的区分不同密度、形状和大小的类,聚类结果与数据输入顺序和起始单元选择顺序无关,算法执行效率高,具有良好的空间和维数的可扩展性.  相似文献   

2.
李光兴 《计算机科学》2016,43(Z6):236-238, 280
根据孤立点是数据集合中与大多数数据的属性不一致的数据,边界点是位于不同密度数据区域边缘的数据对象,提出了基于相对密度的孤立点和边界点识别算法(OBRD)。该算法判断一个数据点是否为边界点或孤立点的方法是:将以该数据点为中心、r为半径的邻域按维平分为2个半邻域,由这些半邻域与原邻域的相对密度确定该数据点的孤立度和边界度,再结合阈值作出判断。实验结果表明,该算法能精准有效地对多密度数据集的孤立点和聚类边界点进行识别。  相似文献   

3.
《计算机科学与探索》2016,(11):1614-1622
密度峰聚类是一种新的基于密度的聚类算法,该算法不需要预先指定聚类数目,能够发现非球形簇。针对密度峰聚类算法需要人工确定聚类中心的缺陷,提出了一种自动确定聚类中心的密度峰聚类算法。首先,计算每个数据点的局部密度和该点到具有更高密度数据点的最短距离;其次,根据排序图自动确定聚类中心;最后,将剩下的每个数据点分配到比其密度更高且距其最近的数据点所属的类别,并根据边界密度识别噪声点,得到聚类结果。将新算法与原密度峰算法进行对比,在人工数据集和UCI数据集上的实验表明,新算法不仅能够自动确定聚类中心,而且具有更高的准确率。  相似文献   

4.
为了满足大规模数据集快速离群点检测的需要,提出了一种基于分化距离的离群点检测算法,该算法综合考虑了数据对象周围的密度及数据对象间的距离等因素对离群点的影响,通过比较每一对象与其他对象的分化距离来计算其周围的友邻点密度,挖掘出数据集中隐含的离群点。实验表明,该算法能有效地识别离群点,同时能反映出数据对象在数据集中的孤立程度。算法的复杂度较低,适用于大规模数据集快速离群点检测。  相似文献   

5.
基于密度可达的多密度聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为对多密度数据集聚类,提出一种基于密度可达的多密度聚类算法。使用网格划分技术来提高计算每个点密度值的效率,每次聚类都是从最高密度点开始,根据密度可达的概念和广度优先的策略逐步向外扩展进行聚类。实验表明,该算法能够有效地对任意形状、大小的均匀数据集和多密度数据集进行聚类,并能较好地识别出孤立点和噪声,其精度和效率优于SNN算法。  相似文献   

6.
为了解决网格聚类算法中的输入参数和聚类结果不精确问题,提出了基于局部密度的动态生成网格聚类算法(DGLD).该算法使用动态生成网格技术能大幅度地减少数据空间中生成的网格单元的数量,并简化邻居的搜索过程;采用局部密度思想解决数据空间相邻部分对网格密度的影响,提高了聚类精度.该算法不需要用户输入参数,能识别任意形状的聚类并有效地去除噪声点.实验结果表明该算法是有效的.  相似文献   

7.
密度峰值聚类算法在处理密度不均匀的数据集时易将低密度簇划分到高密度簇中或将高密度簇分为多个子簇,且在样本点分配过程中存在误差传递问题。提出一种基于相对密度的密度峰值聚类算法。引入自然最近邻域内的样本点信息,给出新的局部密度计算方法并计算相对密度。在绘制决策图确定聚类中心后,基于对簇间密度差异的考虑,提出密度因子计算各个簇的聚类距离,根据聚类距离对剩余样本点进行划分,实现不同形状、不同密度数据集的聚类。在合成数据集和真实数据集上进行实验,结果表明,该算法的FMI、ARI和NMI指标较经典的密度峰值聚类算法和其他3种聚类算法分别平均提高约14、26和21个百分点,并且在簇间密度相差较大的数据集上能够准确识别聚类中心和分配剩余的样本点。  相似文献   

8.
通常那些与数据集的一般行为或模型不一致的数据对象,可能包含某些重要的隐藏信息.在分析了基于单元网格的局部孤立因子的孤立点挖掘算法(GridLOF)的基础上,做出了相应的改进,提出了基于相邻网格密度因子的孤立点挖掘算法.  相似文献   

9.
基于OpenMP实现了一种基于空腔交叠互斥准则与无锁原子操作的Delaunay三角化增量插点细粒度并行算法。在串行算法的基础上,对点集引入Hilbert排序,使相邻点在几何上亦相邻。引入互斥机制--仅当各空腔无公共单元及公共相邻边时,才可同时插入,根据Delaunay局部性准则可保证整个网格都具备Delaunay属性。每个单元用一个原子变量标记该单元是否已被占有,在计算Delaunay空腔时,各线程将试图写入该原子变量,但本竞争机制保证有且仅有一个线程能成功获得该单元的所有权,以保证算法的互斥性。经数值实验表明,对于107的点集,该算法在16核下加速比可达7.06倍。  相似文献   

10.
提出了网格密度影响因子的概念,通过加权处理考虑了相邻网格的综合影响,能较好地代表当前网格相对密度,然后利用它来识别具有不同密度聚簇的高密度网格单元,并从高密度单元网格进行扩展,直至生成一个聚簇骨架,对边缘网格边界点进行识别和提取,提高网格聚类精度.通过实验验证,新算法能对不同大小与形状的聚簇进行聚类,可以识别具有多个密度的不同类组成的数据集,能捕获聚簇边界点,聚类效果较好.  相似文献   

11.
传统的离群检测方法多数源于单个数据集或多数据源融合后的单一数据集,其检测结果忽略了多源数据之间的关联知识和单数据源中的关键信息。为了检测多源数据之间的离群关联知识,提出一种基于相关子空间的多源离群检测算法RSMOD。结合[k]近邻集和反向近邻集的双向影响,给出面向多源数据的对象影响空间,提高了离群对象度量的准确性;在影响空间基础上,提出面向多源数据的稀疏因子及稀疏差异因子,有效地刻画了数据对象在多源数据中的稀疏程度,重新定义了相关子空间的度量,使其能适用于多源数据集,并给出基于相关子空间的离群检测算法;采用人工合成数据集和真实的美国人口普查数据集,实验验证了RSMOD算法的性能并分析了源于多数据集的离群关联知识。  相似文献   

12.
基于距离和基于密度的离群点检测算法受到维度和数据量伸缩性的挑战, 而空间数据的自相关性和异质性决定了以属性相互独立和分类属性的基于信息理论的离群点检测算法也难以适应空间离群点检测, 因此提出了基于全息熵的混合属性空间离群点检测算法。算法利用区域标志属性进行区域划分, 在区域内利用空间关系确定空间邻域, 并用R*-树进行检索。在此基础上提出了基于全息熵的空间离群度的度量方法和空间离群点挖掘算法, 有效解决了混合属性的离群度的度量和离群点的挖掘问题。由于实现区域划分有利于并行计算, 从而可适应大数据量的计算。理论和实验证明, 所提算法在计算效率和实验结果的可解释性方面均具有优势。  相似文献   

13.
现有的离群度检测算法因没有对原数据进行处理导致计算时间复杂度过高,检测效果不理想。提出一种基于网格过滤的两阶段离群点检测算法NLOF。首先使用网格过滤对原数据进行初步筛选,将密度小于特定阈值的数据放入候选异常子集中;然后为了进一步优化基于密度的算法,基于k邻域,根据邻域中数据点的个数与邻域所组成圆的面积之比,作为数据点密度计算的依据,进行离群点检测以获得更准确的离群点集。在多种公开数据集上进行实验,实验表明,该方法可以在异常检测中取得良好的性能,同时降低了算法的时间复杂度。  相似文献   

14.
鉴于传统鲁棒离群点去除算法不能准确估计过程采样数据的均值和协方差,导致基于PCA的统计建模监控影响故障诊断效果的局限性,本文提出一种综合CDCm与MVT的异常检测算法,可以克服上述缺陷.通过改进尺度方法对过程原始采样数据实现准确估计并进行中心化和标准化处理,运用采样数据中的最大变量值来计算距离,采用CDCm算法求出样本...  相似文献   

15.
局部离群点检测是近年来数据挖掘领域的热点问题之一.针对交通数据去噪问题,提出一种基于局部估计密度的局部离群点检测算法,算法使用核密度估计方法计算每个数据对象的密度估计值,来表示该数据对象的局部估计密度,并在核函数的带宽函数计算中引入数据对象的k-邻域平均距离作为其邻域信息,然后利用求出的局部估计密度计算数据对象的局部离群因子,依据局部离群因子的大小来判断数据对象是否为离群点.实验表明,该算法在UCI标准数据集与模拟数据集上都可以取得较好的表现.  相似文献   

16.
为了提高离群数据检测精度和效率,提出了一种基于相关子空间的离群数据检测算法。该算法首先根据数据局部密度分布特征得出稀疏度矩阵,通过高斯相似核函数放大稀疏度特征;然后计算各属性维中数据稀疏度相似因子,确定子空间向量及相关子空间,结合数据稀疏度和维度权值得出数据对象的离群因子,选取最大的若干个对象为离群数据;最后采用人工数...  相似文献   

17.
针对无线传感器网络(WSN)中传感器自身安全性低、检测区域恶劣及资源受限造成节点采集数据异常的问题,提出一种基于图信号处理的WSN异常节点检测算法。首先,依据传感器位置特征建立K-近邻(KNN)图信号模型;然后,基于图信号在低通滤波前后的平滑度之比构建统计检验量;最后,通过统计检验量与判决门限实现异常节点存在性的判断。通过在公开的气温数据集与PM2.5数据集上的仿真验证,实验结果表明,与基于图频域异常检测算法相比,在单个节点异常情况相同条件下,所提算法检测率提升7个百分点;在多个节点异常情况相同条件下,其检测率均达到98%,并且在网络节点异常偏离值较小时仍具有较高的检测率。  相似文献   

18.
在数据密集型计算环境中,数据的海量、高维、分布存储等特点,为数据挖掘算法的设计与实现带来了新的挑战。基于 MapReduce模型提出网格技术与基于密度的方法相结合的离群点挖掘算法,该算法分为两步:Map阶段采用网格技术删除大量不可能成为离群点的正常数据,将代表点信息发送给主节点;Reduce阶段采用基于密度的聚类方法,通过改进其核心对象选取,可以挖掘任意形状的离群点。实验结果表明,在数据密集型计算环境中,该方法能有效的对离群点进行挖掘。  相似文献   

19.
LOF(Local Outlier Factor)是一种经典基于密度的局部离群点检测算法,为提高算法的精确度,以便更精准挖掘出局部离群点,在LOF算法的基础上,提出了一种基于数据场的改进LOF离群点检测算法。通过对数据集每一维的属性值应用数据场理论,计算势值,进而引入平均势差的概念,针对每一维度中大于平均势差的任意两点在计算距离时加入一个权值,从而提高离群点检测的精确度,实验结果表明该算法是可行的,并且拥有更高的精确度。  相似文献   

20.
基于R-Tree的高效异常轨迹检测算法   总被引:1,自引:0,他引:1  
提出了异常轨迹检测算法,通过检测轨迹的局部异常程度来判断两条轨迹是否全局匹配,进而检测异常轨迹.算法要点如下:(1) 为了有效地表示轨迹的局部特征,以k个连续轨迹点作为基本比较单元,提出一种计算两个基本比较单元间不匹配程度的距离函数,并在此基础上定义了局部匹配、全局匹配和异常轨迹的概念;(2) 针对异常轨迹检测算法普遍存在计算代价高的不足,提出了一种基于R-Tree的异常轨迹检测算法,其优势在于利用R-Tree和轨迹间的距离特征矩阵找出所有可能匹配的基本比较单元对,然后再通过计算距离确定其是否局部匹配,从而消除大量不必要的距离计算.实验结果表明,该算法不仅具有很好的效率,而且检测出来的异常轨迹也具有实际意义.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号