共查询到20条相似文献,搜索用时 62 毫秒
1.
为了深入挖掘校园无线网络轨迹行为数据信息,采用基于密度的聚类方法对校园内用户的轨迹行为进行特征聚类。由于基于密度的聚类算法通常采用距离作为相似性度量方式,为了有效衔接此类聚类算法,先将用户相似度矩阵通过转换函数转变为距离矩阵。引入离群点检测算法,将离群点检测算法与聚类算法相结合,减少参数的输入个数,增加聚类的聚合程度。改进后的聚类算法可以有效检测出数据轨迹的异常,帮助高校通过对学生上网记录的处理找到浏览信息与大部分同学不一致的人,缩小目标范围,进行有针对性的处理。通过定性分析和实验对比验证,确定两种基于离群点检测的共享最近邻的快速搜索密度峰值聚类适用于校园无线网络行为轨迹相似度矩阵的处理,邓恩指数等聚类内部指标及整体性能优于同类算法。 相似文献
2.
船舶自动识别系统(automatic identification system, AIS)数据中蕴含着大量的船舶行为相关信息,从中提取出有效的航线,在海事监管、船只勘查等方面具有广泛应用。本文提出一种基于GRU自编码器(gate recuurent unit auto-encoder,GRU-AE)的船舶航线提取方法,首先采用GRU编码器将原始轨迹数据编码为统一格式的深度特征信息,其次利用DBSCAN (density-based spatial clustering of applications with noise)算法对深度特征信息进行聚类,最后将深度特征类簇中心通过解码器反演生成相应的船舶航线,从而实现在海量AIS数据中挖掘船舶轨迹规律。以波士顿港口为例,分析一年时间内10万多条AIS的船舶航行数据,实验表明本方法可对不同长度轨迹数据进行聚类及其航线提取,并可支撑船舶轨迹异常检测、路径规划、位置预测等研究,具有较好的应用适应性。 相似文献
3.
4.
提出了一种基于网格技术的高维大数据集离群点挖掘算法(OMAGT)。该算法针对高维大数据集的分布特性,首先采用基于网格技术的方法寻找出聚类区域,并删除聚类区域内不可能成为离群点的聚类点集,然后运用局部离群因子(LOF)算法对剩下的点集进行离群点挖掘。OMAGT算法较好地实现了聚类信息的动态释放,将保留的离群点挖掘信息控制在一定的内存容量范围内,提高了算法的时间效率和空间效率。理论分析与实验结果表明OMAGT算法是可行和有效的。 相似文献
5.
研究网络热点事件准确检测问题,收集网络文本数据中含有大量的离群点,由于离群点一些噪声数据,对网络热点事件检测产生不利影响.为提高检测正确率,提出一种采用离群点剔除的网络热点事件挖掘算法.首先通过计算数据点的密度相似度,将小于阈值的离群点剔除,降低计算复杂度和离群点的不利影响,然后采用模糊C均值聚类算法对网络文本进行聚类,发现其中的热点事件,最后通过仿真测试算法的有效性.仿真结果表明,改进算法剔除网络中的离群点,不仅提高了网络热点事件检测正确率,而且降低算法计算复杂度,加快了网络热点事件挖掘速度,更加适合于网络热点事件在线挖掘要求. 相似文献
6.
离群点检测和分析离群模式隐含的特征是离群点挖掘的重要研究内容.现有离群点检测算法存在两个明显的不足:根据离群度检测离群点,难以确定离群点的数量;忽略了与离群点邻接的聚类信息,不能提供解析离群模式的有效证据.为此,提出一种基于共享反K近邻的离群点检测算法,首先定义了一种对密度和维数变化不敏感的共享反K近邻相似度,然后应用聚类方法将数据集划分为聚类簇和包含离群点的离群簇,从而获取数据集中的离群点及解析离群点的聚类结构.仿真结果表明,反K近邻算法比现有方法更能精确地检测数据集中的局部离群点,具有很好的控制性能. 相似文献
7.
8.
离群点是与其他正常点属性不同的一类对象,其检测技术在各行业上均有维护数据纯度、保障业内安全等重要应用,现有算法大多是基于距离、密度等传统方法判断检测离群点.本算法给每个对象分配一个"孤立度",即该点相对其邻点的孤立程度,通过排序进行判定,比传统算法效率更高.在AP(affinity propagation)聚类算法的基础上进行改进与优化,提出能检测异常数据点的算法APO(outlier detection algorithm based on affinity propagation).通过加入孤立度模块并计算处理样本点的孤立信息,并引入放大因子,使其与正常点之间的差异更明显,通过增大算法对离群点的敏感性,提高算法的准确性.分别在模拟数据集和真实数据集上进行对比实验,结果表明:该算法与AP算法相比,对离群点的敏感性更加强烈,且本算法检测离群点的同时也能聚类,是其他检测算法所不具备的. 相似文献
9.
针对数据流中离群点挖掘问题,在K-means聚类算法基础上,提出了基于距离的准则进行数据间离群点判断的离群点检测DOKM算法。根据数据流概念漂移检测结果来自适应地调整滑动窗口大小,从而实现对数据流的离群点检测,与其他离群点算法的一系列实验验证和对比结果表明,DOKM算法在人工数据集和真实数据集中均可以实现对离群点的有效检测。 相似文献
10.
11.
对于离群点的形成,不同的属性起着不同的作用,离群点在不同的属性域中,会表现出不同的离群特性,在大多数情况下,高维数据空间中的对象是否离群往往取决于这些对象在低维空间中的投影。针对如何将离群点按照形成原因分类的问题,引入离群属性和离群簇等概念,以现有离群挖掘技术为基础,提出了基于离群分类来进行离群点分析的方法,实现了基于聚类的离群点分类算法CBOC(cluster-based outlier classification),以揭示离群点的内涵知识。实验表明了该方法在实际应用中的有效性。 相似文献
12.
一种两阶段异常检测方法 总被引:4,自引:0,他引:4
提出了一种新的距离和对象异常因子的定义,在此基础上提出了一种两阶段异常检测方法TOD,第一阶段利用一种新的聚类算法对数据进行聚类,第二阶段利用对象的异常因子检测异常.TOD的时间复杂度与数据集大小成线性关系,与属性个数成近似线性关系,算法具有好的扩展性,适合于大规模数据集.理论分析和实验结果表明TOD具有稳健性和实用性. 相似文献
13.
基于距离的孤立点检测及其应用 总被引:13,自引:2,他引:13
孤立点检测是一个有趣的知识发现任务,文章介绍了基于距离的孤立点检测及其相关概念,分析了几种有代表性的算法。最后,文章给出了一个判定孤立点的新的定义,并按此定义进行了检测算法,用实际数据进行了实验。实验结果表明,新的定义不仅与DB(p,d)孤立点定义有着相同的结果,而且简化了孤立点检测对用户的需求,同时给出了数据对象在数据集中的孤立程度。 相似文献
14.
15.
基于密度的局部离群点检测算法 总被引:1,自引:0,他引:1
基于统计学和基于距离的离群点检测都依赖与给定数据点集的全局分布,然而数据通常并非都是均匀分布的。当分析分布密度相差很大的数据时,基于密度的局部离群点检测方法有着很好的识别局部离群点的能力。但存在时间复杂度较大,文章提出了一种改进的算法,能降低时间复杂度,实现有效的局部离群点的检测。 相似文献
16.
基于规则的分类数据离群挖掘方法研究 总被引:15,自引:0,他引:15
离散数据的挖掘(outlier minign,简称离群挖掘)是数据挖掘的重要内容,现有的离群数据挖掘算法大多对分类数据(categorical data)缺乏有效的处理,提出了基于规则的分类数据离群挖掘方法,采用多层最大离群支持度maxsup,搜索离群规则,有效地解决了这一问题,用这一方法对医学流行病数据进行了各种,分析了该方法的适用范围、性能,验证了方法正确性;另外,实验表明,经过离散化后,基于 相似文献
17.
18.
提出了基于聚类的孤立点检测算法,减小了孤立点检测的时间复杂度,理论和实验证明了基于聚类的孤立点检测算法的有效性. 相似文献
19.
提出一种新的基于粒子群优化算法的属性异常检测算法。该算法利用粒子群优化算法简单、寻优速度快的优点检测属性异常,在粒子群寻找最优值的过程中发现可能是属性异常的数据,并采用Omeasure适应度评估属性异常,算法的时间复杂度是多项式级的。与全搜索检测算法相比,大幅减少了搜索范围;同时,与完全随机算法相比,采用启发式搜索规则,提高了查全率及查准率。实验结果表明,粒子群检测算法不仅执行效率高,而且保持了较高的查全率与查准率。 相似文献
20.
基于空间约束的离群点挖掘 总被引:1,自引:0,他引:1
由于现有的空间离群点检测算法没有很好地解决空间数据的自相关性和异质性约束问题,提出用计算邻域距离的方法解决空间自相关性约束问题,用计算空间局部离群系数的方法解决空间异质性约束问题。用离群系数表示对象的离群程度,并将离群系数按降序排列,取离群系数最大的前m个对象为离群点,据此提出基于空间约束的离群点挖掘算法。实验结果表明,所提算法比已有算法具有更高的检测精度、更低的用户依赖性和更高的效率。 相似文献