首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
基于局部信息熵的加权子空间离群点检测算法   总被引:7,自引:0,他引:7  
离群点检测作为数据挖掘的一个重要研究方向,可以从大量数据中发现少量与多数数据有明显区别的数据对象,"维度灾殃"现象的存在使得很多已有的离群点检测算法对高维数据不再有效,针对这一问题,提出基于局部信息熵的加权子空间离群点检测算法SPOD,通过对数据对象在各维进行邻域信息熵分析,生成数据对象相应的离群子空间和属性权向量,对离群子空间中的属性赋以较高的权值,进一步提出子空间加权距离等概念,采用基于密度离群点检测的思想,分析计算数据对象的子空间离群影响因子,判断是否为离群点,算法能够有效地适应于高维数据离群点检测,理论分析和实验结果表明算法是有效可行的.  相似文献   

2.
传统的子空间学习算法包含投影学习和分类两个过程,但是这两个过程分离,且对离群点较敏感,可能导致算法无法获得整体最优解。为此,提出了一种基于局部保持投影的鲁棒稀疏子空间学习算法。该算法将特征学习和分类模型相结合,使学习得到的子空间特征更具有判别性;利用L2,1范数的行稀疏性质,剔除冗余特征,同时在算法模型中考虑数据样本的局部关系来提高对离群点的鲁棒性;最后采用交替迭代方法来求解该模型。在不同数据集上的实验结果表明该算法具有较好的识别效果。  相似文献   

3.
现有的离群度检测算法因没有对原数据进行处理导致计算时间复杂度过高,检测效果不理想。提出一种基于网格过滤的两阶段离群点检测算法NLOF。首先使用网格过滤对原数据进行初步筛选,将密度小于特定阈值的数据放入候选异常子集中;然后为了进一步优化基于密度的算法,基于k邻域,根据邻域中数据点的个数与邻域所组成圆的面积之比,作为数据点密度计算的依据,进行离群点检测以获得更准确的离群点集。在多种公开数据集上进行实验,实验表明,该方法可以在异常检测中取得良好的性能,同时降低了算法的时间复杂度。  相似文献   

4.
AIS数据是指通过AIS系统获取的船舶运动轨迹信息, 对其进行挖掘可以获得船舶的运动模式、航行路线、停靠地点等信息. 但其在采集过程中产生的离群点会对聚类等任务造成负面影响, 因此对AIS数据挖掘之前需要进行离群点检测. 然而, 当AIS轨迹数据中存在大量离群点时, 会导致大多数离群点检测算法的准确率显著下降. 为了解决这个问题, 本文提出了一种基于中心移动的轨迹离群点检测算法(center shift outlier detection, CSOD). 通过迫使数据点向其K近邻集合的中心移动, 使每个数据点更加接近典型数据, 从而有效地消除了离群点对聚类的影响. 为了验证本文算法的有效性, 使用浙江海域AIS渔船轨迹数据集, 将本文提出的CSOD算法与一些经典的离群点检测算法进行了对比实验. 实验结果表明, CSOD算法整体上性能更加优越.  相似文献   

5.
针对轨迹聚类算法在相似性度量中多以空间特征为度量标准,缺少对时间特征的度量,提出了一种基于时空模式的轨迹数据聚类算法。该算法以划分再聚类框架为基础,首先利用曲线边缘检测方法提取轨迹特征点;然后根据轨迹特征点对轨迹进行子轨迹段划分;最后根据子轨迹段间时空相似性,采用基于密度的聚类算法进行聚类。实验结果表明,使用所提算法提取的轨迹特征点在保证特征点具有较好简约性的前提下较为准确地描述了轨迹结构,同时基于时空特征的相似性度量因同时兼顾了轨迹的空间与时间特征,得到了更好的聚类结果。  相似文献   

6.
针对目前煤矿人员定位系统主要采用区域定位方式,存在无法直接解算出井下人员的精确位置和无法确定井下人员运动方向的问题,提出了一种基于树形结构、通过构建拓扑关系计算井下人员可能行走轨迹的算法。该算法首先定义了点与弧段、弧段与弧段以及弧段与点的拓扑模型,并以此为基础构建树形结构,对其进行层次遍历,得到井下人员行走轨迹;在计算过程中,该算法利用井下接收器的实时状态信息,自动排除停止工作的接收器和分站对轨迹的影响,有效确保了轨迹的准确性。  相似文献   

7.
针对时间序列,提出了一种基于残差统计的加性离群点检测算法,利用AR模型对时间序列进行前向与后向拟合;采用了数据相对变化率判别法减少离群点对拟合的影响;根据假设检验原理,以高斯分布统计检验对残差进行统计分析并最终确定离群点。仿真结果表明,该方法对离群点检测有较高的准确性。  相似文献   

8.
NLOF:一种新的基于密度的局部离群点检测算法   总被引:1,自引:0,他引:1  
基于密度的局部离群点检测算法(LOF)的时间复杂度较高且不适用于大规模数据集和高维数据集的离群点检测。通过对LOF算法的分析,提出了一种新的局部离群点检测算法NLOF,该算法的主要思想如下:在数据对象邻域查询过程中,尽可能地利用已知信息优化邻近对象的邻域查询操作,有关邻域的计算查找都采用这种思想。首先通过聚类算法DBSCAN对数据集进行预处理,得到初步的异常数据集。然后利用LOF算法中计算局部异常因子的方法计算初步异常数据集中对象的局部异常程度。在计算数据对象的局部异常因子的过程中,引入去一划分信息熵增量,用去一划分信息熵差确定属性的权重,対属性的权值做具体的量化,在计算各对象之间的距离时采用加权距离。 在真实数据集上 对NLOF算法进行了充分的验证。结果显示,该算法能够提高离群点检测的精度,降低时间复杂度,实现有效的局部离群点的检测。  相似文献   

9.
为了深入挖掘校园无线网络轨迹行为数据信息,采用基于密度的聚类方法对校园内用户的轨迹行为进行特征聚类。由于基于密度的聚类算法通常采用距离作为相似性度量方式,为了有效衔接此类聚类算法,先将用户相似度矩阵通过转换函数转变为距离矩阵。引入离群点检测算法,将离群点检测算法与聚类算法相结合,减少参数的输入个数,增加聚类的聚合程度。改进后的聚类算法可以有效检测出数据轨迹的异常,帮助高校通过对学生上网记录的处理找到浏览信息与大部分同学不一致的人,缩小目标范围,进行有针对性的处理。通过定性分析和实验对比验证,确定两种基于离群点检测的共享最近邻的快速搜索密度峰值聚类适用于校园无线网络行为轨迹相似度矩阵的处理,邓恩指数等聚类内部指标及整体性能优于同类算法。  相似文献   

10.
该文提出在高维空间下离群点发现技术的新方法,即利用粗糙集的属性约简技术减少高维空间的维数,并在各个关联规则子空间下对数据集进行基于密度的离群点挖掘,使高维空间下的离群点挖掘更具有实用性。数据分析表明,该算法能有效地发现高维空间数据集中的离群点。  相似文献   

11.
定位技术的快速发展催生了轨迹大数据,轨迹数据中总是存在着明显偏离轨迹的异常点。检测出轨迹中的异常点对提高数据质量和后续知识发现精度至关重要。目前轨迹异常点检测算法主要为恒定速度阈值法,没有考虑目标在不同时刻运动状态的变化,仅能检测出速度超出指定阈值的一部分异常点,甚至出现检测错误的情况,算法鲁棒性较差。针对现有问题,本文提出一种基于自适应阈值的轨迹异常点检测算法(Trajectory Outlier Detection Algorithm based on adaptive Threshold, TODAT)。TODAT算法充分考虑了目标在一段时间内的运动信息和观测噪声的影响,采用局部阈值窗和均值滤波窗来计算阈值和速度,同时又引入了经济航速阈值和连续异常点放回机制。基于真实船舶数据的实验结果表明,本文算法可根据轨迹数据得到自适应的阈值,有效检测出全部异常点,大幅度提高轨迹数据的质量。  相似文献   

12.
为解决井下人员定位算法定位精度不高的问题,提出基于微惯性导航系统和无线传感器网络的井下组合导航定位算法.通过井下无线网络、惯性定位终端采集相关信息数据,利用行人航迹推算算法和改进加权质心定位算法分别估算出目标点的坐标和速度.将这两种算法通过正弦余弦蝙蝠融合算法优化后的卡尔曼滤波组合导航定位,估算出目标点最终的位置坐标....  相似文献   

13.
Trajectory outlier detection is one of the most popular trajectory data mining topics. It helps researchers obtain a lot of valuable information that can be used as important guidance in monitoring and forecasting. Existing methods have difficulty in detecting the outlying trajectories with continuous multi-segment exception. To address the problem, in this paper, we propose a novel trajectory outlier detection algorithm based on common slices sub-sequence (TODCSS). For each trajectory, the direction-code sequence is firstly calculated based on the direction of each trajectory segment. Secondly, the corresponding sequence consisting of trajectory slices is obtained by inflection point segmentation. And then, the common slices sub-sequences between two trajectories are found to measure their distance. Finally, the slice outliers and trajectory outliers are detected based on the new CSS distance calculation. Both the intuitive visualization presentation and the experimental results on real Atlantic hurricane dataset, real-life mobility trajectory dataset of taxis in San Francisco and synthetic labeled dataset show that the proposed TODCSS algorithm effectively detects slice and trajectory outliers, and improves accuracy and stability in trajectory outlier detection.  相似文献   

14.
针对传统的行人航位推算(PDR)算法由于步长和航向累积误差导致定位精度较低,不能满足井下人员精准定位需求的问题,提出了一种基于长短时间记忆网络(LSTM)个性化步长估计的井下人员精准定位PDR算法。首先采集井下人员运动中的加速度、陀螺仪惯性信息,解算每一步运动距离构建步长数据,通过离线训练获得井下人员个性化步长估计LSTM模型;然后在在线预测阶段通过矿用本安智能手机实时采集加速度、陀螺仪、地磁等井下人员运动数据,分别采用步伐检测算法、个性化步长估计模型获得井下人员运动步伐及每一步的步长,利用卡尔曼滤波融合航向估计算法获得航向角;最后根据步长估计和航向角预测井下人员当前位置。在内蒙古鄂尔多斯市高头窑煤矿采集井下人员运动数据进行试验,结果表明:基于LSTM个性化步长估计的井下人员精准定位PDR算法对井下人员运动中的步伐检测精度为96.5%,步长预测精度为90%;在井下真实环境中的相对定位误差为2.33%,提高了煤矿井下人员定位的精度。  相似文献   

15.
With the rapid proliferation of GPS-equipped devices, a myriad of trajectory data representing the mobility of various moving objects in two-dimensional space have been generated. This paper aims to detect the anomalous trajectories with the help of the historical trajectory dataset and the popular routes. In this paper, both of spatial and temporal abnormalities are taken into consideration simultaneously to improve the accuracy of the detection. Previous work has developed a novel time-dependent popular routes based algorithm named TPRO. TPRO focuses on finding out all outliers in the historical trajectory dataset. But in most cases, people do not care about which trajectory in the dataset is abnormal. They only yearn for the detection result of a new trajectory that is not included in the dataset. So this paper develops the the upgrade version of TPRO, named TPRRO. TPRRO is a real-time outlier detection algorithm and it contains the off-line preprocess step and the on-line detection step. In the off-line preprocess step, TTI (short for time-dependent transfer index) and hot TTG (short for time-dependent transfer graph) cache are constructed according to the historical trajectory dataset. Then in the on-line detection step, TTI and hot TTG cache are used to speed up the detection progress. The experiment result shows that TPRRO has a better efficiency than TPRO in detecting outliers.  相似文献   

16.
为了在海量轨迹数据库中高效准确地挖掘出异常轨迹,提出了基于划分的异常轨迹检测算法。该算法通过计算局部轨迹点之间的匹配程度来探测异常轨迹,将异常轨迹检测由形状匹配问题转化为传统的异常点检测问题,并设计了一种基于空间划分的网格索引结构,提高算法的运行效率。实验证明,该算法不仅具有较高的挖掘效率,而且能够检测出更具实际意义的异常轨迹。  相似文献   

17.
传统的行人航位推算(PDR)算法用于井下人员定位时,因步频检测、步长估计和航向估计阶段的姿态累计误差导致定位误差逐渐增大,而常用的零速校正、航向漂移消除、步态信号优化等误差修正方法无法改变PDR算法的固有缺陷,定位精度有待提高。提出采用改进的峰值检测法实现PDR算法中步频检测,基于深度循环神经网络(RNN)实现步长估计。将改进的PDR算法用于井下人员定位:首先采用手机加速度传感器、陀螺仪、磁力计获取行人运动数据;然后采用改进的峰值检测法获取固定时间间隔内的平均步频,与时间间隔、加速度及加速度方差作为特征输入训练后的深度RNN模型进行步长估计;最后结合估计的航向角预测人员当前位置。试验结果表明,改进的井下人员定位PDR算法对测试集数据的预测相对误差为5.9%,对实际测试路线的定位相对误差为1.6%~3.9%,小于传统PDR算法定位误差,有效提高了井下人员定位精度。  相似文献   

18.
郝美薇  戴华林  郝琨 《计算机应用》2017,37(10):2946-2951
针对传统的K-means算法无法预先明确聚类数目,对初始聚类中心选取敏感且易受离群孤点影响导致聚类结果稳定性和准确性欠佳的问题,提出一种改进的基于密度的K-means算法。该算法首先基于轨迹数据分布密度和增加轨迹数据关键点密度权值的方式选取高密度的轨迹数据点作为初始聚类中心进行K-means聚类,然后结合聚类有效函数类内类外划分指标对聚类结果进行评价,最后根据评价确定最佳聚类数目和最优聚类划分。理论研究与实验结果表明,该算法能够更好地提取轨迹关键点,保留关键路径信息,且与传统的K-means算法相比,聚类准确性提高了28个百分点,与具有噪声的基于密度的聚类算法相比,聚类准确性提高了17个百分点。所提算法在轨迹数据聚类中具有更好的稳定性和准确性。  相似文献   

19.
戚欣  梁伟涛  马勇 《计算机应用》2017,37(7):2106-2113
针对传统的路径规划算法并不一定能计算得到现实中最优路径的问题,提出一种融合了出租车驾驶经验并以时间为度量的路径规划算法。该算法的实现是将路径规划这个以计算为中心的技术变为以数据为中心的数据驱动挖掘技术。首先,从大量的出租车轨迹数据中提取真实的载人轨迹数据,并将载人轨迹数据匹配到路网数据中;然后,根据地图匹配结果计算路段的访问频次,选取前Top-k个路段作为热点路段;其次,计算热点路段间行车轨迹的相似度,对轨迹进行聚类分析,在路网的基础上构建该k个路段的热点路段图;最后,使用一种改进的A*算法实现路径规划。实验结果表明,与传统的最短路径规划算法和基于驾驶经验路网分层的路径规划算法相比,所提出的基于热点路段图的路径规划方法有效地缩短规划路径的长度及路径行驶时间,提高路径规划的用时效率。  相似文献   

20.
研究航迹数据异值识别方法,给出了一种适应于含有大量斑点型异常信息识别的滑动容错辨识算法。飞行试验数据处理结果表明,该方法对含有斑点型异值的航迹测量数据有很好的处理效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号