共查询到20条相似文献,搜索用时 78 毫秒
1.
2.
3.
离群点是与其他正常点属性不同的一类对象,其检测技术在各行业上均有维护数据纯度、保障业内安全等重要应用,现有算法大多是基于距离、密度等传统方法判断检测离群点.本算法给每个对象分配一个"孤立度",即该点相对其邻点的孤立程度,通过排序进行判定,比传统算法效率更高.在AP(affinity propagation)聚类算法的基础上进行改进与优化,提出能检测异常数据点的算法APO(outlier detection algorithm based on affinity propagation).通过加入孤立度模块并计算处理样本点的孤立信息,并引入放大因子,使其与正常点之间的差异更明显,通过增大算法对离群点的敏感性,提高算法的准确性.分别在模拟数据集和真实数据集上进行对比实验,结果表明:该算法与AP算法相比,对离群点的敏感性更加强烈,且本算法检测离群点的同时也能聚类,是其他检测算法所不具备的. 相似文献
4.
基于密度的最小生成树聚类算法,将最小生成树理论与基于密度的方法相结合,不仅体现了基于密度聚类方法的优点,而且聚类结果不依赖于用户参数的选择,聚类结果更合理,特别是对大数据集,算法非常有效。因此,本文在基于密度的MST聚类的基础上,通过减少数据集扫描次数以提高离群检测的效率。理论分析表明,检测算法可以有效地处理分布不均的数据集,适用于大规模数据集的挖掘。 相似文献
5.
目前,大部分离群点检测算法需要人工输入参数,不能同时检测出全局和局部离群点,不能有效处理密度不均匀数据。针对这些问题,提出一种基于密度划分的离群点检测算法DD-DBSCAN。主要创新包括:1)运用最小生成树的方法,新定义簇密度概念,将数据录入后划分成密度不等的簇,使算法能够处理密度分布不均匀的数据;2)采用"分而治之"的思想,对经过划分的数据集分别进行离群点检测,使得算法能够同时处理全局和局部离群点;3)通过在各个簇中自适应地计算所需参数值,算法不再需要人工输入参数(聚类半径(Eps)等)。通过在2D模拟数据集和Iris真实数据集上的实验表明,与DBSCAN算法比较,本文算法具有更高的覆盖率和正确率。 相似文献
6.
NLOF:一种新的基于密度的局部离群点检测算法 总被引:1,自引:0,他引:1
基于密度的局部离群点检测算法(LOF)的时间复杂度较高且不适用于大规模数据集和高维数据集的离群点检测。通过对LOF算法的分析,提出了一种新的局部离群点检测算法NLOF,该算法的主要思想如下:在数据对象邻域查询过程中,尽可能地利用已知信息优化邻近对象的邻域查询操作,有关邻域的计算查找都采用这种思想。首先通过聚类算法DBSCAN对数据集进行预处理,得到初步的异常数据集。然后利用LOF算法中计算局部异常因子的方法计算初步异常数据集中对象的局部异常程度。在计算数据对象的局部异常因子的过程中,引入去一划分信息熵增量,用去一划分信息熵差确定属性的权重,対属性的权值做具体的量化,在计算各对象之间的距离时采用加权距离。 在真实数据集上 对NLOF算法进行了充分的验证。结果显示,该算法能够提高离群点检测的精度,降低时间复杂度,实现有效的局部离群点的检测。 相似文献
7.
文中基于对传统Apriori算法的改进,提出了一种基于规则的离群数据挖掘算法。该算法在数据结构中增加标识符链表后,计算了1-离群条件集的幂集,使得仅需对原数据库进行一次扫描,从而降低了该算法的时间复杂度。同时由于兴趣度的引入使得挖掘的结果也更有针对性和目的性。该算法被应用于某求职系统的离群数据分析中,实验表明该算法是可行有效的。 相似文献
8.
文中基于对传统Apriori算法的改进,提出了一种基于规则的离群数据挖掘算法。该算法在数据结构中增加标识符链表后,计算了1-离群条件集的幂集,使得仅需对原数据库进行一次扫描,从而降低了该算法的时间复杂度。同时由于兴趣度的引入使得挖掘的结果也更有针对性和目的性。该算法被应用于某求职系统的离群数据分析中,实验表明该算法是可行有效的。 相似文献
9.
《计算机应用与软件》2018,(3)
DV-Hop算法在无线传感器网络节点分布不均匀时定位误差较大。针对上述问题,利用离群点检测算法提高计算未知节点坐标的精度。在采用多边测量算法估计未知节点的坐标位置时用离群点检测算法LOF对未知节点的估计坐标进行分析和筛选,最终确定未知节点位置。仿真实验表明,该方法能提高节点的定位精度,减小定位误差。 相似文献
10.
离群点检测是数据挖掘一个重要内容,它为分析各种海量的、复杂的、含有噪声的数据提供了新的方法。对离群数据挖掘几类主要的方法进行了分析和评价,并在此基础上了提出了一种基于遗传聚类的离群点检测算法。该算法结合了遗传算法全局搜索的优点和K-均值方法局部收敛速度快的特点,取得较好效果。实验验证该算法很好地检测到数据集中的离群点,同时还完成了数据集的聚类。具有较好的实用性。 相似文献
11.
12.
《软件》2017,(4):18-25
教学评价是大学教学活动中不可缺少的环节,可能出现故意抬高或压低评分及虚假评分的现象,应该找出这些离群数据并加以清除,以提高学生评教数据的正确性。离群点检测问题是数据挖掘技术的重要研究领域之一,本文实验所用教学评价数据属于分类型数据,目前针对分类型数据的离群点检测算法常用的有基于信息熵的贪婪算法和基于频率的AVF算法。针对贪婪算法时间复杂度较高,AVF算法不够准确的问题,本文提出一种改进的基于频率的离群点检测算法。本文算法首先采用改进的k-modes算法对教学评价数据进行聚类,并提出应用调整的余弦相似度公式作为相似性度量,筛选出远离簇中心的候选离群点,最后通过基于频率的离群点检测算法对候选集进行检测。在真实数据集上的实验表明算法在精确度和效率方面均具有优势。 相似文献
13.
随着移动网络、智能终端的迅猛发展,基于位置的服务LBS(Location-based Service)越来越热门,因此基站位置信息的正确与否成为关注的重点.针对基站地理位置存在部分错误这一现象,提出了基于网格概率的离群点检测算法来核查错误的基站.首先,根据基站分布的规则将数据空间分成若干网格单元;其次,根据用户轨迹签到信息关联出其在动态时间范围内经过的基站序列,将基站序列映射到网格中,计算出临近网格单元集合;最后,根据基站分布特点对网格单元内目标基站的临近基站求隶属概率,筛选出离群点,即错误的基站.实验表明,该算法的时间复杂度低且核实准确率较高. 相似文献
14.
15.
16.
《计算机科学与探索》2016,(12):1763-1772
异常点检测在机器学习和数据挖掘领域中有着十分重要的作用。当前异常点检测算法的一大缺陷是正常数据在边缘处异常度较高,导致在某些情况下误判异常点。为了解决该问题,提出了一种新的基于邻域离散度的异常点检测算法。该算法将数据点所在邻域的离散度作为该数据点的异常度,既能有效避免边缘数据点的异常度过高,又能较好地区分正常点与异常点。实验结果表明,该算法能够有效地检测数据中的异常点,并且算法对参数选择不敏感,性能较为稳定。 相似文献
17.
基于R-Tree的高效异常轨迹检测算法 总被引:1,自引:0,他引:1
提出了异常轨迹检测算法,通过检测轨迹的局部异常程度来判断两条轨迹是否全局匹配,进而检测异常轨迹.算法要点如下:(1) 为了有效地表示轨迹的局部特征,以k个连续轨迹点作为基本比较单元,提出一种计算两个基本比较单元间不匹配程度的距离函数,并在此基础上定义了局部匹配、全局匹配和异常轨迹的概念;(2) 针对异常轨迹检测算法普遍存在计算代价高的不足,提出了一种基于R-Tree的异常轨迹检测算法,其优势在于利用R-Tree和轨迹间的距离特征矩阵找出所有可能匹配的基本比较单元对,然后再通过计算距离确定其是否局部匹配,从而消除大量不必要的距离计算.实验结果表明,该算法不仅具有很好的效率,而且检测出来的异常轨迹也具有实际意义. 相似文献
18.
提出了一种基于多示例学习(multi-instance learning,MIL)的局部离群点检测算法,称之为MIL-LOF(a local outlier factor based on multi-instance learning).算法采用MIL框架,首先将真实对象提取为多示例形式,然后运用退化策略和权重调整方法,计算综合离群点因子,最后检测离群点.在实际企业监控数据以及公共数据集上将MIL-LOF与经典局部离群点检测算法及其优化算法进行了对比实验,结果表明本文提出的MIL-LOF算法在准确性、全面性及高效性上相对其他算法均可获得较为明显的提高. 相似文献
19.
一种基于划分的孤立点检测算法 总被引:7,自引:0,他引:7
孤立点是不具备数据一般特性的数据对象.划分的方法是通过将数据集中的数据点分布的空间划分为不相交的超矩形单元集合,匹配数据对象到单元中,然后通过各个单元的统计信息来发现孤立点.由于大多真实数据集具有较大偏斜,因此划分后会产生影响算法性能的大量空单元.由此,提出了一种新的索引结构--CD-Tree(cell dimension tree),用于索引非空单元.为了优化CD-Tree结构和指导对数据的划分,提出了基于划分的数据偏斜度(skew of data,简称SOD)概念.基于CD-Tree与SOD,设计了新的孤立点检测算法.实验结果表明,该算法与基于单元的算法相比,在效率及有效处理的维数方面均有显著提高. 相似文献
20.
传统的离群检测方法多数源于单个数据集或多数据源融合后的单一数据集,其检测结果忽略了多源数据之间的关联知识和单数据源中的关键信息。为了检测多源数据之间的离群关联知识,提出一种基于相关子空间的多源离群检测算法RSMOD。结合[k]近邻集和反向近邻集的双向影响,给出面向多源数据的对象影响空间,提高了离群对象度量的准确性;在影响空间基础上,提出面向多源数据的稀疏因子及稀疏差异因子,有效地刻画了数据对象在多源数据中的稀疏程度,重新定义了相关子空间的度量,使其能适用于多源数据集,并给出基于相关子空间的离群检测算法;采用人工合成数据集和真实的美国人口普查数据集,实验验证了RSMOD算法的性能并分析了源于多数据集的离群关联知识。 相似文献