首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
K-Means聚类算法研究综述   总被引:2,自引:0,他引:2       下载免费PDF全文
K-均值(K-Means)算法是聚类分析中一种基于划分的算法,同时也是无监督学习算法。其具有思想简单、效果好和容易实现的优点,广泛应用于机器学习等领域。但是K-Means算法也有一定的局限性,比如:算法中聚类数目K值难以确定,初始聚类中心如何选取,离群点的检测与去除,距离和相似性度量等。从多个方面对K-Means算法的改进措施进行概括,并和传统K-Means算法进行比较,分析了改进算法的优缺点,指出了其中存在的问题。对K-Means算法的发展方向和趋势进行了展望。  相似文献   

2.
农业垂直搜索引擎中的价格数据来源于各个农业网站,由于多种因素,采集到的数据中存在大量异常数据。同时,采集到的农产品价格数据具有其自身的特点,这些特点使得传统的异常数据检测方法不能够很好的工作。针对搜索引擎采集到的海量农产品价格数据,提出了一种异常价格数据的检测方法。实际应用表明,该方法能够取得很好的效果。  相似文献   

3.
在石油钻井工程中,由于技术和设备的客观因素,导致录井数据经常出现异常值,影响了录井解释评价精度。针对该问题,提出了一种基于BP神经网络的录井异常数据处理方法。为了在构建数据环节中提供准确且可信的工程数据,研究了录井异常数据的产生原因及异常数据的表征,并且通过对比格鲁布斯法、K-means聚类算法以及BP神经网络等方法的特点,选择BP神经网络作为异常值处理的方法。通过模型预测的录井数据误差平方值与样本数据的均方根误差进行比较,来确定数据的异常情况,保证检测异常点的合理性。经实验验证和同类算法的比较,表明了BP神经网络模型可以实现检测录井异常点数据,且检测异常点的准确率高于同类算法,处理异常点结果可信,能够有效解决因异常点数据所带来的问题。  相似文献   

4.
随着大数据应用的普及,网络攻击日益严重并已成为主要的网络安全问题。针对大数据环境下的网络攻击检测问题,设计一种融合聚类和智能蝙蝠算法(DEBA)的网络攻击检测系统。该系统将K-means算法与蝙蝠算法相结合进行数据流分类,实现了对异常数据的高效检测。实验结果显示,该系统的聚类准确率、算法耗时和误报率方面明显优于基于传统蝙蝠算法的K-means算法和单独K-means算法的网络异常数据检测方法。  相似文献   

5.
李涵  包立辉 《计算机应用与软件》2006,23(10):126-127,133
针对目前网络入侵检测现状,提出了将聚类算法应用到异常入侵检测中,并对K-means算法进行了改进。实验采用KDD Cup1999的测试数据,结果表明该方法是有效的。  相似文献   

6.
针对集中式系统框架难以进行海量数据聚类分析的问题,提出基于MapReduce的K-means聚类优化算法。该算法运用MapReduce并行编程框架,引入Canopy聚类,优化K-means算法初始中心的选取,改进迭代过程中通信和计算模式。实验结果表明该算法能够有效地改善聚类质量,具有较高的执行效率以及优良的扩展性,适合用于海量数据的聚类分析。  相似文献   

7.
针对当前工业异常数据检测技术未充分考虑数据的时序特征以及训练样本中可能含有异常样本的问题,提出一种检测异常数据的方法:基于时序特征将遥测量与遥信量分为离散量与连续变化量,并分别通过改进后的K-均值算法与传统自回归模型检测离散量与连续变化量的异常数据,在训练聚类模型的过程中,通过计算异常因子来剔除含有异常样本的聚类簇,在训练自回归模型过程中,将不属于正常取值区间的异常样本剔除。最后在OMNeT 平台下搭建仿真小型储水加热工业系统并进行验证,实验结果表明:该方法可以有效地检测出现场设备中的异常数据,相比于其他同类基于聚类的异常检测模型,采用该方法检测异常数据的漏报率更低。  相似文献   

8.
9.
通过分析常见异常流量的内在特征,在Chameleon算法的基础上,设计了一种基于聚类的异常流量检测算法。通过对DARPA1998数据集的实验结果表明,该算法能够在没有先验知识的前提下,对影响正常网络性能的异常流量有较高的检测准确率。  相似文献   

10.
针对现有的离群数据检测算法时间复杂度过高,且检测质量不佳的不足,提出一种新的基于改进的OPTICS聚类和LOPW的离群数据检测算法。首先,使用改进的OPTICS聚类算法对原始数据集进行预处理,筛选由聚类形成的可达图得到初步离群数据集;然后,利用新定义的基于P权值的局部离群因子LOPW计算初步离群数据集中对象的离群程度,计算距离时引入去一划分信息熵增量确定属性的权重,提高离群检测准确性。实验结果表明,改进后的算法不仅提高了运算效率,而且提高了对离群数据检测的精确度。  相似文献   

11.
一种半监督K均值多关系数据聚类算法   总被引:3,自引:1,他引:3  
提出了一种半监督K均值多关系数据聚类算法.该算法在K均值聚类算法的基础上扩展了其初始类簇的选择方法和对象相似性度量方法,以用于多关系数据的半监督学习.为了获取高性能,该算法在聚类过程中充分利用了标记数据、对象属性及各种关系信息.多关系数据库Movie上的实验结果验证了该算法的有效性.  相似文献   

12.
基于人工免疫聚类的异常检测算法   总被引:1,自引:5,他引:1       下载免费PDF全文
提出一种基于人工免疫聚类的异常检测算法,采用基于距离的异常度量因子,可以方便地筛选数据集中最突出的异常数据,能够依据不同的安全策略调节异常容忍因子,从而平衡检测率和漏报率之间的矛盾。实验结果表明,该算法采用无标记的训练数据集,能自动适应不同的网络及应用环境。  相似文献   

13.
针对高分辨率天文图像中的星点聚类研究中存在的 2 个问题:①天文图像的分辨率 较高,且图像处理速度较慢;②选取何种聚类算法对天文图像中的星点进行聚类分析效果较好。 在研究中,问题 1 采用图像分块的方法提高图像的处理速度;问题 2 提出了一种改进的 K 均值聚 类算法,以解决传统的 K 均值聚类算法的聚类结果易受到 k 值和初始聚类中心随机选择影响的问 题。该算法首先在用 K 均值聚类算法对数据初步聚类的基础上确定合适的 k 值,其次用层次聚类 对数据聚类确定初始聚类中心,最后在此基础上再采用 K 均值聚类算法进行聚类。通过 MATLAB 仿真实验的结果表明,该算法的聚类结果与效率优于其他聚类算法。  相似文献   

14.
出租车GPS装备的普及使用产生了大量轨迹数据。出租车异常轨迹的检测和分析,可为惩罚具有欺诈行为的出租车司机提供有益支撑。针对出租车稀疏轨迹,基于轨迹相对相似度检测异常轨迹,由于其具有不对称性,类似于DBSCAN的传统密度聚类方法无法适应此种情况,本文提出基于密度RDBSCAN算法用于出租车异常轨迹聚类检测。对于聚类得出的候选异常轨迹,结合轨迹密度异常值和轨迹长度异常值的概念,利用证据理论综合前述2个因素来判别轨迹的异常程度,进而得到异常程度最高的TOP-N异常轨迹。使用旧金山真实的出租车数据,通过提取相同起点和终点(Origin-Destination, OD)的轨迹集进行实验,实验结果表明本文提出的方法能够有效地检测到异常轨迹,并成功给出异常程度最高的TOP-N异常轨迹。  相似文献   

15.
基于不完整数据的异常信号检测方法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对异常电磁信号检测中常见的输入数据存在参数缺失的问题,提出一种基于不完整数据的异常信号检测方法。该方法借鉴几何数学的思想,通过将缺失数据与正常数据进行比对,分析出缺失数据异常的可能性,给出该数据的异常概率计算方法。通过该异常概率能直接检测出部分异常信号,并给出剩余不完整数据的异常可能性的排序,从而有利于在资源有限时优先处理异常概率高的信号,达到处理资源优化配置的目的。实验结果表明,该方法能给出缺失数据点的异常概率。  相似文献   

16.
提出一种基于聚类分析的入侵检测模型,并运用聚类分析的K-平均值算法建立入侵检测库并划分安全级别。该检测系统不依赖预先定义的类和训练实例,能够自动依据输入数据对入侵行为进行重新划分。该方法具有一定的实用性和自适应功能。  相似文献   

17.
离群点检测在数据处理中具有重要研究意义,其检测方法大致可以分为基于统计、基于距离、基于密度和基于聚类的方法.为了及时掌握当前基于聚类技术的离群点检测方法的研究现状,通过归纳与整理,将具有代表性的基于聚类的离群点检测方法进行了介绍和归类,将其主要分为静态数据集中的检测方法、数据流中的检测方法、大规模数据中的检测方法和其他...  相似文献   

18.
传统的K-means算法虽然具有很多优点,但聚类准则函数对簇密度不均的数据集分类效果较差.文中在加权标准差准则函数的基础之上,增加了收敛性判定,并在Hadoop平台上提出了一种基于MapReduce编程思想设计与优化的K-means并行算法.与传统的K-means算法相比,设计的并行算法在聚类结果的准确性、加速比、扩展性、收敛性等方面都有显著的提高,降低了因簇密度不均引起误分的概率,提高了算法的聚类精度,并且数据规模越大、节点越多,优化的效果就越明显.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号