首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
应用聚类算法对入侵检测数据集进行聚类,通过对其聚类结果的分析,发现聚类的部分簇中存在划分不够紧凑的问题。为此,提出应用加权聚类算法对簇中与聚类中心距离较远的数据进行聚类,解决了聚类结果中存在“子簇”的问题。结果表明,簇的紧凑性有较大提升,同时由于子簇数量的减少使得检测率有所提升,加快了检测速度。  相似文献   

2.
一种改进K-means算法的聚类算法CARDBK   总被引:1,自引:0,他引:1  
CARDBK聚类算法与批K-means算法的不同之处在于,每个点不是只归属于一个簇,而是同时影响多个簇的质心值,一个点影响某一个簇的质心值的程度取决于该点与其它离该点更近的簇的质心之间的距离值。 从聚类结果的熵、纯度、F1值、Rand Index和NMI等5个性能指标值来看,与多个不同算法在多个不同数据集上分别聚类相比, 该算法具有较好的聚类结果;与多个不同算法在同一数据集上很多不同的初始化条件下分别聚类相比,该算法具有较好且稳定的聚类结果;该算法在不同大小数据集上聚类时具有线性伸缩性且速度较快。  相似文献   

3.
增强的基于GCA(Gravity-based clustering approach)的入侵检测方法是先对训练集采用GCA进行聚类,然后依据凝聚层次聚类算法的思想,以簇间的差异度和整体相似度作为聚类质量评价标准对GCA聚类产生的簇进行一些合并,合并后能使簇中心更集中,簇内对象更紧密。再根据标记算法标记出哪些簇属于正常簇,哪些属于异常簇,最后用检测算法对测试集数据进行检测。实验表明该方法对未知攻击的检测能力有所增强,特别是能有效降低误报率。  相似文献   

4.
针对高维数据在聚类过程中存在迭代次数多、运算耗时长等问题,提出一种改进的聚类算法,首先采用谱聚类对样本降维,再选取k个首尾相连且距离乘积最大的数据对象作为初始聚类中心,在簇中心更新过程中,选取与簇均值距离最近的数据对象作为簇中心,并将其他数据对象按最小距离划分至相应簇中,反复迭代,直至收敛。实验结果表明,新算法的Rand指数、Jaccard系数和Adjusted Rand Index等聚类指标全部优于K-means算法及其他3种改进聚类算法,在运行效率方面,新算法的聚类耗时更短、迭代次数更少。  相似文献   

5.
以KDDCUP99-10%网络入侵数据集作为数据流,提出一种混合属性数据流的两阶段入侵检测算法。通过增量聚类提取数据流的代表信息,根据提出的加权模糊簇特征对增量聚类结果做模糊聚类,簇数可动态改变。理论分析和实验结果表明,该算法可以有效检测数据流入侵。  相似文献   

6.
基于量子遗传聚类的入侵检测方法*   总被引:1,自引:0,他引:1  
现有基于聚类的入侵检测算法,聚类过程中需要预设聚类数,且算法的性能受初始数据输入顺序的影响,为此提出了一种新的基于量子遗传聚类入侵检测方法。该方法的基本思想是先自动建立初始聚类簇,再用改进量子遗传算法对初始聚类组合优化,最后进行入侵检测。实验结果表明,该方法能够有效地检测出网络中的入侵数据。  相似文献   

7.
针对快速K-medoids聚类算法和方差优化初始中心的K-medoids聚类算法存在需要人为给定类簇数,初始聚类中心可能位于同一类簇,或无法完全确定数据集初始类簇中心等缺陷,受密度峰值聚类算法启发,提出了两种自适应确定类簇数的K-medoids算法。算法采用样本x i的t最近邻距离之和倒数度量其局部密度ρi,并定义样本x i的新距离δi,构造样本距离相对于样本密度的决策图。局部密度较高且相距较远的样本位于决策图的右上角区域,且远离数据集的大部分样本。选择这些样本作为初始聚类中心,使得初始聚类中心位于不同类簇,并自动得到数据集类簇数。为进一步优化聚类结果,提出采用类内距离与类间距离之比作为聚类准则函数。在UCI数据集和人工模拟数据集上进行了实验测试,并对初始聚类中心、迭代次数、聚类时间、Rand指数、Jaccard系数、Adjusted Rand index和聚类准确率等经典聚类有效性评价指标进行了比较,结果表明提出的K-medoids算法能有效识别数据集的真实类簇数和合理初始类簇中心,减少聚类迭代次数,缩短聚类时间,提高聚类准确率,并对噪音数据具有很好的鲁棒性。  相似文献   

8.
基于无监督聚类混合遗传算法的入侵检测方法   总被引:3,自引:0,他引:3  
在利用聚类进行入侵检测的方法中,有效地进行聚类是关键。为了对未标识数据进行聚类,提出了一种新的无监督入侵检测方法。该方法克服了聚类算法中对数据输入顺序敏感和需要预设聚类数目的缺点,减少了所需参数个数。通过初始聚类簇的建立和混合遗传算法对初始聚类进行优化组合两阶段的方法来实现聚类,克服了初始聚类对结果的影响,提高了聚类质量,并进行检测入侵。实验结果表明该方法有较好的检测率和误检率。  相似文献   

9.
半监督聚类就是利用样本的监督信息来帮助提升无监督学习的性能。在半监督聚类中,成对约束(must-link约束和cannot-link约束)作为样本的先验知识被广泛地使用。凝聚层次聚类(AHC)也叫合成聚类,是层次聚类法的一种。提出了一种基于成对约束的半监督凝聚层次聚类算法(PS-AHC),该算法利用成对约束来改变聚类簇之间的距离,使聚类簇之间的距离更真实。在UCI数据集上的实验表明,PS-AHC能有效地提高聚类的准确率,是一种有前景的半监督聚类算法。  相似文献   

10.
侯海霞  原民民  刘春霞 《计算机应用》2012,32(12):3274-3277
针对谱聚类存在计算瓶颈的问题,提出了一种快速的集成算法,称为间接谱聚类。它首先运用K-Means算法对数据集进行过分聚类,然后把每个过分簇看成一个基本对象,最后在过分簇的级别上利用标准谱聚类来完成总体的聚类。将该思想应用于大文本数据集的聚类问题后,过分簇中心之间的相似性度度量方法可以采用常用的余弦距离法。在20-Newgroups文本数据上的实验结果表明:间接谱聚类算法在聚类准确性上比K-Means算法平均高出14.72%;比规范割谱聚类仅低0.88%,但算法所需的计算时间平均不到规范割谱聚类的1/16,且随着数据集的增大当规范割谱聚类遭遇计算瓶颈时,提出的算法却能快速地给出次优解。  相似文献   

11.
针对网络故障检测中利用先验知识不足和多数谱聚类算法需事先确定聚类数的问题,提出一种新的基于成对约束信息传播与自动确定聚类数相结合的半监督自动谱聚类算法。通过学习一种新的相似性测度函数来满足约束条件,改进NJW聚类算法,对非规范化的Laplacian矩阵特征向量进行自动谱聚类,从而提高聚类性能。在UCI标准数据集和网络实测数据上的实验表明,该算法较相关比对算法聚类准确率更高,可满足网络故障检测的实际需要。  相似文献   

12.
Clustering high dimensional data has become a challenge in data mining due to the curse of dimensionality. To solve this problem, subspace clustering has been defined as an extension of traditional clustering that seeks to find clusters in subspaces spanned by different combinations of dimensions within a dataset. This paper presents a new subspace clustering algorithm that calculates the local feature weights automatically in an EM-based clustering process. In the algorithm, the features are locally weighted by using a new unsupervised weighting method, as a means to minimize a proposed clustering criterion that takes into account both the average intra-clusters compactness and the average inter-clusters separation for subspace clustering. For the purposes of capturing accurate subspace information, an additional outlier detection process is presented to identify the possible local outliers of subspace clusters, and is embedded between the E-step and M-step of the algorithm. The method has been evaluated in clustering real-world gene expression data and high dimensional artificial data with outliers, and the experimental results have shown its effectiveness.  相似文献   

13.
陆林花 《计算机仿真》2009,26(7):122-125,158
为了在聚类数不明确的情况下实现聚类分析,提出一种新的结合最近邻聚类和遗传算法的动态聚类算法.新算法包括两个阶段:第一阶段用最近邻聚类算法根据最近邻方法把最相似的实例分到同一个簇中并根据一些相似性或相异性度量过滤掉噪声数据从而得到初始聚类集,第二阶段是遗传优化阶段,利用动态聚类评估函数,动态地合并初始聚类集,从而获得接近最优的解.最后对算法进行了实验仿真,实验结果表明方法在事先不知道聚类数的情况下能够有效地进行聚类.  相似文献   

14.
提出了一种新型的聚类算法。这个新型的聚类算法是基于中心对称的概念之上的。使用这种基于中心对称性的聚类算法,在一个指定的数据集中的超球面形状的聚类能够被侦测出来。在对超球面性状的目标的侦测方面,这种聚类算法大大优于传统的算法。这个算法可以用于数据聚类和人脸识别方面,实验结果也证明了该算法的效果。  相似文献   

15.
Classical clustering methods, such as partitioning and hierarchical clustering algorithms, often fail to deliver satisfactory results, given clusters of arbitrary shapes. Motivated by a clustering validity index based on inter-cluster and intra-cluster density, we propose that the clustering validity index be used not only globally to find optimal partitions of input data, but also locally to determine which two neighboring clusters are to be merged in a hierarchical clustering of Self-Organizing Map (SOM). A new two-level SOM-based clustering algorithm using the clustering validity index is also proposed. Experimental results on synthetic and real data sets demonstrate that the proposed clustering algorithm is able to cluster data in a better way than classical clustering algorithms on an SOM.  相似文献   

16.
提出了一种改进的聚类分析算法,该算法采用类似中间聚类与最终聚类分布的思想,先对密集区域进行聚类,形成了K个聚类,然后再对相对分散的自由数据进行K—means聚类,使聚类分析在迭代过程中始终沿着最优的方向进行,减小了迭代次数,提高了收敛速度。该算法融合了网格聚类与K-均值聚类的优点,并且引入了一种新的划分网格的算法和新的计算密度阀值的函数。理论分析以及实验证明,改进算法的聚类过程达到了令人满意的效果。  相似文献   

17.
在比特流未知协议识别过程中,针对如何将得到的多协议数据帧分为单协议数据帧这一问题,提出了一种改进的凝聚型层次聚类算法。该算法以传统的凝聚型层次聚类算法思想为基础,结合比特流数据帧的特征,定义了数据帧之间及类簇之间的相似度,采用边聚类边提取符合要求类簇的方式,能快速有效地对数据帧进行聚类;并且该算法能自动地确定聚类的个数,所得的类簇含有相似度评价指标。利用林肯实验室公布的数据集进行测试,说明该算法能以较高的正确率对协议数据帧进行聚类。  相似文献   

18.
K-means聚类算法存在的主要不足之处之一在于需要用户指定聚类核数目,在一般应用场景下,用户无法给出合适的聚类核数目.另一方面,K-means聚类所具有的可并行化特点非常适合运用到云计算平台上以处理大规模数据样本的聚类任务.本文提出KBAC算法采用K-means算法作为预聚类过程并在云平台上进行实现和优化,能够自适应确定最佳聚类核数目并进行聚类.其核心思想是将样本空间聚类问题转换为图上社团发现问题.理论和实验证明,通过在云计算框架下实现K-means预聚类过程的并行化,KBAC算法能够高效地对大规模数据进行聚类,并获得高质量的聚类结果.  相似文献   

19.
网络入侵检测中的自动决定聚类数算法   总被引:13,自引:0,他引:13  
针对模糊C均值算法(fuzzy C-means algorithm,简称FCM)在入侵检测中需要预先指定聚类数的问题,提出了一种自动决定聚类数算法(fuzzy C-means and support vector machine algorithm,简称F-CMSVM).它首先用模糊C均值算法把目标数据集分为两类,然后使用带有模糊成员函数的支持向量机(support vector machihe,简称SVM)算法对结果进行评估以确定目标数据集是否可分,再迭代计算,最终得到聚类结果.支持向量机算法引入模糊C均值算法得出的隶属矩阵作为模糊成员函数,使得不同的输入样本可以得到不同的惩罚值,从而得到最优的分类超平面.该算法既不需要对训练数据集进行标记,也不需要指定聚类数,因此是一种真正的无监督算法.在对KDD CUP 1999数据集的仿真实验结果表明,该算法不仅能够得到最佳聚类数,而且对入侵有较好的检测效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号