共查询到19条相似文献,搜索用时 62 毫秒
1.
针对互联网流量标注困难以及单个聚类器的泛化能力较弱,提出一种基于互信息(MI)理论的选择聚类集成方法,以提高流量分类的精度。首先计算不同初始簇个数K的K均值聚类结果与训练集中流量协议的真实分布之间的规范化互信息(NMI);然后基于NMI的值来选择用于聚类集成的K均值基聚类器的K值序列;最后采用二次互信息(QMI)的一致函数生成一致聚类结果,并使用一种半监督方法对聚类簇进行标注。通过实验比较了聚类集成方法与单个聚类算法在4个不同测试集上总体分类精度。实验结果表明,聚类集成方法的流量分类总体精度能达到90%。所提方法将聚类集成模型应用到网络流量分类中,提高了流量分类的精度和在不同数据集上的分类稳定性。 相似文献
2.
3.
首先提出了一种基于属性值的co-occurrence相似度概念,通过对其进一步的研究,提出了3个等价性表述;然后对属性值之间的co-occurrence相似度进行引申,给出了数据对象之间co-occurrence相似度的定义,并将其成功应用到聚类集成方法中。利用co-occurrence相似度在计算某个初始聚类结果中数据对象之间的相似度时,充分考虑了其他初始聚类结果和该初始聚类结果之间的相互影响和联系。实验表明, 基于co-occurrence相似度的聚类集成(CSCE)方法能有效识别数据之间的细微结构,有助于提高聚类集成的效果。 相似文献
4.
5.
基于Bagging的选择性聚类集成 总被引:25,自引:2,他引:25
使用集成学习技术来提高聚类性能.由于聚类使用的训练样本缺乏期望输出,与监督学习下的集成相比,在对个体学习器进行结合时更加困难.通过对不同的聚类结果进行配准,并基于互信息权进行个体学习器的选择,提出了基于Bagging的选择性聚类集成算法.实验表明,该算法能够有效地改善聚类结果. 相似文献
6.
7.
8.
一种改进的自适应聚类集成选择方法 总被引:1,自引:0,他引:1
针对自适应聚类集成选择方法(Adaptive cluster ensemble selection,ACES)存在聚类集体稳定性判定方法不客观和聚类成员选择方法不够合理的问题,提出了一种改进的自适应聚类集成选择方法(Improved ACES,IACES).IACES依据聚类集体的整体平均归一化互信息值判定聚类集体稳定性,若稳定则选择具有较高质量和适中差异性的聚类成员,否则选择质量较高的聚类成员.在多组基准数据集上的实验结果验证了IACES方法的有效性:1)IACES能够准确判定聚类集体的稳定性,而ACES会将某些不稳定的聚类集体误判为稳定;2)与其他聚类成员选择方法相比,根据IACES选择聚类成员进行集成在绝大部分情况下都获得了更佳的聚类结果,在所有数据集上都获得了更优的平均聚类结果. 相似文献
9.
一种基于网格和密度的数据流聚类算法 总被引:1,自引:0,他引:1
在"数据流分析"这一数据挖掘的应用领域中,常规的算法显得很不适用.主要是因为这些算法的挖掘过程不能适应数据流的动态环境,其挖掘模型、挖掘结果不能满足实际应用中用户的需求.针对这一问题,本文提出了一种基于网格和密度的聚类方法,来有效地完成对数据流的分析任务.该方法打破传统聚类方法的束缚,把整个挖掘过程分为离线和在线两步,最终通过基于网格和密度的聚类方法实现数据流聚类. 相似文献
10.
11.
12.
网络流量的决策树分类 总被引:2,自引:1,他引:1
应用识别与流量分类是网络管理、安全、研究等相关事务的必要前提.随着网络的高速发展以及各种新型应用的不断涌现,基于分组传输层端口号和深度分组解析的分类技术难以满足需求.本文验证网络流量的统计特性可以有效地区分不同应用,提出一种基于C4.5决策树分类器的有监督网络流量分类方法,讨论boosting增强方法和特征选择两种改进.实验结果表明,C4.5分类器的训练复杂度适中,准确率高且分类速度快;增强方法可以进一步提高分类器的准确率,代价是训练时间大幅提高和分类时间稍微减慢;特征选择算法则提高分类速度而稍微降低准确率. 相似文献
13.
针对传统聚类算法难以高效进行海量数据聚类分析的问题,提出一种基于MapReduce框架的K-means聚类集成算法。利用K-means算法生成不同聚簇数目的基聚类结果,改进共协关系矩阵,依据数据点对出现次数进行集成,自动得出最终聚类结果。实验结果表明,该算法能够有效地改善聚类质量,具有良好的扩展性,适用于海量数据的聚类分析。 相似文献
14.
彭勃 《计算机与数字工程》2012,40(5):12-14
准确的网络流量分类既是众多网络研究工作的重要基础,也是网络测量领域的研究热点。基于流特征的六种分类算法进行比较分析,实验结果表明,使用特征选择方法,SVM算法具有较高的整体准确率和较好的计算性能,适合用于网络流量分类。 相似文献
15.
该文针对中文网络评论情感分类任务,提出了一种集成学习框架。首先针对中文网络评论复杂多样的特点,采用词性组合模式、频繁词序列模式和保序子矩阵模式作为输入特征。然后采用基于信息增益的随机子空间算法解决文本特征繁多的问题,同时提高基分类器的分类性能。最后基于产品属性构造基分类器算法综合评论文本中每个属性的情感信息,进而判别评论的句子级情感倾向。实验结果表明了该框架在中文网络评论情感分类任务上的有效性,特别是在Logistic Regression分类算法上准确率达到90.3%。 相似文献
16.
网络流量特征分布的动态变化产生概念漂移问题,造成基于机器学习的网络流量分类模型精度下降.定期更新分类模型耗时且无法保证分类模型的泛化能力.基于此,提出一种基于散度的网络流概念漂移分类方法(ensemble classification based on divergence detection, ECDD),采用双层窗口机制,从信息熵的角度出发,根据流量特征分布的JS散度,记为JSD(Jensen-Shannon divergence)来度量滑动窗口内数据分布的差异,从而检测概念漂移.借鉴增量集成学习的思想,检测到漂移时对于新样本重新训练出新的分类器,之后通过分类器权值排序,保留性能较高的分类器,加权集成分类结果对样本进行分类.抓取常见的网络应用流量,根据应用特征分布的不同构建概念漂移数据集,将该方法与常见的概念漂移检测方法进行实验对比,实验结果表明:该方法可以有效地检测概念漂移和更新分类器,表现出较好的分类性能. 相似文献
17.
利用群体智慧原理,将多个相互独立的聚类算法的结果进行聚合,将显著提高聚类结果的准确性.基于群体智慧的簇连接聚类集成算法,首先使用群体智慧理论的独立性、分散性、多样性原则引导个体聚类结果的生成,然后提出基于连接三元组的聚类集成算法对个体聚类结果进行分组聚合,将分组聚合的结果再次进行聚合得到最终的聚类结果.该算法的优点包括:1)通过簇的分组和权重调整,避免了对基聚类生成的簇进行选择,有利于充分利用已生成簇的信息;2)采用连接三元组算法计算数据之间的相似性,可以充分挖掘数据点之间的关系.对不同数据集的实验研究表明:该算法相对传统的集成聚类算法以及群体智慧与机器学习相结合的集成聚类算法,可以进一步提高集成聚类结果的准确性. 相似文献
18.
RFID数据流随着时间而不断变化,捕捉其中蕴含的变化可以用于检测有意义事件的发生.提出了一种捕获数据流事件的算法--CECD,通过分析聚类结果分布变化和值域中产生的偏差检测数据流中蕴含的变化,同时采用组合分类技术对变化进行分类,捕获观察到的事件或现象的特性,建立事件与响应的映射关系.实验证明提出的框架可以高效检测数据流上的变化,与不借助变化检测的单纯基于规则的事件检测方法相比可以更准确地捕获事件. 相似文献
19.
在面对现实中广泛存在的不平衡数据分类问题时,大多数 传统分类算法假定数据集类分布是平衡的,分类结果偏向多数类,效果不理想。为此,提出了一种基于聚类融合欠抽样的改进AdaBoost分类算法。该算法首先进行聚类融合,根据样本权值从每个簇中抽取一定比例的多数类和全部的少数类组成平衡数据集。使用AdaBoost算法框架,对多数类和少数类的错分类给予不同的权重调整,选择性地集成分类效果较好的几个基分类器。实验结果表明,该算法在处理不平衡数据分类上具有一定的优势。 相似文献