首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
在标注现实网络流量数据的过程中难免会造成标签错误标记的情况,导致标签数据不可避免地受到噪声污染,即样本的观测标签与真实标签存在差异。为降低噪声标签对分类器分类准确率的负面影响,考虑引入噪声的2种情况,即正确标签类型错误标记和标签类型错误拼写,并提出一种基于标签噪声纠正的网络流量分类方法,该方法利用聚类和权重划分来对观测样本进行评估和修复。在2个网络流量数据集上的实验结果表明,与3种标签噪声修复算法STC、CC和ADE相比,提出的修复算法在不同噪声比例干扰下对最终的分类结果都有一定的提升。在NSL-KDD数据集上,标签平均修复率分别提高23.00%,7.58%和2.05%左右;在MOORE数据集上,标签平均修复率分别提高35.12%,10.40%和4.71%左右,在最终分类模型上有较好的分类稳定性。  相似文献   

2.
针对传统聚类算法在学习者群体划分时存在的问题,提出一种基于改进DBSCAN特征聚类的学习者类画像方法.首先,在分析学习者行为数据的基础上,采用改进的PCA-GRBM算法进行多维特征提取;然后充分利用同类学习者在答题过程中的相似性,在经典DBSCAN算法中引用以斯皮尔曼相关系数为度量的多重聚类步骤,提出改进的S-DBSC...  相似文献   

3.
针对网络流量分类识别系统尤其是实时识别系统对实现复杂度和分类准确率的要求,提出一种复杂度和准确率的折中方案。通过基于密度的思想对K-means算法随机选取初始聚类中心这一关键缺陷进行改进,以及引入聚类有效性判别准则函数确定最终聚类个数实现对算法的全面优化,进而提出基于改进K-means算法的网络流量分类方法,在兼顾K-means算法简单易实现、分类快速特点的同时,提高了分类的准确率。在公开的权威网络流量数据集上的实验表明,与普通K-means方法相比,该方法在网络流量分类方面具有更高的分类准确率和更好的稳定性。  相似文献   

4.
针对数字PCR系统的配套软件缺少多重实验液滴分类功能的不足,提出了一种网格区域化DBSCAN聚类算法.首先对数据进行网格映射,建立网格索引;然后计算网格间权值并进行深度搜索扩张;最后将网格空间的聚类结果映射回数据空间.人工数据集的仿真实验表明,所提算法能够有效识别簇边缘区域且具有优良的运行效率.在此基础上,提出了基于网格区域化DBSCAN聚类的数字PCR液滴分类方法,经由对比实验及有效性测试,结果表明所提方法能够便捷、准确地进行液滴分类.可见所提方法适用于数字PCR液滴分类.  相似文献   

5.
一种基于微阵列数据的集成分类方法*   总被引:1,自引:0,他引:1  
针对现有的微阵列数据集成分类方法分类精度不高这一问题,提出了一种Bagging-PCA-SVM方法。该方法首先采用Bootstrap技术对训练样本集重复取样,构成大量训练样本子集,然后在每个子集上进行特征选择和主成分分析以消除噪声基因与冗余基因;最后利用支持向量机作为分类器,采用多数投票的方法预测样本的类属。通过三个数据集进行了测试,测试结果表明了该方法的有效性和可行性。  相似文献   

6.
一个基于DBSCAN聚类算法的实现   总被引:4,自引:0,他引:4  
谭勇  荣秋生 《计算机工程》2004,30(13):119-121
高密度聚类作为数据挖掘中聚类算法的一种分析方法,它能找到样本比较密集的部分,并且概括出样本相对比较集中的类。分析了传统的聚类算法及局限性,讨论了一个基于高密度聚类算法的实现过程,使得算法可自动发现高维子空间,处理高维数据表格,得到较快的聚类速度和最佳的聚类效果。  相似文献   

7.
一种基于聚类的文本特征选择方法   总被引:6,自引:0,他引:6  
传统的文本特征选择方法存在一个共性,即通过某种评价函数分别计算单个特征对类别的区分能力,由于没有考虑特征间的关联性,这些方法选择的特征集往往存在着冗余。针对这一问题,提出了一种基于聚类的特征选择方法,先使用聚类的方法对特征间的冗余性进行裁减,然后使用信息增益的方法选取类别区分能力强的特征。实验结果表明,这种基于聚类的特征选择方法使得文本分类的正确性得到了有效的提高。  相似文献   

8.
准确的网络流量分类既是众多网络研究工作的重要基础,也是网络测量领域的研究热点。基于流特征的六种分类算法进行比较分析,实验结果表明,使用特征选择方法,SVM算法具有较高的整体准确率和较好的计算性能,适合用于网络流量分类。  相似文献   

9.
通过分析在电子商务环境下Web挖掘的现状,考虑到Web数据的海量性和高维度性对抽取隐含的、事先未知的知识所带来的复杂性和维数灾,在普通K均值聚类、PSO聚类和K均值与PSO混合聚类算法的基础上,提出了一种将主成分分析与PSO混合聚类算法相结合的模型来对Web服务器中的日志文件进行聚类分析,将抽取的相关Web数据进行主成分分析,分析结果作为PSO混合聚类算法的输入数据,这样不仅减少了输入变量的维数,减少聚类的规模,而且保留了原始变量的主要信息,消除变量之间的多重共线性,为具有海量性、高维度性、异构性等特点的  相似文献   

10.
基于ST DBSCAN的航迹聚类实现   总被引:1,自引:0,他引:1  
针对现有飞行目标的航迹聚类算法的不足,提出的一种可对任意形状的航迹聚类,且不需提前划分聚类目标个数,可解决时空域航迹数据的聚类方法。通过航迹信息中的空间坐标以及时间信息,扫描选取航迹数据中的任意未标记点,进行时间域上的邻近点扫描,再对时间邻域内的点进行空间域扫描,通过时空域内邻近点迹的数量将相同目标的航迹形成簇,并通过数据仿真验证本聚类方法的有效性。  相似文献   

11.
使用机器学习算法分类P2P流量的方法*   总被引:4,自引:0,他引:4  
P2P应用的快速增长,带来网络拥塞等诸多问题,而传统的基于端口与有效载荷的P2P流量分类方法存在着很多缺陷。以抽取独立于端口、协议和有效载荷的P2P流的信息作为特征,用提出的基于ReliefF-CFS的方法选择流的特征子集,研究使用机器学习算法对P2P流量进行分类的方法,也研究了利用流的前向N个报文的统计信息作为特征,分类P2P流量的方法。实验结果显示提出的方法取得了较好的分类准确率。  相似文献   

12.
针对传统的流量分类方法准确率低、开销大、应用范围受限等问题,提出一种有效的网络流量分类方法(GA-LM)。该方法将基于神经网络的分类方法作为网络流量的分类模型,采用L-M算法构造分类器,并用遗传算法优化网络初始连接权值,加速了网络收敛过程,提高了分类性能。通过对收集到的实际网络流量数据进行分类,实验结果表明GA-LM比标准BP算法和L-M算法的收敛速度快,具有较好的可行性和高准确性,从而可有效地用于网络流量分类中。  相似文献   

13.
基于密度的DBSCAN聚类算法的研究及应用   总被引:3,自引:0,他引:3       下载免费PDF全文
首先对DBSCAN(Density Based Spatial Clustering of Applications with Noise)聚类算法进行了深入研究,分析了它的特点、存在的问题及改进思想,提出了基于DBSCAN方法的交通事故多发点段的排查方法及其改进思路,并且给出了实例以说明处理过程及可行性。实验结果表明本文提出的方法可以大大提高交通事故黑点排查效率。  相似文献   

14.
林荣强  李鸥  李青  李林林 《计算机应用》2014,34(11):3206-3209
针对网络流量特征选择过程中存在的样本标记瓶颈问题,以及现有半监督方法无法选择强相关的特征的不足,提出一种基于类标记扩展的多类半监督特征选择(SFSEL)算法。该算法首先从少量的标记样本出发,通过K-means算法对未标记样本进行类标记扩展;然后结合基于双重正则的支持向量机(MDrSVM)算法实现多类数据的特征选择。与半监督特征选择算法Spectral、PCFRSC和SEFR在Moore数据集进行了对比实验,SFSEL得到的分类准确率和召回率明显都要高于其他算法,而且SFSEL算法选择的特征个数明显少于其他算法。实验结果表明: SFSEL算法能够有效地提高所选特征的相关性,获取更好的网络流量分类性能。  相似文献   

15.
网络流量分类与应用识别的研究*   总被引:1,自引:0,他引:1  
首先介绍了网络流量分析的不同层次及机器学习领域的相关知识,分析了采用端口号映射及有效负载分析的方法进行流量分类与应用识别存在的问题;然后从网络流量的统计特征出发,重点介绍了机器学习中聚类和分类的方法在流量分类的应用和问题;最后基于聚类和分类在流量分类中的效用,指出了未来的研究趋势。  相似文献   

16.
为有效地弥补全文搜索引擎的不足,提出了一种动态求解的最优密度聚类算法并加以实现.该算法构造了一颗簇关系树,将两种典型聚类算法:密度聚类算法DBSCAN和层次聚类算法BIRCH进行有效结合,对聚类参数ε进行动态求解,以达到参数ε的最优.与其它文本聚类算法相比,该算法的查询结果与用户感兴趣的主题相关度较大,对具有二义性的关键词有较高的查准率,能有效提升搜索引擎的查询效率,加快用户搜索信息的速度.  相似文献   

17.
针对互联网流量标注困难以及单个聚类器的泛化能力较弱,提出一种基于互信息(MI)理论的选择聚类集成方法,以提高流量分类的精度。首先计算不同初始簇个数K的K均值聚类结果与训练集中流量协议的真实分布之间的规范化互信息(NMI);然后基于NMI的值来选择用于聚类集成的K均值基聚类器的K值序列;最后采用二次互信息(QMI)的一致函数生成一致聚类结果,并使用一种半监督方法对聚类簇进行标注。通过实验比较了聚类集成方法与单个聚类算法在4个不同测试集上总体分类精度。实验结果表明,聚类集成方法的流量分类总体精度能达到90%。所提方法将聚类集成模型应用到网络流量分类中,提高了流量分类的精度和在不同数据集上的分类稳定性。  相似文献   

18.
准确,高效的业务流识别与分类是保障多媒体通信端到端QoS(Quality of Service),执行相关网络操作的前提。如今数据规模的剧烈增加为业务流的分类提出了挑战,而特征选择能够尽可能地减少特征维数,去除冗余特征,为大数据时代下的业务流分类提供解决办法。对现有的特征选择方法分成Filter、Wrapper、Embedded三类,分析了各类算法的性能原理。采用最新数据集对不同特征选择算法性能对比,从算法的运行时间、特征压缩率、准确率三个方面评估了特征选择算法的性能。另外,针对现有数据集分类情况进行分级分类以达到视频流的细分类,从而提高分类的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号