首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 9 毫秒
1.
基于CURE算法的网络用户行为分析   总被引:1,自引:0,他引:1  
从安全的角度分析网络用户行为,建立了一个基于Netflow统计的用户行为向量数据模型,提出了一个网络用户行为的分析框架,建立了一个分析流程。针对存储网络用户行为的大型数据库选用了一个合适的聚类算法即CURE算法,并对CURE算法进行了基于实际应用的改进。实验结果表明,改进后的CURE算法不仅能很好地聚类,而且能区分出正常行为和异常行为,通过危害行为评价体系分析,聚类得到的异常行为是危害行为的检测率非常高。对于实时网络上的增量数据,文中也给出了增量挖掘的算法,符合网络实时分析的需要。  相似文献   

2.
基于CURE的用户聚类算法研究   总被引:1,自引:0,他引:1  
通过对Web网站的日志进行聚类分析,目的是获取用户兴趣访问模式,进而为不同用户群体提供定制的个性化服务。针对原始CURE算法在代表点选择的随机性、不能充分体现用户兴趣偏好方面存在的问题,提出了改进的用户聚类算法,根据用户兴趣的显著特征提取元素的主要属性进行预聚类,为小类合并提供合理的初始类集,实验结果证明了该方法有较好的聚类结果。  相似文献   

3.
增量式CURE聚类算法研究   总被引:3,自引:0,他引:3  
聚类是一种非常有用的数据挖掘方法 ,可用于发现隐藏在数据背后的分组和数据分布信息 .目前已经提出了许多聚类算法及其变种 ,但在增量式聚类算法研究方面所作的工作较少 .当数据集因更新而发生变化时 ,数据挖掘的结果也应该进行相应的更新 .由于数据量大 ,在更新后的数据集上重新执行聚类算法以更新挖掘结果显然比较低效 ,因此亟待研究增量式聚类算法 .通过对 CURE聚类算法的改进 ,提出了一种高效的增量式 CU RE聚类算法 .它能够很好的解决传统聚类算法在伸缩性、数据定期更新时所面临的问题 .实验结果显示本算法是一种有效的增量式聚类算法  相似文献   

4.
聚类是一种非常有用的数据挖掘方法,可用于发现隐藏在数据背后的分组和数据分布信息。CURE算法就是一个典型的代表。本文对CURE算法进行了研究,它能够很好的解决传统聚类算法在伸缩性、数据定期更新时所面临的问题。  相似文献   

5.
引入信息熵的CURE聚类算法   总被引:1,自引:0,他引:1  
为了提高传统CURE(Clustering Using REpresentatives) 聚类算法的质量,引入信息熵对其进行改进。该算法使用K-means算法对样本数据集进行预聚类;采用基于信息熵的相似性度量,利用簇中的元素提供的信息度量不同簇之间的相互关系,并描述数据的分布;在高层、低层聚类阶段,采取不同的选取策略,分别选取相应的代表点。在UCI数据集和人造数据集上的实验结果表明,提出的算法在一定程度上提高了聚类的准确率,且在大型数据集上比传统CURE算法有着更高的聚类效率。  相似文献   

6.
针对传统K近邻分类器在大规模数据集中存在时间和空间复杂度过高的问题,可采取原型选择的方法进行处理,即从原始数据集中挑选出代表原型(样例)进行K近邻分类而不降低其分类准确率.本文在CURE聚类算法的基础上,针对CURE的噪声点不易确定及代表点分散性差的特点,利用共享邻居密度度量给出了一种去噪方法和使用最大最小距离选取代表点进行改进,从而提出了一种新的原型选择算法PSCURE (improved prototype selection algorithm based on CURE algorithm).基于UCI数据集进行实验,结果表明:提出的PSCURE原型选择算法与相关原型算法相比,不仅能筛选出较少的原型,而且可获得较高的分类准确率.  相似文献   

7.
随着云计算、大数据以及移动互联网的发展,移动终端用户数据呈现出数据量大、噪声大、动态性及不确定性增强的趋势,影响了移动用户数据聚类准确率与效率。针对上述问题,提出了一种改进的层次聚类算法CURE。该算法将原有算法中抽样处理数据的方式用Map Reduce函数实现并行化处理,同时结合区间数的概念,将移动用户数据用一个区间表示,计算其区间距离来适应移动用户数据的不确定性特点,从而提高聚类效率与准确率。最后利用MIT Reality项目数据集进行仿真,仿真结果表明了该方法的有效性及可行性,为移动用户数据的进一步利用及用户的个性化推荐提供支持。  相似文献   

8.
传统网络异常识别方法速度慢、准确率低。为此,笔者提出基于相似度聚类的网络异常快速识别方法,经过详细分析相似度聚类算法,提出网络异常快速识别五步流程;并对网络安全权限机制识别和签名机制进行强化设计。实验对比表明,提出的识别方法能在短时间内识别网络异常,准确率高,对于保证网络安全有重要意义。  相似文献   

9.
传统识别方法未对异常数据流进行分类,导致识别正确率不高,提出基于改进K最邻近(K-Nearest Neighbor,KNN)算法的网络数据流异常识别方法。通过预处理异常数据流,提取异常数据流的特征,并以此作为基础,利用KNN算法统计异常数据流的类别,并分类所出现的异常数据。之后,通过计算不同网络环境下识别异常数据的时长,完成网络异常数据流的识别。在仿真实验中,与以往的网络数据流异常识别方法相比,提出的基于改进KNN算法的网络数据流异常识别方法具有更好的识别效果,识别正确率更高。  相似文献   

10.
《计算机工程》2017,(5):204-209
针对现有异常流量检测方法的识别准确率低且快速识别需要确定阈值等问题,基于词袋模型聚类,提出一种改进的网络异常流量识别方法。通过对已有的异常流量和正常流量进行K-means均值聚类,得到网络流量中的流量关键点,将网络流量转化映射到相应流量关键点后建立直方图,并采用半监督学习方式对异常流量进行检测。实验结果表明,与基于朴素贝叶斯、支持向量机等的识别方法相比,该方法具有更好的异常流量识别效果。  相似文献   

11.
为解决传统关联聚类算法挖掘网络异常数据时间复杂度高、精确度不理想等问题,提出Spark-MML聚类算法。为Apriori关联规则算法设计并行化频繁项集挖掘环境,使用兴趣度约束与支持度自适应策略挖掘网络数据特征量强关联规则;利用可变网格的局部离群点检测算法剔除K-means聚类离群点,基于最大最小距离确定聚类中心及数值K,将网络数据分为异常和非异常。测试结果表明,该方法避免聚类中心选取陷入局部最优,降低了异常数据挖掘的时间复杂度,有效节约算法运行空间,是一种可靠的网络异常数据挖掘方法。  相似文献   

12.
R树索引结构在空间对象查询和复杂空间关系查询方面具有重要作用。传统空间索引结构R树是动态生成的,树的结构是根据连续插入算法实现的,通过分裂子节点直至生成R树的根节点。动态生成算法会导致R树节点最小外包矩形之间的大量重叠,影响空间查询效率,且空间利用率不高。为了弥补动态生成R树的不足,提出了基于CURE算法的静态R树生成方法,给出CU_RHbuilt建树算法,该算法不仅能有效地处理海量数据,识别任何形状的簇,减少矩形重叠度,而且采用划分技术可较大程度地减小计算代价,空间利用率较高。进一步提出了基于CURE算法的R树节点分裂方法。理论研究与实验表明,所提方法具有较高的查询效率。  相似文献   

13.
提出一种将减法聚类与改进的模糊C-均值聚类相结合并用于说话人识别的方法.该方法将从语 音信号中提取的Mel 频率倒谱系数及其差分作为特征参数;用减法聚类算法初始化聚类中心,再用改进的模 糊C-均值聚类算法进行修正,形成码本.识别时,对每一个待识别语音进行模糊聚类识别.仿真结果表明,该 方法比改进的模糊C-均值聚类算法识别率高,具有较好的鲁棒性,且计算比较简单.  相似文献   

14.
首先对网络服务器监测到的流数据进行采集,提出将双层结构聚类算法应用于流数据的聚类分析,进而得到校园网用户网络行为的特征,该特征对于进一步优化校园网络建设具有重要意义。  相似文献   

15.
张宇博 《软件》2022,(11):61-64
随着金融业的迅猛发展和金融交易监管的不断升级,可疑交易监测工作面临巨大考验。可疑交易是指通常情况下不认为符合正常逻辑思维的交易,本文首先介绍可疑交易的特点,而后提出多种不同聚类算法,分析不同聚类算法结合可疑交易识别工作下的优劣势。本文的核心是基于高斯混合模型下的可疑交易识别模型,针对可疑交易的交易结构与交易特点,来对可疑交易进行判别,并用Python实现对数据的可视化分析。  相似文献   

16.
针对现有行为识别方法缺乏对时空特征关系建模的问题,提出一种基于特征交互和聚类的行为识别方法.首先设计一种混合多尺度特征提取网络提取连续帧的时间和空间特征;然后基于Non-local操作设计一种特征交互模块实现时空特征的交互;最后基于三元组损失函数设计一种难样本选择策略来训练识别网络,实现时空特征的聚类,提高特征的鲁棒性和判别性.实验结果表明,与基线方法 TSN相比,所提方法的准确度在UCF101数据集上提高了23.25个百分点,达到94.82%;在HMDB51数据集上提高了20.27个百分点,达到44.03%.  相似文献   

17.
通过分析常见异常流量的内在特征,在Chameleon算法的基础上,设计了一种基于聚类的异常流量检测算法。通过对DARPA1998数据集的实验结果表明,该算法能够在没有先验知识的前提下,对影响正常网络性能的异常流量有较高的检测准确率。  相似文献   

18.
针对传统的k-means算法处理离散型数据的不足以及选取初始聚类中心的随机性等缺点,提出了一种基于改进的粒子群优化k-means算法,根据文中提供的优化算法寻找初始聚类中心后,在阀值范围内进行数据样本间的迭代更新,直至聚类中心稳定。经过实验结果验证分析表明,经过改进的粒子群优化k-means算法与传统的k-means算法相比,更具有良好的聚类收敛效果,聚类效果也相对稳定。  相似文献   

19.
聚类是数据挖掘领域中最活跃的研究分支之一,并在其他的科学领域也有广泛的应用。设计了基于加权快速聚类的异常数据挖掘算法,以便能快速发现异常数据。首先通过对数据的每个属性赋予一定权值,权值的大小要体现其对分类的贡献度,并根据属性权值的特点,选择比较优良的初始分区,然后进行多次迭代,得到接近最优分区,接着运用一定规则,发现异常数据类,最后实践证明该技术取得很好的社会效果。  相似文献   

20.
利用数据挖掘相关技术,针对后台计费服务器的数据库,基于K-means算法以校园网用户行为特征为对象来进行聚类分析,提出了几个校园网用户行为分析的模型.此类模型为校园网管理者在制定有效管理策略,满足校园网用户个性化需求方面提供理论依据.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号