共查询到20条相似文献,搜索用时 9 毫秒
1.
基于CURE算法的网络用户行为分析 总被引:1,自引:0,他引:1
从安全的角度分析网络用户行为,建立了一个基于Netflow统计的用户行为向量数据模型,提出了一个网络用户行为的分析框架,建立了一个分析流程。针对存储网络用户行为的大型数据库选用了一个合适的聚类算法即CURE算法,并对CURE算法进行了基于实际应用的改进。实验结果表明,改进后的CURE算法不仅能很好地聚类,而且能区分出正常行为和异常行为,通过危害行为评价体系分析,聚类得到的异常行为是危害行为的检测率非常高。对于实时网络上的增量数据,文中也给出了增量挖掘的算法,符合网络实时分析的需要。 相似文献
2.
基于CURE的用户聚类算法研究 总被引:1,自引:0,他引:1
通过对Web网站的日志进行聚类分析,目的是获取用户兴趣访问模式,进而为不同用户群体提供定制的个性化服务。针对原始CURE算法在代表点选择的随机性、不能充分体现用户兴趣偏好方面存在的问题,提出了改进的用户聚类算法,根据用户兴趣的显著特征提取元素的主要属性进行预聚类,为小类合并提供合理的初始类集,实验结果证明了该方法有较好的聚类结果。 相似文献
3.
增量式CURE聚类算法研究 总被引:3,自引:0,他引:3
聚类是一种非常有用的数据挖掘方法 ,可用于发现隐藏在数据背后的分组和数据分布信息 .目前已经提出了许多聚类算法及其变种 ,但在增量式聚类算法研究方面所作的工作较少 .当数据集因更新而发生变化时 ,数据挖掘的结果也应该进行相应的更新 .由于数据量大 ,在更新后的数据集上重新执行聚类算法以更新挖掘结果显然比较低效 ,因此亟待研究增量式聚类算法 .通过对 CURE聚类算法的改进 ,提出了一种高效的增量式 CU RE聚类算法 .它能够很好的解决传统聚类算法在伸缩性、数据定期更新时所面临的问题 .实验结果显示本算法是一种有效的增量式聚类算法 相似文献
4.
聚类是一种非常有用的数据挖掘方法,可用于发现隐藏在数据背后的分组和数据分布信息。CURE算法就是一个典型的代表。本文对CURE算法进行了研究,它能够很好的解决传统聚类算法在伸缩性、数据定期更新时所面临的问题。 相似文献
5.
引入信息熵的CURE聚类算法 总被引:1,自引:0,他引:1
为了提高传统CURE(Clustering Using REpresentatives) 聚类算法的质量,引入信息熵对其进行改进。该算法使用K-means算法对样本数据集进行预聚类;采用基于信息熵的相似性度量,利用簇中的元素提供的信息度量不同簇之间的相互关系,并描述数据的分布;在高层、低层聚类阶段,采取不同的选取策略,分别选取相应的代表点。在UCI数据集和人造数据集上的实验结果表明,提出的算法在一定程度上提高了聚类的准确率,且在大型数据集上比传统CURE算法有着更高的聚类效率。 相似文献
6.
针对传统K近邻分类器在大规模数据集中存在时间和空间复杂度过高的问题,可采取原型选择的方法进行处理,即从原始数据集中挑选出代表原型(样例)进行K近邻分类而不降低其分类准确率.本文在CURE聚类算法的基础上,针对CURE的噪声点不易确定及代表点分散性差的特点,利用共享邻居密度度量给出了一种去噪方法和使用最大最小距离选取代表点进行改进,从而提出了一种新的原型选择算法PSCURE (improved prototype selection algorithm based on CURE algorithm).基于UCI数据集进行实验,结果表明:提出的PSCURE原型选择算法与相关原型算法相比,不仅能筛选出较少的原型,而且可获得较高的分类准确率. 相似文献
7.
随着云计算、大数据以及移动互联网的发展,移动终端用户数据呈现出数据量大、噪声大、动态性及不确定性增强的趋势,影响了移动用户数据聚类准确率与效率。针对上述问题,提出了一种改进的层次聚类算法CURE。该算法将原有算法中抽样处理数据的方式用Map Reduce函数实现并行化处理,同时结合区间数的概念,将移动用户数据用一个区间表示,计算其区间距离来适应移动用户数据的不确定性特点,从而提高聚类效率与准确率。最后利用MIT Reality项目数据集进行仿真,仿真结果表明了该方法的有效性及可行性,为移动用户数据的进一步利用及用户的个性化推荐提供支持。 相似文献
8.
9.
传统识别方法未对异常数据流进行分类,导致识别正确率不高,提出基于改进K最邻近(K-Nearest Neighbor,KNN)算法的网络数据流异常识别方法。通过预处理异常数据流,提取异常数据流的特征,并以此作为基础,利用KNN算法统计异常数据流的类别,并分类所出现的异常数据。之后,通过计算不同网络环境下识别异常数据的时长,完成网络异常数据流的识别。在仿真实验中,与以往的网络数据流异常识别方法相比,提出的基于改进KNN算法的网络数据流异常识别方法具有更好的识别效果,识别正确率更高。 相似文献
10.
11.
为解决传统关联聚类算法挖掘网络异常数据时间复杂度高、精确度不理想等问题,提出Spark-MML聚类算法。为Apriori关联规则算法设计并行化频繁项集挖掘环境,使用兴趣度约束与支持度自适应策略挖掘网络数据特征量强关联规则;利用可变网格的局部离群点检测算法剔除K-means聚类离群点,基于最大最小距离确定聚类中心及数值K,将网络数据分为异常和非异常。测试结果表明,该方法避免聚类中心选取陷入局部最优,降低了异常数据挖掘的时间复杂度,有效节约算法运行空间,是一种可靠的网络异常数据挖掘方法。 相似文献
12.
R树索引结构在空间对象查询和复杂空间关系查询方面具有重要作用。传统空间索引结构R树是动态生成的,树的结构是根据连续插入算法实现的,通过分裂子节点直至生成R树的根节点。动态生成算法会导致R树节点最小外包矩形之间的大量重叠,影响空间查询效率,且空间利用率不高。为了弥补动态生成R树的不足,提出了基于CURE算法的静态R树生成方法,给出CU_RHbuilt建树算法,该算法不仅能有效地处理海量数据,识别任何形状的簇,减少矩形重叠度,而且采用划分技术可较大程度地减小计算代价,空间利用率较高。进一步提出了基于CURE算法的R树节点分裂方法。理论研究与实验表明,所提方法具有较高的查询效率。 相似文献
13.
14.
15.
随着金融业的迅猛发展和金融交易监管的不断升级,可疑交易监测工作面临巨大考验。可疑交易是指通常情况下不认为符合正常逻辑思维的交易,本文首先介绍可疑交易的特点,而后提出多种不同聚类算法,分析不同聚类算法结合可疑交易识别工作下的优劣势。本文的核心是基于高斯混合模型下的可疑交易识别模型,针对可疑交易的交易结构与交易特点,来对可疑交易进行判别,并用Python实现对数据的可视化分析。 相似文献
16.
针对现有行为识别方法缺乏对时空特征关系建模的问题,提出一种基于特征交互和聚类的行为识别方法.首先设计一种混合多尺度特征提取网络提取连续帧的时间和空间特征;然后基于Non-local操作设计一种特征交互模块实现时空特征的交互;最后基于三元组损失函数设计一种难样本选择策略来训练识别网络,实现时空特征的聚类,提高特征的鲁棒性和判别性.实验结果表明,与基线方法 TSN相比,所提方法的准确度在UCF101数据集上提高了23.25个百分点,达到94.82%;在HMDB51数据集上提高了20.27个百分点,达到44.03%. 相似文献
17.
通过分析常见异常流量的内在特征,在Chameleon算法的基础上,设计了一种基于聚类的异常流量检测算法。通过对DARPA1998数据集的实验结果表明,该算法能够在没有先验知识的前提下,对影响正常网络性能的异常流量有较高的检测准确率。 相似文献
18.
吴涤单 《数字社区&智能家居》2014,(6):1238-1241
针对传统的k-means算法处理离散型数据的不足以及选取初始聚类中心的随机性等缺点,提出了一种基于改进的粒子群优化k-means算法,根据文中提供的优化算法寻找初始聚类中心后,在阀值范围内进行数据样本间的迭代更新,直至聚类中心稳定。经过实验结果验证分析表明,经过改进的粒子群优化k-means算法与传统的k-means算法相比,更具有良好的聚类收敛效果,聚类效果也相对稳定。 相似文献
19.
聚类是数据挖掘领域中最活跃的研究分支之一,并在其他的科学领域也有广泛的应用。设计了基于加权快速聚类的异常数据挖掘算法,以便能快速发现异常数据。首先通过对数据的每个属性赋予一定权值,权值的大小要体现其对分类的贡献度,并根据属性权值的特点,选择比较优良的初始分区,然后进行多次迭代,得到接近最优分区,接着运用一定规则,发现异常数据类,最后实践证明该技术取得很好的社会效果。 相似文献