共查询到20条相似文献,搜索用时 62 毫秒
1.
2.
3.
4.
一种新的中心对称聚类算法 总被引:2,自引:0,他引:2
Data clustering is an important reserch field in data mining.The key of the clustering algorithm is the distance measure.In this paper,we put forward a new distance measure based on central symmetry,Then we apply it to data clustering.The experimental studies prove the feasibility of this algorithm and get a satisfied result in face detection. 相似文献
5.
基于搜索树的告警高效聚类算法和Bayes分类器的设计和研究 总被引:2,自引:0,他引:2
如何从IDS等安全产品每天产生的海量告警和日志中挖掘出有价值的信息,帮助管理员找到那些真正具有威胁的攻击,然后采取措施,有效地保护系统安全,这是入侵检测系统急待解决的问题。本文利用搜索树可以减少搜索空间和覆盖向量的特点提出了基于搜索树的高效告警聚类算法;考虑到把新来的告警事件归类到先前通过聚类得到的类中,让其与其他的告警事件可以关联起来,提出了基于贝叶斯事件分类器的告警分类方法。最后使用KDD Cup 1999 Data的数据进行了性能测试。实验测试结果表明,此算法和方法是快速有效的。在原型系统“多信息源智能化安全强审计系统”中的实际应用也展现了其良好的应用前景。 相似文献
6.
提出了一种新的基于图划分的聚类算法——GAGPBCUK算法。该算法解决了谱聚类算法参数敏感和聚类结果不准确等问题。3组仿真实验结果表明,GAGPBCUK算法不仅在识别和学习数据集中的隐含聚类数方面具有很好的性能,而且能够得到比谱聚类算法(NJW算法)更加有效的聚类结果。 相似文献
7.
针对k-medoids算法对初始聚类中心敏感,聚类精度较低及收敛速度缓慢的缺点,提出一种基于密度初始化、密度迭代的搜索策略和准则函数优化的方法。该算法初始化是在高密度区域内选择k个相对距离较远的样本作为聚类初始中心,有效定位聚类的最终中心点;在k个与初始中心点密度相近的区域内进行中心点替换,以减少候选点的搜索范围;采用类间距和类内距加权的均衡化准则函数,提高聚类精度。实验结果表明,相对于传统的k-mediods算法及某些改进算法,该算法可以提高聚类质量,有效缩短聚类时间。 相似文献
8.
聚类是数据挖掘领域重要的研究方向.在众多的聚类算法中,Leader算法运用很广泛,但Leader算法没有考虑到聚类分析中内在的不确定性.对Leader算法做了相应改进,加入了粗糙集和粒计算的思想,使其能够处理聚类中固有的不确定性,得到更合理的聚类结果.最后,通过实验证明了该算法的优越性. 相似文献
9.
在2010年提出已有的k-means聚类中心选取算法的基础上进行改进。通过计算样本间的距离求出每个样本的密度参数,选取最大密度参数值所对应的样本作为初始聚类中心。当最大密度参数值不惟一时,提出合理选取最大密度参数值的解决方案,依次求出k个初始聚类中心点,由此提出了一种新的k-means聚类中心选取算法。实验证明,提出的算法与对比算法相比具有更高的准确率。 相似文献
10.
传统聚类方法将对象严格地划分到某一类,但很多时候边界对象不能被严格地划分.粗糙集用上近似集和下近似集表示一个类,对这种边界不确定的处理非常有效,典型算法有基于粗糙集的k-means聚类算法和基于粗糙集的leader聚类算法.本文针对RFA(R0ughFuzzyApproach)算法存在的不足,提出了一种新的基于粗糙集的leader聚类算法(NRL,Novel Rough-based Leader).其基本思想是首先数据项由于与其最近类中心的距离不同,分别被划分到leader集或者supporting leader集,然后对leader集和supporting leader集进行标号,得到聚类结果.实验结果表明NRL算法非常有效. 相似文献
11.
一种新型的基于密度和栅格的聚类算法* 总被引:1,自引:1,他引:1
针对网格和密度方法的聚类算法存在效率和质量问题,给出了密度和栅格相结合的聚类挖掘算法,即基于密度和栅格的聚类算法DGCA(density and grid based clustering algorithm)。该算法首先将数据空间划分为栅格单元,然后把数据存储到栅格单元中,利用DBSCAN密度聚类算法进行聚类挖掘;最后进行聚类合并和噪声点消除,并将局部聚类结果映射到全局聚类结果。实验通过人工数据样本集对该聚类算法进行理论上验证,表明了该算法在时间效率和聚类质量两方面都得到了提高。 相似文献
12.
针对K-means算法的聚类结果极易受到聚类中心的影响而陷入局部最优解的问题,提出一种基于改进引力搜索的K-means聚类算法。首先引入自适应概念,对引力系数衰减因子进行控制,提高算法的全局探索能力和局部开发能力;然后,引入免疫克隆选择机制,以便算法能够有效跳出局部最优,并通过对12个基准测试函数的实验验证改进引力搜索算法的有效性和优越性;最后,通过结合改进的引力搜索算法和K-means算法,提出一种新的聚类算法A2F-GSA-Kmeans,并在6个测试数据集上的实验表明,该算法具有较好的聚类质量。 相似文献
13.
14.
15.
针对现有的单视图数据竞争聚类算法无法高效处理多视图数据的问题,提出了基于视图相关因子的多视图数据竞争聚类算法。首先,为了描述不同视图之间的相关性定义了一种视图相关性因子;然后,将视图相关因子与谱方法关于拉普拉斯矩阵的目标函数最大化问题结合,建立一个联合目标函数,使得不同视图之间的信息相互影响,以充分利用多视图的信息。通过解决联合目标函数的优化问题,得到每个视图的优化嵌入矩阵;最后,将得到的优化嵌入矩阵用于数据竞争聚类算法中。在人工和真实数据集上的仿真实验结果表明,新算法比现有的数据竞争聚类算法具有更高的聚类性能。 相似文献
16.
针对模糊C-均值聚类对初始值敏感、容易陷入局部最优的缺陷,提出了一种基于萤火虫算法的模糊聚类方法。该方法结合萤火虫算法良好的全局寻优能力和模糊C-均值算法的较强的局部搜索特性,用萤火虫算法优化搜索FCM的聚类中心,利用FCM进行聚类,有效地克服了模糊C-均值聚类的不足,同时增强了萤火虫算法的局部搜索能力。实验结果表明,该算法具有很好的全局寻优能力和较快的收敛速度,能有效地收敛于全局最优解,具有较好的聚类效果。 相似文献
17.
为了减小电信网络中海量告警数据对的告警根源分析所造成的干扰,提出一种告警过滤算法。首先,基于电信网络告警数据对告警量分布、告警持续时间等特征进行量化分析,提出告警影响力和高频瞬态告警概念。在此基础上,从告警量、平均告警时间、告警影响力以及告警实例持续时间四个维度对告警重要程度进行综合分析,并提出复杂度为O(n)(n为告警记录数)的告警过滤算法。单因素实验分析显示,告警压缩比与特定告警元的告警量、平均告警时间、告警影响力以及告警实例持续时间具有正相关关系。对比实验结果表明,在相似告警压缩比下,所提算法的准确性比FTD(Flexible Transient flapping Determination)算法最多提高18个百分点,可用于电信行业的告警数据样本分析以及在线告警过滤。 相似文献
18.
入侵检测系统中分层报警处理模型的研究 总被引:2,自引:0,他引:2
针对入侵检测系统中报警泛滥的问题,提出了一种分层的报警数据处理模型,在不同层次对报警数据进行了过滤、归约、融合和关联。在过滤阶段,建立了知识库对误警进行了消除;在归约阶段,设计了归约算法,可以实时消除报警中的重复信息;在融合阶段,设计了一种基于聚类的融合算法,可以实时消除报警中的相似信息;在关联阶段,首先用频繁片段算法对训练数据进行了分析,发现其中的入侵模式,然后再以这些模式建立知识库,为基于聚类的关联算法提供攻击的相似信息以发现入侵模式。通过上述处理,减少了报警中的错误信息和无用信息,减轻了系统和管理员 相似文献
19.
聚类是一种无监督的机器学习方法,其任务是发现数据中的自然簇。共享最近邻聚类算法(SNN)在处理大小不同、形状不同以及密度不同的数据集上具有很好的聚类效果,但该算法还存在以下不足:(1)时间复杂度为O(n2),不适合处理大规模数据集;(2)没有明确给出参数阈值的简单指导性操作方法;(3)只能处理数值型属性数据集。对共享最近邻算法进行改进,使其能够处理混合属性数据集,并给出参数阈值的简单选择方法,改进后算法运行时间与数据集大小成近似线性关系,适用于大规模高维数据集。在真实数据集和人造数据集上的实验结果表明,提出的改进算法是有效可行的。 相似文献
20.
针对传统的K-均值算法聚类时所面临的维数灾难、初始聚类中心点难以确定的缺点,提出一种改进的K-均值算法,其核心思想是通过降维、基于密度及散布的初始中心点搜索等方法改进K-均值算法。实验结果证明改进后的算法无论在聚类精度还是在稳定性方面,都明显优于标准的K-均值算法。 相似文献