首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
基于等价相异度矩阵的聚类   总被引:5,自引:0,他引:5  
本文介绍了等价相异度矩阵的性质,证明了[d(i,j)]n-1 n×n是等价相异度矩阵,并给出了等价相异矩阵的逐次平方求解方法和基于相异度矩阵的聚类方法.最后通过实验证明了此聚类方法的可行性和有效性.  相似文献   

2.
数据挖掘中聚类的研究   总被引:16,自引:0,他引:16  
聚类是数据挖掘中重要的研究课题。文章介绍了聚类,讨论了聚类分析中的数据类型及其相异度,概括了数据挖掘中常用的聚类方法。最后,提出了聚类研究中今后的若干发展趋势。  相似文献   

3.
提出了一种基于新相异度量的模糊K-Modes算法。该算法假定不同属性对聚类结果有不同程度的影响,定义了新的属性值函数,以基于划分相似度的聚类精确度作为聚类结果的评价准则。通过真实数据的实验结果表明,新的基于相异度量的模糊K-Modes算法比传统的模糊K-Modes算法有更好的聚类效果。  相似文献   

4.
基于相异度的孤立点挖掘研究   总被引:1,自引:0,他引:1  
在介绍孤立点的定义以及现有孤立点挖掘方法(如基于统计的方法、基于距离的方法、基于进化论的方法等等)的基础上,提出一种基于相异度的孤立点数据挖掘方法,给出算法描述.通过实验对算法进行分析,与传统的方法相比,方法的思想比较简单和新颖.  相似文献   

5.
基于新的相异度量的模糊K-Modes聚类算法   总被引:3,自引:2,他引:1  
白亮  曹付元  梁吉业 《计算机工程》2009,35(16):192-194
传统的模糊K-Modes聚类算法采用简单匹配方法度量对象与Mode之间的相异程度,没有充分考虑Mode对类的代表程度,容易造成信息的丢失,弱化了类内的相似性。针对上述问题,通过对象对类的隶属度反映Mode对类的代表程度,提出一种新的相异度量,并将它应用于传统的模糊K—Modes聚类算法。与传统的K—Modes和模糊K-Modes聚类算法相比,该相异度量是有效的。  相似文献   

6.
在数据挖掘中我们往往会忽略离群数据,可是这些数据却往往包含重要的信息.本文采用了将决策树与相异度相结合的方式进行离群数据的挖掘.通过计算决策树中各属性的信息增益,递归构造出决策树,并通过剪枝,进行初次的离群点检测,再运用相异度计算公式建立矩阵,找出最终的离群点集合.  相似文献   

7.
随着数据信息的积累,如何从这些海量信息中有效地提取所需要的知识成为当前数据挖掘的重要内容。聚类作为数据挖掘的重要工具,通过将数据划分成多个类,使得类内数据尽可能相似,而类间数据的相似度尽可能小,已成为研究热点。本文总结在数据挖掘中的聚类算法,针对聚类中所存在的问题进行归纳,并对未来的研究进行了展望。  相似文献   

8.
聚类就是按照一定的要求和规律对事物进行区分和分类的过程.在这一过程中没有任何关于类别的先验知识,也没有教师的指导,仅靠事物间的相似性作为类属划分的准则,因此属于元监督分类的范畴.聚类分析则是指用数学的方法研究和处理给定对象的分类.针对目前很多聚类算法只能对低维数据进行聚类的问题,提出了一种改进的相异度度量方法对二维属性的高维数据采用层次分裂算法进行聚类,而且根据用户指定的参数聚类,并对传统相异度度量和改进的相异度度量方法的聚类结果进行比较,发现改进的相异度度量方法更适用于二维属性的高维数据的聚类.  相似文献   

9.
随着WWW的迅猛发展,基于Web的信息量不断的增加,如何从Web挖掘中寻找知识,通过对Web访问模式的数据挖掘研究,探索Web日志的分析流程,并展示它广泛的应用前景。  相似文献   

10.
基于直觉模糊等价相异矩阵的聚类方法   总被引:4,自引:0,他引:4  
针对直觉模糊集合数据的聚类问题,提出了一种基于直觉模糊等价相异矩阵的聚类方法。该方法首先给出直觉模糊相异区间的概念,并构建了直觉模糊相异矩阵;然后定义了直觉模糊等价相异矩阵和(α,β)截矩阵,进而给出直觉模糊聚类算法;最后将其应用于目标编群领域,通过实例验证该算法的有效性。  相似文献   

11.
Compression-based data mining of sequential data   总被引:3,自引:1,他引:2  
The vast majority of data mining algorithms require the setting of many input parameters. The dangers of working with parameter-laden algorithms are twofold. First, incorrect settings may cause an algorithm to fail in finding the true patterns. Second, a perhaps more insidious problem is that the algorithm may report spurious patterns that do not really exist, or greatly overestimate the significance of the reported patterns. This is especially likely when the user fails to understand the role of parameters in the data mining process. Data mining algorithms should have as few parameters as possible. A parameter-light algorithm would limit our ability to impose our prejudices, expectations, and presumptions on the problem at hand, and would let the data itself speak to us. In this work, we show that recent results in bioinformatics, learning, and computational theory hold great promise for a parameter-light data-mining paradigm. The results are strongly connected to Kolmogorov complexity theory. However, as a practical matter, they can be implemented using any off-the-shelf compression algorithm with the addition of just a dozen lines of code. We will show that this approach is competitive or superior to many of the state-of-the-art approaches in anomaly/interestingness detection, classification, and clustering with empirical tests on time series/DNA/text/XML/video datasets. As a further evidence of the advantages of our method, we will demonstrate its effectiveness to solve a real world classification problem in recommending printing services and products. Responsible editor: Johannes Gehrke  相似文献   

12.
为了进一步遏制图像型垃圾邮件的泛滥,本文首次提出了一种基于Kolmogorov复杂性的垃圾图像分类模型。该模型利用数据压缩技术,实现了对垃圾图像的有效分类。与目前主流垃圾图像分类方法相比,本模型既不需要提取图像中的文字,也不需要对图像特征进行定义和选择,而是一种无参数的分类方法。实验验证了本模型的有效性和鲁棒性,同时还表明,Kolmogorov复杂性在垃圾信息过滤中具有广阔的应用前景。  相似文献   

13.
数据挖掘中聚类算法研究进展   总被引:6,自引:0,他引:6  
聚类分析是数据挖掘中重要的研究内容之一,对聚类准则进行了总结,对五类传统的聚类算法的研究现状和进展进行了较为全面的总结,就一些新的聚类算法进行了梳理,根据样本归属关系、样本数据预处理、样本的相似性度量、样本的更新策略、样本的高维性和与其他学科的融合等六个方面对聚类中近20多个新算法,如粒度聚类、不确定聚类、量子聚类、核聚类、谱聚类、聚类集成、概念聚类、球壳聚类、仿射聚类、数据流聚类等,分别进行了详细的概括。这对聚类是一个很好的总结,对聚类的发展具有积极意义。  相似文献   

14.
田华  何翼 《计算机应用研究》2020,37(12):3586-3589
针对大数据分析在大规模并行分布式系统和软件平台上可扩展的问题,提出了一个基于无参数围绕质心二进制分裂聚类(clustering using binary splitting,CLUBS)的大数据挖掘技术。该技术以完全无监督的方式工作,基于最小二次距离的准则进行分裂聚类将数据与噪声分离,通过中级精炼来识别仅包含异常值的块并为剩余块生成全面的簇,设计CLUBS的并行化版本以实现对大数据进行快速有效的聚类。实验表明CLUBS并行算法不受数据维度和噪声的影响,且比现有算法具有更好的可扩展性且速度较快。  相似文献   

15.
基于数据挖掘的入侵检测系统智能结构模型   总被引:10,自引:5,他引:5  
伊胜伟  刘旸  魏红芳 《计算机工程与设计》2005,26(9):2464-2466,2472
为了提高对拒绝服务攻击、内存溢出攻击、端口扫描攻击和网络非法入侵等发现的有效性以及对海量的安全审计数据能进行智能化处理,采用数据挖掘的方法从大量的信息中提取有威胁的、隐蔽的入侵行为及其模式.将数据挖掘的聚类分析方法与入侵检测系统相结合,提出了一种入侵检测系统的智能结构模型.实验表明,它能够有效地从海量的网络数据中进行聚类划分,找到相关的入侵数据,从而提高对各种攻击类型网络入侵检测的效率.  相似文献   

16.
将不完全数据分为了两类:属性值残缺和属性值隐含.对基于这两类不完全数据的数据挖掘方法分别进行了探讨,给出了相应的处理方法,并对这些方法及其应用进行了讨论.属性值残缺的处理主要采用一系列"补漏"的方法,使数据成为完全数据集;属性值隐含的处理则通过EM算法来优化模型的参数,弥补数据的不完全性.  相似文献   

17.
聚类是数据挖掘领域中最活跃的研究分支之一,并在其他的科学领域也有广泛的应用。设计了基于加权快速聚类的异常数据挖掘算法,以便能快速发现异常数据。首先通过对数据的每个属性赋予一定权值,权值的大小要体现其对分类的贡献度,并根据属性权值的特点,选择比较优良的初始分区,然后进行多次迭代,得到接近最优分区,接着运用一定规则,发现异常数据类,最后实践证明该技术取得很好的社会效果。  相似文献   

18.
基于相异性选择的密度聚类算法研究   总被引:4,自引:0,他引:4  
在最优K相异性算法(OptiSim)的基础上,提出一种扩展的最优K相异性算(EOptiSim)。由于EOptiSim在处理组合数据库和分布式数据库方面能弥补基本的OptiSim方法的不足,所以通过在DBSCAN算法之前应用0ptiSim或EOptiSim多样化代表性子集选择技术。在显著降低I/O耗费和内存需求的同时,不仅能够有效地聚类单一的大规模空间数据库,而且还能聚类大规模组合数据库或分布式数据库.实验结果表明本文的算法是可行、有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号