首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 506 毫秒
1.
聚类分析是数据挖掘中一种非常重要的技术.聚类算法中的关键问题是相异度或相似度的度量,聚类结果直接依赖于相异度或相似度度量,尤其对于谱聚类方法更是如此.谱聚类算法是近期兴起的一种基于相似度矩阵的聚类算法.相比于传统的划分型聚类算法,谱聚类算法不受限于球状聚类簇,能够发现不规则形状的聚类簇.在已有的谱聚类算法中,高斯核相似度是最常用的相似度度量准则.基于高斯核相似度度量及其扩展形式,提出了一种加权的自适应的相似度度量,此相似度可以用于谱聚类以及其他基于相似度矩阵的聚类算法.新的相似度度量不仅能够描述多密度聚类簇中数据点间的相似度,而且可以降低离群点(噪声点)与其他数据点间的相似度.实验结果显示新的相似度度量可以更好地描述不同类型的数据集中数据点间的相似度,进而得到更好的聚类结果.  相似文献   

2.
基于新的相异度量的模糊K-Modes聚类算法   总被引:3,自引:2,他引:1  
白亮  曹付元  梁吉业 《计算机工程》2009,35(16):192-194
传统的模糊K-Modes聚类算法采用简单匹配方法度量对象与Mode之间的相异程度,没有充分考虑Mode对类的代表程度,容易造成信息的丢失,弱化了类内的相似性。针对上述问题,通过对象对类的隶属度反映Mode对类的代表程度,提出一种新的相异度量,并将它应用于传统的模糊K—Modes聚类算法。与传统的K—Modes和模糊K-Modes聚类算法相比,该相异度量是有效的。  相似文献   

3.
基于二维属性的高维数据聚类算法研究   总被引:1,自引:1,他引:0  
聚类就是按照一定的要求和规律对事物进行区分和分类的过程.在这一过程中没有任何关于类别的先验知识,也没有教师的指导,仅靠事物间的相似性作为类属划分的准则,因此属于元监督分类的范畴.聚类分析则是指用数学的方法研究和处理给定对象的分类.针对目前很多聚类算法只能对低维数据进行聚类的问题,提出了一种改进的相异度度量方法对二维属性的高维数据采用层次分裂算法进行聚类,而且根据用户指定的参数聚类,并对传统相异度度量和改进的相异度度量方法的聚类结果进行比较,发现改进的相异度度量方法更适用于二维属性的高维数据的聚类.  相似文献   

4.
提出了一种基于新相异度量的模糊K-Modes算法。该算法假定不同属性对聚类结果有不同程度的影响,定义了新的属性值函数,以基于划分相似度的聚类精确度作为聚类结果的评价准则。通过真实数据的实验结果表明,新的基于相异度量的模糊K-Modes算法比传统的模糊K-Modes算法有更好的聚类效果。  相似文献   

5.
聚类是数据挖掘的主要问题之一,聚类算法能够在没有任何数据先验知识的情况下对数据进行分群,从而找到数据中的有价值的信息,近年来数据挖掘在电信领域的应用越来越广泛,但是由于数据量、数据类型、计算复杂度等原因,聚类算法应用的却不多.提出一种新的适合于分布式计算的最小生成树算法,结合适合的相似度度量,设计了一种用于解决海量数据...  相似文献   

6.
基于稀疏差异度的聚类方法在信息分类中的应用   总被引:1,自引:1,他引:1  
针对文本信息聚类中的高属性维稀疏数据聚类问题,采用计算对象间稀疏特征差异度来度量文本对象之间的相关度,结合最小生成树的方法来进行聚类分析,提出一种基于稀疏特征差异度的聚类方法,通过实例表明,该算法对于多关键字匹配的文本信息分类十分有效,并可根据关键字的重要程度进行加权计算,使聚类更加符合实际情况。该算法将在高维稀疏数据挖掘中有着重要应用。  相似文献   

7.
聚类分析是数据挖掘领域的重要组成部分之一,而度量学习是聚类分析中的关键性步骤。传统聚类算法中通常使用欧氏距离进行距离度量,但是欧氏距离只关注两两样本之间的距离关系,并没有顾及数据的全局性分布结构。考虑到数据的全局性结构信息,提出了一种新的具有全局性的度量方法——有效距离度量(effective distance metric),其主要思想是通过稀疏重构的方法计算数据样本之间的有效距离。进一步地,将有效距离应用到K-means、K-medoids和FCM(fuzzy C-means)3种经典聚类算法中开发了3种基于有效距离的聚类算法,即EK-means,EK-medoids和EFCM聚类算法。通过与传统聚类算法在UCI标准数据集上的实验结果进行比较,验证了基于有效距离的聚类算法能显著提高聚类效果。  相似文献   

8.
混合数据的聚类过程中通常面临一个不可回避的问题:聚类个数的确定。基于Liang k-prototype算法引入属性权重,重新定义混合数据缺失某类的类间熵和(SBAE_M)、有效性指标(CUM)及相异性度量。提出一种带权的混合数据聚类个数确定算法。该算法的基本思想是:用newk-prototype算法将混合数据进行聚类,计算其聚类结果的CUM及SBAE_M,将最坏的类剔除,并将该类中的对象用新的相异性度量进行重新分配,CUM最大时包含的类别数即为聚类个数。在5个UCI数据集上验证了该算法的有效性。  相似文献   

9.
提出了一种基于方向相似性度量的蚁群聚类算法。首先针对方向性数据的特点将方向性度量引入蚁群聚类算法作为相似性度量;其次使用两个反应阈值决定人工蚂蚁的聚类动作,避免了LF算法中由于计算平均相似度而出现的不足。实验结果表明,该算法能有效地对方向性数据聚类,具有一定的实际应用价值。  相似文献   

10.
在聚类分析中,距离及差异性(或相似性)度量方法是最基础的概念,度量方法的选择直接影响聚类结果的质量。本文在已有聚类算法的基础上,将混合数据的相异度矩阵与K-means算法相结合,提出了一种切实有效,具有较强通用性、稳定性的方法,对于入侵检测具有重大的现实意义。  相似文献   

11.
基于网络的数据挖掘系统设计   总被引:2,自引:0,他引:2  
在研究数据挖掘系统具有的一般性设计原理基础上,针对其无法应用于网络数据的缺陷,根据网络数据存储量大且组织分散的特点,围绕如何利用多Agent的智能性、协作性、互操作性等良好特性,引入多种Agent,构建一种基于多Agent的网络数据挖掘系统,并提出设计这种基于网络的数据挖掘系统目标、原理和功能模块.  相似文献   

12.
基于规则的分类数据离群挖掘方法研究   总被引:15,自引:0,他引:15  
离散数据的挖掘(outlier minign,简称离群挖掘)是数据挖掘的重要内容,现有的离群数据挖掘算法大多对分类数据(categorical data)缺乏有效的处理,提出了基于规则的分类数据离群挖掘方法,采用多层最大离群支持度maxsup,搜索离群规则,有效地解决了这一问题,用这一方法对医学流行病数据进行了各种,分析了该方法的适用范围、性能,验证了方法正确性;另外,实验表明,经过离散化后,基于  相似文献   

13.
针对长期积累的病历数据不仅数量庞大,记录方式、内容千差万别,而且噪声、缺省值大量存在的问题,提出了智能医疗诊断系统,利用以往的病历数据经过数据挖掘等技术来产生决策规则,以期为潜在的患者及早发现病情,获得早期诊治:总结了病历文本的记录内容和特点,对每一类的特点和形成原因进行了分析研究,并结合医疗诊断分别提出了针对它们的预处理方法,为下一步数据挖掘做好了准备。  相似文献   

14.
在对Web数据挖掘技术和电子商务推荐系统进行研究生的基础上,设计和提出了一种基于Web数据挖掘的电子商务推荐系统.该系统根据电子商务网站的基本特征,设计了用户当前兴趣表示方法和推荐算法,由于结合了Web使用挖掘和Web内容挖掘为顾客提供个性化推荐服务,从而较大提高了系统的推荐精确度,在实际应用中取得了较好的推荐效果.  相似文献   

15.
过程挖掘是针对流程信息系统所记录下的日志进行分析,将业务流程真实过程还原的技术。目前已有的方法多是基于控制流与数据流的观点,针对任务运行状态的,无时延的业务过程进行挖掘。但在挖掘存在多任务的有时延的业务进程方面,目前的方法存在一定局限性。提出基于队列挖掘优化过程模型的方法,首先利用现有的基于过程挖掘的方法,挖掘业务流程的初始模型。再运用队列挖掘的观点对特定的顾客进行时延预测,挖掘出顾客的行为信息,以此对初始流程模型进行优化。最后通过实例验证了所提出的优化挖掘方法的有效性,优化后的流程模型不仅对事件日志有很好的重放效果,并且能够反应出多类别的,且存在时延的业务流程中任务的行为信息。  相似文献   

16.
The goal of data mining is to find out interesting and meaningful patterns from large databases. In some real applications, many data are quantitative and linguistic. Fuzzy data mining was thus proposed to discover fuzzy knowledge from this kind of data. In the past, two mining algorithms based on the ant colony systems were proposed to find suitable membership functions for fuzzy association rules. They transformed the problem into a multi-stage graph, with each route representing a possible set of membership functions, and then, used the any colony system to solve it. They, however, searched for solutions in a discrete solution space in which the end points of membership functions could be adjusted only in a discrete way. The paper, thus, extends the original approaches to continuous search space, and a fuzzy mining algorithm based on the continuous ant approach is proposed. The end points of the membership functions may be moved in the continuous real-number space. The encoding representation and the operators are also designed for being suitable in the continuous space, such that the actual global optimal solution is contained in the search space. Besides, the proposed approach does not have fixed edges and nodes in the search process. It can dynamically produce search edges according to the distribution functions of pheromones in the solution space. Thus, it can get a better nearly global optimal solution than the previous two ant-based fuzzy mining approaches. The experimental results show the good performance of the proposed approach as well.  相似文献   

17.
目前数据库关联规则的增量挖掘作为数据挖掘的一个重要的领域, 已经广泛应用于教育, 医疗, 卫生等领域, 因此它成为了当今数据挖掘中最活跃, 最重要的一个分支领域. 数据库中的数据存在大量未知的数据以及不可知的数据变化. 若采用Apriori算法进行计算, 一方面很难取得较好的结果, 另一方面支持度的变化对结果的影响很大, 无法确定支持度的变化, 因此借助属性论中定性属性的机理以及属性计算网络的边界学习算法, 结合IUBM算法提出了一种基于定性属性的关联规则的增量挖掘算法. 比如在以分数划线招生制度下, 定性基准的一分之差, 可能完全改变一个学生的一生的命运. 通过实验表明, 该算法在处理大规模数据的增量式关联规则的挖掘中减少了冗余规则的产生, 同时挖掘效率得到了很大的提升. 对于诸如预测大学生就业的情况及招聘企业对于应届生学习情况的了解等应用十分有意义.  相似文献   

18.
数据挖掘中的关联规则反映一个事件和其他事件之间依赖或相互关联的知识。随着大量数据不停地收集和存储积累,人们希望从中发现感兴趣的数据关联关系,从而帮助他们进行决策。随着信息技术的发展,数据挖掘在一些深层次的应用中发挥了积极的作用。但与此同时,也带来隐私保护方面的问题。隐私保护是当前数据挖掘领域中一个十分重要的研究问题,其目标是要在不精确访问真实原始数据的条件下,得到准确的模型和分析结果。为了提高对隐私数据的保护程度和挖掘结果的准确性,提出一种有效的隐私保护关联规则挖掘方法。针对关联规则挖掘中需预先给出最小支持度和最小置信度这一条件,提出了一种简单的事务数据库中事务的处理方法,即隐藏那些包含敏感项目的关联规则的方法,以对相关事务作处理,达到隐藏包含敏感项目的关联规则的目的。理论分析和实验结果均表明,基于事务处理的隐私保护关联规则挖掘方法具有很好的隐私性、简单性和适用性。  相似文献   

19.
为了解决惯性领域内“数据丰富知识贫乏”的问题,建立一个基于数据挖掘的智能故障诊断系统,并重点围绕其中的数据挖掘环节展开研究.以金姿态组合陀螺TQZ-1A为研究对象,运用Clementine12.0工具,借鉴CRISP-DM行业标准,构建了基于两阶段聚类并做改进的C5.0模型.经过模型评价指标的综合评估验证了模型良好的预测性能,说明所建立的模型是科学的,适用于工程实践.  相似文献   

20.
基于XML的数据挖掘   总被引:11,自引:2,他引:11  
基于人工智能的数据挖掘,其结果受到人工智能研究的制约。XML技术的出现,为在数据组织中更好地体现数据本身的含义提供了很好的途径。对基于XML的数据挖掘基本过程进行了探讨研究,提出了在数据挖掘过程中,从数据源到发现知识全过程都基于XML进行描述处理的方法与过程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号