首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
Data mining in incomplete information systems is a hard problem but inevitable in uncertain decision. In thispaper ,an extended rough set model based on dominance relation is combined with fuzzy set theory for data mining ininterval valued decision table ,then decision rules can be obtained from the decision table. Simulation results show that the method is effective.  相似文献   

2.
数据挖掘中的聚类方法   总被引:61,自引:5,他引:61  
王实  高文 《计算机科学》2000,27(4):42-45
从空间X中给定一个有限的取样点集(或从数据库中取得有限例子的集合),{x~i}_(i 1)~M,聚类的目标是将数据聚集成类,使得类间的相似性尽量小,而类内的相似性尽量大。分类问题(监督)和聚类问题根本的不同是:分类问题中,我们知道训练例的分类属性值,而在聚类问题中,就需要我们在训练例中找到这个分类属性值。1 数据挖掘领域中的聚类研究  相似文献   

3.
一、引言自然界以及我们社会生活中的各种事物都在运动、变化和发展着,将它们按时间顺序记录下来,我们就可以得到各种各样的“时间序列”数据。对时间序列进行分析,可以揭示事物运动、变化和发展的内在规律,对于人们正确认识事物并据此作出科学的决策具有重要的现实意义。  相似文献   

4.
聚类在数据挖掘中扮演着重要角色,本文分析了数据挖掘对聚类的性能要求,详细分析了几类主聚类算法及其性能.进一步对聚类算法提出了期望。  相似文献   

5.
一种基于遗传算法的聚类新方法   总被引:14,自引:1,他引:14  
1 引言数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现  相似文献   

6.
文本聚类中的文本对象一般都是高维的,类的大小、密度各不相同,给聚类带来了很大难度.目前国内针对这些问题而提出的应用于遗传算法的适应值函数却很少,国外的通用目标函数比较复杂,而且在文本聚类上的效果一般.针对文本对象的特征提出了一种应用于遗传算法的适应值函数,它具有结构简单、易于计算、适用于高维对象的特点,并且能够帮助遗传算法更好避免陷入局部最优,达到比较准确地描述聚类结果的目的.通过实验与CS Meas-ure相比,聚类结果更优.  相似文献   

7.
周妍  孔晓玲  张然 《福建电脑》2007,(8):9-10,21
聚类分析是数据挖掘的核心技术之一。本文介绍了当前最具代表性的聚类算法,分析它们各方面的特性,总结了聚类方法发展的趋势,并对聚类算法的研究提出了展望,便于研究者对已有算法应用与改进。  相似文献   

8.
一种基于密度的快速聚类算法   总被引:52,自引:0,他引:52  
聚类是数据挖掘领域中的一个重要研究方向,聚类技术在统计数据分析、模式识别、图像处理等领域有广泛应用,迄今为止人们提出了许多用于大规模数据库的聚类算法。基于密度的聚类算法DBSCAN就是一个典型代表。以DBSCAN为基础,提出了一种基于密度的快速聚类算法。新算法以核心对象领域中所有对象的代表对象为种子对象来扩展类,从而减少区域查询次数,降低I/O开销,实现快速聚类,对二维空间数据测试表明:快速算法能够有效地对大规模数据库进行聚类,速度上数倍于已有DBSCAN算法。  相似文献   

9.
聚类在数据挖掘中扮演着重要角色,本文分析了数据挖掘对聚类的性能要求,详细分析了几类主聚类算法及其性能,进一步对聚类算法提出了期望。  相似文献   

10.
数据挖掘中聚类算法比较研究   总被引:16,自引:0,他引:16  
聚类算法是数据挖掘的核心技术,本文结合提出了评价聚类算法好坏的5个标准,基于这5个标准,对数据挖掘中常用聚类算法作了比较分析,以便于人们更容易,更快捷地找到一种适用于特定问题的聚类算法。  相似文献   

11.
王晓鹏 《计算机仿真》2020,37(1):234-238
对区间值属性数据集进行挖掘,可以有效分析出数据之间的关系。针对现有数据挖掘方法未对大规模数据进行聚类,导致挖掘过程占据内存大,挖掘精度低的问题,提出了一种新的区间值属性数据集挖掘算法。对问题定义、数据准备、数据提取、模式预测和数据聚类等模块进行详细分析,完成区间值属性数据聚类。根据聚类结果,将区间值属性数据分成多个数据集,挑选出能够支持最小支持度的项目集,将这些项目集作为频繁项集,进而提取出数据集之间的关联规则,将关联规则融入数据计算步骤,完成数据挖掘。为验证算法效果,进行仿真,结果表明,相较于传统挖掘算法,所提挖掘算法占用容量更小,挖掘精度更高。  相似文献   

12.
提取区间型数据的特征值,给出适用于区间型数据模糊聚类的FCM算法族(IFCM)。该算法适用于不同特征样本数据的模糊聚类运算,并可对聚类结果进行优化。聚类效果的仿真比较表明,IFCM聚类的平均失真度比基于欧氏距离的FCM聚类算法低6.81%。由于距离定义的合理性,IFCM可以根据区间型数据的不同特点调整特征值的聚类权重,并推广至多维类型数据的模糊聚类。  相似文献   

13.
数据挖掘过程中的模糊聚类方法   总被引:6,自引:0,他引:6  
在研究数据挖掘过程中常见的数据聚类方法的基础上,在数据挖掘中引入了模糊聚类分析的方法,分析了该方法在数据挖掘过程中的特性,讨论了其在大型数据库中的应用方法。  相似文献   

14.
数据挖掘常用聚类算法研究   总被引:2,自引:0,他引:2  
信息社会的发展,使数据量以前所未有的速度在增长,因此从海量数据中获取有用的知识和信息就变得越来越重要。数据挖掘是一种综合多领域知识而形成的数据分析技术,能够从大量数据中获取有价值的知识并为决策提供支持。聚类分析算法是数据挖掘中的一个核心内容,也是目前研究的一个热点。该文首先讲述了基于划分的聚类算法、基于分层的聚类算法、基于密度的聚类算法和基于网格的聚类算法等常用的聚类分析算法,并分析了其特点;然后通过举例详细描述了最近邻聚类算法的操作过程。聚类算法的总结,对聚类的研究和发展具有积极意义。  相似文献   

15.
In this paper we outline a new method for clustering that is based on a binary representation of data records. The binary database relates each entity to all possible attribute values (domain) that entity may assume. The resulting binary matrix allows for similarity and clustering calculation by using the positive (1 bits) of the entity vector. We formulate two indexes: Pair Similarity Index (PSI) to measure similarity between two entities and Group Similarity Index (GSI) to measure similarity within a group of entities. A threshold factor for each attribute domain is defined that is dependent on the domain but independent of the number of entities in the group. The similarity measure provides simplicity of storage and efficiency of calculation. A comparison of our similarity index to other indexes is made. Experiments with sample data indicate a 48% improvement of group similarity over standard methods pointing to the potential and merit of the binary approach to clustering and data mining.  相似文献   

16.
基于聚类和关联规则的挖掘算法   总被引:4,自引:0,他引:4       下载免费PDF全文
数据挖掘技术中关联规则可以很好地发现数据项之间存在的相互关系,同时有大量的挖掘算法可供选择。聚类分析就是通过分析数据库中的记录数据,根据一定的分类规则合理地划分记录集合,确定每个记录所在类别。它所采用的分类规则是由聚类分析工具决定的。本文研究 聚类和关联规则的挖掘算法。  相似文献   

17.
提出了一种利用模糊集理论进行聚类的技术,详细阐述了在关系数据库中利用此技术实现聚类的方法和过程,并给出了程序流程和程序实现;经过聚类后的数据对象,既可以从中获取分类知识和信息,也可以为下一步的关联规则挖掘提供低噪声的数据源。  相似文献   

18.
文本挖掘技术的基础是对文本的统计分析。通常,文本挖掘技术的基本做法是通过计算出某一个词或短语的出现频率来计算其在文档中的重要程度。但在统计分析中,其原始语义可能不是其在语句中的准确意思。为了解决这个问题,本文提出一个新的基于概念的模型框架,可以有效地找出文档间的匹配及相关联的概念。  相似文献   

19.
随着数据信息的积累,如何从这些海量信息中有效地提取所需要的知识成为当前数据挖掘的重要内容。聚类作为数据挖掘的重要工具,通过将数据划分成多个类,使得类内数据尽可能相似,而类间数据的相似度尽可能小,已成为研究热点。本文总结在数据挖掘中的聚类算法,针对聚类中所存在的问题进行归纳,并对未来的研究进行了展望。  相似文献   

20.
基于数据挖掘的符号序列聚类相似度量模型   总被引:1,自引:1,他引:1       下载免费PDF全文
为了从消费者偏好序列中发现市场细分结构,采用数据挖掘领域中的符号序列聚类方法,提出一种符号序列聚类的研究方法和框架,给出RSM相似性度量模型。调整RSM模型参数,使得RSM可以变为与编辑距离、海明距离等价的相似性度量。通过RSM与其他序列相似性度量的比较,表明RSM具有更强的表达相似性概念的能力。由于RSM能够表达不同的相似性概念,从而使之能适用于不同的应用环境,并在其基础上提出自组织特征映射退火符号聚类模型,使得从消费者偏好进行市场细分结构研究的研究途径在实际应用中得以实现。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号