首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
In this paper we outline a new method for clustering that is based on a binary representation of data records. The binary database relates each entity to all possible attribute values (domain) that entity may assume. The resulting binary matrix allows for similarity and clustering calculation by using the positive (1 bits) of the entity vector. We formulate two indexes: Pair Similarity Index (PSI) to measure similarity between two entities and Group Similarity Index (GSI) to measure similarity within a group of entities. A threshold factor for each attribute domain is defined that is dependent on the domain but independent of the number of entities in the group. The similarity measure provides simplicity of storage and efficiency of calculation. A comparison of our similarity index to other indexes is made. Experiments with sample data indicate a 48% improvement of group similarity over standard methods pointing to the potential and merit of the binary approach to clustering and data mining.  相似文献   

2.
流聚类模型及其统一表示   总被引:1,自引:0,他引:1       下载免费PDF全文
数据流是带有时间属性、持续到达的数据序列,实际中有不同的应用形式。采用应用驱动的研究思路,从具体应用中抽象出4种不同的数据流模型,提取出数据维数和子流个数等2个参数,将各种数据流模型在表示形式上统一起来,分析不同数据流模型的聚类方法,探索并给出一个基于滑动窗口的统一数据流模型聚类挖掘框架。  相似文献   

3.
针对一种特定类型高属性维数据———区间变量型高属性维稀疏数据聚类问题,提出高属性维稀疏信息系统,稀疏特征编码,基于二进制数计算相似度概念,给出一种新的基于二进制数计算相似度的高属性维稀疏数据聚类算法,由于计算属性稀疏特征相似度所采用的是二进制数布尔AND运算,因此,相比目前人们所使用的聚类算法,它是一种计算简单、精度高、聚类质量较高的聚类算法。该算法在高属性维稀疏数据挖掘及聚类分析中有着重要的应用。通过数值算例分析表明该聚类方法有效。  相似文献   

4.
网络新闻内容除了直接的文本信息之外,通常还使用高度语义概括后的标签信息对新闻中出现的图片、音视频等多媒体信息进行描述,使得新闻内容中出现了不同语义层次、不同粒度的内容概念(直接的文本特征与标签特征)描述.文本特征维度通常较高,导致特征数较少的视图在聚类中的作用被弱化.同时,各个视图对聚类簇结构的贡献程度不一样.针对以上两个问题,本文首先在每个单独的视图上,进行混合粒度的统一操作(针对不同粒度进行统一的标签生成处理);在此基础上,借助信息熵良好的不确定性表示特性,对不同的视图进行加权融合,最后进行聚类操作.不同数据集的仿真实验证明了本文所提方法的有效性和可行性.  相似文献   

5.
基于快速原型开发思想,设计并实现了一个一体化的多维数据建模平台,该平台为OLAP应用系统设计人员提供了一个快速构建原型系统的支撑环境,采用图示化的方法描述了用户需求,经过简单的操作,可以演示对应的分析结果,便于用户修正与确认,并为系统设计人员提供了一个导向,加快了系统的开发速度。  相似文献   

6.
许多应用程序会产生大量的流数据,如网络流、web点击流、视频流、事件流和语义概念流。数据流挖掘已成为热点问题,其目标是从连续不断的流数据中提取隐藏的知识/模式。聚类作为数据流挖掘领域的一个重要问题,在近期被广泛研究。不同于传统的静态数据聚类问题,数据流聚类面临有限内存、一遍扫描、实时响应和概念漂移等许多约束。本文对数据流挖掘中的各种聚类算法进行了总结。首先介绍了数据流挖掘的约束;随后给出了数据流聚类的一般模型,并描述了其与传统数据聚类之间的关联;最后提出数据流聚类领域中进一步的研究热点和研究方向。  相似文献   

7.
聚类分析在基因表达数据上的应用研究   总被引:3,自引:0,他引:3  
文章讨论了自组织映射、K平均值聚类和一种有效性测度Silhouette指数。针对基因微阵列的数据特点,考虑到自组织映射的优缺点,设计并实现了一种基于聚类有效性测度的自组织映射和K平均值聚类相结合的一种聚类模型。将该模型运用于公开的结肠基因表达数据集和白血病数据集,实验结果表明该模型是行之有效的。  相似文献   

8.
根据企业的需求及业界的发展趋势,数据中心虚拟化的核心是网络虚拟化、计算虚拟化、存储虚拟化。文章重点讨论数据中心虚拟化趋势下的网络架构设计。  相似文献   

9.
基于知识管理的统一数据模型   总被引:1,自引:0,他引:1       下载免费PDF全文
分析传统数据建模的特点和缺点,在电子政务领域提出用知识统一数据模型来支持统一知识管理和信息集成。基于知识统一数据模型设计并实现了一个统一应用开发环境,并在该环境下构建知识管理平台。实际应用表明,基于知识统一数据模型来构建知识管理平台可以使系统能统一管理各类知识,并便捷、快速地适应新知识类型的应用。  相似文献   

10.
聚类在数据挖掘中扮演着重要角色,本文分析了数据挖掘对聚类的性能要求,详细分析了几类主聚类算法及其性能,进一步对聚类算法提出了期望。  相似文献   

11.
聚类在数据挖掘中扮演着重要角色,本文分析了数据挖掘对聚类的性能要求,详细分析了几类主聚类算法及其性能.进一步对聚类算法提出了期望。  相似文献   

12.
一种混合属性数据流聚类算法   总被引:5,自引:0,他引:5  
杨春宇  周杰 《计算机学报》2007,30(8):1364-1371
数据流聚类是数据流挖掘中的重要问题.现实世界中的数据流往往同时具有连续属性和标称属性,但现有算法局限于仅处理其中一种属性,而对另一种采取简单舍弃的办法.目前还没有能在算法层次上进行混合属性数据流聚类的算法.文中提出了一种针对混合属性数据流的聚类算法;建立了数据流到达的泊松过程模型;用频度直方图对离散属性进行了描述;给出了混合属性条件下微聚类生成、更新、合并和删除算法.在公共数据集上的实验表明,文中提出的算法具有鲁棒的性能.  相似文献   

13.
面向聚类的数据隐藏发布研究   总被引:3,自引:0,他引:3  
数据隐藏发布在保护数据隐私和维持数据可用性间寻求一种折中,近年来得到了研究者的持续关注.数据隐藏发布的起因和目标都源于数据的使用价值,聚类作为实现数据深层使用价值的一个重要步骤,在数据挖掘领域得到了广泛的研究.聚类对数据个体特征的依赖与隐藏操作弱化个体特征的主导思想间的矛盾,使得面向聚类的数据隐藏发布成为一个难点.对面向聚类的隐私保护数据发布领域已有研究成果进行了总结,从保存聚类特征粒度的角度,分析保存聚类特征粒度与聚类可用性、隐私保护安全性间的关系;从维持数据聚类可用性效果角度对匿名、随机化、数据交换、人工合成数据替换等主要隐藏方法的原理、特点进行了分析.在对已有技术方法深入对比分析的基础上,指出了面向聚类的数据隐藏发布领域待解决的一些难点问题和未来发展方向.  相似文献   

14.
建立逼真而丰富的三维场景是可视化领域的主要任务.场景的数据管理和可见性判断对后续渲染的质量和效率起到了至关重要的作用.为了弥补传统场景组织方式在实际应用中的缺陷,本文采用自适应二叉树场景组织算法对场景进行管理,采用层次化裁剪的方式对场景树的节点进行视锥体裁剪,在裁剪过程中所操作的对象是节点中的包围球和包围盒.实验表明,这种基于包围球和包围盒的层次化的视锥体裁剪算法大大的减少了参与裁剪的节点的数量,提高了裁剪的精确性,具有较好的裁剪效率和较高的稳定性.  相似文献   

15.
集成聚类技术由于具有较好的泛化能力,目前引起了研究者的高度关注.已有研究主要关注数值型完备数据的集成聚类问题.然而,实际应用中面临的数据往往是兼具数值属性和分类属性共同描述的混合型数据,而且通常带有缺失值.为此,针对不完备混合数据提出了一种集成聚类算法,首先利用3种缺失值填充方法对不完备混合数据进行完备化处理;其次在3种填充后的不同完备数据集上分别多次执行K-Prototypes算法产生基聚类结果;最后对基聚类结果进行集成.在UCI真实数据集上与传统聚类算法通过实验进行了比较分析,实验结果表明提出的算法是有效的.  相似文献   

16.
Data clustering is a significant information retrieval technique in today’s data intensive society. Over the last few decades a vast variety of huge number of data clustering algorithms have been designed and implemented for all most all data types. The quality of results of cluster analysis mainly depends on the clustering algorithm used in the analysis. Architecture of a versatile, less user dependent, dynamic and scalable data clustering machine is presented. The machine selects for analysis, the best av...  相似文献   

17.
随着数据信息的积累,如何从这些海量信息中有效地提取所需要的知识成为当前数据挖掘的重要内容。聚类作为数据挖掘的重要工具,通过将数据划分成多个类,使得类内数据尽可能相似,而类间数据的相似度尽可能小,已成为研究热点。本文总结在数据挖掘中的聚类算法,针对聚类中所存在的问题进行归纳,并对未来的研究进行了展望。  相似文献   

18.
数据挖掘过程中的模糊聚类方法   总被引:6,自引:0,他引:6  
在研究数据挖掘过程中常见的数据聚类方法的基础上,在数据挖掘中引入了模糊聚类分析的方法,分析了该方法在数据挖掘过程中的特性,讨论了其在大型数据库中的应用方法。  相似文献   

19.
数据挖掘常用聚类算法研究   总被引:2,自引:0,他引:2  
信息社会的发展,使数据量以前所未有的速度在增长,因此从海量数据中获取有用的知识和信息就变得越来越重要。数据挖掘是一种综合多领域知识而形成的数据分析技术,能够从大量数据中获取有价值的知识并为决策提供支持。聚类分析算法是数据挖掘中的一个核心内容,也是目前研究的一个热点。该文首先讲述了基于划分的聚类算法、基于分层的聚类算法、基于密度的聚类算法和基于网格的聚类算法等常用的聚类分析算法,并分析了其特点;然后通过举例详细描述了最近邻聚类算法的操作过程。聚类算法的总结,对聚类的研究和发展具有积极意义。  相似文献   

20.
在本文中,我们提出了一种新的非数值数据聚类算法-VBCCD.VBCCD算法由关系表计算关系的一维分割,再由关系的分割来构造一个超图,而后通过超图分割算法,对构造出来的超图进行优化分割,得到最终的聚类结果。试验结果表明,该算法比传统的针对数值数据设计的聚类算法有更好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号