首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
时空聚类分析是时空数据挖掘领域近年来研究的热点问题,对于揭示时空要素的发展变化趋势、规律以及本质特征具有重要意义.目前,时空聚类分析的研究仍还初步,缺乏具有普适性的时空聚类分析方法.为此,本文首先建立了一套时空聚类分析的普适性理论方法框架.进而,借助时空统计学、智能计算等工具,提出了一种时空一体化的时空聚类方法.该方法很好地顾及了时空数据的时空耦合、时空相关与时空异质特征,避免了过多人为主观因素的干扰,时空聚类结果具有较好的可靠性.通过采用中国陆地区域42年(1951~1992)年平均气温时空数据进行分析,验证了本文提出的理论与方法的可行性与有效性.  相似文献   

2.
利用聚类技术对图书馆读者社群的研究分析   总被引:1,自引:0,他引:1  
以图书馆读者借阅量数据为实例,利用统计分析系统(SAS)的聚类技术对图书馆读者社群进行数据挖掘.先对图书馆借阅量数据进行预处理,然后进行聚类分析,最后用Average法、Ward法和Single法分别进行聚类方法的比较研究,探讨高校图书馆的读者社群分类情况.研究结果表明,Average法更适合数据较平均的数据分析,分析结果可为管理者的决策提供科学依据.  相似文献   

3.
王勇  张伟  陈军 《计算机工程与设计》2007,28(6):1484-1485,F0003
在Web挖掘研究中,传统硬聚类技术常被用来分析网站浏览者对网页的浏览偏好.然而该方法只能将每一用户浏览路径归类到单一群组中,即事先假设每一浏览路径只包含单一种用户偏好,却忽略了同一用户浏览路径可能包含多个网页偏好.针对这种情况,提出用模糊聚类技术取代传统的硬聚类技术以弥补不足,使聚类结果更符合实际浏览情况.  相似文献   

4.
在现有的算法DBSCAN基础上,提出一种基于密度的处理购物篮事务数据的聚类方法-DCMBD(density-based clustering for market basketdata)。使用了一种新的事务表示法,解决了购物篮数据的高维性和稀疏性问题。并对算法进行了相应的改进,从而提高了聚类速度。实验结果表明此方法是有效可行的。  相似文献   

5.
为了有效聚类动态数据,妥善处理已存在的类簇与新增数据的关系,高效利用计算资源,提高聚类的效率,扩散涌现的增量聚类算法被提出.该算法在扩散涌现聚类算法的基础上,利用近邻传播算法完善了算法的分裂机制,实现了新旧数据的有效聚合.实验结果表明,该算法有效实现了动态数据的聚类,提高了聚合动态数据的效率和资源的利用率.  相似文献   

6.
Data clustering is a popular approach for automatically finding classes, concepts, or groups of patterns. In practice, this discovery process should avoid redundancies with existing knowledge about class structures or groupings, and reveal novel, previously unknown aspects of the data. In order to deal with this problem, we present an extension of the information bottleneck framework, called coordinated conditional information bottleneck, which takes negative relevance information into account by maximizing a conditional mutual information score subject to constraints. Algorithmically, one can apply an alternating optimization scheme that can be used in conjunction with different types of numeric and non-numeric attributes. We discuss extensions of the technique to the tasks of semi-supervised classification and enumeration of successive non-redundant clusterings. We present experimental results for applications in text mining and computer vision.  相似文献   

7.
借鉴物理学中动力学原理,提出基于动力学理论的聚类参数挖掘策略,并应用于银行贷款数据风险评估.定义了聚类动力学参数挖掘概念、g-平均、簇的θ-相似、风险相似度等概念,提出基于聚类动力学参数挖掘的聚类策略挖掘算法CSMA(clustering strategy mining algorithm),分析了该策略在不同参数下对实验结果的影响.实验结果表明,CSMA策略使得聚类分析的精度提高了9%~13%.  相似文献   

8.
Time-focused clustering of trajectories of moving objects   总被引:5,自引:0,他引:5  
Spatio-temporal, geo-referenced datasets are growing rapidly, and will be more in the near future, due to both technological and social/commercial reasons. From the data mining viewpoint, spatio-temporal trajectory data introduce new dimensions and, correspondingly, novel issues in performing the analysis tasks. In this paper, we consider the clustering problem applied to the trajectory data domain. In particular, we propose an adaptation of a density-based clustering algorithm to trajectory data based on a simple notion of distance between trajectories. Then, a set of experiments on synthesized data is performed in order to test the algorithm and to compare it with other standard clustering approaches. Finally, a new approach to the trajectory clustering problem, called temporal focussing, is sketched, having the aim of exploiting the intrinsic semantics of the temporal dimension to improve the quality of trajectory clustering. The authors are members of the Pisa KDD Laboratory, a joint research initiative of ISTI-CNR and the University of Pisa: .  相似文献   

9.
一种基于划分的动态聚类算法   总被引:8,自引:5,他引:8  
聚类分析是数据挖掘的一个重要研究分支,已经提出了许多聚类算法,划分方法是其中之一。划分方法的缺点是要求事先给定聚类结果数,对初始划分和输入顺序敏感等。为克服这些缺陷,以划分方法为基础,提出了一种基于划分的动态聚类算法。该算法按密度从大到小,依距离选择较为分散的初始值,同时可以过滤噪声数据,并在聚类的过程中动态地改变聚类结果数,改善了聚类质量,获得了更自然的结果。  相似文献   

10.
BIRCH聚类算法优化及并行化研究   总被引:1,自引:0,他引:1  
朱映辉  江玉珍 《计算机工程与设计》2007,28(18):4345-4346,4369
为了提高聚类质量,针对BIRCH算法中在聚类精度方面所存在的不足,提出了聚类特征树中的不同簇应使用不同阀值的思想,较好地改善了对体积相差悬殊的簇不能很好聚类的问题.并且深入地研究和分析了如何在集群系统中进行快速聚类,提出了自定义数据类型、采用数据并行思想和非均匀数据划分策略等几点改进意见.最后实验结果表明,通过改进能够获得比较理想的运行时间和加速比性能.  相似文献   

11.
改进的混合属性数据聚类算法   总被引:1,自引:0,他引:1  
k-prototypes是目前处理数值属性和分类属性混合数据主要的聚类算法,但其聚类结果对初值有明显的依赖性.对k-prototypes初值选取方法进行了分析和研究,提出一种新的改进方法.该方法有更高的稳定性和较强的伸缩性,可减少一定程度的上随机性.实际数据集仿真结果表明,改进算法是正确和有效的.  相似文献   

12.
为了提高演化数据聚类的平滑度,提出了一种演化数据聚类框架。该框架综合考虑不同时间点的历史数据对当前时刻的演化数据聚类的影响,将指数衰减思想应用于平滑正则项中,然后将谱聚类算法应用于该框架,得到基于指数衰减的演化谱聚类算法。实验结果表明,该算法有效地提高了演化数据聚类的平滑度。  相似文献   

13.
刘竞杰  陶亮 《计算机工程与应用》2012,48(12):139-143,182
结合传统的Parzen窗方法并引入一种更加合理的历史数据丢弃策略,在此基础上,通过计算可以得到整个数据集在低维空间投影的信息熵,利用信息熵实现了一种适用于高维数据流的子空间聚类算法(PStream)。理论及实验均表明,与传统的算法相比,该算法可以在一次遍历的前提下,完成对数据流的高精度聚类,虽然其运行效率与现有的方法(如HPStream)相比差别不大,但是却明显地改善了聚类效果。  相似文献   

14.
XML has recently become very popular as a means of representing semistructured data and as a standard for data exchange over the Web, because of its varied applicability in numerous applications. Therefore, XML documents constitute an important data mining domain. In this paper, we propose a new method of XML document clustering by a global criterion function, considering the weight of common structures. Our approach initially extracts representative structures of frequent patterns from schemaless XML documents using a sequential pattern mining algorithm. Then, we perform clustering of an XML document by the weight of common structures, without a measure of pairwise similarity, assuming that an XML document is a transaction and frequent structures extracted from documents are items of the transaction. We conducted experiments to compare our method with previous methods. The experimental results show the effectiveness of our approach.  相似文献   

15.
孤立数据的存在使数据挖掘结果不准确,甚至错误。现有的孤立点检测算法在通用性、有效性、用户友好性及处理高维大数据集的性能还不完善,为此,提出一种有效的全局孤立点检测方法,该方法进行凝聚层次聚类,根据聚类树和距离矩阵来可视化判断数据孤立程度,确定孤立点数目。从聚类树自顶向下,无监督地去除离群数据点。在多个数据集上的仿真实验结果表明,该方法能有效识别孤立程度最大的前n个全局孤立点,适用于不同形状的数据集,算法效率高,用户友好,且适用于大型高维数据集的孤立点检测。  相似文献   

16.
多数据库挖掘最常用的方法是先将多数据库进行分类,然后对每个类进行单独挖掘,最后将各个类中的模式进行集成得到全局模式。这些数据库分类方法都只是针对事务数据库而设计,用两个数据库中共同项集的比例来衡量这两个数据库的相似度,以此来进行数据库分类。本文提出一种基于聚类的数据库分类方法,可以对任何类型的数据库进行分类。  相似文献   

17.
Modified sequential k‐means clustering concerns a k‐means clustering problem in which the clustering machine utilizes output similarity in addition. While conventional clustering methods commonly recognize similar instances at features‐level modified sequential clustering takes advantage of response, too. To this end, the approach we pursue is to enhance the quality of clustering by using some proper information. The information enables the clustering machine to detect more patterns and dependencies that may be relevant. This allows one to determine, for instance, which fashion products exhibit similar behaviour in terms of sales. Unfortunately, conventional clustering methods cannot tackle such cases, because they handle attributes solely at the feature level without considering any response. In this study, we introduce a novel approach underlying minimum conditional entropy clustering and show its advantages in terms of data analytics. In particular, we achieve this by modifying the conventional sequential k‐means algorithm. This modified clustering approach has the ability to reflect the response effect in a consistent manner. To verify the feasibility and the performance of this approach, we conducted several experiments based on real data from the apparel industry.  相似文献   

18.
针对EM算法中的初始类的数目很难决定,在迭代中经常产生部分最优的情况,将K-means算法与基于EM的聚类方法相结合,提出了一个新的适用于基因表达数据的模型聚类方法。新的聚类方法,首先利用K-means算法具有全局性、效率高的优点,快速得到聚类的起始类的划分,将其设置为高斯混合模型的初始参数值,进一步采用EM方法进行聚类,得到最优聚类结果。通过2次对真实数据集的实验测试,将新的算法分别与K均值算法和EM算法进行了比较。实验结果表明,新算法是一种有效的聚类方法,聚类结果的准确度得到了提高。  相似文献   

19.
针对原始k均值法在MapReduce建模中执行时间较长和聚类结果欠佳问题,提出一种基于MapReduce的分治k均值聚类方法。采取分治法处理大数据集,将所要处理的整个数据集拆分为较小的块并存储在每台机器的主存储器中;通过可用的机器传播,将数据集的每个块由其分配的机器独立地进行聚类;采用最小加权距离确定数据点应该被分配的类簇,判断收敛性。实验结果表明,与传统k均值聚类方法和流式k均值聚类方法相比,所提方法用时更短,结果更优。  相似文献   

20.
面向属性的归纳与概念聚类   总被引:2,自引:0,他引:2  
面向属性的归纳是新近提出的一种广泛用于数据库中的知识发现的方法,提出这种方法与一种机器学习方法--概念聚类之间的紧密联系,并描述如何使用一个概念聚类算法进行面向属性的归纳。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号