首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 157 毫秒
1.
谱聚类算法是建立在谱图理论上的一种点对聚类算法,具有实现简单、理论基础扎实和适应任意数据空间的优点,因而成为机器学习领域的研究热点.谱聚类算法最大的问题在于计算复杂度过高,而并行计算可以提高解题效率,因此本文采用最为流行的并行计算框架MAP/REDUCE在Hadoop环境中实现了并行谱聚类算法,大大改善了谱聚类算法在大规模数据环境中的聚类效率问题.  相似文献   

2.
微阵列技术是后基因组时代功能基因组研究的主要工具。基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。针对聚类算法要求事先确定簇的个数、对噪声敏感和可伸缩性差的问题,基于密度聚类算法DBSCAN和共享近邻SharedNearestNeighbors(SNN)的不同的特点,提出了一种新的最近邻先吸收的聚类算法,将其应用于一个公开的酵母细胞同期数据集,并用评价方法FOM将聚类结果与K-means聚类方法的结果进行了比较。结果表明,该文的聚类算法优于其他聚类算法,聚类结果具有明显的生物学意义,并能对数据的类别数作出较好的预测和评估。  相似文献   

3.
基因表达数据的并行双向聚类算法   总被引:1,自引:0,他引:1  
基因表达数据的双向聚类问题是生物信息学中的一个重要的问题,通过对基因在各种不同实验条件下的表达数据进行双向聚类,可以分析和识别同类基因所共同拥有的基因功能以及转录调控元件.本文对基因表达数据进行双向聚类的问题进行了深入的研究.提出一种并行算法.该算法根据数据集合的大小对双向聚类质量的反单调性,由最小的数据集合开始逐步添加行或列,最终找到所有满足条件的聚类.实验结果表明,该算法处理速度快,聚类质量高,性能明显优于其它同类算法.  相似文献   

4.
随着基因测序技术的不断发展和完善,基因芯片技术逐渐成熟,产生了大量可供分析的基因表达数据,使得研究和比较大量基因成为了可能.聚类分析能够检测出表达谱相似的基因群,将基因表达谱相似程度高的基因划分到同一类中,从而识别出未知功能的基因,是目前研究基因表达数据使用的主要技术之一.本文在对基因表达数据分析方法的研究基础上,采用了一种改进的、基于矩阵变换的基因表达数据层次聚类(NHC)方法,用于改善聚类效果.  相似文献   

5.
与传统的硬划分聚类相比,模糊聚类算法(以FCM为例)对数据的比例变化具有鲁棒性,能够更准确地反映数据点与类中心的实际关系,目前已得到广泛应用.然而对于时序基因表达数据来说,传统的聚类算法往往不能充分利用到数据中时间上的动态关联信息.因此可以在模糊聚类算法的基础上引入自回归(AR)模型,将时序基因表达数据作为一组时间序列进行动态的聚类分析.这样不仅可以充分利用到时序基因表达数据的内部自相关性,并且可以进一步利用隶属度函数对AR模型的预测过程进行模糊化调整,从而得到更为理想的聚类结果.  相似文献   

6.
一种基于层次聚类的双聚类算法   总被引:1,自引:0,他引:1  
双聚类是为了发现基因表达数据矩阵中具有生物意义的矩阵而提出新的聚类方法,目的是通过分别交换行和列,将数据相似的数据聚合在一起组合成子矩阵,这样的子矩阵具有生物意义.本文根据均方残值理论全局优化双聚类,首先用层次聚类算法生成初始的数据矩阵,然后对这些初始的数据矩阵添加行和列,并进行优化生成最终的双聚类.实验表明,该算法能够高效地生成表达水平一致的双聚类,效果令人满意.  相似文献   

7.
针对微阵列基因表达数据聚类的高维复杂性,提出了一种基于密度的并行聚类算法,在APRAM模型的分布式存储系统中,通过欧几里德距离矩阵和密度函数两次时间复杂度为O(■)的计算,可使聚类过程的时间复杂度为O(■),以增加一次计算的代价来降低聚类过程的时间复杂度。基于8结点的机群计算实验表明:本算法能够达到较同类算法更高的并行加速比,提高高维生物数据的聚类速度。  相似文献   

8.
基于数据预处理的并行分层聚类算法*   总被引:3,自引:0,他引:3  
分层聚类技术在图像处理、入侵检测和生物信息学等方面有着极为重要的应用,是数据挖掘领域的研究热点之一。针对目前基于SIMD模型的并行分层聚类算法处理海量数据时效果不理想的问题,提出一种基于数据预处理的自适应并行分层聚类算法,在O((λn)2/p)的时间内对n个输入数据点进行聚类。其中1≤p≤n/log n,0.1≤λ≤0.3。将提出的算法与现有文献结论进行的性能对比分析表明,本算法明显改进了现有文献的研究结果。  相似文献   

9.
谱聚类算法由于其可识别非凸数据分布、可有效避免局部最优解、不受数据点维数限制等优点,在许多领域得到广泛应用。然而,随着数据量的增大和数据维数的增多,在保证聚类准确性的前提下,尽可能降低计算时间将变得非常必要。此外,影响谱聚类算法聚类质量的因素除数据集本身外,还与所采用的求解距离矩阵的方法、相似性矩阵的尺度参数、Laplacian矩阵形式等多种因素相关。针对以上问题,首先对于大规模数据问题,将MPI并行编程模型应用于谱聚类算法;然后利用t-最近邻方法对谱聚类算法中较大维数的Laplacian矩阵进行近似转化,同时用局部尺度(Local Scaling)参数对算法中的尺度参数进行自动调节。基于上述分析,提出了一种谱聚类并行实现算法,即稀疏化局部尺度并行谱聚类算法SLSPSC,并在四个数据集上进行了测试,与现有的并行谱聚类算法PSC在运行时间和聚类质量两方面做了比较分析。实验结果显示,该算法降低了求解Laplacian矩阵的总时间,同时部分数据集聚类质量得到较大提高。  相似文献   

10.
孙伟鹏 《计算机应用研究》2020,37(1):163-166,171
针对FSDP聚类算法在计算数据对象的局部密度与最小距离时,由于需要遍历整个数据集而导致算法的整体时间复杂度较高的问题,提出了一种基于Spark的并行FSDP聚类算法SFSDP。首先,通过空间网格划分将待聚类数据集划分成多个数据量相对均衡的数据分区;然后,利用改进的FSDP聚类算法并行地对各个分区内的数据执行聚类分析;最后,通过将分区间的局部簇集合并,生成全局簇集。实验结果表明,SFSDP与FSDP算法相比能够有效地进行大规模数据集的聚类分析,并且算法在准确性和扩展性方面都有很好的表现。  相似文献   

11.
Clustering by Pattern Similarity   总被引:2,自引:0,他引:2       下载免费PDF全文
The task of clustering is to identify classes of similar objects among a set of objects.The definition of similarity varies from one clustering model to another.However,in most of these models the concept of similarity is often based on such metrics as Manhattan distance,Euclidean distance or other L_p distances.In other words,similar objects must have close values in at least a set of dimensions.In this paper,we explore a more general type of similarity.Under the pCluster model we proposed,two objects are similar if they exhibit a coherent pattern on a subset of dimensions.The new similarity concept models a wide range of applications.For instance,in DNA microarray analysis,the expression levels of two genes may rise and fall synchronously in response to a set of environmental stimuli.Although the magnitude of their expression levels may not be close,the patterns they exhibit can be very much alike.Discovery of such clusters of genes is essential in revealing significant connections in gene regulatory networks.E-commerce applications,such as collaborative filtering,can also benefit from the new model,because it is able to capture not only the closeness of values of certain leading indicators but also the closeness of (purchasing,browsing,etc.) patterns exhibited by the customers.In addition to the novel similarity model,this paper also introduces an effective and efficient algorithm to detect such clusters,and we perform tests on several real and synthetic data sets to show its performance.  相似文献   

12.
针对基因表达数据基于表达相似的聚类分析并不能完全揭示基因之间的功能相似问题,结合基因的传输互表达关系,提出基于传输互表达的聚类分析方法。首先用基因的表达相关来构建基因相关图,然后通过最短路分析来获得基因之间传输互表达关系并作为基因的相似测度,再用k-均值聚类算法进行聚类分析。对Yeast基因表达数据进行聚类实验,并与基于表达相似的聚类结果对比。实验结果表明,基于传输互表达的聚类方法能获得更好的聚类性能和较高的聚类正确率,验证基于传输互表达的基因聚类更能揭示基因相似的本质。  相似文献   

13.
在PSO算法的基础上提出的基于量子行为的QPSO算法,并将其应用到基因表达数据集上。QPSO基因聚类算法是将N条基因根据使TWCV(Total Within-Cluster Variation)函数值达到最小分到由用户指定的K个聚类中。根据K-means算法的优点,利用K-means聚类的结果重新初始化粒子群,结合QPSO和PSO的聚类算法提出了KQPSO和KPSO算法。通过在4个实验数据集上利用K-means、PSO、QPSO、KPSO、KQPSO 5个聚类算法得出的结果比较显示QPSO算法在基因表达数据分析上具有良好的性能。  相似文献   

14.
Local density adaptive similarity measurement for spectral clustering   总被引:3,自引:0,他引:3  
Similarity measurement is crucial to the performance of spectral clustering. The Gaussian kernel function is usually adopted as the similarity measure. However, with a fixed kernel parameter, the similarity between two data points is only determined by their Euclidean distance, and is not adaptive to their surroundings. In this paper, a local density adaptive similarity measure is proposed, which uses the local density between two data points to scale the Gaussian kernel function. The proposed similarity measure satisfies the clustering assumption and has an effect of amplifying intra-cluster similarity, thus making the affinity matrix clearly block diagonal. Experimental results on both synthetic and real world data sets show that the spectral clustering algorithm with our local density adaptive similarity measure outperforms the traditional spectral clustering algorithm, the path-based spectral clustering algorithm and the self-tuning spectral clustering algorithm.  相似文献   

15.
基于相似中心的k-cmeans文本聚类算法   总被引:3,自引:0,他引:3  
针对k-means聚类算法只能保证收敛到局部最优,导致聚类结果对初始聚类中心敏感的问题,提出了一种基于相似中心的文本聚类算法.首先,度量文档之间的相似性,然后按照文档之间的相似性递减排序,选择序列最前面的k个文档作为初始聚类中心,对于每个剩余的文档(没有被选为初始簇中心的文档)根据其与存在的簇中心的相似性,将其分配到相似性最大的簇中,更新簇均值,连续迭代,直至均值不变,从而得到更加稳定的聚类结果.实验结果表明,提出的算法在宏平均聚类精度和宏平均召回率上有显著提高,产生了质量较好的聚类效果.  相似文献   

16.
基于数据挖掘的符号序列聚类相似度量模型   总被引:2,自引:1,他引:1       下载免费PDF全文
为了从消费者偏好序列中发现市场细分结构,采用数据挖掘领域中的符号序列聚类方法,提出一种符号序列聚类的研究方法和框架,给出RSM相似性度量模型。调整RSM模型参数,使得RSM可以变为与编辑距离、海明距离等价的相似性度量。通过RSM与其他序列相似性度量的比较,表明RSM具有更强的表达相似性概念的能力。由于RSM能够表达不同的相似性概念,从而使之能适用于不同的应用环境,并在其基础上提出自组织特征映射退火符号聚类模型,使得从消费者偏好进行市场细分结构研究的研究途径在实际应用中得以实现。  相似文献   

17.
程舒通 《微机发展》2007,17(9):18-20
用户在访问Web站点时会碰到很多问题,主要原因是Web站点对用户需求缺乏适应性。为了提高Web用户的服务质量和用户的满意度,在用户访问网站点击流形成频繁序列模式的基础上,提出基于距离函数的聚类分析以及基于时间相似度函数的二次聚类分析算法。该算法可以求取频繁序列的相关性和反映用户对网页的兴趣的相似度,对下一步改善Web站点的结构及存在形式使站点达到更好的效果起先导作用。  相似文献   

18.
Gene clustering is one of the most important problems in bioinformatics. In the sequential data clustering, hidden Markov models (HMMs) have been widely used to find similarity between sequences, due to their capability of handling sequence patterns with various lengths. In this paper, a novel gene clustering scheme based on HMMs optimized by particle swarm optimization algorithm is introduced. In this approach, each gene sequence is described by a specific HMM, and then for each model, its probability to generate individual sequence is evaluated. A hierarchical clustering algorithm based on a new definition of a distance measure has been applied to find the best clusters. Experiments carried out on lung cancer-related genes dataset show that the proposed approach can be successfully utilized for gene clustering.  相似文献   

19.
Yao  Yuhui  Chen  Lihui  Chen  Yan Qiu 《Neural Processing Letters》2001,14(3):169-177
A novel neural network, named Associative Clustering Neural Network (ACNN), is developed for clustering data whose underlying distribution shapes are arbitrary. ACNN is a dynamic model that collectively measures and updates the similarity of any two patterns through the interaction of a group of patterns. Such a new measure of similarity helps to achieve more robust clustering performance than using the existing measures that are staticly and individually based on the distances among the isolated pairwise data. The efficience of ACNN has been verified through the performance study.  相似文献   

20.
对于时间序列的基因表达数据,传统的聚类算法都是以距离为相似性度量标准,没有考虑基因随时间变化的相似趋势。从基因变化的趋势出发,构造了一种新的模糊相似关系矩阵,提出了改进的基于模糊相似关系的聚类算法,并以该算法计算FCM的初始聚类中心。将该方法应用在酵母菌基因表达数据中,实验结果表明该算法不仅克服了FCM算法易陷入局部极小值、对初值敏感的缺点,而且能够发现一些表达模式变化趋势相似的共调控基因。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号