首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
蛋白质序列作为生物序列数据一个重要组成部分,对其的分析研究已经成为生物信息学中的一个重要的研究方向和内容.通过对序列进行模式挖掘,可以对蛋白质序列或某一蛋白质家族序列进行研究,因此蛋白质序列的模式挖掘已经成为蛋白质序列研究中的一项重要任务.MBioPM是一种最新的生物序列模式挖掘算法,该算法通过引入模式划分概念,提高算法的效率,但该算法在效率方面仍存在不足,而且挖掘结果存在冗余性的问题.因此,提出一种优化算法BioPMMH,通过带有模式划分特点的Hash链表结构来优化算法中的搜索空间及策略,并在算法过程中对重复模式进行过滤.实验表明,算法BioPMMH能有效提高模式挖掘的效率,并解决结果的冗余性问题.  相似文献   

2.
介绍了自组织特征映射(SOFM)算法及大规模应用聚类(CLARA)算法的基本思想,提出了一种首先利用SOFM算法对数据集进行粗聚类,确定簇的数目k和神经元的连接权向量,然后从数据集中找出与SOFM算法的神经元的连接权向量最相似的k个代表点作为CLARA算法的k个代表点的初始值的改进CLARA算法。实验结果表明,改进算法具有更高的聚类效率和更好的聚类质量。  相似文献   

3.
在蛋白质序列的比对研究中,拥有相似模式的蛋白质常常具有相似的功能.通过已知的蛋白质序列模式可以很方便地对新蛋白质序列的功能结构进行研究和确认.蛋白质序列的发现已成为一个很有意义的题目.对基于模式驱动Pratt算法进行改进以提高其效率,在原来基础上引入模糊查询方法,能够更为快捷地从互不相关的蛋白质序列集合中找出最具代表性的蛋白质模式.  相似文献   

4.
唐东明  朱清新  杨凡  陈科 《软件学报》2011,22(8):1827-1837
提出了一种有效的基于仿射传播聚类算法和后处理方法的蛋白质序列聚类方法.在聚类分析蛋白质序列时,为了优化仿射传播聚类算法的聚类结果,采用后处理的方式来提高聚类结果的质量.为了度量蛋白质序列之间的相似度,给出了一种改进的无比对计算方法.在6个蛋白质序列数据集上进行对比实验,实验结果表明,所给出的方法能够有效地分析蛋白质序列.  相似文献   

5.
郑涛  张帆 《现代计算机》2006,(6):19-21,36
CLARA是k-中心值聚类的一种算法,在处理大型数据集的聚类问题时,比PAM(围绕中心点的划分)更具有良好的伸缩性,但CLARA算法随机抽样中存在采样不准确的缺点.本文针对这一不足,使用了数据场的概念对CLARA聚类算法进行了有益的改进,提高了采样的准确性,使其更适合于对大型多维数据集的处理,提高了挖掘结果的质量.  相似文献   

6.
基于整体和局部相似性的序列聚类算法   总被引:1,自引:0,他引:1  
戴东波  汤春蕾  熊赟 《软件学报》2010,21(4):702-717
现有的很多序列聚类算法是基于“局部特征可以表征整个序列”的假设来进行的,即不区分实际应用中序列的整体相似性和局部相似性.这对存在保守子模式的序列,如DNA和蛋白质序列是适用的,但对一些注重整体序列相似性的应用领域,如:在交易数据库中用户购买行为的比较,时间序列数据中全局模式的匹配等,由于难以产生频繁子模式,用基于全局相似性的度量方法进行聚类显得更为合理.此外,在基于局部相似性的序列聚类算法中,选取的局部子模式表征序列的能力也有待进一步提高.由此,针对不同应用领域,分别提出基于整体相似性的序列聚类算法GSClu和基于局部相似性的序列聚类算法LSClu.GSClu和LSClu分别利用带剪枝策略的二分k均值算法和基于有gap约束的强区分度子模式方法对各自领域的序列数据进行聚类.实验采用交易序列数据和蛋白质序列数据,实验结果表明,GSClu和LSClu对各自领域的序列数据具有较快的处理速度和良好的聚类质量.  相似文献   

7.
论文从蛋白质序列数据的角度出发,通过序列相似度循环匹配构造蛋白质网络,并且通过网络节点重要性排序算法预测蛋白质功能.以节点重要性重要性作为研究对象,在蛋白质网络应用节点重要性算法PageRank计算网络中蛋白质节点PR值,在Hadoop平台上进行开发实现功能预测的并行计算,减小运行时间.最后通过准确率,召回率以及F1-measure三个指标来衡量结果,并对比传统的功能预测方法,验证结果的有效性.  相似文献   

8.
一个高效的多变量时间序列聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
时间序列聚类分析是数据挖掘研究的一个重要内容。已有的聚类算法大多采用k均值对低维数据进行聚类,不能对高维多变量时间序列(MTS)数据进行有效聚类。提出一种高效的多变量时间序列聚类算法PCA-CLUSTER,首先利用主成分分析对MTS数据降维;选取MTS数据的主成分序列进行K近邻聚类分析。理论分析和实验结果表明算法可以有效解决MTS数据聚类问题。  相似文献   

9.
陈光  郑影 《福建电脑》2003,(12):17-18
随着生物信息学数据的大量积累,通过对核酸序列或蛋白质序列进行比对,可以有效地分析和预测一些新发现基因的功能。序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,可以推测二者有共同的进化祖先;二个具有同源性的生物,其序列具有一定的相似性。如果一个新测定的DNA序列与一已知的基因序列很相似,那么,该基因序列含有与已知基因序列相似的结构和功能。因此,序列比对方法的应用对于基因结构和功能的研究具有较大的实际意义。双序列比对是序列分析的常用方法之一,是多序列比对和数据库搜索的基础。传统的双序列比对算法时间和空间复杂度均为O(m*n)。我们在介绍传统的动态规划算法后,将就时间和空间方面提出建议,并加以具体描述。  相似文献   

10.
传统的序列模式挖掘算法应用在生物序列上有其局限性,根据生物序列的特点,提出了基于相邻频繁模式段的模式挖掘算法-JPS。首先产生相邻频繁模式段,然后对这些频繁模式段进行组合,产生新的频繁模式。通过实验分析,该方法在相似性很强的序列数据库中比传统的PrefixSpan算法效率高。通过对真实的蛋白质序列家族库的处理,证明该算法能有效处理生物序列数据。  相似文献   

11.
近年来大量的物种全基因组序列被测序出来,使得生物研究进入了后基因组时代,由单个的基因研究转入大规模的蛋白及功能领域的研究。蛋白质之间的相互作用作为最基本内容已经成为了研究的基础和重点。本文提出一种癌症蛋白质作用网络分析方法。本项目主要是开发一个系统,该系统能够从生物文本中提取出蛋白质的相关信息,进行蛋白质功能聚类,并构建蛋白质间相互作用的网络,用以预测癌症。  相似文献   

12.
在蛋白质相互作用(Protein-Protein Interaction,PPI)网络中检测蛋白质功能模块有助于预测未知蛋白质的功能模块。随着蛋白质相互作用有效数据迅速增长,如何通过PPI网络获得有效的蛋白质功能模块成为最大挑战。阐述PPI网络的发展及现状,通过对当前蛋白质功能模块检测算法进行归纳总结,把它们分为单元聚类和多元聚类,并对每类的代表性方法进行详细阐述;讨论蛋白质相互作用网络功能模块检测研究所面临的挑战及未来研究方向。  相似文献   

13.
张豪  陈黎飞  郭躬德 《计算机科学》2015,42(5):114-118, 141
符号序列由有限个符号按一定顺序排列而成,广泛存在于数据挖掘的许多应用领域,如基因序列、蛋白质序列和语音序列等.作为序列挖掘的一种主要方法,序列聚类分析在识别序列数据内在结构等方面具有重要的应用价值;同时,由于符号序列间相似性度量较为困难,序列聚类也是当前的一项开放性难题.首先提出一种新的符号序列相似度度量,引入长度规范因子解决现有度量对序列长度敏感的问题,从而提高了符号序列相似度度量的有效性.在此基础上,提出一种新的聚类方法,根据样本相似度构建无回路连通图,通过图划分进行符号序列的层次聚类.在多个实际数据集上的实验结果表明,采用规范化度量的新方法可以有效提高符号序列的聚类精度.  相似文献   

14.
针对基因序列分类的特点,结合模糊聚类分析方法,在原来的Markov链模型基因聚类方法的基础上,引入核酸碱基对的相互作用,得到具有双重性质特征的距离矩阵,并根据模糊聚类分析方法得到模糊相似性矩阵和其动态聚类图,从而实现基因序列的分类。通过对包括人类16个物种的16条p53基因序列进行模糊聚类得出,物种关系越相近,更容易聚成一类。此外,还检验双重性质的矩阵方法与原来的单一性质方法作聚类结果对比,发现具有双重性质的方法更准确。  相似文献   

15.
面向Web对象的细粒度聚类已经成为学术界研究的热点.然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求.针对上述挑战,充分挖掘Web文档中词汇间的树状概率层次关系,提出一种以词汇信息分布作为特征标志的聚类算法InfoSigs,实现对Web对象的细粒度聚类.算法构建一个信息传递有向无环图,根据词汇在图中信息分布的集中度赋予其合理的权重,产生更具代表性的特征向量;同时算法提出了一个自适应的记录合并模型,有效提高记录簇中记录间的相似度,减少噪音对合并过程的影响.实验结果表明,InfoSigs算法比传统聚类算法—I-Match和Shingling—在F-Measure值上平均约有21.3%的提高,可以有效地运用到多领域Web对象的聚类问题.  相似文献   

16.
聚类分析作为一种常见的分析方法,广泛应用于各种场景。随着机器学习技术的发展,深度聚类算法也成了当下研究的热点,基于自编码器的深度聚类算法是其中的代表算法。为了及时了解掌握基于自编码器的深度聚类算法的发展,介绍了四种自编码器的模型,对近些年代表性的算法依照自编码器的结构进行了分类。在MNIST、USPS、Fashion-MNIST数据集上,针对传统聚类算法和基于自编码器的深度聚类算法进行了实验对比、分析,最后对基于自编码器的深度聚类算法目前存在的问题进行了总结,展望了深度聚类算法的研究方向。  相似文献   

17.
聚类问题是近几年来机器学习和数据挖掘领域研究的热点问题,由于获取大量监督信息费时费力,目前国内外研究的重点是如何获得少量但对聚类性能提高显著的监督信息,再加上实际问题中存在的动态模糊性,故本文提出一种结合主动学习的动态模糊聚类算法DF-DBSCAN,通过引入动态模糊等价关系、动态模糊信任测度和动态模糊似然测度这3个约束信息来指导DBSCAN的聚类过程,以提高聚类的性能。实验结果表明,DF-DBSCAN算法不仅解决了实际问题中存在的动态模糊性数据的描述和表示问题,而且能够高效地进行数据聚类,显著地提高聚类性能。  相似文献   

18.
Clustering is often considered as an unsupervised data analysis method, but making full use of the prior information in the process of clustering will significantly improve the performance of the clustering algorithm. Spectral clustering algorithm can well use the prior pairwise constraint information to cluster and has become a new hot spot of machine learning research in recent years. In this paper, we propose an effective clustering algorithm, called a semi-supervised spectral clustering algorithm based on pairwise constraints, in which the similarity matrix of data points is adjusted and optimized by pairwise constraints. The experiments on real-world data sets demonstrate the effectiveness of this algorithm.  相似文献   

19.
Spectral clustering has become an increasingly adopted tool and an active area of research in the machine learning community over the last decade. A common challenge with image segmentation methods based on spectral clustering is scalability, since the computation can become intractable for large images. Down-sizing the image, however, will cause a loss of finer details and can lead to less accurate segmentation results. A combination of blockwise processing and stochastic ensemble consensus are used to address this challenge. Experimental results indicate that this approach can preserve details with higher accuracy than comparable spectral clustering image segmentation methods and without significant computational demands.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号