首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
黄旭  吕强  吴进珍  钱培德 《计算机工程》2010,36(21):173-174,177
在对蛋白质预测结构进行聚类的过程中,常用的均方根偏差、TM-score、GDT-TS等相似性度量方法仅反映了结构之间的距离关系而未考虑结构之间的能量关系。针对上述问题,对候选结构进行距离度量,计算两两之间的能量差异,并以此设置权重,对相似性矩阵进行修改。通过在13个数据集上的实验表明,采用能量差异对相似性矩阵进行加权后的聚类结果优于加权之前。  相似文献   

2.
选取合适的蛋白质结构预测算法的性能评估指标,是直接影响到衡量和比较各种蛋白质结构预测算法优劣的重要问题。本文对目前各种评估指标进行了剖析比较,总结对比了各种评估指标的优缺点,分析了其相互之间的联系与区别,并结合神经网络建模,提出各种评估指标的适用范围与使用原则。  相似文献   

3.
一种新的中心对称聚类算法   总被引:2,自引:0,他引:2  
Data clustering is an important reserch field in data mining.The key of the clustering algorithm is the distance measure.In this paper,we put forward a new distance measure based on central symmetry,Then we apply it to data clustering.The experimental studies prove the feasibility of this algorithm and get a satisfied result in face detection.  相似文献   

4.
一种用于蛋白质结构聚类的聚类中心选择算法   总被引:1,自引:0,他引:1  
黄旭  吕强  钱培德 《自动化学报》2011,37(6):682-692
提出一种对蛋白质结构聚类中心进行选择的算法. 聚类是蛋白质结构预测过程中必不可少的一个后处理步骤, 而目前在蛋白质结构预测中常用的属性阈值(Quality threshold, QT)聚类算法依赖于由经验得出的聚类半径; 其他聚类算法, 如近邻传播(Affinity propagation, AP)聚类算法也存在影响聚类分布的参数. 为克服对主观经验参数的依赖,本文提出一种聚类中心选择算法(Exemplar selection algorithm, ESA), 用于对不同参数下的聚类结果进行分析,从而选择最佳聚类中心,进而确定聚类半径等经验参数. 该算法在真实蛋白质结构数据集上进行了实验,在未知经验参数情况下选择出最佳聚类中心, 同时也为不同聚类算法寻找适合相应数据集的客观聚类参数提供了支持.  相似文献   

5.
章永来  周耀鉴 《计算机应用》2019,39(7):1869-1882
大数据时代,聚类这种无监督学习算法的地位尤为突出。近年来,对聚类算法的研究取得了长足的进步。首先,总结了聚类分析的全过程、相似性度量、聚类算法的新分类及其结果的评价等内容,将聚类算法重新划分为大数据聚类与小数据聚类两个大类,并特别对大数据聚类作了较为系统的分析与总结。此外,概述并分析了各类聚类算法的研究进展及其应用概况,并结合研究课题讨论了算法的发展趋势。  相似文献   

6.
研究了语义数据的聚类问题,提出了一种基于样本内在结构的结构嫡聚类SEC算法。通过给出语义属性相异性度量测度的新定义,挖掘蕴含于数据样本中的结构信息,提出了一种根据结构信息计算样本信息嫡的优化方法,即通过嫡来确定样本的聚类中心,从而完成样本的聚类,并把此方法向异构数据进行了拓展。SEC算法能实现不平衡数据的聚类,能自动确定初始类中心和聚类数目,具有无需迭代、效率高和相当的鲁棒性优势。实验表明,算法是有效的,与文献中的已有方法相比,聚类准确率得到显著提高,具有一定的实用价值。  相似文献   

7.
文章提出了一种基于算法选择和结果评估的自动聚类方法。对给定数据集,该方法首先通过分析数据集的潜在簇结构,并依据所发现的簇结构为数据集挑选一种合适的备选聚类算法集;然后利用聚类有效性指标对这个算法集的算法聚类结果进行评估,以确保得到高质量聚类结果。实验结果表明该方法能够自动地挑选适合数据集的聚类算法,并获得高质量的聚类结果。  相似文献   

8.
针对欧氏距离将个体的不同属性(即各指标或各变量)之间的差别等同看待,忽视了个体不同属性的重要性。考虑数据的几何结构特征和个体属性,结合马氏距离提出一种新的属性相似性度量方法及新的聚类有效性函数;对采用欧氏距离的分层聚类算法进行改进。改进的聚类算法能提高聚类的速度和质量,是一种有效的聚类方法。  相似文献   

9.
多聚类中心近邻传播聚类算法(MEAP),在处理任意形状具有流形分布结构的数据时,往往得不到理想的聚类结果。为此,基于流形学习的思想,设计了一种全新的相似性度量,该相似性度量能够扩大位于同一流形中数据点间的相似性,同时缩小处于不同流形上数据点间的相似性,从而使得相似性矩阵能够准确地反映数据集内在的流形分布结构。将该相似性度量与MEAP相结合,提出基于流形结构的多聚类中心近邻传播聚类算法MS-MEAP(Manifold Structure based Multi-Exemplar Affinity Propagation),从而有效地拓展了算法处理任意形状具有流形分布结构数据集的能力,同时提高了算法的运行效率。在人工数据集与USPS手写体数据集上进行了实验,仿真实验结果及算法有效性分析证明,MS-MEAP算法相比于原算法在处理任意形状具有流形分布结构的数据时,具有更好的聚类性能。  相似文献   

10.
罗会兰  危辉 《计算机科学》2010,37(11):234-238
提出了一种基于集成技术和谱聚类技术的混合数据聚类算法CBEST。它利用聚类集成技术产生混合数据间的相似性,这种相似性度量没有对数据特征值分布模型做任何的假设。基于此相似性度量得到的待聚类数据的相似性矩阵,应用谱聚类算法得到混合数据聚类结果。大量真实和人工数据上的实验结果验证了CBEST的有效性和它对噪声的鲁棒性。与其它混合数据聚类算法的比较研究也证明了CBEST的优越性能。CBEST还能有效融合先验知识,通过参数的调节来设置不同属性在聚类中的权重。  相似文献   

11.
一种氨基酸序列只可能有一种蛋白质结构,所以在蛋白质理论预测中,正确定义能量函数、精确选用的计算机搜寻算法来寻找能量最低值,是蛋白质结构预测的关键。基于此,本文以两两残基之间距离分布和二面角分布符合玻尔兹曼定理,提出了一种抽象的蛋白质三维结构连续物理数学模型。然后应用了禁忌搜索算法很好的计算了牛胰岛素B(D)主链走向;比较计算了氨基酸序列最低能量的全局最优点。  相似文献   

12.
蛋白质三维结构决定了其特殊的生物功能,蛋白质三维结构对蛋白质功能研究、疾病的诊断与治疗、创新药物研发都有着重要的科学意义。利用计算机技术从氨基酸序列预测蛋白质三维结构是获取蛋白质三维结构的有效方法。片段组装是一种广泛采用的蛋白质结构预测技术,它将连续的构象空间优化问题转换成离散的实验片段组合优化问题,从而有效地减小了构象搜索空间。首先介绍了片段组装技术;其次总结了基于片段组装的蛋白质结构预测的发展历程,并对部分具有代表性的方法进行了简要阐述;然后介绍了蛋白质结构预测研究中常用的数据库和评价指标,并比较了不同预测方法的性能;最后分析并指出了当前基于片段组装的蛋白质结构预测方法所存在的挑战性问题,并对该领域未来的研究方向进行了展望。  相似文献   

13.
蛋白质结构预测方法的研究进展   总被引:11,自引:0,他引:11  
目前,在蛋白质结构预测方面,人们努力发展新的方法,该文主要介绍了蛋白质结构预测的方法和进展。详细地综述了几种方法,并简单地介绍了蛋白质结构预测的几个不同阶段,并提出了在蛋白质结构预测方面存在的一些困难。  相似文献   

14.
本文研究了一个具有两种氨基酸(疏水氨基酸和亲水氨基酸)的三维非格点的蛋白质模型.受物理世界的物体间相互作用的规律和人类社会生活经验的启发,给出了该模型蛋白质结构预测问题的拟物拟人算法.计算结果表明被提出的方法在非格点的蛋白质模型上是有效的.与文献中给出的所有算例的结果相比,无论是在最低能量值还是在计算时间上,本文算法都要好.对于这些算例中规模最大的3个,还找到了与文献中结构完全不同的最低能量构形.  相似文献   

15.
针对滑坡危险性预测中降雨等不确定诱发因素难以有效处理,CFSFDP算法需要人工尝试设置密度阈值以及对大规模数据集无法进行准确聚类等问题,为了提高滑坡危险性预测准确度,提出一种基于网格与类合并的不确定CFSFDP (简称不确定GM-CFSFDP)聚类算法.该算法首先引入不确定数据处理方法,设计了E-ML距离公式,有效刻画降雨不确定因素;其次通过网格划分的思想把大规模数据集划分到多个网格空间中,实现大规模数据有效编码;计算网格平均密度,建立网格密度阈值分布模型,动态获得网格密度阈值;最后利用层次聚类思想对关联性较高的类进行合并,构建不确定GM-CFSFDP算法模型,在延安宝塔区进行滑坡实例验证.实验结果表明不确定GM-CFSFDP聚类算法获得较高的预测精度,从而验证了该算法在滑坡危险性预测中的可行性和先进性.  相似文献   

16.
从头预测是蛋白质结构建模的一种重要方法,该方法的研究有助于人类理解蛋白质功能,从而进行药物设计和疾病治疗。为了提高预测精度,文中提出了基于接触图残基对距离约束的蛋白质结构预测算法(CDPSP)。基于进化算法框架,CDPSP将构象空间采样分为探索和增强两个阶段。在探索阶段,设计基于残基对距离的变异与选择策略,即根据接触图的接触概率选择残基对,并通过片段组装技术对所选择的残基对的邻近区域进行变异;将残基对距离离散化为多个区域并为其分配期望概率,根据期望概率确定是否选择变异的构象,从而增加种群的多样性。在增强阶段,利用基于接触图信息的评分指标,结合能量函数,衡量构象的质量,从而选择较优的构象,达到增强CDPSP近天然态区域采样能力的效果。为了验证所提算法的性能,通过CASP12中的10个FM组目标蛋白质对其进行了测试,并将其与一些先进算法进行比较。实验结果表明,CDPSP可以预测得到精度较高的蛋白质三维结构模型。  相似文献   

17.
研究了生物信息学中的一个重要问题,即蛋白质结构预测.受物理世界的物体间相互作用的规律的启发,给出了该问题一个二维欧氏空间连续模型.它比离散模型有一定的优越性,此模型的优点可能在于让计算很自然地利用到了一个客观存在的“天然导引”,这个“天然导引”即是疏水氨基酸之间的引力,从而在构形优度相当的前提下,连续模型有助于计算速度的提高.然后根据这个连续模型找到了相应的拟物算法,最后给出了一些实验结果,它们也说明了这个连续模型及相应的拟物算法的优点.  相似文献   

18.
蛋白质二级结构预测在蛋白质空间结构预测中起着承上启下的重要作用。近年来,大量的方法应用于二级结构预测中,其中,神经网络算法效果较好。但是,由于传统的神经网络存在结构复杂、学习速度慢、运行效率低、处理海量数据困难的缺陷,大大影响了预测的效果,因此,该文将一种基于构造性神经网络算法,也就是交叉覆盖算法应用于蛋白质二级结构预测中,另外,为了引入更多的同源家族结构的信息,采用了基于概率的Profile编码方式。通过实验证明将交叉覆盖算法运用在蛋白质二级结构预测中的可行性.并且比传统的神经网络方法有了更高的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号