首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
利用动态调整聚类个数的思想,在模糊C-均值聚类算法基础上引入基于多维PFS判别函数,提出一种基于多维伪F统计量的基因表达动态C-均值聚类算法.以H5N1病毒基因序列数字特征提取为例,在聚类分析过程中直接利用数字特征矩阵作为分析数据,结果表明该算法可以动态调整聚类个数,给出最佳聚类数目,从而获得较好的聚类质量.  相似文献   

2.
一种新聚类算法在基因表达数据分析中的应用   总被引:2,自引:1,他引:1       下载免费PDF全文
自组织特征映射神经网络与层次聚类算法是两种较经典的分析基因表达数据的聚类算法,但由于基因表达数据的复杂性与不稳定性,这两种算法都存在着自身的优劣。因此,在比较两种算法差异性的基础上,创造性地提出了一种新算法,即通过SOM算法对基因表达数据进行聚类,再用层次聚类将每个类对应的神经元权值二次聚类,并将此算法应用在酵母菌基因表达数据中,用实验证明改进算法克服了自组织算法的一些缺陷,提高了基因聚类的效能。  相似文献   

3.
朱婵  许龙飞 《计算机工程与应用》2006,42(15):171-175,178
针对传统聚类算法在基因表达数据处理中的不足之处,讨论了与计算智能技术相关的两种算法:模糊C均值算法(FCM)和遗传K均值算法(GKA),对FCM算法中类别数c和模糊指数m的选取进行了比较深入的研究,最后用实验数据对各算法性能进行了分析和比较。  相似文献   

4.
模糊c均值算法是一种局部搜索迭代法,易陷入局部最小解,而且算法未考虑样本对聚类的贡献程度。针对传统的模糊c均值(FCM)算法的不足和基因表达数据高噪声的特点,提出了一种基于小波变换和改进的FCM聚类模型,最后将该模型应用于白血病基因数据分析。根据Xie-Beni指数,在没有先验知识的条件下,确定了最佳聚类个数。为了体现文中提到的算法对样本聚类的准确性,本文分别采用传统的FCM聚类算法和分层聚类的方法在同样的试验条件下进行试验。样本聚类的结果表明:该方法能得到高准确度的样本分型结果。  相似文献   

5.
针对目前已知功能基因相对较少、基因表达数据的海量性、以及基因类属的不确定性等问题提出了一种基于进化策略的FCM(ES-FCM)算法。并用抑郁症基因芯片表达数据作为数据源对算法进行测试分析,其结果表明该算法有效地改进了FCM算法对初始数据敏感、易于陷入局部最小值,以及进化算法收敛速度相对较慢、计算量大等问题,从而得到较优的聚类结果。  相似文献   

6.
聚类是一个将数据集划分为若干个簇的过程,在机器学习和数据挖掘中的有广泛的应用。该文综述了经典的聚类算法,在酵母基因表达数据集上实现了K-means聚类算法,并对聚类结果进行了分析。  相似文献   

7.
为了充分发掘混合蛙跳算法求解复杂优化问题的能力,提出了一种新颖的改进混合蛙跳算法.改进算法借鉴粒子群优化算法的速度更新方式,通过族群中随机个体、最优个体和最差个体间的位置关系来确定最差个体的更新步长;借鉴差分进化思想,通过伪差分变异产生虚拟个体来更新最差个体,以提高种群开拓能力.通过对四个典型测试函数的仿真实验表明,相比其他几种改进算法,改进算法以100%的概率找到了某些函数的理论最优值,寻优效果更好,收敛成功率更高.  相似文献   

8.
刘青  周鹏 《计算机工程》2005,31(3):189-191
DNA微阵列技术使人们可同时观测成千上万个基因的表达水平,对其数据的分析已成为生物信息学研究的焦点。针对微阵列基因表达数据维数高、样本小、非线性的特点,设计并实现了一种基因表达数据分类识别方法,针对结肠数据集的实验表明其泛化效果有所增强。  相似文献   

9.
随着基因测序技术的不断发展和完善,基因芯片技术逐渐成熟,产生了大量可供分析的基因表达数据,使得研究和比较大量基因成为了可能.聚类分析能够检测出表达谱相似的基因群,将基因表达谱相似程度高的基因划分到同一类中,从而识别出未知功能的基因,是目前研究基因表达数据使用的主要技术之一.本文在对基因表达数据分析方法的研究基础上,采用了一种改进的、基于矩阵变换的基因表达数据层次聚类(NHC)方法,用于改善聚类效果.  相似文献   

10.
针对交通流数据分析滞后,交通规划效率不高等问题,提出了一种基于计算机数据算法模型的计算机数据算法数据分析方法,该方法采用基于S3C6410处理器的采集模块对影响交通流的数据进行采集或者分析,在进行数据信息采集时,还通过JZ863的无线传输模块实现数据信息传输,并通过神经网络算法模型提高了交通流数据信息分析能力。实验结果显示,本研究系统检测到发生故障的数据量数高达4735个,交通检测精度较高。  相似文献   

11.
何云  皮德常 《计算机科学》2015,42(11):251-255, 283
基因表达数据时常出现缺失,阻碍了对基因表达的研究。提出了一种新的相似性度量方案——精简关联度,在此基础上,又提出了基于精简关联度的缺失数据迭代填补算法(RKNNimpute)。精简关联度是对灰色关联度的一种改进,能达到与灰色关联度同样的效果,却显著降低了算法的时间复杂度。RKNNimpute算法以精简关联度作为相似度量,将填补后的基因扩充到近邻的候选基因集,通过迭代的方式填补其他缺失数据,提高了算法的填补效果和性能。选用时序、非时序、混合等不同类型的基因表达数据集进行了大量实验来评估RKNNimpute算法的性能。实验结果表明,精简关联度是一种高效的距离度量方法,所提出的RKNNimpute算法优于常规填补算法。  相似文献   

12.
本文利用粗糙集与布尔逻辑离散约简算法改进了粗糙自组织映射算法,并应用于基因表达数据的分析中.算法改进了传统自组织映射收敛慢、网络规模难以确定的缺点,减小了网络规模不确定对分类效果的影响.使用酵母茵基因表达数据进行实验,得到了较好的网络质量、网络规模和分类效果,相比传统自组织映射使分类正确率提高了10.15%.  相似文献   

13.
When gene expression datasets contain some labeled data samples, the labeled information should be incorporated into clustering algorithm such that more reasonable clustering results can be achieved. In this paper, a novel semi-supervised clustering algorithm, Semi-supervised Iterative Visual Clustering Algorithm (Semi-IVCA), is presented to tackle with such datasets. The new algorithm first constructs the visual sampling image of the dataset based on visual theorem and obtains its attractors using the gradient learning rules, where each attractor denotes a cluster of the dataset. Then the new algorithm introduces an iterative clustering procedure to realize the semi-supervised learning. The new algorithm is a generalization of the current Visual Clustering Algorithm (VCA) presented by authors. Except for the advantage that Semi-IVCA can effectively utilize the labeled data information in clustering, it is robust and insensitive to initialization, and it has strong parameter learning capability and good interpretation for the clustering results. When the new algorithm Semi-IVCA is applied to the artificial and real gene expression datasets, the experimental results confirm the above advantages of algorithm Semi-IVCA.  相似文献   

14.
基于遗传算法及聚类的基因表达数据特征选择   总被引:1,自引:0,他引:1  
特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象(如基因表达数据)的特征选择,一方面可以提高分类及聚类的精度和效率,另一方面可以找出富含信息的特征子集,如发现与疾病密切相关的重要基因。针对此问题,本文提出了一种新的面向基因表达数据的特征选择方法,在特征子集搜索上采用遗传算法进行随机搜索,在特征子集评价上采用聚类算法及聚类错误率作为学习算法及评价指标。实验结果表明,该算法可有效地找出具有较好可分离性的特征子集,从而实现降维并提高聚类及分类精度。  相似文献   

15.
提出一种基于鱼群优化算法和Cholesky分解的改进的正则极限学习机算法(FSC-RELM)来对基因表达数据进行分类。FSC-RELM算法中,首先用鱼群优化算法对RELM输入层权值进行优化,其中目标函数定义为误差函数的倒数;再对RELM输出层权值矩阵进行分解,采用Cholesky分解法进行优化,以提高算法速度,减少训练时间。为了评价算法性能,对若干标准基因数据集进行了实验,结果表明,FSC-RELM算法在较短的时间内可以获得较高的分类精度,性能优异。  相似文献   

16.
针对目前双聚类算法很少考虑所得聚类结果整体的划分质量问题,提出一种基于PA指标的双聚类算法。该算法选定一种衡量所有簇划分效果的PA指标来构造双聚类的模型,运用启发式贪心策略,通过迭代增删行列的方式挖掘出划分效果较高的几个双聚类。将所提算法与CC、FLOC算法进行算法性能的比较。实验结果表明,该算法能获得更好的结果。这说明该算法更能挖掘出具备既有统计意义又有生物意义的局部模式。  相似文献   

17.
基因表达数据聚类是发现基因功能和确立基因调控网络的重要方法,计算智能在该领域的应用为分析 大量基因数据提供了新途径.本文根据基因表达数据的特点,提出了基因表达数据聚类领域的关键问题,探讨了基 于计算智能的基因表达数据聚类基本框架,综述了计算智能在基因数据聚类领域的应用现状,最后指出了在基因数 据聚类领域计算智能方法未来的发展方向.  相似文献   

18.
沈宁敏  李静  周培云  庄毅 《计算机科学》2015,42(Z6):453-458
聚类已成为基因表达数据的一种前沿分析方法,通过基因类别的划分可以较快速地发现病变细胞,以实现对疾病的诊断。然而,高维、小样本的数据特点使得原始采集的基因表达数据具有大量的冗余与干扰信息,直接聚类会使得算法运行时间长,分析结果精度低。主成分分析是一种经典的数据降维方法,在保持方差最大的情况下,将高维数据映射到低维空间。但负载因子的非零特性使得主成分不具有强解释能力。提出基于截断幂的稀疏主成分分析方法对基因表达数据进行特征提取,并结合K-means方法对稀疏提取的特征基因数据进行聚类分析。最后,利用3个公开的基因数据集进行实验分析,验证了所提出的特征提取方法可提高基因表达数据聚类的精确性与高效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号