首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
DNA序列分类的神经网络方法   总被引:5,自引:3,他引:5  
该文将人工神经网络方法用于DNA分类,首先应用概率统计的方法对20个已知类别的人工DNA序列进行特征提取,形成DNA序列的特征向量,并将之作为样本输入BP神经网络进行学习。采用MATLAB软件包中的神经网络工具箱中的反向传播算法来训练神经网络。构造了两个三层BP神经网络,将提取的DNA特征向量集作为样本分别输入这两个网络进行学习,通过训练后,将20个未分类的人工序列样本和182个自然序列样本提取特征向量并输入两个网络进行分类,结果表明,分类方法能够以很高的正确率和精度对DNA进行分类,将人工神经网络用于DNA序列分类是完全可行的。  相似文献   

2.
模糊聚类分析方法在DNA序列分类中的应用   总被引:3,自引:0,他引:3  
该文采用模糊聚类分析的方法对DNA序列进行分类.首先从DNA序列中单个碱基分布的“密度”角度出发,提取出DNA序列的特征,然后用模糊聚类分析中常用的方法对DNA序列进行分类.该文运用自行研制开发的集成11种模糊聚类分析算法的模糊聚类分析运算工具,首先对已知的1-20个DNA序列进行模糊聚类分析,根据分类结果的精度,找出了较优的6种聚类分析算法,然后用余下的21-40个DNA序列进行分类;最后,本文一次对所有的1-40个DNA序列进行归类,并综合了所有的分类结果,将难以归类的DNA序列进行了归类.分析结果表明,模糊聚类分析算法具有分类简单且分类结果精度较高的优点.  相似文献   

3.
基于隐马尔科夫模型的DNA序列分类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
DNA序列分类是生物信息学的一项基础任务,目的是根据结构或功能的相似性预测DNA序列所属的类别。为进行有效分类,如何将序列映射到特征向量空间并最大程度地保留序列中蕴含的碱基间顺序关系是一项困难的任务。为克服现有方法容易导致因DNA序列碱基残缺而影响分类精度等问题,提出一种新的DNA序列特征表示方法。新方法首先为每条序列训练一个隐马尔科夫模型(HMM),然后将DNA序列投影到由HMM状态转移概率矩阵的特征向量构成的向量空间中。基于这种新的特征表示法,构造了一种 K-NN分类器对DNA序列进行分类。实验结果表明,新型特征表示方法可以较为完整地保留 DNA 序列中不同碱基间的关系,充分反映序列的结构信息,从而有效提高了序列的分类精度。  相似文献   

4.
针对蛋白质序列分类的需求,深入研究了蛋白质序列分类算法。对蛋白质序列的特征属性进行了大量的分析和研究,给出了蛋白质序列特征属性的描述形式。在此基础上设计了一种基于加权决策树的蛋白质序列分类算法,详细阐述了加权决策树的构造过程以及决策树的主要参数计算方法,而且根据蛋白质序列的特征,对决策树进行了改进,给出了加权决策树的实现方法。测试结果表明:设计的蛋白质序列分类算法具有较高的分类精度和较快的执行速度。  相似文献   

5.
基于蚁群优化聚类算法的DNA序列分类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对目前聚类算法在分析DNA序列数据时的低效性和分类精度低问题,提出一种基于蚁群优化聚类算法(ACOC)的DNA序列分类方法,在密度函数中加入自适应感应量并应用模拟退火中的α-适应量的冷却策略,采用DNA序列分布特征对DNA序列进行特征提取,并将pearson相关系数引入蚁群聚类算法作为相似性度量。在EMBL-DNA数据库中4个数据集上进行性能测试,与统计聚类和k-means算法的比较表明,该方法具有一定的时间和精度的优越性,适于解决大规模DNA序列数据分类问题。  相似文献   

6.
DNA序列数据挖掘技术   总被引:4,自引:1,他引:4       下载免费PDF全文
朱扬勇  熊赟 《软件学报》2007,18(11):2766-2781
DNA序列数据是一类重要的生物数据.研究DNA序列数据解读其含义是后基因组时代的主要研究任务.数据挖掘是目前最有效的数据分析手段之一,用于发现大量数据所隐含的各种规律,也是生物信息学采用的主要数据分析技术.将数据挖掘技术用于DNA序列数据分析,已得到了广泛关注和快速发展,并取得了许多研究成果.综述了DNA序列数据挖掘领域的研究状况和进展,提出了3个研究阶段:基于统计的挖掘方法应用阶段、一般化挖掘方法应用阶段和专门的DNA序列数据挖掘方法设计阶段.阐述了DNA序列数据挖掘的基础是序列相似性,评述了DNA序列数据挖掘领域所采用的关键技术,包括DNA序列模式、关联、聚类、分类和异常挖掘等,分析讨论了其相应的生物应用背景和意义.最后给出DNA序列数据挖掘进一步研究的热点问题,包括DNA序列数据新的存储和索引机制的设计、根据生物领域知识的数据挖掘新模型和算法的设计等.  相似文献   

7.
基于序列模式特征和SVM的剪切位点预测   总被引:1,自引:1,他引:0       下载免费PDF全文
通过对HS3D数据集供点序列碱基的统计分析,利用供体位点邻域碱基出现规律构造模式(motif)作为DNA序列的属性。设置序列属性值将字符序列映射成数字向量,应用支撑向量机进行实验,实现对供体位点的预测分类。实验结果表明,与改进的motif得分模型方法相比,该文方法可有效去除数据中异常数据对分类的影响,将DNA字符序列变换到motif属性数字序列空间具有有效性和实用性。  相似文献   

8.
针对蛋白质序列难以分类的问题,提出了基于神经网络的蛋白质序列分类算法,通过采用基于频繁模式扫描的蛋白质序列特征抽取技术,采集得到了蛋白质序列的特征参数。在此基础上,构建了三层的神经网络,用于蛋白质序列的分类,经过大量数据对神经网络的训练,经测试表明,文章所设计的蛋白质序列分类算法,其精度达到了98%,尤其是对于一些新出现的蛋白质序列分类效果更好。  相似文献   

9.
基于遗传算法的一种生物序列比对方法   总被引:1,自引:0,他引:1  
敖友云  迟洪钦 《计算机工程与设计》2006,27(19):3647-3648,3651
生物序列比对是对DNA(或RNA,蛋白质)序列,寻找和确定它们的相似部分或稳定区域.二重序列比对问题可采用动态规划方法求得其最优解;多重序列比对问题是一个NP完全的组合优化问题,有待进一步探索与研究.通过合理的编码表示,采用相应的遗传算子,设计了一种求生物序列比对的遗传算法.并对几组DNA序列进行了测试.  相似文献   

10.
基于蛋白质CGR的线粒体蛋白质序列比对   总被引:1,自引:0,他引:1  
利用蛋白质混沌游走表示法(PCGR)提出一种新的蛋白质序列比对方法。通过计算两序列之间的PCGR点距离,就可以找到所有的局部相似片断。根据氨基酸的化学物理性质把氨基酸分成4和7类,针对分类与无分类的各种情况进行蛋白质序列比对。为了更直观地描述比对结果,采用点阵图来表示比对数据,不仅能显示两序列间所有相同片断,还可以体现出序列的相似性。  相似文献   

11.
In bioinformatics and computational biology, methods for biological sequence comparison play the most important role for the interpretation of complex nucleotide and protein data such as the inference of relationships between genes, proteins and species; and the discovery of novel protein structures and functions. This type of inference is derived by sequence similarity matching on the databases of biological sequences. As many entire genomes have being determined at a rapid rate, computational methods for comparing genomic and protein sequences will be more essential for probing the complexity of genes, genomes, and molecular machines. In this paper we introduce a pattern-comparison algorithm, which is based on the mathematical concepts of linear predictive coding and its cepstral-distortion measures for the analyses of both DNA and protein sequences. The results obtained from several experiments on real datasets have shown the effectiveness of the proposed approach.  相似文献   

12.
为有效发现DNA数据是否被恶意篡改,保证研究者所使用的DNA数据是真实可靠的,即未经过篡改的,本文提出一种基于数字签名的DNA数据篡改提示方法,用向原有信息中加入数字签名的方法来解决该问题.设计了一整套加入、检测以及滤除签名的方法.该方法将数字签名嵌入DNA序列,在使用前通过校验数字签名来发现DNA是否篡改,以便给出篡改提示.实验表明,该方法可以有效发现篡改者对序列的恶意篡改,而且经添加签名后的序列与原始序列有一定的相似性,不易引起篡改者的注意.  相似文献   

13.
提出一种新的在DNA和RNA中隐藏信息的方法,以此可以保护基因的新发现、基因治疗药物等的知识产权.该方法综合了密码子冗余和算术编码,在DNA活跃的译码部分进行信息隐藏而不改变最终的氨基酸序列.  相似文献   

14.
文章提出了一种使用微生物遗传特征来进行基因序列聚类的方法。该方法首先从每条基因序列中划分出若干个等差长度的采样片断,然后利用各采样片断的遗传特征DNA(G+C)mol%值来作为基因序列聚类的依据。试验结果表明该方法是可行的,并且具有较好的聚类质量。  相似文献   

15.
Parallel processing of biological sequence comparison algorithms   总被引:2,自引:0,他引:2  
Comparison of biological (DNA or protein) sequences provides insight into molecular structure, function, and homology, and is increasingly important as the available databases become larger and more numerous. One method of increasing the speed of the calculations is to perform them in parallel. We present the results of initial investigations using the Intel iPSC/1 hypercube and the Connection Machine (CM-I) for these comparisons. Since these machines have very different architectures, the issues and performance trade-offs discussed have a wide applicability for the parallel processing of biological sequence comparisons. This research was supported in part by the Office of Naval Research under contact No. N00014-86-K-0310 and by NIH Grant T15 LM07056 from the National Library of Medicine.  相似文献   

16.
In this paper, an efficient K-medians clustering (unsupervised) algorithm for prototype selection and Supervised K-medians (SKM) classification technique for protein sequences are presented. For sequence data sets, a median string/sequence can be used as the cluster/group representative. In K-medians clustering technique, a desired number of clusters, K, each represented by a median string/sequence, is generated and these median sequences are used as prototypes for classifying the new/test sequence whereas in SKM classification technique, median sequence in each group/class of labelled protein sequences is determined and the set of median sequences is used as prototypes for classification purpose. It is found that the K-medians clustering technique outperforms the leader based technique and also SKM classification technique performs better than that of motifs based approach for the data sets used. We further use a simple technique to reduce time and space requirements during protein sequence clustering and classification. During training and testing phase, the similarity score value between a pair of sequences is determined by selecting a portion of the sequence instead of the entire sequence. It is like selecting a subset of features for sequence data sets. The experimental results of the proposed method on K-medians, SKM and Nearest Neighbour Classifier (NNC) techniques show that the Classification Accuracy (CA) using the prototypes generated/used does not degrade much but the training and testing time are reduced significantly. Thus the experimental results indicate that the similarity score does not need to be calculated by considering the entire length of the sequence for achieving a good CA. Even space requirement is reduced during both training and classification.  相似文献   

17.
Encoding and processing information in DNA-, RNA- and other biomolecule-based devices is an important requirement for DNA based computing with potentially important applications. To make DNA computing more reliable, much work has focused on designing the good DNA sequences. However, this is a bothersome task as encoding problem is an NP problem. In this paper, a new methodology based on the IWO algorithm is developed to optimize encoding sequences. Firstly, the mathematics models of constrained objective optimization design for encoding problems based on the thermodynamic criteria are set up. Then, a modified IWO method is developed by defining the colonizing behavior of weeds to overcome the obstacles of the original IWO algorithm, which cannot be applied to discrete problems directly. The experimental results show that the proposed method is effective and convenient for the user to design and select effective DNA sequences in silicon for controllable DNA computing.  相似文献   

18.
提出了基于Levenberg-Marquardt(LM)算法的BP神经网络对蛋白质序列进行家族分类的新方法.该方法采用二肽含量对蛋白质序列进行特征提取,根据影响因子评价特征的相对重要性,用改进的BP神经网络LM优化算法构造一个三层人工神经网络,通过对PIR数据库中三类家族的学习,该网络对未知蛋白质序列分类的准确率分别达到了98.9%.98.1%,97.8%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号