首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 79 毫秒
1.
针对传统方法在分析DNA序列相似性方面的不足, 提出了一种新的基于信息量的DNA序列相似性分析算法, 该方法将DNA序列视为基于符号集{A, C, G, T}的信号序列, 全部待比较的DNA序列组合成一个以字符A、C、G、T为属性值的信息系统。在所得数据库系统中引进DNA序列的信息量、联合信息量、条件信息量、交互信息量等概念, 讨论这些信息量的性质并给出它们之间的一些关系式, 然后在此基础上构建DNA序列相似性分析模型。仿真实验结果表明, 该方法不但能快速、有效地分析DNA序列相似性, 而且较好地克服了DNA碱基数量很大且不同物种的DNA序列长短不同的不足。  相似文献   

2.
DNA序列相似性分析是生物信息学中最主要的内容之一,它的研究对于发现物种间的进化关系、判断血缘关系、治疗疾病等有着至关重要的作用。利用图形表示方式来分析DNA序列相似性时,局部差异是反映相似性的重要内容,但某些局部差异累积会导致本来十分相似的DNA序列在全局上呈现出较大的差异,从而导致误判。根据这一思想,本文提出基于SDTW算法的DNA序列相似性分析,该算法通过合理的分段既保持了局部差异的作用又在一定程度上控制了局部差异对全局差异的影响范围。文中以9个物种β-球蛋白第一个外显子的编码序列作为分析对象,将该算法与已有算法的分析结果进行比较。结果表明本文提出的算法相似性分析更加准确,分析结果的敏感性较高,有助于提高进化距离较近的分析对象间的区别度,可将其进一步应用于生物序列的信息分析。  相似文献   

3.
用一种新的信息离散性量度法分析DNA序列的相似性。该法用DNA序列的子序列分布来描述DNA序列,从而充分考虑了DNA序列的信息。对不同的子序列长度,分析了11类不同生物的β-globin基因的第一个外显子的编码序列的相似性,结果表明,该法是分析DNA序列相似性的简单而有效的工具。  相似文献   

4.
DNA序列数据挖掘技术   总被引:4,自引:1,他引:4  
朱扬勇  熊赟 《软件学报》2007,18(11):2766-2781
DNA序列数据是一类重要的生物数据.研究DNA序列数据解读其含义是后基因组时代的主要研究任务.数据挖掘是目前最有效的数据分析手段之一,用于发现大量数据所隐含的各种规律,也是生物信息学采用的主要数据分析技术.将数据挖掘技术用于DNA序列数据分析,已得到了广泛关注和快速发展,并取得了许多研究成果.综述了DNA序列数据挖掘领域的研究状况和进展,提出了3个研究阶段:基于统计的挖掘方法应用阶段、一般化挖掘方法应用阶段和专门的DNA序列数据挖掘方法设计阶段.阐述了DNA序列数据挖掘的基础是序列相似性,评述了DNA序列数据挖掘领域所采用的关键技术,包括DNA序列模式、关联、聚类、分类和异常挖掘等,分析讨论了其相应的生物应用背景和意义.最后给出DNA序列数据挖掘进一步研究的热点问题,包括DNA序列数据新的存储和索引机制的设计、根据生物领域知识的数据挖掘新模型和算法的设计等.  相似文献   

5.
基于二分频率变换的序列相似性查询处理技术   总被引:1,自引:0,他引:1  
作为基因功能预测的主要手段,序列相似性查询技术是生物信息学领域的研究热点.基因序列和结构的相似性往往决定了基因功能的相似性,因此可以通过基因序列的相似性查找来预测新基因的功能.分析了MRS索引中频率变化和小波变换等相关技术,讨论了它们的缺点和不足,提出了一种基于二分频率变换2-PFT的序列似性查询处理技术.首先,设计了二分频率变换和相应的距离函数,使得系统较之频率变换和小波变换具有更高的过滤能力,极大地提高了系统的性能;其次,解决了处理任意长度查询的问题.理论证明和实验结果均表明,2-PFT系统的性能远远优于MRS系统.  相似文献   

6.
本文提出了一种基于模式匹配的多序列相似性分析方法,该方法将模式匹配应用到序列比对中,采用Kimura双参数模型计算进化矩阵并构造物种进化树,进行相似性分析。实验结果表明该方法的有效性。  相似文献   

7.
基于交互信息量和联合熵的镜头检测算法   总被引:5,自引:0,他引:5  
镜头检测在视频检索中起着关键作用。文章提出了一种基于信息论的镜头检测方法,该方法使用相邻帧间的交互信息量检测突变,使用相邻帧间的联合熵检测淡入/淡出镜头。试验表明:该方法简单、有效,且识别的准确率较高。  相似文献   

8.
时间序列序列模式的相似性研究   总被引:1,自引:1,他引:0  
林殉  李志蜀  周勇 《计算机科学》2011,38(9):245-247
时间序列序列模式相似性的度量是从时间序列中获取时序关联规则的重要环节。一般情况下,距离度量法只能度量相同长度序列模式的相似性。借用动态时间弯曲距离的思想,这种基于非线性弯曲技术的算法可以获得很高的识别、匹配精度。在定义元模式相似性的基础上,定义了序列模式的动态时间弯曲距离,最后用两个不同时间序列进行仿真实验,可以得到不同长度的序列的相似度。  相似文献   

9.
针对目前蛋白质交互关系识别主要以单句为依据、因标注数据缺乏而导致训练集规模小等不足,提出一种以关系相似性分析为框架、基于大规模文本的蛋白质交互关系自动识别方法.首先通过对大规模生物医学文本数据库的自动搜索获取描述蛋白质对的句子集合,然后分别从单词、短语结构、依赖关系3个角度抽取特征,建立向量空间模型来表示一对蛋白质之间的关系,最后根据两个向量之间的相似性对关系作出判断.所需训练数据直接取自现有蛋白质交互网络,无需任何额外的人工标注.实验表明,基于关系相似性的蛋白质交互关系自动识别取得了较高的精度(F-score 74.2%).  相似文献   

10.
基于PFD过滤器查找DNA序列中相似性重复片段   总被引:1,自引:0,他引:1  
在DNA序列中查找重复片段是基因序列分析的一个重要课题.由于重复片段的模式长度范围较大,所以仅使用编辑距离(edit distance)很难良好的衡量序列的相似性.提出了衡量重复片段相似性的新标准,新标准表达了序列间的距离与序列中相同部分的关系.考虑到计算的复杂性,基于频率向量提出了新的距离函数PFD(partition frequency distance)以及相应的过滤函数,用以产生重复片段的候选集,提高查找算法的效率.采用后继数组代替滑动窗口的方法进行序列划分,避免只可在等长的片段上查找重复片段的限制.实验结果表明,与TRF(tandem repeat finder)方法相比,基于PFD过滤函数的算法可以找到更多的满足相似性要求的重复片段.  相似文献   

11.
刘晋胜 《计算机科学》2015,42(3):261-265
混合条件属性参数间的距离值存在较大的差异,导致仅聚合距离数量级较大、较规律的数值条件属性对象,而忽视数量级较小、混沌,但类别特征更加明显的分类条件属性对象。提出了一种基于平均互信息的聚类算法。通过熵量化参数类别特性的大小,再根据熵的平均互信息计算方法衡量数据对象间类别的相同、相异特征量,统一数值和分类条件属性参数间距离的数量级,最后通过优化迭代自适应过程得到最终聚类结果。实验结果表明,该算法具有良好的聚类质量和自适应性。  相似文献   

12.
从图像配准的模糊性出发,在图像配准中考虑图像的灰度相关性,结合了图像的空间信息。在配准准则中引入图像配准的灰度相关系数,提出了基于模糊互信息的配准准则。实验表明,模糊互信息函数比互信息函数具有更少的局部极值点和更好的优化特性。  相似文献   

13.
余力  刘鲁 《计算机工程》2003,29(15):13-14
事件序列是一种重要的数据形式。如用户访问的网页就组成了一个序列,如何从这些序列中发现用户的兴趣特点,以便聚类用户。这是网络使用挖掘的重要内容。文章研究了两事件序列的相似性(或距离),对文献[6]提出的序列编辑距离进行了改进,并用一实例进行了说明。  相似文献   

14.
针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank算法提取文本关键词集合;最后,根据互信息相似度度量,计算输入文本关键词集和各类关键词集的相似度,最终实现文本的分类。实验结果表明,该方案能够 提取出具有较高识别度的关键词,当关键词集大小为1250时,平均分类率达到了91.2%。  相似文献   

15.
Similarity Analysis of Video Sequences Using an Artificial Neural Network   总被引:1,自引:1,他引:0  
Comparison of video sequences is an important operation in many multimedia information systems. The similarity measure for comparison is typically based on some measure of correlation with the perceptual similarity (or difference) amongst the video sequences or with the similarity (or difference) in some measure of semantics associated with the video sequences. In content-based similarity analysis, the video data are expressed in terms of different features. Similarity matching is then performed by quantifying the feature relationships between the target video and query video shots, with either an individual feature or with a feature combination. In this study, two approaches are proposed for the similarity analysis of video shots. In the first approach, mosaic images are created from video shots, and the similarity analysis is done by determining the similarities amongst the mosaic images. In the second approach, key frames are extracted for each video shot and the similarity amongst video shots is determined by comparing the key frames of the video shots. The features extracted include image histograms, slopes, edges, and wavelets. Both individual features and feature combinations are used in similarity matching using an artificial neural network. The similarity rank of the query video shots is determined based on the values of the coefficients of determination and the mean absolute error. The study reported in this paper shows that the mosaic-based similarity analysis can be expected to yield a more reliable result, whereas the key frame-based similarity analysis could be potentially applied to a wider range of applications. The weighted non-linear feature combination is shown to yield better results than a single feature for video similarity analysis. The coefficient of determination is shown to be a better criterion than the mean absolute error in similarity matching analysis.  相似文献   

16.
生态位因子分析方法是一种基于生态位概念的多变量分析方法,然而该方法在计算相关性时所使用的协方差只考虑了变量间的线性关系,而大部分变量间的关系是非线性相关的.互信息可用于衡量两个变量间相互依赖的强弱程度,且不局限于线性相关.本文提出基于互信息的生态位因子分析方法,采用互信息计算变量间的相关性,分析斑头雁在青海湖地区的栖息地选择情况以及栖息地适宜性,与传统生态位因子分析方法相比,所提出的方法改变了特化向量,提高了栖息地适宜性预测的准确率.  相似文献   

17.
小波互信息及其在心电分析中的应用   总被引:1,自引:0,他引:1  
为探究信号小波成分中的有用信息,提出了从小波变换(WT)系数和多层小波分解(WD)成分的延时互信息(MI)得出信号分析指标的新方法.以年轻(21~34岁)与年老(68~81岁)二组健康人心电图(ECG)为实验数据,用Symlets 4为母小波对ECG进行WT和WD,计算出MI与心率周期对应的极大值(LM)和表示该波峰形态特征的波形宽度(WW)等多个特征指标.结果表明,在尺度a=12时的WT系数及第3层细节的LM都是年轻组明显小于年老组(P<0.001),第2层近似和第3层细节的WW都是年轻组明显大于年老组(P<0.001).ECG的延时互信息可揭示出心率变异性随年龄而减少.  相似文献   

18.
本文提出了一种医学图象配准的方法,该方法分两步第一步采用搜索最大互信息的方法对图象做粗配准,使得参考图象与待配准图象大致一致;第二步采用快速相关法对图象做精细配准,从而获得医学图象的最优配准.由于此种算法具有良好的扩展性,所以既可用于多模医学图象的配准,也可用于单模医学图象的配准.  相似文献   

19.
事件序列广泛出现在工业制造和信息科学的各个领域,如流水线中的操作流、字符串、用户访问网站的点击流、DNA序列、系统维护记录等。不同于数字信号处理中的时间序列,事件序列的自变量是代表顺序的有限正整数,因变量是表征事件的常量,这样的常量没有大小之分,是定性的特征。文章立足于实际应用,通过把问题转化为一个线性规划问题,建立了一种局部特征适应性好的相似性评估方法,并成功应用于某型导弹武器系统的考核评估中。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号