首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 93 毫秒
1.
序列相似性分析是生物信息学中一个重要问题,对于研究物种的进化起源有着重要的意义.序列相似性算法包括基于序列比对的方法及非比对方法两种.基于比对的方法对于序列整体的衡量略有欠缺;非比对算法中有DNA曲线化方法以及比较序列各自整体碱基分布间的信息量差异的方法,只是考虑了序列整体信息间的差异,但未考虑序列各个位点间的差异.因此,提出了一种基于信息熵的相似性度量模型,把序列比对与信息量差异结合起来,将两条比对后的序列间的平均交互信息量与其联合熵之比作为两条序列的相似性度量.使用该度量构建了11个物种的相似性矩阵,对各物种间的相似性进行了分析,结果在一定程度上与生物分类学相契合.通过距离矩阵所构建的进化树,也反映了各物种间的进化关系,表明该模型的设计具有合理性.  相似文献   

2.
DNA序列相似性分析是生物信息学中最主要的内容之一,它的研究对于发现物种间的进化关系、判断血缘关系、治疗疾病等有着至关重要的作用。利用图形表示方式来分析DNA序列相似性时,局部差异是反映相似性的重要内容,但某些局部差异累积会导致本来十分相似的DNA序列在全局上呈现出较大的差异,从而导致误判。根据这一思想,本文提出基于SDTW算法的DNA序列相似性分析,该算法通过合理的分段既保持了局部差异的作用又在一定程度上控制了局部差异对全局差异的影响范围。文中以9个物种β-球蛋白第一个外显子的编码序列作为分析对象,将该算法与已有算法的分析结果进行比较。结果表明本文提出的算法相似性分析更加准确,分析结果的敏感性较高,有助于提高进化距离较近的分析对象间的区别度,可将其进一步应用于生物序列的信息分析。  相似文献   

3.
用一种新的信息离散性量度法分析DNA序列的相似性。该法用DNA序列的子序列分布来描述DNA序列,从而充分考虑了DNA序列的信息。对不同的子序列长度,分析了11类不同生物的β-globin基因的第一个外显子的编码序列的相似性,结果表明,该法是分析DNA序列相似性的简单而有效的工具。  相似文献   

4.
本文提出了一种基于模式匹配的多序列相似性分析方法,该方法将模式匹配应用到序列比对中,采用Kimura双参数模型计算进化矩阵并构造物种进化树,进行相似性分析。实验结果表明该方法的有效性。  相似文献   

5.
DNA序列数据挖掘技术   总被引:4,自引:1,他引:4  
朱扬勇  熊赟 《软件学报》2007,18(11):2766-2781
DNA序列数据是一类重要的生物数据.研究DNA序列数据解读其含义是后基因组时代的主要研究任务.数据挖掘是目前最有效的数据分析手段之一,用于发现大量数据所隐含的各种规律,也是生物信息学采用的主要数据分析技术.将数据挖掘技术用于DNA序列数据分析,已得到了广泛关注和快速发展,并取得了许多研究成果.综述了DNA序列数据挖掘领域的研究状况和进展,提出了3个研究阶段:基于统计的挖掘方法应用阶段、一般化挖掘方法应用阶段和专门的DNA序列数据挖掘方法设计阶段.阐述了DNA序列数据挖掘的基础是序列相似性,评述了DNA序列数据挖掘领域所采用的关键技术,包括DNA序列模式、关联、聚类、分类和异常挖掘等,分析讨论了其相应的生物应用背景和意义.最后给出DNA序列数据挖掘进一步研究的热点问题,包括DNA序列数据新的存储和索引机制的设计、根据生物领域知识的数据挖掘新模型和算法的设计等.  相似文献   

6.
林殉  李志蜀  周勇 《计算机科学》2011,38(9):245-247
时间序列序列模式相似性的度量是从时间序列中获取时序关联规则的重要环节。一般情况下,距离度量法只能度量相同长度序列模式的相似性。借用动态时间弯曲距离的思想,这种基于非线性弯曲技术的算法可以获得很高的识别、匹配精度。在定义元模式相似性的基础上,定义了序列模式的动态时间弯曲距离,最后用两个不同时间序列进行仿真实验,可以得到不同长度的序列的相似度。  相似文献   

7.
基于PFD过滤器查找DNA序列中相似性重复片段   总被引:1,自引:0,他引:1  
在DNA序列中查找重复片段是基因序列分析的一个重要课题.由于重复片段的模式长度范围较大,所以仅使用编辑距离(edit distance)很难良好的衡量序列的相似性.提出了衡量重复片段相似性的新标准,新标准表达了序列间的距离与序列中相同部分的关系.考虑到计算的复杂性,基于频率向量提出了新的距离函数PFD(partition frequency distance)以及相应的过滤函数,用以产生重复片段的候选集,提高查找算法的效率.采用后继数组代替滑动窗口的方法进行序列划分,避免只可在等长的片段上查找重复片段的限制.实验结果表明,与TRF(tandem repeat finder)方法相比,基于PFD过滤函数的算法可以找到更多的满足相似性要求的重复片段.  相似文献   

8.
骆嘉伟  刘芳  杨华 《计算机应用》2009,29(1):269-272
信息离散性度量方法在生物信息处理领域中获得成功的应用,其基本思想是利用子序列分布差异来表示序列之间的差异,但是子序列长度的变化对结果的影响较大。文中提出了一种新的基于信息离散度的DNA序列相似性分析方法,利用不同距离的碱基对的联合概率分布差异来表示DNA序列之间的差异,并分析了信息集变化对结果的影响。实验结果表明,该方法是分析DNA序列相似性的简单且有效的工具。当信息集变化时,相似度较高的序列间的距离值变化很小。  相似文献   

9.
时间序列数据挖掘的相似性度量综述   总被引:1,自引:0,他引:1  
在时间序列数据挖掘中, 时间序列相似性是一个重要的概念. 对于诸多算法而言, 能否与一种合适的相似性度量方法结合应用, 对其挖掘性能有着关键影响. 然而, 至今仍没有统一的度量相似性的方法. 对此, 首先综述了常用的相似性度量方法, 分析了各自的优点与不足; 其次, 讨论了近年来出现的时序相似性的新解释及其度量方法; 再次, 探讨了相似性度量在时序挖掘任务中的应用以及与挖掘精度的关系; 最后给出了关于时序相似性度量进一步的研究方向.  相似文献   

10.
数值型序列在很多应用中存在,如超市的POS销售记录和证券交易所的股票买卖数据等.在此类数据中查询与给定序列模式相似的子模式具有重要的现实意义.提出一种趋势融合的序列相似性查询算法NSS_QA,首先对所有序列进行单调区间的“融合”处理,然后根据各区间的长度比例和幅度比例产生序列模式的候选集,最后定义了一种新的相似性度量来...  相似文献   

11.
传统的协同过滤算法中,依靠用户评分大小计算用户间相似度,但是评分数据稀疏性使相似度计算不够准确。针对此问题,提出了基于评分信息量的相似度计算方法;在推荐系统中项目有多种可选评分,该方法将参与评分的用户数量转换为评分信息量,以此结合用户评分大小计算相似度。实验结果表明,相对于传统协同过滤算法,该方法在一定程度上减少了评分数据稀疏性带来的负面影响,有效地提高了预测评分准确性。  相似文献   

12.
为了DNA一级序列的相似度计算,本文比较了三种编码方案:单一碱基在DNA序列中的相对位置、二联码即相邻二碱基在序列中的相对位置、编序单一碱基在DNA序列中的相对位置和二联码在序列中的编序相对位置,在此基础上,运用分子连接性指数计算得到序列的不变量,进而,由塔尼莫特法计算得到物种间的相似度。由单一碱基在DNA序列中的相对位置法比较相似度,对于本研究中10个物种,得到了与生物进化树非常相一致的结果。  相似文献   

13.
提出了一种新的DNA序列的3D图形表示方法,该方法能体现较多的DNA序列的特征,而且避免了信息的丢失。为了进行DNA序列之间的相似性分析,在此方法的基础上对图形进行特征提取并利用高维数据降维算法对提取后的高维数据进行降维,并降到3维,降维后的数据不但保持了原有高维数据的特征而且能很方便地观察它们之间的关系。通过对10个物种的β-球蛋白基因的第一个外显子的相似性分析,得到了较好的结果。  相似文献   

14.
以复杂网络理论研究了面向对象软件系统质量的度量方法.以实际软件系统作为研究对象,分析了软件系统在初始化以及功能执行完全两个不同阶段下系统复杂度的变化.在此基础上,使用网络模型中节点的信息量作为评判类在软件系统中重要性的指标,用来发掘软件系统运行过程中功能上更加重要的类;最后,用软件网络的信息熵衡量软件系统的复杂度.通过研究证明了以信息量作为描述类的重要程度的合理性,进一步验证了信息熵在整个软件系统复杂程度方面的作用.  相似文献   

15.
基于子空间信息量准则的软测量模型选择研究   总被引:1,自引:0,他引:1  
提出了子空间信息量概念及其准则,并引出了函数集信息量的概念;在此基础上,阐述了基于上述概念和准则的软测量模型选择理论,指出并解决了软测量模型选择欠学习与过学习问题;给出了一种次优软测量模型选择算法。最后,通过具体实例验证了上述方法的可行性和优越性。  相似文献   

16.
通过分析目前信息观下不完备信息系统属性约简,针对已提出的几种信息熵存在随着属性的增加系统分类能力减弱的不足,从条件属性确定的容差类在决策属性划分上的分布出发,给出不完备决策表的条件分布信息量的定义;同时,定义了新的属性重要度,并以此为启发信息设计属性约简算法。通过实验说明了该算法对不完备决策表属性约简是可行的。  相似文献   

17.
基于信息相似度分类的多agent公开信息拍卖模型   总被引:1,自引:0,他引:1  
针对大多数拍卖模型中的标的只有一个属性,构造一个标的兼有共同价值和私人价值两个属性的拍卖模型Riacpv,考虑在拍卖过程中公开标的信息,分别给出此模型下买家agent在第一价格密封拍卖和第二价格密封拍卖规则中的竞价策略函数。提出一个公开信息的分类算法LISC,使得买家agent在提交竞价时能准确分类当前拍卖信息,精确估计标的的共同价值。实验结果显示,与基于互信息特征选取的分类算法MI 和朴素贝叶斯算法NB相比,LISC具有较高的分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号