共查询到17条相似文献,搜索用时 93 毫秒
1.
序列相似性分析是生物信息学中一个重要问题,对于研究物种的进化起源有着重要的意义.序列相似性算法包括基于序列比对的方法及非比对方法两种.基于比对的方法对于序列整体的衡量略有欠缺;非比对算法中有DNA曲线化方法以及比较序列各自整体碱基分布间的信息量差异的方法,只是考虑了序列整体信息间的差异,但未考虑序列各个位点间的差异.因此,提出了一种基于信息熵的相似性度量模型,把序列比对与信息量差异结合起来,将两条比对后的序列间的平均交互信息量与其联合熵之比作为两条序列的相似性度量.使用该度量构建了11个物种的相似性矩阵,对各物种间的相似性进行了分析,结果在一定程度上与生物分类学相契合.通过距离矩阵所构建的进化树,也反映了各物种间的进化关系,表明该模型的设计具有合理性. 相似文献
2.
DNA序列相似性分析是生物信息学中最主要的内容之一,它的研究对于发现物种间的进化关系、判断血缘关系、治疗疾病等有着至关重要的作用。利用图形表示方式来分析DNA序列相似性时,局部差异是反映相似性的重要内容,但某些局部差异累积会导致本来十分相似的DNA序列在全局上呈现出较大的差异,从而导致误判。根据这一思想,本文提出基于SDTW算法的DNA序列相似性分析,该算法通过合理的分段既保持了局部差异的作用又在一定程度上控制了局部差异对全局差异的影响范围。文中以9个物种β-球蛋白第一个外显子的编码序列作为分析对象,将该算法与已有算法的分析结果进行比较。结果表明本文提出的算法相似性分析更加准确,分析结果的敏感性较高,有助于提高进化距离较近的分析对象间的区别度,可将其进一步应用于生物序列的信息分析。 相似文献
3.
宋杰 《计算机与应用化学》2007,24(6):729-733
用一种新的信息离散性量度法分析DNA序列的相似性。该法用DNA序列的子序列分布来描述DNA序列,从而充分考虑了DNA序列的信息。对不同的子序列长度,分析了11类不同生物的β-globin基因的第一个外显子的编码序列的相似性,结果表明,该法是分析DNA序列相似性的简单而有效的工具。 相似文献
4.
本文提出了一种基于模式匹配的多序列相似性分析方法,该方法将模式匹配应用到序列比对中,采用Kimura双参数模型计算进化矩阵并构造物种进化树,进行相似性分析。实验结果表明该方法的有效性。 相似文献
5.
DNA序列数据挖掘技术 总被引:4,自引:1,他引:4
DNA序列数据是一类重要的生物数据.研究DNA序列数据解读其含义是后基因组时代的主要研究任务.数据挖掘是目前最有效的数据分析手段之一,用于发现大量数据所隐含的各种规律,也是生物信息学采用的主要数据分析技术.将数据挖掘技术用于DNA序列数据分析,已得到了广泛关注和快速发展,并取得了许多研究成果.综述了DNA序列数据挖掘领域的研究状况和进展,提出了3个研究阶段:基于统计的挖掘方法应用阶段、一般化挖掘方法应用阶段和专门的DNA序列数据挖掘方法设计阶段.阐述了DNA序列数据挖掘的基础是序列相似性,评述了DNA序列数据挖掘领域所采用的关键技术,包括DNA序列模式、关联、聚类、分类和异常挖掘等,分析讨论了其相应的生物应用背景和意义.最后给出DNA序列数据挖掘进一步研究的热点问题,包括DNA序列数据新的存储和索引机制的设计、根据生物领域知识的数据挖掘新模型和算法的设计等. 相似文献
6.
7.
基于PFD过滤器查找DNA序列中相似性重复片段 总被引:1,自引:0,他引:1
在DNA序列中查找重复片段是基因序列分析的一个重要课题.由于重复片段的模式长度范围较大,所以仅使用编辑距离(edit distance)很难良好的衡量序列的相似性.提出了衡量重复片段相似性的新标准,新标准表达了序列间的距离与序列中相同部分的关系.考虑到计算的复杂性,基于频率向量提出了新的距离函数PFD(partition frequency distance)以及相应的过滤函数,用以产生重复片段的候选集,提高查找算法的效率.采用后继数组代替滑动窗口的方法进行序列划分,避免只可在等长的片段上查找重复片段的限制.实验结果表明,与TRF(tandem repeat finder)方法相比,基于PFD过滤函数的算法可以找到更多的满足相似性要求的重复片段. 相似文献
8.
9.
10.
数值型序列在很多应用中存在,如超市的POS销售记录和证券交易所的股票买卖数据等.在此类数据中查询与给定序列模式相似的子模式具有重要的现实意义.提出一种趋势融合的序列相似性查询算法NSS_QA,首先对所有序列进行单调区间的“融合”处理,然后根据各区间的长度比例和幅度比例产生序列模式的候选集,最后定义了一种新的相似性度量来... 相似文献
11.
传统的协同过滤算法中,依靠用户评分大小计算用户间相似度,但是评分数据稀疏性使相似度计算不够准确。针对此问题,提出了基于评分信息量的相似度计算方法;在推荐系统中项目有多种可选评分,该方法将参与评分的用户数量转换为评分信息量,以此结合用户评分大小计算相似度。实验结果表明,相对于传统协同过滤算法,该方法在一定程度上减少了评分数据稀疏性带来的负面影响,有效地提高了预测评分准确性。 相似文献
12.
为了DNA一级序列的相似度计算,本文比较了三种编码方案:单一碱基在DNA序列中的相对位置、二联码即相邻二碱基在序列中的相对位置、编序单一碱基在DNA序列中的相对位置和二联码在序列中的编序相对位置,在此基础上,运用分子连接性指数计算得到序列的不变量,进而,由塔尼莫特法计算得到物种间的相似度。由单一碱基在DNA序列中的相对位置法比较相似度,对于本研究中10个物种,得到了与生物进化树非常相一致的结果。 相似文献
13.
提出了一种新的DNA序列的3D图形表示方法,该方法能体现较多的DNA序列的特征,而且避免了信息的丢失。为了进行DNA序列之间的相似性分析,在此方法的基础上对图形进行特征提取并利用高维数据降维算法对提取后的高维数据进行降维,并降到3维,降维后的数据不但保持了原有高维数据的特征而且能很方便地观察它们之间的关系。通过对10个物种的β-球蛋白基因的第一个外显子的相似性分析,得到了较好的结果。 相似文献
14.
15.
16.
通过分析目前信息观下不完备信息系统属性约简,针对已提出的几种信息熵存在随着属性的增加系统分类能力减弱的不足,从条件属性确定的容差类在决策属性划分上的分布出发,给出不完备决策表的条件分布信息量的定义;同时,定义了新的属性重要度,并以此为启发信息设计属性约简算法。通过实验说明了该算法对不完备决策表属性约简是可行的。 相似文献
17.
基于信息相似度分类的多agent公开信息拍卖模型 总被引:1,自引:0,他引:1
针对大多数拍卖模型中的标的只有一个属性,构造一个标的兼有共同价值和私人价值两个属性的拍卖模型Riacpv,考虑在拍卖过程中公开标的信息,分别给出此模型下买家agent在第一价格密封拍卖和第二价格密封拍卖规则中的竞价策略函数。提出一个公开信息的分类算法LISC,使得买家agent在提交竞价时能准确分类当前拍卖信息,精确估计标的的共同价值。实验结果显示,与基于互信息特征选取的分类算法MI 和朴素贝叶斯算法NB相比,LISC具有较高的分类性能。 相似文献