排序方式: 共有32条查询结果,搜索用时 15 毫秒
1.
序列数据在文本、Web访问日志文件、生物数据库中普遍存在,对其进行相似性查找是一种重要的获取和分析知识的手段.基于参考集索引技术是一类解决序列相似性查找的有效方法,主要思想是找到序列数据库中的少数序列作为参考集,通过参考集过滤掉数据库中与查询序列不相关的数据,从而高效地回答查询.在现有基于参考集索引技术的基础上,提出一种过滤能力更强的序列相似性查询算法IRI(improved reference indexing).首先,充分利用了先前的查询结果集来加速当前的查询,其次考虑了基于序列特征的上界和下界,使得应用参考集进行过滤的上下界更紧,过滤能力进一步加强.最后,为了避免候选集中费时的编辑距离计算,则只计算前缀序列间的编辑距离,从而进一步加速算法运行.实验采用真实的DNA序列和蛋白质序列数据,结果表明,算法IRI在查询性能上明显优于现有的基于参考集索引方法RI(reference indexing). 相似文献
2.
3.
利用数据仓库的集成管理能力来辅助医保业务分析是当前我国医疗保障基金管理的研究热点。由于数据仓库构建过程中的每一个环节都可能发生变化,因此一个灵活的元数据管理系统是这个过程不可缺少的。基于一个医保基金风险防控平台数据仓库的构建过程,提出一套适应该平台变化需求的元数据管理解决方案,深化对医保数据仓库中数据的理解,从而完善医保基金的管理和改善数据质量。 相似文献
4.
上海医保系统基础建设实施已基本完成,全面覆盖业务领域,积累了丰富的历史数据.但由于数据规划不足,导致数据资源利用率不高,难以有效提供决策支持.数据仓库是提供决策支持的核心,因此,结合元数据管理和ETL(Extraction Transformation Loading)技术,构建了一个医保基金风险防控数据仓库,实现了医保异构数据源的有效整合,为医保基金风险管理提供了良好的数据基础.系统通过在上海医保基金风险管理中的实际应用,取得了良好效果. 相似文献
5.
6.
miRNA是一类重要的非编码小RNA分子,与癌症等疾病有密切的关系。目前研究者已经识别大量miRNA,但是多数miRNA的功能仍然未知。为此,提出一种网络表示学习的miRNA功能相似性计算方法。通过miRNA的相关数据集如目标基因和关联疾病可以有效地计算miRNA的功能相似性,从而预测疾病相关的候选miRNA。利用不同类型生物数据集构建miRNA相关多源网络,采用网络表示学习的方式为网络中的每一个miRNA节点学习一个特征向量,进而使用特征向量来衡量miRNA的相似性。实验结果表明,与DeepWalk方法相比,该方法在同一家族的miRNA中能够取得较高的得分,并且可以在已有的数据库中找到疾病候选miRNA验证记录。 相似文献
7.
分类是一种常见的数据挖掘方法,而属性值缺失是分类过程中常见的一类数据质量问题,缺失值填充可以减少属性值缺失造成的分类错误。缺失值填充首先要求准确率高,在许多实际应用当中,缺失值填充还必须保证较高的计算效率。提出了一种填充缺失属性值算法APT-KNN,APT-KNN算法利用属性与属性之间的相互关系,根据与目标最相似的几个实例属性值来估计缺失值,以保证填充结果具有更高的准确性,同时设计了一种优化的AntiPole树索引结构,提高了缺失属性值的填充效率。实验表明,APT-KNN方法与现有的几种缺失属性填充方法相比,具有更高的准确率和填充效率。 相似文献
8.
BioSeg:一个生物序列数据模型 总被引:1,自引:0,他引:1
生物序列数据的表达和存储是生物序列数据处理的关键。当前的数据库管理系统不能有效地支持生物序列数据类型和操作,人们不得不用文本数据类型或直接使用文本文件存储生物序列数据。这种状况造成了生物序列比对、模式发现等数据处理的低效率。研究了生物序列数据的特征,分析并归纳了用户对生物序列数据的查询需求,提出了一个新的生物序列数据模型BioSeg。BioSeg模型由描述部分和多维数组组成,描述部分表示生物序列注释和其他相关信息,多维数组表示具体序列(如DNA序列“ATCCCGTA”)。BioSeg模型提供了实现生物序列数据查询的代数操作。相对于生物序列数据的文本存储方式,BioSeg模型提供的数据查询具有良好的效率和灵活性。 相似文献
9.
10.
转录因子识别对于理解转录机制起着重要作用,转录因子根据DNA绑定域的结构可以分为四大类.随着数据库中新蛋白序列的快速增加,设计一个高通量、高准确率的分类器来预测新蛋白是否转录因子及其类别是非常重要的,提出了一个基于支持向量机的人类转录因子分类算法Cla_Factor. Cla_Factor使用蛋白域作为向量基来表示蛋白质序列,在此高维向量表示方法下利用支持向量机来对人类转录因子分类.通过对来自于Transfac, Swiss_Prot的数据进行交叉验证测试、推广能力测试,证明了Cla_Factor算法同其他算法相比,具有更高准确率、敏感性、特异性以及推广能力. 相似文献