首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
针对与某种特定器官组织相关的疾病,利用新基因识别、基因功能预测以及疾病基因预测等技术,提出并实现一个基于基因功能信息的疾病候选基因预测系统。将其用于心血管疾病相关基因的大规模分析与预测,结果证明,该系统可以对疾病候选区间的已知基因进行致病可能性的鉴别,发现新基因,并判定新基因与疾病的相关程度。  相似文献   

2.
袁芳  李靖 《计算机应用研究》2012,29(11):4213-4215
如何从连锁定位区域中的众多基因中有效选取疾病候选基因是疾病诊断治疗和预防的基础。基于基因功能注释信息,设计和实现了一种新的基于基因功能相似性的疾病基因预测工具DGP,分析候选基因和已知疾病基因的GO之间的相似性,对候选疾病基因进行打分排序。从OMIM数据库中提取一个包含1 045个已知疾病基因、涉及305种疾病的数据集来测试DGP的性能,其中56.7%的疾病基因在候选基因中排名前5%,68.5%的疾病基因位于前10%,结果显示DGP具有很高的准确率,能够从某个染色体区间中有效地识别出疾病基因。  相似文献   

3.
在“表型相似的疾病是由功能相关的基因引起”这一假设基础上,提出了一种利用人类蛋白质相互作用和疾病表型相似性网络进行疾病候选基因预测的新方法,同时开发了候选基因预测系统——GENEDIG,该方法通过建立回归模型,利用向量相关性分析,对诱发基因未知疾病的每一个候选基因计算得分,并根据得分结果进行排序,达到预测致病基因的目的。该方法还可进一步用于探讨多个基因在复杂疾病中的协同性。实验结果表明,该方法能有效揭示疾病与诱发基因之间的联系,为进一步的生物学验证实验提供帮助。  相似文献   

4.
比较基因或基因产物功能上的相似性是生命科学研究的一项重要内容,它在生物大分子功能预测、基因聚类、生物网络分析和疾病相关基因筛选等方面具有广泛的应用。计算基因之间的功能相似性已经成为生物信息学研究的基础性工作。基因本体GO(Gene Ontology)体系集成了多种异质数据库的信息,用结构化的自然语言术语对基因和基因产物的功能进行注释和分类,是研究基因功能相似性的有力工具。从GO术语之间相似性、基因之间功能相似性两个方面,总结和评述过去十几年里,人类利用生物信息学方法在语义水平上研究基因功能相似性的进展和取得的成果,分析基因功能相似性计算方法存在的问题和面临的挑战,指出基于GO体系的基因功能相似性度量方法今后的主要研究方向。  相似文献   

5.
基因在生命科学领域的研究中占据着重要地位,而致病基因则是关键重心之一。对致病基因的精准识别可以揭示疾病在分子层面的发病机制,为疾病的预防、诊断及治疗等多个阶段提供强力支撑。准确识别致病基因的关键在于给出基因之间的相似性度量。文中利用复杂网络对生物系统进行建模,并提出了一种带有耗散机制的多源头重启随机游走模型DRWMR来度量基因之间的功能相似程度。首先基于NCBI等生物数据库构建人类基因相互作用网络,并在KEGG的疾病-基因关联数据集上开展实验对已知致病基因进行识别。与SP,RWR和PRINCE 3种现有模型进行对比,DRWMR准确预测了581种疾病中的156种,而其余模型平均正确预测了121.3种,DRWMR的平均预测分数相比其余模型的预测分数均值高出9.46%。最后使用所提模型预测哮喘、血友病和PEHO综合征的潜在致病基因,预测结果均在文献或数据库中找到了理论或实验支持。  相似文献   

6.
鉴别复杂疾病致病基因对于治疗和预防疾病作用非常重要,致病基因预测软件是鉴别致病基因的有效工具。位于染色体10p12的基因GAD2是尚有争议的肥胖基因,许多研究者用实验方法研究基因GAD2,却得出了不一致的结论。基于生物计算的致病基因预测软件能弥补实验的不足,已成为揭示疾病发病机理和预测致病基因的有效途径,本文采用ENDEAVOUR软件来验证基因GAD2是否为肥胖症致病基因,该软件运用多种生物数据,根据每一个候选基因与已知致病基因的相似程度以排序,结果在35个候选基因中,基因GAD2排在最前面,表明基因GAD2最可能是肥胖症致病基因。预测结果有利于重新解释基因GAD2的生物功能,促使肥胖症药物的研制及治疗水平的提高。  相似文献   

7.
阮璐  熊赟 《计算机工程》2019,45(2):154-159
miRNA是一类重要的非编码小RNA分子,与癌症等疾病有密切的关系。目前研究者已经识别大量miRNA,但是多数miRNA的功能仍然未知。为此,提出一种网络表示学习的miRNA功能相似性计算方法。通过miRNA的相关数据集如目标基因和关联疾病可以有效地计算miRNA的功能相似性,从而预测疾病相关的候选miRNA。利用不同类型生物数据集构建miRNA相关多源网络,采用网络表示学习的方式为网络中的每一个miRNA节点学习一个特征向量,进而使用特征向量来衡量miRNA的相似性。实验结果表明,与DeepWalk方法相比,该方法在同一家族的miRNA中能够取得较高的得分,并且可以在已有的数据库中找到疾病候选miRNA验证记录。  相似文献   

8.
单一生物数据网络提供的特征信息是十分受限的,针对这一问题,提出了一种基于半监督自编码器的多网络特征融合方法,丰富特征信息。此外,为解决在人为设置模型的超参数时,易出现模型性能较低、陷入局部最优等问题,进一步提出了利用遗传算法优化支持向量机(GA-SVM算法)模型的方法,提高脑部疾病基因的预测性能。构建来自不同数据源的相似性数据网络,利用重启随机游走算法从四个数据网络中提取特征,通过半监督自编码器进行处理及融合,在十折交叉验证的策略下使用GA-SVM算法模型预测脑部疾病基因,并与其他算法进行比较。实验结果表明,在PD数据集上的AUC和AUPR值分别为0.805、0.792,而在MDD数据集上的AUC和AUPR值分别为0.825、0.823,均优于已有的预测模型,有效证明了该方法能够提高脑部疾病基因的预测效果。  相似文献   

9.
刘丹  赵森  颜志良  赵静  王会青 《计算机科学》2021,48(10):114-120
作为一类小的非编码RNA,miRNA的异常调控与人类疾病的发生和发展密切相关,研究miRNA与疾病的关联对于了解人类疾病致病机制具有重要意义.机器学习方法被广泛应用于miRNA-疾病关联预测,然而现有方法仅仅考虑了miRNA与疾病相似性网络信息,忽略了相似性网络的拓扑结构.因此,文中提出基于堆叠自动编码器的miRNA-疾病关联预测模型SAEMDA,该模型采用重启随机游走获取miRNA与疾病相似性网络的拓扑结构特征,用堆叠自动编码器提取miRNA与疾病的抽象低维特征,将得到的低维特征输入深度神经网络进行miRNA-疾病关联预测.SAEMDA模型在5折交叉验证中取得了较好的结果,并在结肠癌和肺癌两个案例中进行了验证.在结肠癌的案例中,此模型预测的前50个miRNA-疾病关联中的45个miRNA在数据库中得到了验证;在肺癌的案例中,排名前50的miRNA均在数据库中得到了验证.  相似文献   

10.
概率决策树在生物信息数据库中的一个应用   总被引:1,自引:0,他引:1  
GO(GeneOntology)是个标准化的生物信息本体库,被广泛地用来注释基因数据库,然而由于GO结构设计上的缺陷以及目前对基因数据库注释方法多采用手工方式,再加上基因的许多特性尚未发现,使得这种注释还不完全。该文尝试用概率决策树的方法来学习得到基因和GO本体的内在联系,进而预测基因的本体注释情况,也就是预测基因的未知特性,这样就可以引导基因数据库管理员去完善,修正基因数据库的本体注释,并指导生物学家有针对性地设计试验。作为一个应用,用MGI基因数据数据库做试验,分析表明用该方法得到的预测结果准确性比较高。  相似文献   

11.
一种衡量基因语义相似度的新方法*   总被引:1,自引:1,他引:0  
利用GO (Gene Ontoloty) 来衡量基因之间的相似度是近年来研究的热点。传统的方法在准确性上有一定的弊端,本文提出了一种新的方法来衡量基因之间的语义相似度。该方法的主要原则是同时依赖于GO拓扑结构图中基因注释项之间的路径长度和基因注释项的公共祖先节点在GO拓扑结构图中的深度。本文用人工数据和取自酵母基因数据库的基因数据进行了实验,结果表明本文的方法比传统方法更有效。  相似文献   

12.
图像语义自动标注问题是现阶段一个具有挑战性的难题。在跨媒体相关模型基础上,提出了融合图像类别信息的图像语义标注新方法,并利用关联规则挖掘算法改善标注结果。首先对图像进行低层特征提取,用“视觉词袋”描述图像;然后对图像特征分别进行K-means聚类和基于支持向量机的多类别分类,得到图像相似性关系和类别信息;计算语义标签和图像之间的概率关系,并将图像类别信息作为权重融合到标签的统计概率中,得到候选标注词集;最后以候选标注词概率为依据,利用改善的关联规则挖掘算法挖掘文本关联度,并对候选标注词集进行等频离散化处理,从而得到最终标注结果。在图像集Corel上进行的标注实验取得了较为理想的标注结果。  相似文献   

13.
Microarrays have reformed biotechnological research in the past decade. Deciphering the hidden patterns in gene expression data proffers a prodigious preference to strengthen the understanding of functional genomics. The complexity of biological networks with larger volume of genes also increases the challenges of comprehending and interpretation of the resulting mass of data. Clustering addresses these challenges, which is essential in the data mining process to reveal natural structures and identify interesting patterns in the underlying data. The clustering of gene expression data has been proven to be useful in making known the natural structure inherent in gene expression data, understanding gene functions, cellular processes, and molecular functions. Clustering techniques are used to examine gene expression data to extract groups of genes from the tested samples based on a similarity criterion. Subspace clustering broadens the traditional clustering by extracting the groups of genes that are highly correlated in different subspace within the dataset. Mining the temporal patterns in high dimensional data is done with computational effort and thus normalization is needed. In this work, normalization using fuzzy logic is applied to the data before clustering. The multi-objective cuckoo search optimization is implemented to extract co-expressed genes over different subspaces. The proposed methods are applied to the real life temporal gene expression datasets in which it extracts the genes that are responsible for the disease grouped in a same cluster. The experiment results prove that the impact of fuzzy normalization on the dataset improves the clustering.  相似文献   

14.
结直肠癌是消化系统常见的恶性肿瘤之一,死亡率居发达国家恶性肿瘤死亡率的第3位。本文通过生物分析进行结直肠癌致病基因的识别。首先,基于GEO中GSE9348基因表达数据集,利用R语言的LIMMA包筛选出P<0.05,Fold change>2的结直肠癌差异基因339个;其次,基于OMIM数据库中已知结直肠癌的致病基因和STRING数据库,获得差异表达基因与致病基因的蛋白质互作网络;接着利用Cytoscape软件的ClusterONE插件进行蛋白质互作网络模块分析,获得一个含有53个基因的子网络;最后,通过对子网络的拓扑分析,获得了FOS、CCND1、CEBPB、EGR1和NOS3等5个新结直肠癌致病基因。同时,通过功能富集分析和文献挖掘对新发现的致病基因进行验证。  相似文献   

15.
研究基本局部比对搜索工具(BLAST)在陆地植物系统发育平台中的应用。数据清洗方面结合基于基因注释的数据抽提与基于BLAST的相似性比对抽提,提取过滤相关的序列信息,控制序列质量,并剔除原始基因注释错误的序列。自测序列质量控制方面结合基于blastn的打分比对和基于blastp的模板比对,报告序列整体质量,控制污染序列和假基因的入库。  相似文献   

16.
DNA microarray technology, a high throughput technology evaluates the expression of thousands of genes simultaneously under different experimental conditions. Analysis of the gene expression data reveals that not all but few important genes are responsible for the diseases. However, the DNA microarray data set usually contain multiple missing value and therefore, selection of important genes using the incomplete data set may be erroneous, resulting misclassification in disease prediction. In the paper we propose an integrated framework, which first imputes the missing value and then in order to achieve maximum accuracy in classifying the patients a classifier has been designed to select the genes using the complete microarray data set.Here functionally similar genes are employed to estimate the missing value unlike the existing gene expression value based distance similarity measure. However, the functionally similar genes may differ in their protein production capacity and so the degree of similarity between the genes varies from gene to gene. The problem has been dealt by proposing a novel method to impute the missing value using the concept of fuzzy similarity. After imputing the missing value, the continuous gene expression matrix is discretized using fuzzy sets to distinguish the activation levels of different genes. The proposed fuzzy importance factor (FIf) of each gene represents its activation level or protein production capacity both in the disease and normal class. The importance of each gene is evaluated while optimizing the number of rules in the fuzzy classifier depending on the FIf. The methodology we propose has been demonstrated using nine different cancer data sets and compared with the state of the art methods. Analysis of experimental results reveals that the proposed framework able to classify the diseased and normal patients with improved accuracy.  相似文献   

17.
The goal of image annotation is to automatically assign a set of textual labels to an image to describe the visual contents thereof. Recently, with the rapid increase in the number of web images, nearest neighbor (NN) based methods have become more attractive and have shown exciting results for image annotation. One of the key challenges of these methods is to define an appropriate similarity measure between images for neighbor selection. Several distance metric learning (DML) algorithms derived from traditional image classification problems have been applied to annotation tasks. However, a fundamental limitation of applying DML to image annotation is that it learns a single global distance metric over the entire image collection and measures the distance between image pairs in the image-level. For multi-label annotation problems, it may be more reasonable to measure similarity of image pairs in the label-level. In this paper, we develop a novel label prediction scheme utilizing multiple label-specific local metrics for label-level similarity measure, and propose two different local metric learning methods in a multi-task learning (MTL) framework. Extensive experimental results on two challenging annotation datasets demonstrate that 1) utilizing multiple local distance metrics to learn label-level distances is superior to using a single global metric in label prediction, and 2) the proposed methods using the MTL framework to learn multiple local metrics simultaneously can model the commonalities of labels, thereby facilitating label prediction results to achieve state-of-the-art annotation performance.  相似文献   

18.
Co-regulation is a common phenomenon in gene expression. Finding positively and negatively co-regulated gene clusters from gene expression data is a real need. Existing techniques based on global similarity are unable to detect true up- and down-regulated gene clusters. This paper presents an expression pattern based biclustering technique, CoBi, for grouping both positively and negatively regulated genes from microarray expression data. Regulation pattern and similarity in degree of fluctuation are accounted for while computing similarity between two genes. Unlike traditional biclustering techniques, which use greedy iterative approaches, it uses a BiClust tree that needs single pass over the entire dataset to find a set of biologically relevant biclusters. Biclusters determined from different gene expression datasets by the technique show highly enriched functional categories.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号