期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

傅广垣余国先王峻郭茂祖《计算机研究与发展》2016,53(8):1753-1765

蛋白质功能预测是后基因组时代生物信息学的核心问题之一.蛋白质功能标记数据库通常仅提供蛋白质具有某个功能(正样例)的信息,极少提供蛋白质不具有某个功能(负样例)的信息.当前的蛋白质功能预测方法通常仅利用蛋白质正样例,极少关注量少但富含信息的蛋白质负样例.为此,提出一种基于正负样例的蛋白质功能预测方法(protein function prediction using positive and negative examples, ProPN).ProPN首先通过构造一个有向符号混合图描述已知的蛋白质与功能标记的正负关联信息、蛋白质之间的互作信息和功能标记间的关联关系,再通过符号混合图上的标签传播算法预测蛋白质功能.在酵母菌、老鼠和人类蛋白质数据集上的实验表明,ProPN不仅在预测已知部分功能标记蛋白质的负样例任务上优于现有算法,在预测功能标记完全未知蛋白质的功能任务上也获得了较其他相关方法更高的精度. 相似文献

2.

一种基于图的特征选择方法

下载免费PDF全文

张齐林媛媛余国先《计算机工程与应用》2011,47(26):186-188

在很多的机器学习和数据挖掘任务中,特征子集选择是重要的数据预处理步骤之一。提出一种基于图方法的无监督式特征选择方法（GBFS）,构造一个以样本数据为顶点,数据间相似性作为边的图,再根据各特征的得分优先选择那些具有局部信息保持和全局区分能力的特征。实验结果表明,基于该方法选择的特征子集,在大多数情况下都能取得较好的分类效果。相似文献

3.

一种基于谱理论的并行特征选择算法

杨亲瑶余国先吕乐《计算机应用与软件》2010,27(11)

基于谱理论的特征选择算法FSST优先选择最具有局部信息保持能力和全局区分能力的特征.在实验分析该算法的基础上,采用分治策略对该算法最耗时的部分(规范化数据,构造Laplacian图和计算特征得分)进行并行化,从而提出一种基于谱理论的并行特征选择算法PFSST(Parallel Feature Selection with Spectral Theory),在多核系统上的实验证明了PFSST的并行有效性. 相似文献

4.

基于多网络数据协同矩阵分解预测蛋白质功能

余国先王可尧傅广垣王峻曾安《计算机研究与发展》2017,54(12):2660-2673

准确预测蛋白质功能是生物信息学的核心任务之一,也是人工智能在生物数据分析中的重要应用点之一.高通量技术的广泛应用产生了大量的生物分子功能关联网络,整合这些网络可更为全面地分析理解蛋白质功能机理,提升蛋白质功能预测精度.已有多种基于数据整合的蛋白质功能预测方法,但它们通常难以应用到较大功能标签空间,未利用标签间关联性和差异性整合多个网络.提出一种基于多网络数据协同矩阵分解的蛋白质功能预测方法(ProCMF).该方法首先利用非负矩阵分解将蛋白质-功能标签关联矩阵分解为2个低秩矩阵,挖掘蛋白质与标签之间的潜在关联.其次,为利用标签间关联关系和多种蛋白质特征数据,ProCMF分别基于上述2个低秩矩阵定义平滑正则性,约束指导低秩矩阵的协同分解.为了差异性地集成多个网络,ProCMF对不同的网络设置不同的权重.最后ProCMF将上述目标统一到一个目标方程中,并用一种交替迭代的方法分别优化求解低秩矩阵和网络权重.在酵母菌、人类和老鼠3个模式物种的多网络数据集上的实验结果表明：ProCMF获得了较其他相关算法更好的预测性能,ProCMF能有效地处理大量的功能标签和区分性地整合多个网络. 相似文献

5.

基于标记与特征依赖最大化的弱标记集成分类

谭桥宇余国先王峻郭茂祖《软件学报》2017,28(11):2851-2864

弱标记学习是多标记学习的一个重要分支,近几年已被广泛研究并被应用于多标记样本的缺失标记补全和预测等问题.然而,针对特征集合较大、更容易拥有多个语义标记和出现标记缺失的高维数据问题,现有弱标记学习方法普遍易受这类数据包含的噪声和冗余特征的干扰.为了对高维多标记数据进行准确的分类,提出了一种基于标记与特征依赖最大化的弱标记集成分类方法EnWL.EnWL首先在高维数据的特征空间多次利用近邻传播聚类方法,每次选择聚类中心构成具有代表性的特征子集,降低噪声和冗余特征的干扰;再在每个特征子集上训练一个基于标记与特征依赖最大化的半监督多标记分类器;最后,通过投票集成这些分类器实现多标记分类.在多种高维数据集上的实验结果表明,EnWL在多种评价度量上的预测性能均优于已有相关方法. 相似文献

6.

一种基于多图的集成直推分类方法 总被引：1，自引：0，他引：1

余国先张国基韦佳任亚洲《电子与信息学报》2011,33(8):1883-1888

基于图的直推分类器依赖于图结构。高维数据通常具有冗余和噪声特征,在其上构造的图不能充分反映数据的分布信息,分类器性能因此下降。为此,该文提出一种多图构建方法并把它应用到直推分类中。该方法首先生成多个随机子空间并在每个子空间上进行半监督判别分析,其次在每个判别子空间上构造图并训练一个直推分类器,最后投票融合这些分类器为一个集成分类器。实验结果表明,对比其它直推分类器,该文的集成分类器具有分类正确率高、对参数鲁棒等特点。相似文献

7.

基于网络约束双聚类的癌症亚型分类

王星王峻余国先郭茂祖《计算机学报》2019,42(6)

相似文献

8.

一种增强的局部保持投影方法

下载免费PDF全文

马千驰余国先钟鸿鹏《计算机工程与应用》2010,46(10):119-121

维数灾难是机器学习算法在高维数据上学习经常遇到的难题,基于局部保持的投影方法（Locality Preserving Projection,LPP）,可以很好地解决维数灾难难题。然而传统LPP的相似性度量方法对噪音敏感,为此利用鲁棒路径相似的度量方法,提出一种增强的局部保持投影方法。在高维流形数据上的降维实验证实了该方法对噪声和离群点的有效性。相似文献

9.

基于集成图的保局投影算法

胡强余国先《计算机工程与设计》2010,31(20)

为了克服保局投影方法(locality preserving projection,LPP)对噪音敏感,有效性依赖于近邻图构造等缺点,提出一种基于集成图的保局投影方法(graphs ensemble based LPP,GELPP).该方法先根据鲁棒统计原理定义出对噪声鲁棒的样本间相似性度量,再以该度量为基础构造多个近似的最大生成树;然后利用集成学习泛化能力强的优点来组合多个树为一个集成图;最后通过替换LPP的近邻图和相似性度量来进行保局投影.在高维人脸图像上的降维实验结果表明,该方法对噪声鲁棒,以及在集成图上降维的有效性. 相似文献

10.

基于单细胞数据的癌症协同驱动模块识别方法

陈希王峻余国先崔立真郭茂祖《中国科学:信息科学》2023,(2):250-265

从大规模生物组学数据中准确识别导致癌症发生的协同驱动模块是生物信息学研究领域重大课题之一.现有研究方法通常只基于批量组学数据进行识别,忽视了细胞水平上的癌症异质性,易受噪声影响.针对上述问题,本文提出了一种基于单细胞数据和先验知识指导的协同驱动模块识别方法CDMFinder.该方法首先利用基因在不同亚型及正常细胞表达数据间存在的特异性共表达信息,融合基因交互网络,优化形成分子功能关联网络,在深入挖掘基因间功能关联的同时有效降低网络复杂度;再基于重叠马尔可夫(Markov)聚类从该网络中挖掘功能簇,并提出基于融合权重和贪心策略的驱动模块识别方法,从功能簇中获得驱动模块集合;最后,融合功能交互网络与突变共现定义模块距离函数,识别获取协同驱动模块. CDMFinder充分融合评估了表达、突变、差异分析等多种因素,展现了优良的识别性能.在乳腺癌和胶质母细胞瘤多组学数据上的实验结果表明,本文方法能够识别出超过对比方法 1.35倍的驱动基因,识别到的协同驱动模块在功能/通路水平富集度上超过现有算法1.5倍. 相似文献