首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
近年来,基于机器学习的microRNA与复杂疾病之间的关系预测受到广泛关注。然而现存的方法大多是围绕microRNA表达谱,相似性网络,序列特征等角度开发的,忽略了转录调控信息的重要性。基于此提出了一种新的基于microRNA上下游转录调控特征数据的机器学习算法(RPDZ)去预测癌症相关microRNA的重要性。此方法首先通过手动搜索和批量处理高通量数据,计算和整合microRNA上下游的特征数据,然后利用随机森林进行有效的特征提取,最后利用深度神经网络更好地捕捉疾病与microRNA的关系,更好地预测microRNA的重要性得分。使用ROC曲线下方的面积(AUC)、F-measure值和准确度(ACC)作为评估预测性能的指标。通过五折交叉验证的实验表明所提出的算法(ACC:0.874 8,AUC:0.93,F-measure:0.870 1)相比其他三种对比方法PESM、SVM、GaussianNB可得到更好的分类识别效果。算法不仅可以有效地整合多组学特征数据识别关键的miRNA,还可以为精确和自动化的计算机辅助诊断奠定基础。  相似文献   

2.
传统的克隆方法受组织和环境影响显著,且实验成本高,而计算方法中的比较方法对进化距离远的microRNA敏感性低,无法预测无同源的microRNA,机器学习方法解决了比较方法依赖同源基因的问题。首先总结了基于机器学习预测microRNA的相关生物学知识;其次,给出基于机器学习的microRNA预测方法的大体流程,列举了基于机器学习的microRNA预测方法的最新研究算法及软件;再次,从数据集选取、特征集选取、分类器设计、特征子集选择、类不平衡问题解决和评价标准等环节出发,归纳总结了各环节中采用的方法及技术,并详细阐述了它们的最新研究进展,部分环节对采用的方法及技术进行了对比分析,总结了各自的优势和不足;最后,总结和展望了基于机器学习的microRNA预测方法的研究工作。  相似文献   

3.
本文将影像组学的方法和机器学习算法结合起来,对脑部胶质瘤进行分级预测。利用BraTS2019公开数据集,从多模态MRI图像中分别提取肿瘤的448维影像组学特征:肿瘤形态学特征、一阶灰度特征、纹理特征等;然后通过最小绝对收缩和选择算子(Lasso)算法筛选出15个最佳的影像组学特征;最后根据筛选出的最佳特征集,利用随机森林分类算法构建脑部胶质瘤的分级预测模型。基于机器学习建立的模型在训练组患者中预测胶质瘤级别的准确率达到95.6%,ROC曲线下面积(AUC)达到0.99;在验证组患者中预测胶质瘤级别的准确率达到89.3%,AUC达到0.96。可见,基于机器学习算法,利用影像组学的方法可以对脑部肿瘤的高低级别进行准确的预测和分类。  相似文献   

4.
软件缺陷预测是软件质量保障领域的热点研究课题,缺陷预测模型的质量与训练数据有密切关系。用于缺陷预测的数据集主要存在数据特征的选择和数据类不平衡问题。针对数据特征选择问题,采用软件开发常用的过程特征和新提出的扩展过程特征,然后采用基于聚类分析的特征选择算法进行特征选择;针对数据类不平衡问题,提出改进的Borderline-SMOTE过采样方法,使得训练数据集的正负样本数量相对平衡且合成样本的特征更符合实际样本特征。采用bugzilla、jUnit等项目的开源数据集进行实验,结果表明:所采用的特征选择算法在保证模型F-measure值的同时,可以降低57.94%的模型训练时间;使用改进的Borderline-SMOTE方法处理样本得到的缺陷预测模型在Precision、Recall、F-measure、AUC指标上比原始方法得到的模型平均分别提高了2.36个百分点、1.8个百分点、2.13个百分点、2.36个百分点;引入了扩展过程特征得到的缺陷预测模型比未引入扩展过程特征得到的模型在F-measure值上平均提高了3.79%;与文献中的方法得到的模型相比,所提方法得到的模型在F-measure值上平均提高了15.79%。实验结果证明所提方法能有效提升缺陷预测模型的质量。  相似文献   

5.
MicroRNAa(miRNAs)是一种大小约21-23个碱基的单链RNA小分子,对多种生物学过程起调控作用,它们主要参与基因转录后水平的调控,能有效地抑制相关蛋白质的合成,与生物体的生长发育和某些疾病的发生密切相关.对mi-croRNAa(miRNAs)的研究正在不断增加,计算识别为分子生物学实验寻找新microRNA提供一组高质量的候选序列.文中从模式识别的角度审视现有的计算识别技术,分析和比较各种方法的特点后发现基于支持向量机的识别方法已经能在识别精度上得到很好的效果,这也是microRNA识别技术将来发展的主要方向.  相似文献   

6.
软件缺陷预测是软件质量保障领域的热点研究课题,缺陷预测模型的质量与训练数据有密切关系。用于缺陷预测的数据集主要存在数据特征的选择和数据类不平衡问题。针对数据特征选择问题,采用软件开发常用的过程特征和新提出的扩展过程特征,然后采用基于聚类分析的特征选择算法进行特征选择;针对数据类不平衡问题,提出改进的Borderline-SMOTE过采样方法,使得训练数据集的正负样本数量相对平衡且合成样本的特征更符合实际样本特征。采用bugzilla、jUnit等项目的开源数据集进行实验,结果表明:所采用的特征选择算法在保证模型F-measure值的同时,可以降低57.94%的模型训练时间;使用改进的Borderline-SMOTE方法处理样本得到的缺陷预测模型在Precision、Recall、F-measure、AUC指标上比原始方法得到的模型平均分别提高了2.36个百分点、1.8个百分点、2.13个百分点、2.36个百分点;引入了扩展过程特征得到的缺陷预测模型比未引入扩展过程特征得到的模型在F-measure值上平均提高了3.79%;与文献中的方法得到的模型相比,所提方法得到的模型在F-measure值上平均提高了15.79%。实验结果证明所提方法能有效提升缺陷预测模型的质量。  相似文献   

7.
提出一种基于概率校正和集成学习的机器学习模型,用来预测患者肠癌肝转移的概率。首先将AdaBoost和Class-bal-anced SVM的概率结果进行校正,再将其结果和Logistic回归的预测结果进行集成,获得最终的预测结果。预测模型在复旦大学附属肿瘤医院的肠癌患者数据集上与其他算法如AdaBoost、Class-balanced SVM、Logistic回归算法进行了比较,结果显示该模型具有更好的AUC性能,更适合于医生的临床辅助诊断。模型的AUC性能在UCI数据集上进一步得到了验证。  相似文献   

8.
为了保证电网一次设备缺陷预测准确性,提升平均F-measure值和AUC值,提出基于数据挖掘与相关性分析的电网一次设备缺陷预测方法。以数据挖掘技术为基础,采集并清洗现存的电网一次设备缺陷数据,建立缺陷数据库;采用X-11算法,结合皮尔逊相关系数,分析电网缺陷设备数据间的相关性,使得所有分组的复合相关性均小于阈值;采用最小二乘法计算多组历史电网一次设备缺陷数据,实现设备风险评估指标的多元线性回归,完成电网一次设备缺陷预测。实例测试结果表明,其平均F-measure值提升了0.07左右,AUC值分别提升了0.07、0.11,保证缺陷预测方法的准确性和实际应用效果。  相似文献   

9.
人脸检测是生物特征识别技术中一个关键技术。针对人脸检测中正负样本类别不平衡的特性,提出基于BalanceCascade不平衡分类算法的人脸检测系统。系统通过控制分类器的误报率使得每层正负样本的规模相当,然后加权所有弱分类器构建最终的强分类器,消除训练正负样本不平衡的特点。在ORL人脸数据集上进行实验,采用F-measure和AUC作为评判标准,相比于传统的AdaBoost和UnderSamping不平衡分类算法,实验结果表明BalanceCascade算法优于传统的不平衡分类算法。  相似文献   

10.
航空发动机作为一种极其精密的设备,其内部传感器的运行状态决定了发动机能否稳定运行。因此,利用传感器的运行数据进行故障预测是维护发动机健康运行的关键。针对现阶段发动机故障预测精确度低的问题,提出了一种基于随机森林和时间卷积网络的混合模型。该模型利用随机森林算法进行重要性特征提取,然后添加滚动平均值和滚动标准差以增强数据特征,最后整合数据特征输入至时间卷积网络进行故障预测。采用C-MAPSS数据集进行验证,结果表明,该模型的故障预测性能相比于其他机器学习模型有较大幅度的提升。  相似文献   

11.
贷款风险分析是全球金融机构面临的共同考验.在大数据背景下,通过机器学习算法预防贷款风险具有现实意义.针对贷款数据不平衡、噪声大等特点,本文采用Boruta特征选择算法对贷款数据进行重要性筛选;提出通过综合学习粒子群算法(Comprehensive Learning Particle Swarm Optimization,CLPSO)优化CatBoost集成学习算法(CLPSO-CatBoost)的贷款风险预测方法,该算法改善了全局搜索能力、避免了陷入容易陷入局部最优的问题.CLPSO-CatBoost相较于传统信用评估模型具有更好的准确性,有实际应用价值.  相似文献   

12.
魏彩锋    孙永聪    曾宪华   《智能系统学报》2019,14(2):369-377
针对字典对学习(DPL)方法只考虑了同类子字典的重构误差和不同类表示系数的稀疏性,没有考虑图像间的几何近邻拓扑关系的问题。通过近邻保持使得在同类近邻投影系数之间的距离较小,而不同类投影系数之间的距离大,能够有效提高字典对学习算法的分类性能,基于此提出了基于几何近邻拓扑关系的图正则化的字典对学习(GDPL)算法。在ADNI1数据集上对轻度认知功能障碍预测的实验表明,使用GDPL算法学习的编码系数作为特征预测的准确率(ACC)和ROC曲线下的面积(AUC)比使用结合生物标志作为特征预测的准确率提高了2%~6%,使用GDPL算法比DPL算法的实验结果也有提高。  相似文献   

13.
现有的过滤式特征选择算法忽略了特征之间的关联性。鉴于此,提出了一种新的过滤式特征选择算法——基于持续同调的特征选择算法(Rel-Betti算法),该算法能够识别特征之间的关联性以及组合效果。通过提出相关贝蒂数概念,筛选出数据集中重要的拓扑特征信息。该算法对数据集进行预处理后,根据类标签将数据集分类,计算不同类中的相关贝蒂数,获得数据信息的特征均值,按特征均值差值大小对特征进行重要性排序。利用UCI数据集中的8个数据,将该算法与其他常见算法在决策树、随机森林、K近邻和支持向量机这4种学习模型下进行比较实验。结果表明,该算法是一种有效的特征选择算法,其能够提高分类的准确率和F1值,并且不依赖于特定的机器学习模型。  相似文献   

14.
本文研究基于机器学习的突发事件微博谣言识别方面所取得的成果。对谣言识别技术研究现状、谣言识别算法及相关技术、基于机器学习的微博谣言识别技术进行总结分析。采用深度学习方法已能将微博谣言识别的准确率、召回率、F1值等模型评价标准值提高到0.8以上,从谣言数据的基础特征扩展到传播特征、时间跨度特征甚至时情感特征等影响识别精度的因素特征。机器学习算法已发展日趋成熟,未来若能实现算法的自学习,自动完成特定时间节点的提取分类,实现对谣言快速有效地识别,将成为谣言识别方面的重大突破成果。  相似文献   

15.
本文构建了一个基于FPGA的实时手势识别平台,并在该平台上实现了一种基于表面肌电(sEMG)信号和加速度(ACC)信号的手势识别算法。具体实现过程中,无线sEMG传感器和无线三轴ACC传感器穿戴于两手前臂实时获取sEMG信号和ACC信号,并以无线方式发送到数据处理模块。数据处理模块充分利用FPGA的并行处理优势,融合ACC和sEMG信息特征,实现了单双手手势的实时识别。经测试,本文所用的手势识别算法移植到FPGA中以后,识别速度明显提高,16个中国手语手势动作达到了95%以上的识别率。  相似文献   

16.
转录因子结合位点的识别对于理解转录调控机制起着重要作用,也是后基因组时代面临的巨大挑战之一。提出一个基于多任务学习的转录因子位点的识别方法。首先建立一个基于多任务学习理论的多数据域描述模型,然后结合核方法设计转录因子结合位点多分类识别算法。最后对取自于TRANSFAC数据库的真实数据进行交叉验证测试。实验结果表明该方法能充分地利用稀缺的训练样本,有效地捕获不同类别间的联系,从而获得了较高的预测准确率。  相似文献   

17.
借助计算机技术,使用年龄、性别等基本特征预测心脏病的易感性,对心脏病的早期预测和防治具有重要意义。针对基于机器学习的心脏病预测模型准确率不高的问题,提出一种基于卷积神经网络(CNN)和Adaboost的心脏病预测模型CNN-Adaboost。首先,对原始数据进行预处理,结合特征相关性与特征组合算法融合两两属性特征,并升维数据,使各属性特征充分融合;然后,通过CNN进行充分的特征提取;最后,结合Adaboost机器学习算法建立心脏病预测模型。UCI数据集上的测试结果表明,CNN-Adaboost预测模型优于K近邻(KNN)等传统机器学习模型和K近邻-随机森林(KNN-RF)等优化模型,准确率、AUC、查准率和查全率可达到0.917、0.95、0.924与0.85。CNN-Adaboost模型具有良好的分类效果,能为医患人员进行心脏病预测与预防提供帮助。  相似文献   

18.
机器学习和深度学习技术可用于解决医学分类预测中的许多问题,其中一些分类算法的预测精度较高,而另一些算法的精度有限。提出了基于C-AdaBoost模型的集成学习算法,对乳腺癌疾病进行预测,发现了判断乳腺癌是否复发、乳腺癌肿瘤是否为良性的最优特征组合。通过逐步回归方法对现有特征进行二次选取,并结合C-AdaBoost模型使得预测效果更优。大量实验表明,基于C-AdaBoost模型的算法的预测准确率比SVM、Naive Bayes、RandomForest以及传统的集成学习模型等机器学习分类器的准确率最多可提高19.5%,从而可以更好地帮助医生进行临床决策。  相似文献   

19.
郭梦洁  熊贇 《计算机工程》2021,47(6):299-304
分析疾病与基因、miRNA等生物实体之间的关联是生物研究领域的重要目标,然而利用海量的数据进行生物学实验成本过高。提出一种基于网络表示学习的关联预测算法,通过多源数据集构建生物异质网络,并给出基于生成式对抗网络的异质网络表示学习算法学习鲁棒的向量表示,算法中的判别器和生成器考虑网络中的关系来捕获丰富的异质语义信息,并通过对抗学习进行训练,在此基础上通过衡量实体向量的相似性预测疾病和基因、miRNA之间的关联。实验结果表明,与HSSVM、GAN等算法相比,该算法在两个关联预测任务上均取得了最高的AUC值,具有更好的预测结果,并且通过引入更多异质数据进行训练,有效提升了算法性能。  相似文献   

20.
蛋白质复合物是细胞结构和生化机制的研究基础,如何准确识别蛋白质复合物成为近年来的研究热点。针对传统算法根据结构信息对蛋白质复合物进行搜索存在敏感度和F-measure低的问题,以及现有监督学习算法根据人为构造特征进行蛋白质复合物识别存在特征构造不能较好地反映图的真实信息等不足,提出了graph2vec-SVM识别算法。将蛋白质复合物看作稠密子图并考虑子图模块度大小,利用graph2vec将图信息转换为向量,并进一步采用SVM分类器对蛋白质复合物进行识别,提高了蛋白质复合物识别的敏感度和F-measure。该算法分别与目前流行的4种非监督学习算法(ClusterOne、CMC、HC-PIN和COACH)和3种监督学习算法(SCI-BN、SCI-SVM和RM)进行比较,在精准度、敏感度和F-measure 3项指标上都显示出了良好的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号