首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
链接预测属于复杂网络分析的研究分支,它根据网络历史结构信息预测未来节点间会产生链接的可能性,从而挖掘网络的传播和演化方式。通过引入差分化节点的贡献权重并结合经典的节点和共邻节点网络拓扑结构特征,分别应用七类有监督学习-分类模型对社交、生物、交通等不同领域的八个真实复杂网络数据集进行实验,并采用Precision和ROC曲线对实验结果进行分析与评价。实验表明,引入基于差分化节点的贡献特征能够在深入挖掘网络结构信息的基础上比其余特征有更优的预测精确度,同时差异化的分类模型和特征选择对链接预测性能有相异的影响。  相似文献   

2.
纪腾其  孟军  赵思远  胡鹤还 《计算机应用》2021,41(12):3614-3619
长链非编码RNA(lncRNA)中的小开放阅读框(sORFs)能够编码长度不超过100个氨基酸的短肽。针对短肽预测研究中lncRNA中的sORFs特征不鲜明且高可信度数据尚不充分的问题,提出一种基于表示学习的深度森林(DF)模型。首先,使用常规lncRNA特征提取方法对sORFs进行编码;其次,通过自编码器(AE)进行表示学习来获得输入数据的高效表示;最后,训练DF模型实现对lncRNA编码短肽的预测。实验结果表明,该模型在拟南芥数据集上能够达到92.08%的准确率,高于传统机器学习模型、深度学习模型以及组合模型,且具有较好的稳定性;此外,在大豆与玉米数据集上进行的模型测试中,该模型的准确率分别能达到78.16%和74.92%,验证了所提模型良好的泛化能力。  相似文献   

3.
可计算模型能够有效替代生物实验进行长链非编码RNA(lncRNA)-疾病的关联预测,但由于存在已知数据稀疏性问题,导致现有模型的预测精度不高。针对这一局限性,提出基于图注意力网络与归纳式矩阵补全技术的双融合机制lncRNA-疾病关联预测模型(DFMP-LDA)。引入n头注意力机制,设计带有双重聚合器的图注意力网络,增强lncRNA节点与疾病节点的特征,避免数据稀疏性导致模型预测精度不高的问题。在此基础上,针对传统图注意力网络不能直接应用于潜在lncRNA-疾病对关联预测的问题,引入归纳式矩阵补全技术,应用增强后的节点特征重建lncRNA-疾病关联网络,进一步提高模型的预测精度。5折交叉验证结果表明,DFMP-LDA预测lncRNA-疾病关联的AUC值为0.932 2,AUPR值为0.770 5,在时间成本上分别较DMF-LDA、SDLDA、TPGLDA模型节省33.89%、32.17%、16.12%,预测性能较优。  相似文献   

4.
为比较抑郁症脑网络结构差异及实现患者自动识别,提出了基于功能脑网络社团结构特征的机器学习方法.利用静息态功能磁共振影像数据构建功能脑网络,利用基于“堆结构”的贪婪算法进行社团划分,从脑网络模块结构的角度分析正常人和抑郁症患者的差异,并将脑网络的模块指标用于机器学习方法.利用统计显著性为阈值以筛选特征,以判断不同特征数目对分类模型的性能影响.实验结果表明,神经网络算法在28个特征下(P<0.05),分类正确率最高达90.50%.  相似文献   

5.
针对现有长链非编码RNA(lncRNA)-疾病关联预测模型在综合利用异构生物网络的交互、语义信息上存在局限性的问题,提出一种基于语义与全局双重注意力机制的lncRNA-疾病关联预测模型(SGALDA)。首先,基于相似性和已知关联构建一个lncRNA-疾病-微小RNA(miRNA)异构网络,并基于消息传递类型设计特征提取模块来提取和融合异构网络上同质、异质节点的邻域特征,以捕捉异构网络上的多层面交互关系。其次,基于元路径将异构网络分解为多个语义子网络,并分别在各个子网络上应用图卷积网络(GCN)来提取节点的语义特征,以捕捉异构网络上的高阶交互关系。然后,基于语义与全局双重注意力机制融合节点的语义和邻域特征,以获得更具代表性的节点特征。最后,利用lncRNA节点特征和疾病节点特征的内积运算重建lncRNA-疾病关联。5折交叉验证结果显示,SGALDA的受试者工作特征曲线下面积(AUROC)为0.994 5±0.000 2,PR曲线下面积(AUPR)为0.916 7±0.001 1,在所有对比模型中均为最高,验证了SGALDA良好的预测性能。对乳腺癌、胃癌的案例研究进一步证实了SGALDA识...  相似文献   

6.
脑网络学习旨在从整体上研究大脑各功能区的交互,对于人类深入了解大脑功能和结构以及对一些脑疾病的诊断都具有非常重要的作用。作为脑网络分析的重要工具,机器学习由于能够从数据中学习规律并对未知数据进行预测,已成为近年来脑网络分析领域一个新的研究热点。本文综述了近年来基于机器学习技术在脑网络分析中的典型研究方法和应用,主要从网络的构建、特征学习和分类预测等3个方面加以介绍。最后,总结全文并展望未来研究方向。  相似文献   

7.
肖跃雷  张云娇 《计算机应用》2020,40(8):2262-2267
针对恐怖袭击事件难以找到恐怖袭击组织以及恐怖袭击事件数据的样本不平衡问题,提出了一种基于特征选择和超参数优化的恐怖袭击组织预测方法。首先,利用随机森林(RF)在处理不平衡数据上的优势,通过RF迭代来进行后向特征选择;然后,利用决策树(DT)、RF、Bagging和XGBoost这四种主流分类器对恐怖袭击组织进行分类预测,并利用贝叶斯优化方法对这些分类器进行超参数优化;最后,利用全球恐怖主义数据库(GTD)评价了这些分类器在多数类样本和少数类样本上的分类预测性能。实验结果表明:所提方法提高了对恐怖袭击组织的分类预测性能,其中使用RF和Bagging时的分类预测性能最佳,准确率分别达到0.823 9和0.831 6,特别是在少数类样本上的分类预测性能有明显提高。  相似文献   

8.
长链非编码RNA(long non-coding RNA,lncRNA)在各种人类复杂疾病中起着重要作用。采用计算方法推断lncRNA-疾病间的潜在关联关系不仅有助于理解疾病的致病机理,还有助于疾病诊断、预防和治疗。文中提出了一种基于集成回归决策树的lncRNA-疾病关联预测方法。首先,利用已知的lncRNA-疾病关联信息分别构建lncRNA、疾病相似矩阵、lncRNA-疾病关联矩阵;其次,基于lncRNA、疾病相似矩阵、lncRNA-疾病关联矩阵,从不同视角进一步构建lncRNA、疾病特征向量;然后,使用主成分分析方法对lncRNA、疾病特征进行特征提取;最后,使用回归决策树作为预测模型,并进一步采用集成学习的平均策略将多个决策树集成,从而获得最终的预测模型。留一交叉验证实验表明,该方法的预测结果优于现有方法,在3个真实的lncRNA-疾病数据集上AUC值分别达到了0.905 5,0.896 9和0.912 9,与现有方法相比,分别提升了6.46%,5.4%和6.02%。此外,对乳腺癌、肺癌、胃癌3种疾病进行了案例分析,进一步验证了所提方法的准确性和有效性。  相似文献   

9.
为提高雷电预测模型的准确率和学习性能,提出一种基于增量学习和时空特性的雷电预测BP-ANN二项分类器。通过增量方式和依据数据的时空特征进行历史数据的学习,建立多种BP-ANN模型,分别对新的数据进行预测分类,然后采用多数投票方式确定新数据的类别。分别构建基于增量学习的BP-ANN模型、基于时空特性的BP-ANN模型以及结合基于增量学习和时空特性的BP-ANN模型这3种雷电预测模型,并在真实雷电数据集上进行预测准确度和学习性能的测试,结果表明了增量学习、时空特性以及二者结合的优劣。  相似文献   

10.
基于有监督学习思想的链接分类是复杂网络分析领域的主要研究问题,该思想的核心在于把网络分成训练网络和目标网络,通过分类模型学习训练集合并对目标集合进行预测。然而在复杂网络链接分类这一场景中,正类别样本和负类别样本的分布是不平衡的,特征之间会存在冗余信息,这一现象往往制约着分类性能的有效提升。针对该问题,提出了一种双重特征选择的分类模型,该方法借助Relief赋予特征权重并使用K-means聚类算法对不平衡样本进行采样,解决数据不平衡问题,然后引入极小冗余-极大相关(mRMR)衡量特征与特征之间和特征与类别之间的相关性,同时最大限度地减少冗余。在多个真实复杂网络数据集上的实验结果表明,相较于目前主流的链接分类模型,本文的方法能够明显的提升分类的性能。  相似文献   

11.
Proteins can be grouped into families according to some features such as hydrophobicity, composition or structure, aiming to establish the common biological functions. This paper presents a system that was conceived to discover features (particular sequences of amino acids, or motifs) that occur very often in proteins of a given family but rarely occur in proteins of other families. These features can be used for the classification of unknown proteins, that is, to predict their function by analyzing the primary structure. Runnings were done with the enzymes subset extracted from the Protein Data Bank. The heuristic method used was based on a genetic algorithm using specially tailored operators for the problem. Motifs found were used to build a decision tree using the C4.5 algorithm. The results were compared with motifs found by MEME, a freely available web tool. Another comparison was made with classification results of other two systems: a neural network-based tool and a hidden Markov model-based tool. The final performance was measured using sensitivity (Se) and specificity (Sp): similar results were obtained for the proposed tool (78.79 and 95.82) and the neural network-based tool (74.65 and 94.80, respectively), while MEME and HMMER resulted in an inferior performance. The proposed system has the advantage of giving comprehensible rules when compared with the other approaches. These results obtained for the enzyme dataset suggest that the evolutionary computation method proposed is very efficient to find patterns for protein classification.  相似文献   

12.
非负矩阵分解是一种流行的数据表示方法,利用图正则化约束能有效地揭示数据之间的局部流形结构。为了更好地提取图像特征,给出了一种基于图正则化的稀疏判别非负矩阵分解算法(graph regularization sparse discriminant non-negative matrix factorization,GSDNMF-L2,1)。利用同类样本之间的稀疏线性表示来构建对应的图及权矩阵;以L2,1范数进行稀疏性约束;以最大间距准则为优化目标函数,利用数据集的标签信息来保持数据样本之间的流形结构和特征的判别性,并给出了算法的迭代更新规则。在若干图像数据集上的实验表明,GSDNMF-L2,1在特征提取方面的分类精度优于各对比算法。  相似文献   

13.
语义数据的内积计算是个难点问题,制约了有关语义数据的核分类方法的研究和发展。针对此问题,通过给出一种语义数据相异性度量测度的新定义、计算语义数据内积的简化方法、研究核方法和支撑向量机中的核函数的本质,提出了一种语义数据的核分类方法,并把方法向语义数据、连续属性构成的异构数据的分类问题进行了拓展。仿真实验表明方法具有一定的抗离群数据干扰能力,方法的总体性能优于文献中已有的其他方法。通过在异常检测领域中的应用研究,说明方法能高效地实现不平衡数据的分类,具有一定的实用价值。  相似文献   

14.
数据集中数据之间往往相互关联,所有数据整体上呈现特定的模式结构,而传统分类方法(如支持向量机)忽略数据关联信息,仅仅利用数据的物理特征(如距离、相似性等)构建数据分类模型,并在分类阶段计算测试样本与所建立分类模型间的相似性来预测测试样本的标签类型。为了解决传统分类方法利用单一数据信息的问题,提出一种挖掘数据模式结构信息的混合数据分类方法。该方法融合了两种不同类型的分类技术,将使用单一数据物理特征的传统分类方法作为普通分类方法,将利用数据模式结构信息的分类方法作为高级分类方法。特别地,该方法不仅可有效地识别数据模式结构信息以提高数据分类性能,还能提高传统分类方法的泛化能力。在人造数据集和UCI真实数据集上的大量实验结果表明了该混合数据分类方法的有效性,其分类性能优于传统分类方法。  相似文献   

15.
针对异构数据集下的不均衡分类问题,从数据集重采样、集成学习算法和构建弱分类器3个角度出发,提出一种针对异构不均衡数据集的分类方法——HVDM-Adaboost-KNN算法(heterogeneous value difference metric-Adaboost-KNN),该算法首先通过聚类算法对数据集进行均衡处理,获得多个均衡的数据子集,并构建多个子分类器,采用异构距离计算异构数据集中2个样本之间的距离,提高KNN算法的分类准性能,然后用Adaboost算法进行迭代获得最终分类器。用8组UCI数据集来评估算法在不均衡数据集下的分类性能,Adaboost实验结果表明,相比Adaboost等算法,F1值、AUC、G-mean等指标在异构不均衡数据集上的分类性能都有相应的提高。  相似文献   

16.
在图像分类的实际应用过程中,部分类别可能完全没有带标签的训练数据。零样本学习(ZSL)的目的是将带标签类别的图像特征等知识迁移到无标签的类别上,实现无标签类别的正确分类。现有方法在测试时无法显式地区分输入图像属于已知类还是未知类,很大程度上导致未知类在传统设定下的ZSL和广义设定下的ZSL(GZSL)上的预测效果相差甚远。为此,提出一种融合视觉误差与属性语义信息的方法来缓解零样本图像分类中的预测偏置问题。首先,设计一种半监督学习方式的生成对抗网络架构来获取视觉误差信息,由此预测图像是否属于已知类;然后,提出融合属性语义信息的零样本图像分类网络来实现零样本图像分类;最后,测试融合视觉误差与属性语义的零样本图像分类方法在数据集AwA2和CUB上的效果。实验结果表明,与对比模型相比,所提方法有效缓解了预测偏置问题,其调和指标H在AwA2(Animal with Attributes)上提升了31.7个百分点,在CUB(Caltech-UCSD-Birds-200-2011)上提升了8.7个百分点。  相似文献   

17.
Proteins can be grouped into families according to some features such as hydrophobicity, composition or structure, aiming to establish common biological functions. This paper presents MAHATMA—memetic algorithm-based highly adapted tool for motif ascertainment—a system that was conceived to discover features (particular sequences of amino acids, or motifs) that occur very often in proteins of a given family but rarely occur in proteins of other families. These features can be used for the classification of unknown proteins, that is, to predict their function by analyzing their primary structure. Experiments were done with a set of enzymes extracted from the Protein Data Bank. The heuristic method used was based on genetic programming using operators specially tailored for the target problem. The final performance was measured using sensitivity, specificity and hit rate. The best results obtained for the enzyme dataset suggest that the proposed evolutionary computation method is effective in finding predictive features (motifs) for protein classification.  相似文献   

18.
传统关联分类方法处理数量型数据时,“先离散,再学习”的步骤使新的测试样例可能无法找到合适的离散区间,形成离散盲目性问题。基于lazy的数量型关联分类作为一种新的关联分类法,它首先利用K-近邻分类思想为测试样例求得K-近邻作为新的训练数据集,然后对包含测试样例和K个近邻的数据集离散化,并在K-近邻组成的离散数据集上挖掘关联规则并构造分类器进行分类。最后,通过与传统CBA、CMAR、CPAR算法在7个常用UCI数量型数据集上进行的对比实验结果表明,基于lazy的数量型关联分类方法的平均分类准确率提高了0.66%~1.65%,证明了该方法的可行性。  相似文献   

19.
基于排序的关联分类算法   总被引:1,自引:0,他引:1  
提出了一种基于排序的关联分类算法.利用基于规则的分类方法中择优方法偏爱高精度规则的思想和考虑尽可能多的规则,改进了CBA(Classification Based on Associations)只根据少数几条覆盖训练集的规则构造分类器的片面性.首先采用关联规则挖掘算法产生后件为类标号的关联规则,然后根据长度、置信度、支持度和提升度等对规则进行排序,并在排序时删除对分类结果没有影响的规则.排序后的规则加上一个默认分类便构成最终的分类器.选用20个UCI公共数据集的实验结果表明,提出的算法比CBA具有更高的平均分类精度.  相似文献   

20.
谢新林  肖毅  续欣莹 《计算机应用》2022,42(5):1424-1430
肺结节分类是早期肺癌诊断的重要任务。基于深度学习的肺结节分类方法虽然能够取得良好的分类精度,但存在模型复杂和可解释性差的问题。为此,提出了一种基于神经网络架构搜索的肺结节分类算法。首先,将注意力残差卷积cell作为搜索空间的基本单元,并使用偏序剪枝方法作为搜索策略来构建神经网络架构以搜索3D分类网络,从而达到网络性能和搜索速度的平衡。其次,在网络中构建了多尺度通道和空间注意力模块来提高特征描述和类别推理的可解释性。最后,采用堆叠法将搜索到的网络架构进行多模型的融合,从而获取精准的肺结节良恶性分类预测结果。实验结果表明,在肺结节分类常用数据集LIDC-IDRI上,所提算法与最新肺结节分类算法相比具有较好的分类性能和较快的收敛,且所提算法的特异性和精确率分别达到95.37%和93.42%,能够实现良恶性肺结节的准确分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号