首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
半监督学习在不平衡样本集分类中的应用研究   总被引:2,自引:1,他引:1  
在对不平衡样本集进行分类时容易产生少数类样误差大的问题,而目前半监督学习中的算法多数是针对未有明显此类特征的数据集。针对一种半监督协同分类算法在该问题上的有效性进行了研究。由于进一步增强了分类器差异性,该算法在理论上对不平衡样本集具有良好的分类性能。根据该算法建立分类模型,利用其对桥梁结构健康数据进行分类实验,与Tri-Training算法的结果比较表明,该算法对不平衡样本集具有良好的适用性,从而验证了上述算法的有效性。  相似文献   

2.
针对现有支持向量机多类分类算法在分类精度上的不足,提出一种改进的支持向量机决策树多类分类算法。为了最大限度地减少误差积累的影响,该算法利用投影向量的思想作为衡量类分离性的标准,由此构建非平衡决策树,并且在决策树节点处对正负样本选取不同的惩罚因子来处理不平衡数据集的影响,最后引入KNN算法与SVM共同识别数据集。通过在手写体数字识别数据集上的仿真实验,分析比较各种方法,表明该方法能有效提高分类精度。  相似文献   

3.
网状数据结构通常获取的网络数据不完整,存在缺失节点.对此,文中提出基于图卷积神经网络的网络节点补全算法.首先对可观测网络进行成对采样,构造目标节点对的封闭子图和特征矩阵.然后利用图卷积神经网络提取子图及特征矩阵的表征向量,用于推断子图中的目标节点对之间是否存在缺失节点,同时判断不同目标节点对间的缺失节点是否为同一节点.最后,在真实网络数据集及人工生成的网络数据集上的实验表明,文中算法可较好解决网络补全问题,在缺失节点比例较大时仍能有效补全网络.  相似文献   

4.
分类方法通过比较数据之间的相似性,把不同特征或属性的数据分别归属到不同的类别,在金融、医学和生物等领域有着广泛的应用.本文首次提出了一种利用社区选举和链路预测的分类方法(CCELP),该方法首先用k近邻算法将数据集转化成一个稀疏网络,接着使用社区检测算法把网络划分为多个社区,并通过投票选举得到每个社区的代表节点,移除不符合“过半数原则”的部分代表节点,将剩余代表节点同社区内节点相连得到新网络;接着提出了考虑二级共同邻居的分类链路预测(CLP)指标,在新网络中按照节点和代表节点间的CLP指标把节点归属到不同的类别中去,从而完成数据分类.在16个数据集上,CCELP与8种知名分类方法进行了比较,实验结果表明CCELP具有优异的分类效果.  相似文献   

5.
挖掘除数据点本身以外的信息并以此引导和提高数据分类的精度是值得研究的课题.由此,文中提出建立与数据集对应的网络方法挖掘数据点之间的位置关系及关联信息.依据网络节点连接特性确定节点及子网络效率,赋予节点浓度概念,迭代计算节点的真实影响力,充分挖掘并处理蕴含在数据点关联作用中的信息作为数据点物理特征之外的辅助信息,构建基于数据点本身及其位置关系辅助信息挖掘的分类方法.在保证较高数据分类精度的前提下,文中方法具有较低的时间复杂度.在人造数据集和真实数据集上实验验证文中方法的有效性,该方法尤其与经典的分类方法存在显著区别.  相似文献   

6.
数据集类别不平衡问题是分类领域的重要问题之一,每个数据集的不平衡指数都与其自身有着紧密的联系,是数据集的重要标志。面对不平衡数据集分类设计问题,提出了一种改进AdaBoost算法(enhanced AdaBoost,E-AdaBoost)。该算法将不平衡指数和不平衡数据集中较为重要的少数类分类正确率考虑到算法的迭代过程中,改进了基分类器的权重更新策略,进而提高对不平衡数据集的分类性能。基于E-AdaBoost的不平衡数据集分类设计方法可以根据样本的不平衡指数,确定基分类器的权重参数,进而提高分类器性能。利用该方法,结合多个经典分类器,在人工数据集和标准数据集上进行实验分析,并对比相关方法,结果表明,基于E-AdaBoost的不平衡数据集分类设计方法能够有效提高不平衡数据集的分类性能。  相似文献   

7.
针对传统社交网络异常用户检测算法应用于现实中非平衡数据集时存在召回率低、运行效率低等问题,对社交网络数据集提取用户内容、行为、属性、关系特征,应用梯度增强集成分类器XGBoost算法进行特征选择,建立分类模型,构造非平衡数据集并识别三类垃圾广告发送账号。实验结果表明,该方法与随机森林等传统分类方法相比,对平衡及非平衡数据集进行异常用户检测均实现召回率和◢F▼◣▽1值的有效提升;同时其选取少量特征同样可达到较高检测水平,证明了方法的有效性。  相似文献   

8.
针对如何融合节点自身属性以及网络结构信息实现社交网络节点分类的问题,提出了一种基于图编码网络的社交网络节点分类算法。首先,每个节点向邻域节点传播其携带的信息;其次,每个节点通过神经网络挖掘其与邻域节点之间可能隐含的关系,并且将这些关系进行融合;最后,每个节点根据自身信息以及与邻域节点关系的信息提取更高层次的特征,作为节点的表示,并且根据该表示对节点进行分类。在微博数据集上,与经典的深度随机游走模型、逻辑回归算法有以及最近提出的图卷积网络算法相比,所提算法分类准确率均有大于8%的提升;在DBLP数据集上,与多层感知器相比分类准确率提升4.83%,与图卷积网络相比分类准确率提升0.91%。  相似文献   

9.
传统的数据分类算法多是基于平衡的数据集创建,对不平衡数据分类时性能下降,而实践表明组合选择能有效提高算法在不平衡数据集上的分类性能。为此,从组合选择的角度考虑不平衡类学习问题,提出一种新的组合剪枝方法,用于提升组合分类器在不平衡数据上的分类性能。使用Bagging建立分类器库,直接用正类(少数类)实例作为剪枝集,并通过MBM指标和剪枝集,从分类器库中选择一个最优或次优子组合分类器作为目标分类器,用于预测待分类实例。在12个UCI数据集上的实验结果表明,与EasyEnsemble、Bagging和C4.5算法相比,该方法不但能大幅提升组合分类器在正类上的召回率,而且还能提升总体准确率。  相似文献   

10.
在现实世界的节点分类场景中,只有少部分节点带标签且类标签是不平衡的.然而,大部分已有的方法未同时考虑监督信息缺乏与节点类不平衡这两个问题,不能保证节点分类性能的提升.为此,文中提出基于自监督学习的不平衡节点分类算法.首先,通过图数据增强生成原图的不同视图.然后,利用自监督学习最大化不同视图间节点表示的一致性以学习节点表示.该算法通过自监督学习扩充监督信息,增强节点的表达能力.此外,在交叉熵损失和自监督对比损失的基础上,设计语义约束损失,保持图数据增强中语义的一致性.在三个真实图数据集上的实验表明,文中算法在解决不平衡节点分类问题上具有较优的性能.  相似文献   

11.
标签传播算法(LPA)是一种高效地处理大规模网络的社区发现算法,由于其近乎线性的时间复杂度而受到广泛关注。然而,该算法每个节点的标签依赖于其邻居节点,其迭代速度和聚类有效性对标签信息的更新顺序非常敏感,影响了社区发现结果的准确性和稳定性。基于该问题,提出了一种基于加权聚类集成的标签传播算法。该算法利用多次标签传播算法的结果作为基聚类集,并用模块度评估每个基聚类的重要性,使其作为节点相似性度量的权值形成加权相似性矩阵,最后通过层次聚类得出最终的社区划分结果。在实验分析中,该算法和其他5个具有代表性的标签传播算法的改进算法在真实数据集上进行了比较,展示了新算法能有效地提高标签传播算法的社区发现精度。  相似文献   

12.
目前大多数研究对复杂社会网络关键节点影响力的识别都是静态的,缺乏动态变化的分析。采用可拓聚类方法对动态变化下的科教人际网络进行量化分析,首先以多属性决策法计算每个节点重要性,再利用变异系数权重法计算得该节点综合重要性量值,之后划分等级并取标准正域和正域区间,利用可拓关联函数计算每个节点与每个等级的关联度,关联度值最大的等级即为该节点对应等级,最后分析同一社会网络节点在不同时间点的重要性等级变化。可拓聚类方法尝试从动态上对网络节点重要性进行把握,最后通过实例验证了该方法的有效性。  相似文献   

13.
针对异构数据集下的不均衡分类问题,从数据集重采样、集成学习算法和构建弱分类器3个角度出发,提出一种针对异构不均衡数据集的分类方法——HVDM-Adaboost-KNN算法(heterogeneous value difference metric-Adaboost-KNN),该算法首先通过聚类算法对数据集进行均衡处理,获得多个均衡的数据子集,并构建多个子分类器,采用异构距离计算异构数据集中2个样本之间的距离,提高KNN算法的分类准性能,然后用Adaboost算法进行迭代获得最终分类器。用8组UCI数据集来评估算法在不均衡数据集下的分类性能,Adaboost实验结果表明,相比Adaboost等算法,F1值、AUC、G-mean等指标在异构不均衡数据集上的分类性能都有相应的提高。  相似文献   

14.
在复杂网络中,度量节点之间的相似性是一项基础且具有挑战性的工作。基于邻域节点的相似性度量仅考虑了节点的邻域信息。基于路径的相似性度量考虑了节点之间的路径信息,使得多数节点与大度节点相似。为了更准确地度量节点之间的相似性且避免多数节点与大度节点相似,定义了每个节点的距离分布,并在此基础上采用相对熵和距离分布提出了一种节点相似性度量方法(DDRE)。DDRE方法通过节点之间的最短路径生成每个节点的距离分布,根据距离分布计算节点之间的相对熵,进而得到节点之间的相似性。6个真实网络数据集的对比实验结果表明,DDRE方法在对称性以及SIR模型中影响其他节点的能力这两方面表现较好。  相似文献   

15.
田盼盼  陈璟 《计算机工程》2022,48(2):65-71+78
生物网络比对是研究生物进化过程的重要手段,不同物种间的比对不仅有助于理解物种的知识转移,同时也有助于进行功能预测和检测保守功能成分。然而,现有比对算法很难实现拓扑度量和生物度量同时最优。设计JAlign算法,将拓扑相似性与归一化序列相似性相结合构成目标函数,基于种子-扩展算法和模块检测进行全局比对。在种子筛选阶段,利用Jerarca聚类算法划分功能模块,借助目标函数计算模块间的相似性进行最优模块匹配,并从匹配结果中提取部分节点对作为种子节点。在扩展阶段,将比对从种子节点扩展至其邻居节点,在选择节点对进行扩展比对时综合考虑节点之间的连接关系、度差值、节点相似性等因素。在此基础上,为避免遗漏分散节点,找到剩余未匹配的节点构建二分图,以贪心方式进行最大加权二分图匹配,并将匹配结果合并到比对集合中,完成最终匹配。实验结果表明,JAlign算法能够实现拓扑度量和生物度量的良好平衡,其边正确性指标、诱导保守子结构得分、对称子结构得分和生物质量使用功能一致性指标均优于L-GRAAL、SPINAL和ModuleAlign算法,在时间效率上也具有优势。  相似文献   

16.
孔芝  袁航  王立夫  郭戈 《自动化学报》2022,48(4):1048-1059
复杂系统间的相互作用能够用复杂网络描述.复杂网络中某些节点遭受攻击或破坏会造成网络故障,导致整个网络能控性变化.不同节点失效会对网络能控性有不同的影响.本文提出一种网络节点的分类方式,将网络中的节点根据边的方向和匹配关系分成九种类型,并给出了辨识节点类型的算法.另外,本文给出了基于此分类方式下复杂网络中某类节点失效时,...  相似文献   

17.
随着现代网络通信和社会媒体等技术的飞速发展,网络化的大数据由于缺少高效可用的节点表示而难以应用。将高维稀疏难于应用的网络数据转化为低维、紧凑、易于应用的节点表示的网络嵌入方法受到广泛关注。然而已有网络嵌入方法得到节点低维特征向量后,再将其作为其他应用(节点分类、社区发现、链接预测、可视化等)的输入来作进一步分析,没有针对具体应用构建模型,难以取得满意的结果。针对网络社区发现这一具体应用,提出结合社区结构优化进行节点低维特征表示的深度自编码聚类模型CADNE。首先基于深度自编码模型,通过保持网络局部及全局链接的拓扑特性来学习节点的低维表示,然后利用网络聚类结构对节点低维表示进一步优化。该方法同时学习节点的低维表示和节点所属社区的指示向量,使节点的低维表示不仅能保持原始网络结构中的拓扑结构特性,而且能保持节点的聚类特性。与已有的经典网络嵌入方法进行对比,结果显示CADNE模型在Citeseer和Cora上取得最优聚类结果,在20NewsGroup上准确率提升最高达0.525;分类性能在Blogcatalog、Citeseer数据集上取得最好结果,在Blogcatalog上训练比例20%时比基线方法提升最高达0.512;并且CADNE模型在可视化对比中能够得到类边界更加清晰的节点低维表示,验证了所提方法具有较好的节点低维表示能力。  相似文献   

18.
武加文    李光辉     《智能系统学报》2019,14(2):254-262
针对无线传感器网络节点容易产生数据漂移的问题,提出了一种新型的跟踪和校准节点数据流漂移的算法。首先使用基于遗传算法优化的BP神经网络对目标节点和其邻居节点间的时空相关性进行建模,以获得目标节点的预测值,再使用卡尔曼滤波器跟踪和校准该节点的数据漂移。针对不同的真实数据集进行仿真实验显示,该方法相较于其他对比方法模型预测精度更高,漂移校准性能更好。实验结果表明,该算法可以精确地校准传感器节点的数据漂移,提高节点数据的可靠性。  相似文献   

19.
杨旭华  朱钦鹏  童长飞 《计算机科学》2018,45(1):292-296, 306
聚类分析是一种重要的数据挖掘工具,可以衡量不同数据之间的相似性,并把它们分到不同的类别中,在模式识别、经济学和生物学等领域有着广泛的应用。 文中提出了一种新的聚类算法。首先,把待分类的数据集转换成一个加权的完全图,每个数据点为一个节点,两个数据点之间的距离为相应两个节点之间边的权值。然后,用Laplacian中心性来计算和评价该网络每个节点的局部重要性,聚类中心为局部的密度中心,它具有比周围的邻居节点更高的Laplacian中心性,并且与具有更高Laplacian中心性的节点之间的距离也较大。新算法是一种真正的无参数聚类方法,不需要任何先验参数便可以自动地对数据集进行分类。在6种数据集中将其与9种知名聚类算法做了对比,结果显示该算法具有良好的聚类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号