首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
针对基于概率统计的ML-kNN算法只能对每个独立的标签进行分析,忽略了真实世界中标签间的相关性,提出了一种联系标签相关性的ML-kNN算法(S-ML-kNN).该方法对训练集进行扩展,并按照标签间的二阶组合来构造新的标签,融合了标签之间的相关性.实验结果表明,S-ML-kNN算法优于ML-kNN算法.  相似文献   

2.
牟甲鹏  蔡剑  余孟池  徐建 《计算机应用研究》2020,37(9):2656-2658,2673
多标签学习中一个样本可同时属于多个类别标签,每个标签都可能拥有反映该标签特定特点的特征,即类属属性,目前已经出现了基于类属属性的多标签分类算法LIFT。针对LIFT算法中未考虑标签之间相互关系的问题,提出一种基于标签相关性的类属属性多标签分类算法CLLIFT。该算法使用标签距离度量标签之间的相关性,通过在类属属性空间附加相关标签的方式完成标签相关性的引入,以达到提升分类性能的目的。在四个多标签数据集上的实验结果表明,所提算法与LIFT算法相比在多个多标签评价指标上平均提升21.1%。  相似文献   

3.
针对MLKNN算法仅对独立标签进行处理,忽略现实世界中标签之间相关性这一问题,提出了一种基于关联规则的MLKNN多标签分类算法(FP-MLKNN)。该算法采用关联规则算法挖掘标签之间的高阶相关性,并用标签之间的关联规则改进MLKNN算法,以达到提升分类性能的目的。首先,使用MLKNN算法求样本的特征置信度;采用关联规则算法挖掘生成一系列强关联规则,进而将2种算法进行融合来构造多标签分类器,对新标签进行预测;在此基础上,将本文提出的算法与MLKNN、AdaBoostMH和BPMLL这3种算法进行实验对比。实验结果表明,本文所提算法在yeast、emotions和enron数据集上的分类性能均优于这3种算法,具有较好的分类效果。  相似文献   

4.
蔡剑  牟甲鹏  余孟池  徐建 《计算机与数字工程》2021,49(10):1967-1972,1997
多标签分类在现实世界中有着广泛的应用,是当今机器学习领域的热点问题之一.多标签分类的代表性算法BR(Binary Relevance)虽有较多的改进工作,但大都仅针对标签相关性或特征选择中某一个方面进行改进,因此现有改进算法的性能仍存在提升空间.针对上述现状,论文提出一种基于特征选择和标签相关性的多标签分类算法,该算法先使用信息增益为每个标签选择与其相关的特征属性,而后采用新的控制结构的方式考虑标签相关性,最后使用新的特征集合为每个标签训练二分类器.在6个基准数据集上的实验结果表明,该算法在5种不同评价指标下的表现优于其它典型的BR改进算法.  相似文献   

5.
多标签文本分类旨在为文本分配多个标签,其关键挑战在于如何利用标签之间的关联性.目前方法主要采用循环神经网络相比传统方法能更好地建模标签高阶关联,但存在难以确定标签顺序的问题,以及缺乏对标签关联程度进行建模.为此,论文提出一种基于改进图循环神经网络的多标签文本分类方法.首先,根据标签共现构建标签图数据,然后将多标签分类转换为标签图生成,最后通过广度优先搜索将生成的标签图转回为标签集,作为分类结果.相关实验表明,论文提出的模型在instance-F1和label-F1指标上优于基线模型,细粒度建模了标签关联,同时减少了模型对于标签顺序的依赖.  相似文献   

6.
《软件工程师》2019,(1):8-11
商品通常包含多个属性维度,准确找到商品评论中涉及的属性维度是文本挖掘工作的基础。RAKEL算法是多标签分类中问题转换思路的一种实现。在以往的工作中,由于子标签集合的随机性,没有充分发现和考虑标签之间的相关性,导致分类精度不高。为此,提出了改进的FI-RAKEL算法。首先通过FP-Growth算法得到标签的频繁项集,再从频繁项集和原始标签集合中选择标签构成新的标签子集,以此充分利用标签相关性训练基分类器。实验证明,改进的FI-RAKEL算法具有更好的评论文本多标签分类性能。  相似文献   

7.
檀何凤  刘政怡 《计算机应用》2015,35(10):2761-2765
针对K近邻多标签(ML-KNN)分类算法中未考虑标签相关性的问题,提出了一种基于标签相关性的K近邻多标签分类(CML-KNN)算法。首先,计算出标签集合中每对标签间的条件概率;其次,对于即将被预测的标签,将其与已经预测的标签间的条件概率进行排序,求出最大值;最后,将最大值跟对应标签值相乘同时结合最大化后验概率(MAP)来构造多标签分类模型,对新标签进行预测。实验结果表明,所提算法在Emotions数据集上的分类性能均优于ML-KNN、AdaboostMH、RAkEL、BPMLL这4种算法;在Yeast、Enron数据集上仅在1~2个评价指标上低于ML-KNN与RAkEL算法。由实验分析可知,该算法取得了较好的分类效果。  相似文献   

8.
在对大规模多标签数据进行人工标注时极易产生标签的缺失。现有算法大多利用被所有实例共享的全局标签相关性来解决该问题,即对不同实例而言,标签之间的相关性是相同的。然而在实际应用中,不同实例的标签相关性并非完全相同,此时采用局部方式获取的标签相关性将更加准确。因此,本文提出一种基于局部标签相关性的解决方法。该方法利用局部标签相关性来恢复缺失标签,利用低秩矩阵分解技术来构造适用于大规模数据的分类器。此外,为了加快模型的训练,该方法将这两个过程融合到一个统一的框架中,并采用迭代优化的方式进行求解。大量实验结果表明,该方法在预测准确度上至少比现有算法高2个百分点,在训练速度上至少提升5个百分点。  相似文献   

9.
李兆玉  王纪超  雷曼  龚琴 《计算机应用》2018,38(10):2807-2811
针对多标签分类算法不能充分利用标签相关性的问题,通过建立标签的正、负相关性矩阵来挖掘标签间不同的相关关系,提出一种基于引力模型的多标签分类算法(MLBGM)。首先,遍历训练集中所有样本并分别求取每个训练样本的k个近邻样本,组成该样本的近邻集合;其次,根据每个样本的近邻集合中所有近邻样本的标签分布情况,分别为每个训练样本建立正、负相关矩阵来获取标签间的相关性;然后,为每个训练样本的近邻集合计算其近邻密度和近邻权重;最后,采用计算数据粒子间相互作用力的方式构建多标签分类模型。实验结果显示,MLBGM与5种未考虑标签负相关的对比算法相比,汉明损失(HammingLoss)平均降低了15.62%,微平均F1值(MicroF1)平均提升了7.12%,子集准确率(SubsetAccurary)平均提升了14.88%。MLBGM充分利用了标签间不同的相关性,获得了有效的实验结果且分类效果优于未考虑标签负相关的对比算法。  相似文献   

10.
为提高构建的情感语料库中情感分布的均衡性,提出一种基于主动学习的算法以保持新构建训练集中情感标签的均衡.综合信息性、代表性、多样性和互补性标准于一体,通过文本的情感预测概率和特征统计量逐层筛选样本,利用互补性准则中的标签平衡措施抽取候选样本.该算法可以抑制模型选择高频次情感标签的样本,并促进低频次情感标签的样本选择,以达到情感标签平衡的目的.多标签情感分类实验表明,该算法能有效构造情感标签均衡的文本训练集,并通过所构造的训练集逐步提高文本情感分类的效果.  相似文献   

11.
偏标记数据消歧是利用偏标记数据进行机器学习的基础.针对偏标记数据中广泛存在的数据不平衡问题, 以及现有消歧算法对样本间约束信息利用不足的问题, 本文提出一种基于成对约束的偏标记数据消歧算法.首先, 基于低秩表示, 推导出数据不平衡条件下样本低秩表示系数和样本相似度之间的关系; 其次, 基于推导结果, 分别构建基于样本间正约束和负约束的图模型, 通过最小化图模型的能量函数求解偏标记数据的标签.在5个公开数据集上的实验结果表明本文方法相对基准算法在消歧准确率上平均提高了2.9 % ~ 14.9 %.  相似文献   

12.
传统主题演化(ToT)模型通常忽略原始数据中的标签元信息。为此,建立一种基于标签的改进ToT模型。针对传统权重算法忽略词汇在文档集类别间和类别内的分布对权重产生影响的问题,结合文档标题特征,使用改进词频-反重力距算法进行权重分析,以扩展模型的生成过程。在ToT模型的基础上引入原始文档的标签属性,构建改进模型并使用吉布斯采样算法估计其参数。实验结果表明,与ToT模型相比,该模型具有较高的泛化能力。  相似文献   

13.
面向方面程序设计是近年来提出的一种程序设计技术,通过将横切关注点封装成Aspect,实现软件系统复杂性的降低,系统可维护性和可扩展性的提高。Aspect挖掘的目标是识别遗产系统中的横切关注点,为遗产系统的面向方面改造提供支持。文章提出了一种改进的基于活动轨迹的Aspect挖掘方法,基于横切关注点具有不同的调用上下文等约束寻找方法调用轨迹中相同的方法调用模式。通过实例说明该方法提高了候选Aspect的查全率。  相似文献   

14.
LPA中存在的随机策略,严重破坏算法的鲁棒性.随着大数据时代的来临,复杂网络的规模不断增大,从而造成算法的运算量增加,收敛速度减慢.针对这一问题,提出了一种新的改进标签传播算法-KLPA.首先,对初始网络预处理:利用K-Shell指数将网络划分成核心-边缘层次,去除边缘层节点,赋予核心层的节点标签.其次,改进标签传播策略对预处理网络进行社区划分.最后,实验证明KLPA算法减小网络规模,提高了社区划分质量,同时也加快了算法的收敛速度.  相似文献   

15.
《计算机工程》2018,(3):60-64
随着网络规模的不断增大,在时间复杂度上具有明显优势的标签传播算法受到广泛关注,但是其内在机制存在不确定性和随机性,导致社团发现结果不够准确和稳定。为此,提出一种新的改进标签传播算法。在K-shell分解算法的基础上,构造节点重要性计算方法,利用节点重要性分析标签传播算法中的标签传播能力,通过节点重要性排序和标签传播能力制定新的标签更新策略,得出最终的社团划分结果。在人工网络和真实网络上的实验结果表明,该算法有较高的准确性和稳定性。  相似文献   

16.
研究传感器阵列信号优化问题,针对传统的简单遗传算法应用于传感器阵列的波束形成时,存在收敛速度慢和计算结果稳定性低的问题,提出了一种基于改进遗传算法的波束形成优化方法。算法对简单遗传算法的初始种群生成、适应度函数、交叉算子和异化算子等多个要素进行了改进,并融入了自适应技术。将改进的遗传算法应用于波束形成,并进行了仿真。仿真结果证明,有效地提高了收敛速度和计算结果的稳定性。证明改进遗传算的波束形成方法,获得了比原始方法旁瓣级更低的波束图,波束形成的性能更优。  相似文献   

17.
多标签特征选择是应对数据维度灾难现象的主要方法之一,可以在降低特征维度的同时提高学习效率,优化分类性能。针对目前特征选择算法没有考虑标签间的相互关系,以及信息量的衡量范围存在偏差的问题,提出一种基于标签关系改进的多标签特征选择算法。首先引入对称不确定性对信息量进行归一化处理,然后用归一化的互信息量作为相关性的衡量方法,并据此定义标签的重要性权重,对依赖度和冗余度中的标签相关项进行加权处理;进而提出一种特征评分函数作为特征重要性的评价指标,并依次选择出评分最高的特征组成最佳特征子集。实验结果表明,与其他算法相比,该算法在提取出更加精确的低维特征子集后,不仅能够有效提高面向实体信息挖掘的多标签学习算法的性能,也能提高基于离散特征的多标签学习算法的效率。  相似文献   

18.
牛为华  孟建良  张素文 《计算机仿真》2003,20(7):111-113,115
测试用例生成是软件测试的关键,成对测试是根据特定的测试原则研究测试用例的产生方法。基于这一原则分别构造了IPO-H算法和IPO-V算法的测试以产生整个测试用例,具有产生的测试用例少,时间消耗小等优点。并与另一个成对测试的测试生成工具AETG(高效自动测试生成器)进行了比较、分析,证明了改进的IPO策略便于构造自动测试工具。  相似文献   

19.
通过近邻样例类标记确定测试样例类标记的思想在多标记分类算法中取得了良好的效果。该类算法通过对训练集进行学习,建立训练样例类标记与其k个近邻样例中不同类标记样例个数的映射关系,然后用该映射关系预测测试样例的类标记。该类算法的不足是只考虑近邻样例中不同类别样例的个数与测试样例类标记的映射关系,忽略了近邻样例与测试样例的局部相关性。考虑训练样例类与近邻样例的局部相关性,建立起它们类别间的映射关系,预测测试样例类标记,提出ML-WKNN算法。实验表明,ML-WKNN能更好地处理多标记分类问题和自动图像标注问题。  相似文献   

20.
提出了一种改进的支持向量机SVM( Support Vector Machine) 的相关反馈图像检索方法。在这种方法的交互过程中, SVM 分类器不仅对本次反馈过程中用户所提交的标记的正例和反例样本进行学习, 还对历次反馈过程中的正例和反例样本进行学习, 并根据训练后的分类器进行检索。实验结果表明, 该方法在样本集非常小的情况下, 仍可以检索出较多的相关图像, 在有限训练样本情况下具有良好的推广能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号