首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
针对MLKNN算法仅对独立标签进行处理,忽略现实世界中标签之间相关性这一问题,提出了一种基于关联规则的MLKNN多标签分类算法(FP-MLKNN)。该算法采用关联规则算法挖掘标签之间的高阶相关性,并用标签之间的关联规则改进MLKNN算法,以达到提升分类性能的目的。首先,使用MLKNN算法求样本的特征置信度;采用关联规则算法挖掘生成一系列强关联规则,进而将2种算法进行融合来构造多标签分类器,对新标签进行预测;在此基础上,将本文提出的算法与MLKNN、AdaBoostMH和BPMLL这3种算法进行实验对比。实验结果表明,本文所提算法在yeast、emotions和enron数据集上的分类性能均优于这3种算法,具有较好的分类效果。  相似文献   

2.
一种利用关联规则挖掘的多标记分类算法   总被引:2,自引:0,他引:2  
刘军煜  贾修一 《软件学报》2017,28(11):2865-2878
多标记学习广泛存在于现实生活中,是当今机器学习领域的研究热点.在多标记学习框架中,每个对象由一个示例构成,但可能同时属于多个类别标记,并且各个标记之间相互关联,所以挖掘多标记之间的关联性对于多标记学习框架具有重要的意义.首先对经典的关联规则算法进行改进,提出了基于矩阵分治的频繁项集挖掘算法,并证明了该算法挖掘频繁项集的正确性;进而将该算法应用于多标记学习框架中,分别提出了基于全局关联规则挖掘和局部关联规则挖掘的多标记分类算法;最后对所提出的算法与现有多标记算法进行实验对比,结果表明,算法在5种不同的评价准则下能够取得更好的效果.  相似文献   

3.
关联规则挖掘作为一种大数据挖掘方法,被用于确定不同项目间存在的内在联系,并以大于某一阈值作为评判不同项间存在关联的依据。传统关联规则挖掘方法仅能建立不同项间的布尔型关联规则,存在硬化数据"尖锐边界"问题导致关联规则挖掘性能下降的缺点。为克服经典数据挖掘算法的这一缺陷,提出一种新型中智关联规则挖掘算法。基于专家知识对语言学术语进行量化预处理,得到不同指标的量化数据资料库;基于关联规则支持度定义计算不同指标项集合的支持度;通过考虑不同项间的隶属度、不确定度和非隶属度函数生成关联规则。将该中智挖掘算法与模糊挖掘算法进行对比,结果表明,该算法能够增加生成关联规则数量,有助于提高数据挖掘的准确性。  相似文献   

4.
传统的关联规则挖掘研究事务中所包含的项与项之间的关联性,而负关联规则挖掘不仅要考虑事务中包含的项,还要考虑事务中不包含的项。给出了完全负关联规则的定义,提出一种基于树的算法Free-PNP,通过此算法挖掘数据库中的负频繁模式,继而得到所要挖掘的完全负关联规则。通过实验验证了算法的有效性。  相似文献   

5.
一种有效且无冗余的快速关联规则挖掘算法   总被引:8,自引:0,他引:8  
刘乃丽  李玉忱  马磊 《计算机应用》2005,25(6):1396-1397
关联规则的挖掘是数据挖掘的一个重要研究领域。传统算法进行关联规则挖掘时,或者生成规则的效率很低,或者生成的关联规则之间存在着大量的冗余,或者挖掘出的规则的支持度和置信度都很高,但却是无趣的、甚至是虚假的规则,且不能产生带有否定项的规则。提出了一种新的算法MVNR(MiningValidandnon RedundantAssociationRulesAlgorithm),利用频繁项集的极小子集集合很好的解决了上述问题。  相似文献   

6.
关联规则挖掘是数据挖掘中的一个重要研究方向,用于发现项集之间的关联性。FP-growth算法通过构造FP-tree产生频繁集,由于其不生成候选集从而大大降低了搜索开销,其缺点是占用大量的内存空间。基于FP-growth的算法思想,提出基于FS-tree(频繁1-项子树)的频繁模式挖掘算法,通过将FP-tree拆分为多棵FS-tree,使算法的空间复杂度明显减小。实验表明,该算法是有效的。  相似文献   

7.
传统的多标签文本分类算法在挖掘标签的关联信息和提取文本与标签之间的判别信息过程中存在不足,由此提出一种基于标签组合的预训练模型与多粒度融合注意力的多标签文本分类算法。通过标签组合的预训练模型训练得到具有标签关联性的文本编码器,使用门控融合策略融合预训练语言模型和词向量得到词嵌入表示,送入预训练编码器中生成基于标签语义的文本表征。通过自注意力和多层空洞卷积增强的标签注意力分别得到全局信息和细粒度语义信息,自适应融合后输入到多层感知机进行多标签预测。在特定威胁识别数据集和两个通用多标签文本分类数据集上的实验结果表明,提出的方法在能够有效捕捉标签与文本之间的关联信息,并在F1值、汉明损失和召回率上均取得了明显提升。  相似文献   

8.
提出一种基于人工免疫方法的关联规则提取算法,将人工免疫方法应用于关联规则的提取。本算法采取“随机并行搜索”策略,快速识别出候选关联规则,整个挖掘过程最后只需扫描数据库一遍,也不需生成大量的频繁项目集,从而提高关联规则挖掘的总体性能。  相似文献   

9.
针对量化关联规则的特点,提出基于多目标烟花算法和反向学习的量化关联规则挖掘算法.该算法通过多目标烟花算法全面搜索关联规则,引入反向学习提高算法收敛速度并降低算法陷入局部最优的概率,使用基于相似度的冗余淘汰机制保持库中关联规则的多样性,经过多次迭代最终获得关联规则集合.文中算法无需人为指定支持度、置信度等阈值,实验表明,算法在不同数据集上均获得稳定结果,能充分覆盖数据集,在可靠性、相关性及可理解性之间获得较好的均衡.  相似文献   

10.
分析了并行关联规则挖掘算法存在的不足,提出了一种改进的关联规则挖掘的多核并行优化算法。该算法对Apriori算法的压缩矩阵进行了改造,并在多核平台下利用OpenMP技术和TBB技术对串行程序进行循环并行化和任务分配的并行化设计,最大限度地实现并行关联规则挖掘。  相似文献   

11.
Rakel(Random k-labelsets)算法从原始标签集中随机选择一部分标签子集,并且使用LP(Label Powerset)算法训练相应的多标签子分类器。由于随机选择标签的原因,导致LP子分类器预测性能不好。本文基于标签的共现关系选择成对标签来训练LP分类器,提出PwRakel(Pairwise Random k-labelsets)算法。该算法通过挖掘标签相关性扩展训练集,有效提高分类性能。实验结果表明,所提出的算法与Rakel算法以及其他算法对比,分类准确度更高。  相似文献   

12.
Fisher Score (FS)是一种快速高效的评价特征分类能力的指标,但传统的FS指标既无法直接应用于多标记学习,也不能有效处理样本极值导致的类中心与实际类中心的误差。提出一种结合中心偏移和多标记集合关联性的FS多标记特征选择算法,找出不同标记下每类样本的极值点,以极值点到该类样本的中心距离乘以半径系数筛选新的样本,从而获得分布更为密集的样本集合,以此计算特征的FS得分,通过整体遍历全体样本的标记集合中的每个标记,并在遍历过程中针对具有更多标记数量的样本自适应地赋以标记权值,得到整体特征的平均FS得分,以特征的FS得分进行排序过滤出目标子集实现特征选择目标。在8个公开的多标记文本数据集上进行参数分析及5种指标性能比较,结果表明,该算法具有一定的有效性和鲁棒性,在多数指标上优于MLNB、MLRF、PMU、MLACO等多标记特征选择算法。  相似文献   

13.
提出了一种基于关联规则的多类标算法(MLAC).利用多类标FP-tree来分解组合生成多类标规则.并通过组合多重关联规则分类器进行分类预测,降低了由高维属性带来的高计算复杂度,有效地提高了算法的性能和效率.针对多类标数据集的实验结果表明,MLAC算法在性能和效率等方面均优干ML-KNN等多类标分类算法.  相似文献   

14.
Bao  Jiachao  Wang  Yibin  Cheng  Yusheng 《Applied Intelligence》2022,52(6):6093-6105

As an effective method for mining latent information between labels, label correlation is widely adopted by many scholars to model multi-label learning algorithms. Most existing multi-label algorithms usually ignore that the correlation between labels may be asymmetric while asymmetry correlation commonly exists in the real-world scenario. To tackle this problem, a multi-label learning algorithm with asymmetry label correlation (ACML, Asymmetry Label Correlation for Multi-Label Learning) is proposed in this paper. First, measure the adjacency between labels to construct the label adjacency matrix. Then, cosine similarity is utilized to construct the label correlation matrix. Finally, we constrain the label correlation matrix with the label adjacency matrix. Thus, asymmetry label correlation is modeled for multi-label learning. Experiments on multiple multi-label benchmark datasets show that the ACML algorithm has certain advantages over other comparison algorithms. The results of statistical hypothesis testing further illustrate the effectiveness of the proposed algorithm.

  相似文献   

15.
基于极限学习机(ELM)的多标记学习算法多使用ELM分类模式,忽略标记之间存在的相关性.为此,文中提出结合关联规则与回归核极限学习机的多标记学习算法(ML-ASRKELM).首先通过关联规则分析标记空间,提取标记之间的规则向量.然后通过提出的多标记回归核极限学习机(ML-RKELM)得出预测结果.若规则向量不为空,将规则向量与预测结果运算得出最终预测结果,否则最终结果即为ML-RKELM的预测结果.对比实验表明ML-ASRKELM与ML-RKELM性能较优,统计假设检验进一步说明文中算法的有效性.  相似文献   

16.
钱龙  赵静  韩京宇  毛毅 《计算机工程》2022,48(6):73-78+88
多标签学习是机器学习领域的一个研究热点,其能够有效解决真实世界中的多语义问题。在多标签学习任务中,样本的多个标签之间存在一定的关联关系,忽略标签间的相关性会导致模型的泛化性能降低。提出一种基于标签间相关性的多标签学习K近邻算法。充分挖掘样本多标签间的相关性,通过Fp_growth算法得到标签的频繁项集。针对频繁项和标签分别构建评分模型和阈值模型,评分模型用于衡量样本与频繁项或标签之间的关联程度,阈值模型用于求解频繁项或标签对应的判别阈值,结合评分模型和阈值模型对样本所属频繁项进行预测,进而确定样本标签集。在经典数据集Emotions和Scene上的实验结果表明,该算法的F1-Measure指标分别达到66.6%和73.3%,相比CC、LP、RAKEL、MLDF等基准方法,其F1-Measure分别平均提高3.8和2.1个百分点,该算法通过合理利用标签间的相关性使得分类性能得到有效提升。  相似文献   

17.
刘杨磊    梁吉业    高嘉伟    杨静   《智能系统学报》2013,8(5):439-445
传统的多标记学习是监督意义下的学习,它要求获得完整的类别标记.但是当数据规模较大且类别数目较多时,获得完整类别标记的训练样本集是非常困难的.因而,在半监督协同训练思想的框架下,提出了基于Tri-training的半监督多标记学习算法(SMLT).在学习阶段,SMLT引入一个虚拟类标记,然后针对每一对类别标记,利用协同训练机制Tri-training算法训练得到对应的分类器;在预测阶段,给定一个新的样本,将其代入上述所得的分类器中,根据类别标记得票数的多少将多标记学习问题转化为标记排序问题,并将虚拟类标记的得票数作为阈值对标记排序结果进行划分.在UCI中4个常用的多标记数据集上的对比实验表明,SMLT算法在4个评价指标上的性能大多优于其他对比算法,验证了该算法的有效性.  相似文献   

18.
牟甲鹏  蔡剑  余孟池  徐建 《计算机应用研究》2020,37(9):2656-2658,2673
多标签学习中一个样本可同时属于多个类别标签,每个标签都可能拥有反映该标签特定特点的特征,即类属属性,目前已经出现了基于类属属性的多标签分类算法LIFT。针对LIFT算法中未考虑标签之间相互关系的问题,提出一种基于标签相关性的类属属性多标签分类算法CLLIFT。该算法使用标签距离度量标签之间的相关性,通过在类属属性空间附加相关标签的方式完成标签相关性的引入,以达到提升分类性能的目的。在四个多标签数据集上的实验结果表明,所提算法与LIFT算法相比在多个多标签评价指标上平均提升21.1%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号