首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
林梦雷  刘景华  王晨曦  林耀进 《计算机科学》2017,44(10):289-295, 317
在多标记学习中,特征选择是解决多标记数据高维性的有效手段。每个标记对样本的可分性程度不同,这可能会为多标记学习提供一定的信息。基于这一假设,提出了一种基于标记权重的多标记特征选择算法。该算法首先利用样本在整个特征空间的分类间隔对标记进行加权,然后将特征在整个标记集合下对样本的可区分性作为特征权重,以此衡量特征对标记集合的重要性。最后,根据特征权重对特征进行降序排列,从而得到一组新的特征排序。在6个多标记数据集和4个评价指标上的实验结果表明,所提算法优于一些当前流行的多标记特征选择算法。  相似文献   

2.
钟将  程一峰 《计算机工程》2012,38(8):144-146
为更好地对歌词进行情感分类,提出一种改进的基于类间差别的CHI特征选择方法。该方法可单独用于歌词情感特征提取,将选取的特征应用于支持向量机分类器中,融合音频特征与利用改进CHI方法选择的歌词特征对歌曲进行情感分类。实验结果表明,融合后的特征可以取得比任何单一种类特征更好的分类效果。  相似文献   

3.
基于PLSA主题模型的多标记文本分类   总被引:1,自引:1,他引:0  
为解决多标记文本分类时文本标记关系不明确以及特征维数 过大的问题,提出了基于概率隐语义分析(Probabilistic latent semantic analysis,PL SA)模型的多标记假设重用文本分类算法。该方法首先将训练样本通过PLSA模型映射到隐语 义空间,以文本的主题分布表示一篇文本,在去噪的同时可以大大降低数据维度。在此基础 上利用多标记假设重用算法(Multi label algorithm of hypothesis reuse,MAHR)进行 分类,由于经过PLSA降维后的特征组本身就具有语义信息,因此算法能够精确地挖掘出多标 记之间的关系并用于训练基分类器,从而避免了人为输入标记关系的缺陷。实验验证了该方 法能够充分利用PLSA降维得到的语义信息来改善多标记文本分类的性能。  相似文献   

4.
在多标记学习系统中,每个样本同时与多个类别标记相关,却均由一个属性特征向量描述。大部分已有的多标记分类算法采用的共同策略是使用相同的属性特征集合预测所有的类别标记,但它并非最佳选择,原因在于每个标记可能与其自身独有的属性特征相关性最大。针对这一问题,提出了融合标记独有属性特征的k近邻多标记分类算法—IML-kNN。首先对多标记数据的特征向量进行预处理,分别为每类标记构造对该类标记最具有判别能力的属性特征;然后基于得到的属性特征使用改进后的ML-kNN算法进行分类。实验结果表明,IML-kNN算法在yeast和image数据集上的性能明显优于ML-kNN算法以及其他3种常用的多标记分类算法。  相似文献   

5.
在多标记分类问题当中,多标记分类器的目的是为实例预测一个与其关联的标记集合。典型方法之一是将多标记分类问题转化为多个二类分类问题,这些二类分类器之间可以存在一定的关系。简单地考虑标记间依赖关系可以在一定程度上改善分类性能,但同时计算复杂度也是必须考虑的问题。该文提出了一种利用多标记间依赖关系的有序分类器集合算法,该算法通过启发式的搜索策略寻找分类器之间的某种次序,这种次序可以更好地反映标记间的依赖关系。在实验中,该文选取了来自不同领域的数据集和多个评价指标,实验结果表明该文所提出的算法比一般多标记分类算法具有更好的分类性能。  相似文献   

6.
基于标记特征的多标记分类算法通过对标记的正反样例集合进行聚类,计算样例与聚类中心间的距离构造样例针对标记的特征子集,并生成新的训练集,在新的训练集上利用传统的二分类器进行分类。算法在构造特征子集的过程中采用等权重方式,忽略了样例之间的相关性。提出了一种改进的多标记分类算法,通过加权方式使生成的特征子集更加准确,有助于提高样例的分类精度。实验表明改进的算法性能优于其他常用的多标记分类算法。  相似文献   

7.
音乐的情感标签预测对音乐的情感分析有着重要的意义。该文提出了一种基于情感向量空间模型的歌曲情感标签预测算法,首先,提取歌词中的情感特征词构建情感空间向量模型,然后利用SVM分类器对已知情感标签的音乐进行训练,通过分类技术找到与待预测歌曲情感主类一致的歌曲集合,最后,通过歌词的情感相似度计算找到最邻近的k首歌曲,将其标签推荐给待预测歌曲。实验发现本文提出的情感向量空间模型和“情感词—情感标签”共现的特征降维方法比传统的文本特征向量模型能够更好地提高歌曲情感分类准确率。同时,在分类基础上进行的情感标签预测方法可以有效地防止音乐“主类情感漂移”,比最近邻居方法达到更好的标签预测准确率。  相似文献   

8.
多数多标记学习方法通过在输出空间中,单示例同时与多个类别标记相关联表示多义性,目前有研究通过在输入空间将单一示例转化为示例包,建立包中多示例与多标记的联系。算法在生成示例包时采用等权重平均法计算每个标记对应样例的均值。由于数据具有局部分布特征,在计算该均值时考虑数据局部分布,将会使生成的示例包更加准确。本论文充分考虑数据分布特性,提出新的分类算法。实验表明改进算法性能优于其他常用多标记学习算法。  相似文献   

9.
在多标记学习的任务中,多标记学习的每个样本可被多个标签标记,比单标记学习的应用空间更广关注度更高,多标记学习可以利用关联性提高算法的性能。在多标记学习中,传统特征选择算法已不再适用,一方面,传统的特征选择算法可被用于单标记的评估标准。多标记学习使得多个标记被同时优化;而且在多标记学习中关联信息存在于不同标记间。因此,可设计一种能够处理多标记问题的特征选择算法,使标记之间的关联信息能够被提取和利用。通过设计最优的目标损失函数,提出了基于指数损失间隔的多标记特征选择算法。该算法可以通过样本相似性的方法,将特征空间和标记空间的信息融合在一起,独立于特定的分类算法或转换策略。优于其他特征选择算法的分类性能。在现实世界的数据集上验证了所提算法的正确性以及较好的性能。  相似文献   

10.
多示例多标记学习(Multi-Instance Multi-Label,MIML)是一种新的机器学习框架,基于该框架上的样本由多个示例组成并且与多个类别相关联,该框架因其对多义性对象具有出色的表达能力,已成为机器学习界研究的热点.解决MIML分类问题的最直接的思路是采用退化策略,通过向多示例学习或多标记学习的退化,将MIML框架下的分类问题简化为一系列的二类分类问题进行求解.但是在退化过程中会丢失标记之间的关联信息,降低分类的准确率.针对此问题,本文提出了MIMLSVM-LOC算法,该算法将改进的MIMLSVM算法与一种局部标记相关性的方法ML-LOC相结合,在训练过程中结合标记之间的关联信息进行分类.算法首先对MIMLSVM算法中的K-medoids聚类算法进行改进,采用的混合Hausdorff距离,将每一个示例包转化为一个示例,将MIML问题进行了退化.然后采用单示例多标记的算法ML-LOC算法继续以后的分类工作.在实验中,通过与其他多示例多标记算法对比,得出本文提出的算法取得了比其他分类算法更优的分类效果.  相似文献   

11.
情感是音乐最重要的语义信息,音乐情感分类广泛应用于音乐检索,音乐推荐和音乐治疗等领域.传统的音乐情感分类大都是基于音频的,但基于现在的技术水平,很难从音频中提取出语义相关的音频特征.歌词文本中蕴含着一些情感信息,结合歌词进行音乐情感分类可以进一步提高分类性能.本文将面向中文歌词进行研究,构建一部合理的音乐情感词典是歌词情感分析的前提和基础,因此基于Word2Vec构建音乐领域的中文情感词典,并基于情感词加权和词性进行中文音乐情感分析.本文首先以VA情感模型为基础构建情感词表,采用Word2Vec中词语相似度计算的思想扩展情感词表,构建中文音乐情感词典,词典中包含每个词的情感类别和情感权值.然后,依照该词典获取情感词权值,构建基于TF-IDF (Term Frequency-Inverse Document Frequency)和词性的歌词文本的特征向量,最终实现音乐情感分类.实验结果表明所构建的音乐情感词典更适用于音乐领域,同时在构造特征向量时考虑词性的影响也可以提高准确率.  相似文献   

12.
肖琳  陈博理  黄鑫  刘华锋  景丽萍  于剑 《软件学报》2020,31(4):1079-1089
自大数据蓬勃发展以来,多标签分类一直是令人关注的重要问题,在现实生活中有许多实际应用,如文本分类、图像识别、视频注释、多媒体信息检索等.传统的多标签文本分类算法将标签视为没有语义信息的符号,然而,在许多情况下,文本的标签是具有特定语义的,标签的语义信息和文档的内容信息是有对应关系的,为了建立两者之间的联系并加以利用,提出了一种基于标签语义注意力的多标签文本分类(LAbel Semantic Attention Multi-label Classification,简称LASA)方法,依赖于文档的文本和对应的标签,在文档和标签之间共享单词表示.对于文档嵌入,使用双向长短时记忆(bi-directional long short-term memory,简称Bi-LSTM)获取每个单词的隐表示,通过使用标签语义注意力机制获得文档中每个单词的权重,从而考虑到每个单词对当前标签的重要性.另外,标签在语义空间里往往是相互关联的,使用标签的语义信息同时也考虑了标签的相关性.在标准多标签文本分类的数据集上得到的实验结果表明,所提出的方法能够有效地捕获重要的单词,并且其性能优于当前先进的多标签文本分类算法.  相似文献   

13.
当标识示例的两个标签分别来源于两个标签集时,这种多标签分类问题称之为标签匹配问题,目前还没有针对标签匹配问题的学习算法。 尽管可以用传统的多标签分类学习算法来解决标签匹配问题,但显然标签匹配问题有其自身特殊性。 通过对标签匹配问题进行深入的研究,在连续AdaBoost(real Adaptive Boosting)算法的基础上,基于整体优化的思想,采用算法适应的方法,提出了基于双标签集的标签匹配集成学习算法,该算法能够较好地学习到标签匹配规律从而完成标签匹配。 实验结果表明,与传统的多标签学习算法用于解决标签匹配问题相比,提出的新算法不仅缩小了搜索的标签空间的范围,而且最小化学习误差可以随着分类器个数的增加而降低,进而使得标签匹配分类更加快速、准确。  相似文献   

14.
史绍亮  文益民  缪裕青 《计算机应用》2015,35(10):2721-2726
针对中文微博文本情感分类中每个样本最多只有两种有序情感标签的情形,提出了一种简单的多标签排序算法——TSMLR,该算法采用两步学习和两步分类的策略,通过学习情感标签之间的主次关系,对微博文本的情感进行分类并对情感标签进行排序。首先,将一个多标签排序问题转化为八个多类单标签分类问题,分别对主要情感标签和次要情感标签进行学习;然后,利用得到的分类模型对微博表达的情感进行两步分类,首先给出主要情感标签,再给出次要情感标签。通过在NLP&CC2014的中文微博文本情感分析评测数据集上进行实验,与校准标签排序方法(CLR)相比,TSMLR方法的准确度和平均精度分别提高了8.59%和9.28%,1-错误率相应下降了9.77%,而且TSMLR所需的训练时间相对较少。实验结果表明:TSMLR对标签之间顺序关系的学习能够有效提高对中文微博情感分类的准确率。  相似文献   

15.
多标签文本分类是指从一个极大的标签集合中为每个文档分配最相关的多个标签。该文提出一种多类型注意力机制下参数自适应模型(Parameter Adaptive Model under Multi-strategy Attention Mechanism, MSAPA)对文档进行建模和分类。MSAPA模型主要包括两部分:第一部分采用多类型注意力机制分别提取融合自注意力机制的全局关键词特征和局部关键词特征及融合标签注意力机制的全局关键词特征和局部关键词特征;第二部分采用多参数自适应策略为多类型注意力机制动态分配不同的权重,从而学习到更优的文本表示,提升分类的准确率。在AAPD和RCV1两个基准数据集上的大量实验证明了MSAPA模型的优越性。  相似文献   

16.
针对MLKNN算法仅对独立标签进行处理,忽略现实世界中标签之间相关性这一问题,提出了一种基于关联规则的MLKNN多标签分类算法(FP-MLKNN)。该算法采用关联规则算法挖掘标签之间的高阶相关性,并用标签之间的关联规则改进MLKNN算法,以达到提升分类性能的目的。首先,使用MLKNN算法求样本的特征置信度;采用关联规则算法挖掘生成一系列强关联规则,进而将2种算法进行融合来构造多标签分类器,对新标签进行预测;在此基础上,将本文提出的算法与MLKNN、AdaBoostMH和BPMLL这3种算法进行实验对比。实验结果表明,本文所提算法在yeast、emotions和enron数据集上的分类性能均优于这3种算法,具有较好的分类效果。  相似文献   

17.
多标签特征选择是针对多标签数据的特征选择技术,提高多标签分类器性能的重要手段。提出一种基于流形学习的约束Laplacian分值多标签特征选择方法(Manifold-based Constraint Laplacian Score,M-CLS)。方法分别在数据特征空间和类别标签空间定义两种Laplacian分值:在特征空间利用逻辑型类别标签的相似性对邻接矩阵进行改进,定义特征空间的约束Laplacian分值;在标签空间基于流形学习将逻辑型类别标签映射为数值型,定义实值标签空间的Laplacian分值。将两种分值的乘积作为最终的特征评价指标。实验结果表明,所提方法性能优于多种多标签特征选择方法。  相似文献   

18.
作为仅次于及时通信和搜索引擎的中国互联网网民第三大应用,网络音乐及其应用技术受到业界学者的青睐。音乐作为人类最重要的交流媒介,携带着丰富的情感信息,计算机音乐情感分析更是得到人机情感交互技术领域的高度重视。在基于歌词文本的音乐情感分析过程中,一部合理的音乐领域情感词典,将提供更加细致、更加准确的分析结果。以改进后的Hevner情感环模型为基础,借助HowNet所提供的语义资源和从网络爬取的歌词文本语料库,构建了一部树形层次结构的音乐领域中文情感词典,并利用LRC歌词携带的时间标签获取歌曲的语速信息,实现了基于情感向量空间模型和情感词典的歌词情感分类。实验表明与人工构建的情感词典相比,所构建的情感词典更适用于音乐领域。  相似文献   

19.
多标签文本分类问题是多标签分类的重要分支之一,现有的方法往往忽视了标签之间的关系,难以有效利用标签之间存在着的相关性,从而影响分类效果.基于此,本文提出一种融合BERT和图注意力网络的模型HBGA(hybrid BERT and graph attention):首先,利用BERT获得输入文本的上下文向量表示,然后用Bi-LSTM和胶囊网络分别提取文本全局特征和局部特征,通过特征融合方法构建文本特征向量,同时,通过图来建模标签之间的相关性,用图中的节点表示标签的词嵌入,通过图注意力网络将这些标签向量映射到一组相互依赖的分类器中,最后,将分类器应用到特征提取模块获得的文本特征进行端到端的训练,综合分类器和特征信息得到最终的预测结果.在Reuters-21578和AAPD两个数据集上面进行了对比实验,实验结果表明,本文模型在多标签文本分类任务上得到了有效的提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号