共查询到19条相似文献,搜索用时 69 毫秒
1.
现实世界的大量应用,比如文档归类、网页分类、专利分类等,其类别信息(标签)是一个具有层次关系的体系,对它们进行自动分类涉及到在此层次标签体系中选择多个正确的标签,因此形成了一类层次多标签文本分类问题.如何学习和利用这些不同层级的关系、并对分类结果从层级关系遵循性的角度进行评价成为层次多标签分类问题的难点和挑战.本文对层... 相似文献
2.
多标签文本分类是一项基础而实用的任务,其目的是为文本分配多个可能的标签。近年来,人们提出了许多基于深度学习的标签关联模型,以结合标签的信息来学习文本的语义表示,取得了良好的分类性能。通过改进标签关联的建模和文本语义表示来推进这一研究方向。一方面,构建的层级图标签表示,除了学习每个标签的局部语义外,还进一步研究多个标签共享的全局语义。另一方面,为了捕捉标签和文本内容间的联系并加以利用,使用标签文本注意机制来引导文本特征的学习过程。在三个多标签基准数据集上的实验表明,该模型与其他方法相比具有更好的分类性能。 相似文献
3.
基于词频分类器集成的文本分类方法 总被引:8,自引:0,他引:8
提出了一种基于词频分类器集成的文本分类方法.词频分类器是在对文本中的单词和它在每个文本中出现的频率进行统计后得到的简单分类器.虽然词频分类器本身泛化能力不强,但它不仅计算代较小,而且在训练样本甚至类别增加时易于进行更新,而整个学习系统的泛化能力可以由集成学习机制来提高,因此,词频分类器很适合用做集成学习的基分类器.在集成时,使用了改进的AdaBoost算法,加入了一种强制重新分布权的机制,避免算法过早停止,更加适合文本分类任务.在标准文集Reuters-21578上的实验结果表明,该方法能取得很好的效果. 相似文献
4.
目前许多多标签文本分类方法主要关注文档表示,而丢失了大量标签相关的语义信息,导致分类效果不理想。针对以上问题,提出一种基于标签推理和注意力融合的分类方法,挖掘文档中与标签相关的特征以及相似标签之间的相关性,学习标签信息进行标签推理,同时采用注意力机制自学习地融合文档表示和标签表示,最终完成多标签分类任务。在AAPD和RCV1-V2数据集上进行实例验证,该方法的F1值分别达到了0.732和0.887,与其他最新方法相比其准确度均有提升,实验结果证明了标签推理和注意力融合策略的有效性。 相似文献
5.
文本分类作为自然语言处理中一个基本任务,在20世纪50年代就已经对其算法进行了研究,现在单标签文本分类算法已经趋向成熟,但是对于多标签文本分类的研究还有很大的提升空间.介绍了多标签文本分类的基本概念以及基本流程,包括数据集获取、文本预处理、模型训练和预测结果.介绍了多标签文本分类的方法.这些方法主要分为两大类:传统机器... 相似文献
6.
多标签文本分类旨在为文本分配多个标签,其关键挑战在于如何利用标签之间的关联性.目前方法主要采用循环神经网络相比传统方法能更好地建模标签高阶关联,但存在难以确定标签顺序的问题,以及缺乏对标签关联程度进行建模.为此,论文提出一种基于改进图循环神经网络的多标签文本分类方法.首先,根据标签共现构建标签图数据,然后将多标签分类转换为标签图生成,最后通过广度优先搜索将生成的标签图转回为标签集,作为分类结果.相关实验表明,论文提出的模型在instance-F1和label-F1指标上优于基线模型,细粒度建模了标签关联,同时减少了模型对于标签顺序的依赖. 相似文献
7.
随着大数据技术的快速发展,多标签文本分类在司法领域也催生出诸多应用.在法律文本中通常存在多个要素标签,标签之间往往具有相互依赖性或相关性,准确识别这些标签需要多标签分类方法的支持.因此,文中提出融合标签关系的法律文本多标签分类方法.方法构建标签的共现矩阵,利用图卷积网络捕捉标签之间的依赖关系,并结合标签注意力机制,计算法律文本和标签每个词的相关程度,得到特定标签的法律文本语义表示.最后,融合标签图构建的依赖关系和特定标签的法律文本语义表示,对文本进行综合表示,实现文本的多标签分类.在法律数据集上的实验表明,文中方法获得较好的分类精度和稳定性. 相似文献
8.
自大数据蓬勃发展以来,多标签分类一直是令人关注的重要问题,在现实生活中有许多实际应用,如文本分类、图像识别、视频注释、多媒体信息检索等.传统的多标签文本分类算法将标签视为没有语义信息的符号,然而,在许多情况下,文本的标签是具有特定语义的,标签的语义信息和文档的内容信息是有对应关系的,为了建立两者之间的联系并加以利用,提出了一种基于标签语义注意力的多标签文本分类(LAbel Semantic Attention Multi-label Classification,简称LASA)方法,依赖于文档的文本和对应的标签,在文档和标签之间共享单词表示.对于文档嵌入,使用双向长短时记忆(bi-directional long short-term memory,简称Bi-LSTM)获取每个单词的隐表示,通过使用标签语义注意力机制获得文档中每个单词的权重,从而考虑到每个单词对当前标签的重要性.另外,标签在语义空间里往往是相互关联的,使用标签的语义信息同时也考虑了标签的相关性.在标准多标签文本分类的数据集上得到的实验结果表明,所提出的方法能够有效地捕获重要的单词,并且其性能优于当前先进的多标签文本分类... 相似文献
9.
分类是数据挖掘领域研究的核心技术之一,分类器性能评估方法也是众多学者的研究热点之一。以往的分类器性能评估方法一般针对于单标签数据集,对于多标签问题并未涉及。文中主要针对多标签分类问题中的单实例情况,提出了一种多标签分类器准确性评估方法(EMOSIML)。该方法的思路是:如果分类器对一个多标签对象预测的类别标签是其属于的多个类别标签中的任何一个,则分类结果都是正确的。该方法用C#编程实现,并对朴素贝叶斯分类器进行分类器性能评估实验,实验结果表明,EMOSIML评估方法较传统的准确率评估方法更合理。 相似文献
10.
多标签分类器准确性评估方法的研究 总被引:1,自引:0,他引:1
分类是数据挖掘领域研究的核心技术之一,分类器性能评估方法也是众多学者的研究热点之一。以往的分类器性能评估方法一般针对于单标签数据集,对于多标签问题并未涉及。文中主要针对多标签分类问题中的单实例情况,提出了一种多标签分类器准确性评估方法(EMOSIML)。该方法的思路是:如果分类器对一个多标签对象预测的类别标签是其属于的多个类别标签中的任何一个,则分类结果都是正确的。该方法用C#编程实现,并对朴素贝叶斯分类器进行分类器性能评估实验,实验结果表明,EMOSIML评估方法较传统的准确率评估方法更合理。 相似文献
11.
本文提出一种文本分类的新方法,该方法将模糊聚类与基于Naive Bayes的EM分类算法相结合,从而大大提高了EM分类算法的准确性,并解决了使用字符匹配引起的不完整性和不准确性问题。该方法首先给出每个类的一些关键词,并把这些关键词作为聚类中心进行聚类,然后使用距离聚类中心较近的文档启动一个引导过程。 相似文献
12.
人脸检测级联分类器快速训练算法 总被引:2,自引:0,他引:2
目前AdaBoost训练算法已被广泛地应用于人脸检测中级联分类器的构建,而AdaBoost算法训练级联分类器的周期却十分漫长.为了减少训练时间,文中提出了一种基于AdaBoost的改进训练算法.该算法通过对弱分类器的阈值选择进行一趟处理来降低运算时间复杂度,并根据AdaBoost训练迭代中只改变样本权值而不更新样本的特点对特征值和排序结果进行缓存来提高训练算法的性能.实验结果表明,该算法大幅提高了人脸检测分类器训练系统的性能,使得分类器的训练时间缩短了60多倍.由于AdaBoost算法的通用性,该改进算法不仅适用于人脸检测,也适合所有进行权值更新迭代训练的Boosting算法. 相似文献
13.
学习类属特征方法为每个标签选择特有特征并考虑成对标签的相关性以降低维度,可有效解决多标签分类遇到的维度过大问题,但缺乏对实例相关性的考虑.针对此问题,文中提出基于类属特征和实例相关性的多标签分类算法,不仅考虑标签相关性还考虑实例特征的相关性.通过构建相似性图,学习实例特征空间的相似性.在8个数据集上的实验表明,文中算法可有效提取类属特征,具有较好的分类性能. 相似文献
14.
15.
16.
随着网络购物的高速发展,网络商家和购物者在网络交易活动中产生了大量的交易数据,其中蕴含着巨大的分析价值。针对社交电商商品文本的文本分类问题,为了更加高效准确地判断文本所描述商品的类别,提出了一种基于BERT模型的社交电商文本分类算法。首先,该算法采用BERT(Bidirectional Encoder Representations from Transformers)预训练语言模型来完成社交电商文本的句子层面的特征向量表示,随后有针对性地将获得的特征向量输入分类器进行分类,最后采用社交电商文本的数据集进行算法验证。实验结果表明,经过训练的模型在测试集上的分类结果F1值最高可达94.61%,高出BERT模型针对MRPC的分类任务6%。因此,所提社交电商文本分类算法能够较为高效准确地判断文本所描述商品的类别,有助于进一步分析网络交易数据,从海量数据中提取有价值的信息。 相似文献
17.
针对多标记数据的不确定性以及噪声数据的存在,提出了一种新的多标记稳健模糊粗糙分类模型。该模型是处理单标记分类问题的k-mean稳健统计量模糊粗糙分类模型的扩展应用。对于每个待分类数据,首先根据相似性计算方法,得到它们相对于各标记的隶属度;然后根据隶属度定义待分类数据与各标记的相关度;最后为每一组相关度赋予合适的阈值,得到相关的标记集合。在3个标准多标记数据集和1个真实多标记文本数据集上的实验结果表明,对于多标记文本分类问题,所提模型在 6个常用的多标记评测指标上较常用的ML-kNN和rank-SVM多标记学习方法具有更高的准确率。 相似文献
18.
多标签学习已成为当前机器学习的研究热点.为了提高分类性能,对训练集中的噪声数据进行预处理,提出一种基于k近邻(kNN)的多标签分类去噪方法:对现有的多标签数据集进行分析后获得近似正态分布的特征,通过将噪声标记改为其k近邻标记的方法,滤去部分噪声信息,从而得到相对高质量的数据集.在MULAN平台上使用多个数据集对6种多标签分类算法进行了噪声去除前后的对比测试,实验结果表明,多标签的预处理方法有效提高了分类器的性能.此方法对于分布特征明显的数据集具有较好的适用性. 相似文献
19.
移动机器人所处环境的地点语义信息能够提高机器人自主定位、路径规划和人机互动的能力.为了让机器人识别环境中不同地点类型,提出一种对机器人所处环境地点类型进行语义分类的方法.该方法对激光传感器的测距数据进行特征提取,通过提取的样本集利用强化学习AdaBoost方法构建分类器,对于环境中多类型地点分类识别,将获得的二分类器有顺序地排列建立分类列表形成多分类器,将获得的多分类器运用到房间、走廊和门口的分类识别中.实验结果表明:移动机器人通过该方法都能对环境下不同地点类型进行有效的分类识别. 相似文献