首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
随着大数据技术的快速发展,多标签文本分类在司法领域也催生出诸多应用.在法律文本中通常存在多个要素标签,标签之间往往具有相互依赖性或相关性,准确识别这些标签需要多标签分类方法的支持.因此,文中提出融合标签关系的法律文本多标签分类方法.方法构建标签的共现矩阵,利用图卷积网络捕捉标签之间的依赖关系,并结合标签注意力机制,计算法律文本和标签每个词的相关程度,得到特定标签的法律文本语义表示.最后,融合标签图构建的依赖关系和特定标签的法律文本语义表示,对文本进行综合表示,实现文本的多标签分类.在法律数据集上的实验表明,文中方法获得较好的分类精度和稳定性.  相似文献   

2.
肖琳  陈博理  黄鑫  刘华锋  景丽萍  于剑 《软件学报》2020,31(4):1079-1089
自大数据蓬勃发展以来,多标签分类一直是令人关注的重要问题,在现实生活中有许多实际应用,如文本分类、图像识别、视频注释、多媒体信息检索等.传统的多标签文本分类算法将标签视为没有语义信息的符号,然而,在许多情况下,文本的标签是具有特定语义的,标签的语义信息和文档的内容信息是有对应关系的,为了建立两者之间的联系并加以利用,提出了一种基于标签语义注意力的多标签文本分类(LAbel Semantic Attention Multi-label Classification,简称LASA)方法,依赖于文档的文本和对应的标签,在文档和标签之间共享单词表示.对于文档嵌入,使用双向长短时记忆(bi-directional long short-term memory,简称Bi-LSTM)获取每个单词的隐表示,通过使用标签语义注意力机制获得文档中每个单词的权重,从而考虑到每个单词对当前标签的重要性.另外,标签在语义空间里往往是相互关联的,使用标签的语义信息同时也考虑了标签的相关性.在标准多标签文本分类的数据集上得到的实验结果表明,所提出的方法能够有效地捕获重要的单词,并且其性能优于当前先进的多标签文本分类算法.  相似文献   

3.
为了准确识别网络文本中的价值观倾向,该文提出了一种融合标签语义知识实现价值观多标签文本分类的策略。首先基于价值观理论体系,构建了价值观知识图谱;然后构建了价值观多标签文本分类数据集;最后提出了融合标签语义知识的价值观多标签文本分类模型,通过两种方式融合价值观标签的语义知识。其一,利用标签语义信息进行文本表示学习,获得每个标签对于文本中不同词的重要程度;其二,利用标签的语义知识,计算标签与文本的语义相似度,并与分类模型结果融合。实验表明,该方法可以较好地解决价值观多标签分类问题,尤其可以缓解“尾标签”问题,最终在top@1结果上达到62.44%的精确率,在top@3上达到66.92%的召回率。  相似文献   

4.
文本语义匹配指基于给定的文本判别文本之间的语义关系。针对该任务,现有模型的信息编码未考虑利用除汉字字符外的潜在语义信息,且在分类时未考虑标签信息对模型性能的影响。因此,该文提出了一种使用汉字形音义多元知识和标签嵌入的文本语义匹配方法。首先,通过信息编码层对汉字的形音义的多元知识进行编码;其次,通过信息整合层获取融合汉字形音义多元知识的联合表示;然后,经过标签嵌入层利用编码后的分类标签与汉字形音义的联合表示生成信号监督标签;最后,经过标签预测层获取文本层面与标签层面的联合信息表示,进而对文本语义关系进行最终的判别。在多个数据集上的实验结果显示,该文提出的模型优于多个基线模型,验证了模型的有效性。  相似文献   

5.
多标签文本分类是一项基础而实用的任务,其目的是为文本分配多个可能的标签。近年来,人们提出了许多基于深度学习的标签关联模型,以结合标签的信息来学习文本的语义表示,取得了良好的分类性能。通过改进标签关联的建模和文本语义表示来推进这一研究方向。一方面,构建的层级图标签表示,除了学习每个标签的局部语义外,还进一步研究多个标签共享的全局语义。另一方面,为了捕捉标签和文本内容间的联系并加以利用,使用标签文本注意机制来引导文本特征的学习过程。在三个多标签基准数据集上的实验表明,该模型与其他方法相比具有更好的分类性能。  相似文献   

6.
基于深度学习的多标签文本分类方法存在两个主要缺陷:缺乏对文本信息多粒度的学习,以及对标签间约束性关系的利用.针对这些问题,提出一种多粒度信息关系增强的多标签文本分类方法.首先,通过联合嵌入的方式将文本与标签嵌入到同一空间,并利用BERT预训练模型获得文本和标签的隐向量特征表示.然后,构建3个多粒度信息关系增强模块:文档级信息浅层标签注意力分类模块、词级信息深层标签注意力分类模块和标签约束性关系匹配辅助模块.其中,前两个模块针对共享特征表示进行多粒度学习:文档级文本信息与标签信息浅层交互学习,以及词级文本信息与标签信息深层交互学习.辅助模块通过学习标签间关系来提升分类性能.最后,所提方法在3个代表性数据集上,与当前主流的多标签文本分类算法进行了比较.结果表明,在主要指标Micro-F1、MacroF1、nDCG@k、P@k上均达到了最佳效果.  相似文献   

7.
针对标签随着时间变化的动态多标签文本分类问题,提出了一种基于标签语义相似的动态多标签文本分类算法。该算法在训练阶段,首先按照标签固定训练得到一个基于卷积神经网络的多标签文本分类器,然后以该分类器的倒数第二层的输出为文本的特征向量。由于该特征向量是在有标签训练得到的,因而相对于基于字符串即文本内容而言,该特征向量含有标签语义信息。在测试阶段,将测试文档输入训练阶段的多标签文本分类器获取相应的特征向量,然后计算相似性,同时乘以时间衰减因子修正,使得时间越近的文本具有较高的相似性。最后,采用最近邻算法分类。实验结果表明,该算法在处理动态多标签文本分类问题上具有较优的性能。  相似文献   

8.
多标签文本分类旨在为文本分配多个标签,其关键挑战在于如何利用标签之间的关联性.目前方法主要采用循环神经网络相比传统方法能更好地建模标签高阶关联,但存在难以确定标签顺序的问题,以及缺乏对标签关联程度进行建模.为此,论文提出一种基于改进图循环神经网络的多标签文本分类方法.首先,根据标签共现构建标签图数据,然后将多标签分类转换为标签图生成,最后通过广度优先搜索将生成的标签图转回为标签集,作为分类结果.相关实验表明,论文提出的模型在instance-F1和label-F1指标上优于基线模型,细粒度建模了标签关联,同时减少了模型对于标签顺序的依赖.  相似文献   

9.
设计和分析了一种无芯片射频识别(RFID)标签.标签由多个按规律排列C形谐振器构成,通过频率编码实现有效的带宽利用,提出新的“0”位编码方式,提高了标签雷达散射截面(RCS)响应的鲁棒性.根据标签结构特性提出了一种新的编码方法,使标签的编码密度增加2倍,在22 mm×40 mm的尺寸内实现20位的编码容量.观测标签对应的RCS曲线得到仿真结果:相比之前的无芯片标签,设计的标签具有更稳定的RCS响应和更高的编码容量,更适用于实际的需求.  相似文献   

10.
针对当前大多数分类算法忽略标签之间相关性的问题,提出一种基于双向长短时记忆(Bi-LSTM)网络和图注意力网络(Graph Attention Network, GAT)的多标签文本分类算法。使用词嵌入工具对文本序列和标签中的词向量进行预处理后的文本序列和标签分别输入到Bi-LSTM网络和GAT网络中;提取文本序列的上下文信息和全局特征,以及GAT网络捕获标签之间的相关性;将特征向量和标签相关性进行组合对标签文本分类任务进行预测。实验结果表明,所提算法通过有效关注标签之间的相关性使得文本分类任务的精度得以明显提高,在多个评估指标的测试结果优于其他对比方法。  相似文献   

11.
林呈宇  王雷  薛聪 《计算机应用》2023,43(2):335-342
针对弱监督文本分类任务中存在的类别词表噪声和标签噪声问题,提出了一种标签语义增强的弱监督文本分类模型。首先,基于单词上下文语义表示对类别词表去噪,从而构建高度准确的类别词表;然后,构建基于MASK机制的词类别预测任务对预训练模型BERT进行微调,以学习单词与类别的关系;最后,利用引入标签语义的自训练模块来充分利用所有数据信息并减少标签噪声的影响,以实现词级到句子级语义的转换,从而准确预测文本序列类别。实验结果表明,与目前最先进的弱监督文本分类模型LOTClass相比,所提方法在THUCNews、AG News和IMDB公开数据集上,分类准确率分别提高了5.29、1.41和1.86个百分点。  相似文献   

12.
任炜  白鹤翔 《计算机应用》2022,42(5):1383-1390
针对多标签图像分类任务中存在的难以对标签间的相互作用建模和全局标签关系固化的问题,结合自注意力机制和知识蒸馏(KD)方法,提出了一种基于全局与局部标签关系的多标签图像分类方法(ML-GLLR)。首先,局部标签关系(LLR)模型使用卷积神经网络(CNN)、语义模块和双层自注意力(DLSA)模块对局部标签关系建模;然后,利用KD方法使LLR学习全局标签关系。在公开数据集MSCOCO2014和VOC2007上进行实验,LLR相较于基于图卷积神经网络多标签图像分类(ML-GCN)方法,在平均精度均值(mAP)上分别提高了0.8个百分点和0.6个百分点,ML-GLLR相较于LLR在mAP上分别进一步提高了0.2个百分点和1.3个百分点。实验结果表明,所提ML-GLLR不仅能对标签间的相互关系进行建模,也能避免全局标签关系固化的问题。  相似文献   

13.
在初等数学领域的命名实体识别(NER)中,针对传统命名实体识别方法中词嵌入无法表征一词多义以及特征提取过程中忽略部分局部特征的问题,提出一种基于BERT的初等数学文本命名实体识别方法——BERT-BiLSTM-IDCNN-CRF.首先,采用BERT进行预训练,然后将训练得到的词向量输入到双向长短期记忆(BiLSTM)网...  相似文献   

14.
赵静  韩京宇  钱龙  毛毅 《计算机应用》2022,42(6):1892-1897
心电图(ECG)数据通常包含多种病症,而ECG诊断是一个典型的多标签分类问题。在多标签分类方法中,RAKEL算法将标签集随机分解为若干个大小为k的子集,并建立LP分类器进行训练;然而由于没有充分考虑标签间的相关性,LP分类器中容易产生一些标签组合所对应样本稀少的情况,从而影响预测性能。为了充分考虑标签间的相关性,提出一种基于贝叶斯网络的RAKEL算法BN-RAKEL。首先利用贝叶斯网络找到标签间的相关性,确定候选标签子集;然后对每个标签采用基于信息增益的特征选择算法确定其最优特征空间,并针对每个候选标签子集利用最优特征空间相似性来检测其相关程度,以确定最终的具有强相关性的标签子集;最后在标签子集的最优特征空间上训练LP分类器。在实际的ECG数据集上,与多标签K近邻(ML-KNN)、RAKEL、CC和基于FP-Growth的RAKEL算法FI-RAKEL进行对比,结果显示所提算法在召回率和F-score上最少提高了3.6个百分点和2.3个百分点。实验结果表明,BN-RAKEL算法有较好的预测性能,能有效提升ECG诊断的准确性。  相似文献   

15.
曾兰兰  王以松  陈攀峰 《计算机应用》2022,42(10):3011-3017
正确识别裁判文书中的实体是构建法律知识图谱和实现智慧法院的重要基础。然而常用的命名实体识别(NER)模型并不能很好地解决裁判文书中的多义词表示和实体边界识别错误的问题。为了有效提升裁判文书中各类实体的识别效果,提出了一种基于联合学习和BERT的BiLSTM-CRF(JLB-BiLSTM-CRF)模型。首先,利用BERT对输入字符序列进行编码以增强词向量的表征能力;然后,使用双向长短期记忆(BiLSTM)网络建模长文本信息,并将NER任务和中文分词(CWS)任务进行联合训练以提升实体的边界识别率。实验结果表明,所提模型在测试集上的精确率达到了94.36%,召回率达到了94.94%,F1值达到了94.65%,相较于BERT-BiLSTM-CRF模型分别提升了1.05个百分点、0.48个百分点和0.77个百分点,验证了JLB-BiLSTM-CRF模型在裁判文书NER任务上的有效性。  相似文献   

16.
谢斌红  李书宁  张英俊 《计算机应用》2022,42(10):3003-3010
针对现有细粒度实体分类(FGET)任务的工作多着眼于如何更好地编码实体和上下文的语义信息,而忽略了标签层次结构中标签之间的依赖关系及其本身的语义信息的问题,提出了一种基于层次结构感知的细粒度实体分类(HAFGET)方法。首先,利用基于图卷积网络(GCN)的层次结构编码器对不同层级标签之间的依赖关系进行建模,提出了基于层次结构感知的细粒度实体分类多标签注意力(HAFGET-MLA)模型和基于层次结构感知的细粒度实体分类实体特征传播(HAFGET-MFP)模型;然后,利用HAFGET-MLA模型和HAFGET-MFP模型对实体上下文特征进行层次结构感知和分类,前者通过层次编码器学习层次结构感知标签嵌入,并与实体特征通过注意力融合后进行标签分类,后者则直接将实体特征输入到层次结构编码器更新特征表示后进行分类。在FIGER、OntoNotes和KNET三个公开数据集上的实验结果表明,与基线模型相比,HAFGET-MLA模型和HAFGET-MFP模型的准确率和宏平均F1值均提升了2%以上,验证了所提方法能够有效提升分类效果。  相似文献   

17.
针对页岩气储层数据获取困难、标签稀缺、标注成本高昂的问题,提出一种多标准主动查询的多标签学习(MAML)算法.首先,考虑样本的信息性和代表性来对样本进行初步处理;其次,加入包括属性差异性和标签丰富性的样本丰富性约束,在此基础上选择有价值的样本进行标签查询;最后,利用多标签学习算法来预测剩余样本的标签.通过11个Yaho...  相似文献   

18.
节点标签是复杂网络中广泛存在的监督信息,对网络表示学习具有重要作用。基于此,提出了一种结合图自编码器与聚类的半监督表示学习方法(GAECSRL)。首先,以图卷积网络(GCN)和内积函数分别作为编码器和解码器,并构建图自编码器以形成信息传播框架;然后,在编码器生成的低维表示基础上增加k-means聚类模块,从而使图自编码器的训练过程和节点的类别分布划分形成自监督机制;最后,利用节点标签的判别信息对网络低维表示的类别划分进行指导,将网络表示生成、类别划分以及图自编码器的训练构建在一个统一的优化模型中,并获得融合节点标签信息的有效网络表示结果。在仿真实验中,将GAECSRL用于节点分类和链接预测任务。实验结果表明,相比DeepWalk、node2vec、全局结构信息图表示学习(GraRep)、结构化深度网络嵌入(SDNE)和用数据的转导式或归纳式嵌入预测标签和邻居(Planetoid),在节点分类任务中GAECSRL的Micro?F1指标提高了0.9~24.46个百分点,Macro?F1指标提高了0.76~24.20个百分点;在链接预测任务中,GAECSRL的AUC指标提高了0.33~9.06个百分点,说明GAECSRL获得的网络表示结果能有效提高节点分类和链接预测任务的性能。  相似文献   

19.
针对阿尔兹海默症(AD)患者和正常(NC)人之间核磁共振成像(MRI)图像差别小、分类难度大的问题,提出了基于改进VGG网络的弱监督细粒度AD分类方法.该方法以弱监督数据增强网络(WSDAN)为基本模型,主要由弱监督注意力学习模块、数据增强模块及双线性注意力池化模块等构成.首先,通过弱监督力注意学习模块生成特征图和注意...  相似文献   

20.
杜雨奇  郑津  王杨  黄诚  李平 《计算机应用》2022,42(12):3692-3699
文本分割的主要任务是将文本按照主题相关的原则划分为若干个相对独立的文本块。针对现有文本分割模型提取文本段落结构信息、语义相关性及上下文交互等细粒度特征的不足,提出了一种基于图卷积网络(GCN)的文本分割模型TS-GCN。首先,基于文本段落的结构信息与语义逻辑构建出文本图;然后,引入语义相似性注意力来捕获文本段落节点间的细粒度相关性,并借助GCN实现文本段落节点高阶邻域间的信息传递,以此增强模型多粒度提取文本段落主题特征表达的能力。将所提模型与目前常用作文本分割任务基准的代表模型CATS及其基础模型TLT-TS进行对比。实验结果表明在Wikicities数据集上,TS-GCN在未增加任何辅助模块的情况下比TLT-TS的评价指标Pk值下降了0.08个百分点;在Wikielements数据集上,相较于CATS和TLT-TS,所提模型的Pk值分别下降了0.38个百分点和2.30个百分点,可见TLT-TS取得了较好的分割效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号