首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对现有意图识别联合模型在专业领域知识图谱问答中容易发生识别领域实体以及问句分类错误的情况,提出一个结合了领域知识图谱的意图识别联合模型。该模型有三步,将领域知识图谱中实体对应的本体标签以及本体间关系导入训练数据集,形成包含本体标签的知识文本以及额外包含本体关系的知识文本图;通过字符级嵌入和位置信息嵌入将包含了本体标签的知识文本转化成嵌入表示并依据知识文本图创建实体关系可视矩阵,明确知识文本各成分的相关程度;将嵌入表示和实体关系可视矩阵输入模型编码层进行模型的训练。以高速列车领域知识图谱为例,经过准确率和召回率的验证,以该方法训练出的模型在高速列车领域问答数据集的意图识别任务上取得了更好的表现。  相似文献   

2.
传统的多标签文本分类算法在挖掘标签的关联信息和提取文本与标签之间的判别信息过程中存在不足,由此提出一种基于标签组合的预训练模型与多粒度融合注意力的多标签文本分类算法。通过标签组合的预训练模型训练得到具有标签关联性的文本编码器,使用门控融合策略融合预训练语言模型和词向量得到词嵌入表示,送入预训练编码器中生成基于标签语义的文本表征。通过自注意力和多层空洞卷积增强的标签注意力分别得到全局信息和细粒度语义信息,自适应融合后输入到多层感知机进行多标签预测。在特定威胁识别数据集和两个通用多标签文本分类数据集上的实验结果表明,提出的方法在能够有效捕捉标签与文本之间的关联信息,并在F1值、汉明损失和召回率上均取得了明显提升。  相似文献   

3.
在多标签文本分类任务中,每个给定的文档都对应一组相关标签。目前主要面临以下三方面问题:(1)对标签-文本和标签-标签关系的联合建模不充分;(2)对标签本身语义的挖掘不足;(3)忽略了对标签内部结构信息的利用。对于以上问题,提出了一种基于联合注意力和共享语义空间的多标签文本分类方法。提出了融合多头注意力机制,该方法旨在同步地对标签与文档的关系和标签之间的关系进行建模,利用两者交互信息的同时避免误差传递。提出了解耦的共享语义空间嵌入方法,改进了利用标签语义信息的方法,使用共享参数的编码器提取标签和文档的语义表示,减少其在建模相关性阶段的偏差。提出了一种基于先验知识的层次提示方法,利用预训练模型中的先验知识增强标签层次结构信息。实验结果表明,该方法在公开数据集上优于目前最先进的多标签文本分类模型。  相似文献   

4.
为了准确识别网络文本中的价值观倾向,该文提出了一种融合标签语义知识实现价值观多标签文本分类的策略。首先基于价值观理论体系,构建了价值观知识图谱;然后构建了价值观多标签文本分类数据集;最后提出了融合标签语义知识的价值观多标签文本分类模型,通过两种方式融合价值观标签的语义知识。其一,利用标签语义信息进行文本表示学习,获得每个标签对于文本中不同词的重要程度;其二,利用标签的语义知识,计算标签与文本的语义相似度,并与分类模型结果融合。实验表明,该方法可以较好地解决价值观多标签分类问题,尤其可以缓解“尾标签”问题,最终在top@1结果上达到62.44%的精确率,在top@3上达到66.92%的召回率。  相似文献   

5.
关系抽取旨在从未经标注的自由文本中抽取实体间的关系.然而,现有的方法大都孤立地预测每一个关系而未考虑关系标签相互之间的丰富语义关联.该文提出了一种融合预训练语言模型和标签依赖知识的关系抽取模型.该模型通过预训练模型BERT编码得到句子和两个目标实体的语义信息,使用图卷积网络建模关系标签之间的依赖图,并结合上述信息指导最...  相似文献   

6.
随着信息化领域的范围不断扩大,许多特定领域的文本语料开始涌现。这些特定领域,如医疗、通信等,由于受到安全性和敏感性的影响,其数据规模通常较小,传统的词嵌入学习模型难以获得有效的结果。另一方面,直接应用现有的预训练语言模型时会出现较多未登录词,这些词汇无法表示成向量,从而影响下游任务的性能表现。许多学者开始研究如何利用细粒度语义信息来得到较高质量的未登录词向量表示。然而,当前的未登录词嵌入学习模型大多针对英文语料,对中文词的细粒度语义信息只能进行简单的拼接或映射,难以在中文未登录词嵌入学习任务中得到有效的向量表示。针对上述问题,首先通过中文构字规则,即中文词所包含的汉字、汉字所包含的部件和拼音等,构建细粒度的知识图谱,使其不仅能涵盖汉字和单词之间的关联关系,还能对拼音和汉字、组件和汉字等细粒度语义信息之间的多元且复杂的关联关系进行表征。然后,在知识图谱上运行图卷积算法,从而对中文词的细粒度语义信息之间以及它们与词语义之间更深层次的关系进行建模。此外,文中通过在子图结构上构建图读出来进一步挖掘细粒度语义信息与词语义信息之间的组成关系,据此提升模型在未登录词嵌入推断中的精准度。实验结果表明,...  相似文献   

7.
针对目前已有的文本分类方法未考虑文本内部词之间的语义依存信息而需要大量训练数据的问题,提出基于语义依存分析的图网络文本分类模型TextSGN。首先对文本进行语义依存分析,对语义依存关系图中的节点(单个词)和边(依存关系)进行词嵌入和one-hot编码;在此基础上,为了对语义依存关系进行快速挖掘,提出一个SGN网络块,通过从结构层面定义信息传递的方式来对图中的节点和边进行更新,从而快速地挖掘语义依存信息,使得网络更快地收敛。在多组公开数据集上训练分类模型并进行分类测试,结果表明,TextSGN模型在短文本分类上的准确率达到95.2%,较次优分类法效果提升了3.6%。  相似文献   

8.
现有基于神经网络的多标签文本分类研究方法存在两方面不足,一是不能全面提取文本信息特征,二是很少从图结构数据中挖掘全局标签之间的关联性。针对以上两个问题,提出融合卷积神经网络-自注意力机制(CNNSAM)与图注意力网络(GAT)的多标签文本分类模型(CS-GAT)。该模型利用多层卷积神经网络与自注意力机制充分提取文本局部与全局信息并进行融合,得到更为全面的特征向量表示;同时将不同文本标签之间的关联性转变为具有全局信息的边加权图,利用多层图注意力机制自动学习不同标签之间的关联程度,将其与文本上下文语义信息进行交互,获取具有文本语义联系的全局标签信息表示;使用自适应融合策略进一步提取两者特征信息,提高模型的泛化能力。在AAPD、RCV1-V2与EUR-Lex三个公开英文数据集上的实验结果表明,该模型所达到的多标签分类效果明显优于其他主流基线模型。  相似文献   

9.
肖琳  陈博理  黄鑫  刘华锋  景丽萍  于剑 《软件学报》2020,31(4):1079-1089
自大数据蓬勃发展以来,多标签分类一直是令人关注的重要问题,在现实生活中有许多实际应用,如文本分类、图像识别、视频注释、多媒体信息检索等.传统的多标签文本分类算法将标签视为没有语义信息的符号,然而,在许多情况下,文本的标签是具有特定语义的,标签的语义信息和文档的内容信息是有对应关系的,为了建立两者之间的联系并加以利用,提出了一种基于标签语义注意力的多标签文本分类(LAbel Semantic Attention Multi-label Classification,简称LASA)方法,依赖于文档的文本和对应的标签,在文档和标签之间共享单词表示.对于文档嵌入,使用双向长短时记忆(bi-directional long short-term memory,简称Bi-LSTM)获取每个单词的隐表示,通过使用标签语义注意力机制获得文档中每个单词的权重,从而考虑到每个单词对当前标签的重要性.另外,标签在语义空间里往往是相互关联的,使用标签的语义信息同时也考虑了标签的相关性.在标准多标签文本分类的数据集上得到的实验结果表明,所提出的方法能够有效地捕获重要的单词,并且其性能优于当前先进的多标签文本分类算法.  相似文献   

10.
针对目前自动ICD(international classification of diseases)编码任务存在标签空间大、诊断代码分布不均衡与临床文本表征差的问题,提出一种融合Longformer与标签注意力的分层ICD自动编码模型。借助Clinical-Longformer预训练语言模型获得融合长文本语境的词向量表征。通过将标签的语义表示与注意力机制相结合,捕捉临床文本中与诊断代码相关的关键特征信息,获取更精准的文本表示。引入分层联合学习机制,建立分层预测层解码输出ICD编码。实验结果表明,该模型的准确率、召回率与F1值均高于现有模型,验证了该方法进行自动ICD编码的有效性,为实施疾病诊断相关分组提供高质量的数据支撑。  相似文献   

11.
基于深度学习的多标签文本分类方法存在两个主要缺陷:缺乏对文本信息多粒度的学习,以及对标签间约束性关系的利用.针对这些问题,提出一种多粒度信息关系增强的多标签文本分类方法.首先,通过联合嵌入的方式将文本与标签嵌入到同一空间,并利用BERT预训练模型获得文本和标签的隐向量特征表示.然后,构建3个多粒度信息关系增强模块:文档级信息浅层标签注意力分类模块、词级信息深层标签注意力分类模块和标签约束性关系匹配辅助模块.其中,前两个模块针对共享特征表示进行多粒度学习:文档级文本信息与标签信息浅层交互学习,以及词级文本信息与标签信息深层交互学习.辅助模块通过学习标签间关系来提升分类性能.最后,所提方法在3个代表性数据集上,与当前主流的多标签文本分类算法进行了比较.结果表明,在主要指标Micro-F1、MacroF1、nDCG@k、P@k上均达到了最佳效果.  相似文献   

12.
在数据集不包含标签文本信息时,现有的显式交互分类模型无法显式计算文本单词和标签之间的语义关系.针对此问题,文中提出标签指导的双注意力深度神经网络模型.首先,提出基于逆标签频次的自动类别标签描述生成方法,为每个标签生成特定的标签描述,用于显式计算文本单词与标签之间的语义关系.在此基础上,使用文本编码器学习具有上下文语境信息的评论文本表示,并提出标签指导的双注意力网络,分别学习基于自注意力的文本表示和基于标签注意力的文本表示.然后,使用自适应门控机制融合这两个文本表示,得到文本最终表示.最后,使用两层前馈神经网络作为分类器,进行情感分类.在3个公开的真实数据集上的实验表明,文中模型分类效果较优,可减少计算代价和训练时长.  相似文献   

13.
基于编码器-解码器架构的序列到序列学习模型是近年来主流的生成式自动文摘模型,其在计算每一个词的隐层表示时,通常仅考虑该词之前(或之后)的一些词,无法获取全局信息,从而进行全局优化.针对这个问题,在编码器端引入全局自匹配机制进行全局优化,并利用全局门控单元抽取出文本的核心内容.全局自匹配机制根据文本中每个单词语义和文本整体语义的匹配程度,动态地从整篇文本中为文中每一个词收集与该词相关的信息,并进一步将该词及其匹配的信息有效编码到最终的隐层表示中,以获得包含全局信息的隐层表示.同时,考虑到为每一个词融入全局信息可能会造成冗余,引入了全局门控单元,根据自匹配层获得的全局信息对流入解码端的信息流进行过滤,筛选出原文本的核心内容.实验结果显示,与目前主流的生成式文摘方法相比,该方法在Rouge评价上有显著提高,这表明所提出的模型能有效融合全局信息,挖掘出原文本的核心内容.  相似文献   

14.
基于N元汉字串模型的文本表示和实时分类的研究与实现   总被引:4,自引:0,他引:4  
该文提出了一种基于N元汉字串特征的文本向量空间表示模型,用这个表示模型实现了一个文本实时分类系统。对比使用词语做为特征的文本向量空间模型,这种新的模型由于使用快速的多关键词匹配技术,不使用分词等复杂计算,可以实现实时文本分类。由于N元汉字串的文本表示模型中的特征抽取中不需要使用词典分词,从而可以提取出一些非词的短语结构,在特殊的应用背景,如网络有害信息判别中,能自动提取某些更好的特征项。实验结果表明,使用简单的多关键词匹配和使用复杂的分词,对分类系统的效果影响是很小的。该文的研究表明N元汉字串特征和词特征的表示能力在分类问题上基本是相同的,但是N元汉字串特征的分类系统可以比分词系统的性能高出好几倍。该文还描述了使用这种模型的自动文本分类系统,包括分类系统的结构,特征提取,文本相似度计算公式,并给出了评估方法和实验结果。  相似文献   

15.
即时通信等社交软件产生的聊天文本内容证据数据量大且聊天内容含有“黑话”等复杂语义,数字取证时无法快速识别和提取与犯罪事件有关的聊天文本证据。为此,基于DSR(dynamic semantic representation)模型和BGRU(bidirectional gated recurrent unit)模型提出一个聊天文本证据分类模型(DSR-BGRU)。通过预处理手段处理聊天文本数据,使其保存犯罪领域特征。设计并实现了基于DSR模型的聊天文本证据语义特征表示方法,从语义层面对聊天文本进行特征表示,通过聚类算法筛选出语义词,并通过单词属性与语义词的加权组合对非语义词词向量进行特征表示,且将语义词用于对新单词进行稀疏表示。利用Keras框架构建了包含DSR模型输入层、BGRU模型隐藏层和softmax分类层的多层聊天文本特征提取与分类模型,该模型使用DSR模型进行词的向量表示组成的文本矩阵作为输入向量,从语义层面对聊天文本进行特征表示,基于BGRU模型的多层隐藏层对使用这些词向量组成的文本提取上下文特征,从而能够更好地准确理解聊天文本的语义信息,并利用softmax分类层实现聊天文本...  相似文献   

16.
极限多标签文本分类任务具有标签集大、类间关系复杂、数据分布不平衡等特点,是具有挑战性的研究热点。现有模型对标签语义信息利用不足,性能有限。对此,该文提出一种利用层级标签语义信息引导的极限多标签文本分类模型提升策略,在训练和预测过程中给予模型层级标签引导的弱监督语义指导信息,利用这种弱监督信息规约多标签文本分类任务中要对应的多标签语义边界。在标准数据集上的实验结果表明,该文所提策略能够有效提升现有模型性能,尤其在短文本数据集中增效显著,宏精准率最高提升21.23%。  相似文献   

17.
研究低资源语言的词性标注和依存分析对推动低资源自然语言处理任务有着重要的作用。针对低资源语言词嵌入表示,已有工作并没有充分利用字符、子词层面信息编码,导致模型无法利用不同粒度的特征。对此,该文提出融合多粒度特征的词嵌入表示,利用不同的语言模型分别获得字符、子词以及词语层面的语义信息,将三种粒度的词嵌入进行拼接,达到丰富语义信息的目的,缓解由于标注数据稀缺导致的依存分析模型性能不佳的问题。进一步将词性标注和依存分析模型进行联合训练,使模型之间能相互共享知识,降低词性标注错误在依存分析任务上的线性传递。以泰语、越南语为研究对象,在宾州树库数据集上的试验表明,该文方法相比于基线模型的UAS、LAS、POS均有明显提升。  相似文献   

18.
目前药物不良反应(ADR)研究使用的数据主要来源于英文语料,较少选用存在标注数据稀缺问题的中文医疗社交媒体数据集,导致对中文医疗社交媒体的研究有限。为解决标注数据稀缺的问题,提出一种新型的ADR检测方法。采用ERNIE预训练模型获取文本的词向量,利用BiLSTM模型和注意力机制学习文本的向量表示,并通过全连接层和softmax函数得到文本的分类标签。对未标注数据进行文本增强,使用分类模型获取低熵标签,此标签被作为原始未标注样本及其增强样本的伪标签。此外,将带有伪标签的数据与人工标注数据进行混合,在分类模型的编码层和分类层间加入Mixup层,并在文本向量空间中使用Mixup增强方法插值混合样本,从而扩增样本数量。通过将数据增强和半监督学习相结合,充分利用标注数据与未标注数据,实现ADR的检测。实验结果表明,该方法无需大量的标注数据,缓解了标注数据不足对检测结果的影响,有效提升了药物不良反应检测模型的性能。  相似文献   

19.
传统词嵌入通常将词项的不同上下文编码至同一参数空间,造成词向量未能有效辨别多义词的语义;CNN网络极易关注文本局部特征而忽略文本时序语义,BiGRU网络善于学习文本时序整体语义,造成关键局部特征提取不足.针对上述问题,提出一种基于词性特征的CNN_BiGRU文本分类模型.引入词性特征构建具有词性属性的词性向量;将词性向量与词向量交叉组合形成增强词向量,以改善文本表示;采用CNN网络获取增强词向量的局部表示,利用BiGRU网络捕获增强词向量的全局上下文表示;融合两模型学习的表示形成深度语义特征;将该深度语义特征连接至Softmax分类器完成分类预测.实验结果表明,该模型提高了分类准确率,具有良好的文本语义建模和识别能力.  相似文献   

20.
为解决文本分类中因文本数据篇幅长且语义情感分布不均导致分类准确度偏低的问题,提出一种基于分层式卷积神经网络(convolutional neural network,CNN)的长文本情感分类模型pos-ACNN-CNN.通过在嵌入层加入位置编码来捕获文本中的词序信息,结合基于注意力机制的CNN识别不同词语的情感语义贡献...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号