首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
反问是一种带有强烈情感色彩的表达方式,对其进行自动识别将提升隐式情感分析的整体效率。针对汉语反问句识别问题,该文分析了反问句的句式特点,将反问句的句式结构融入到卷积神级网络的构建中,提出一种融合句式结构的卷积神经网络的反问句识别方法。首先利用置信度大于70%的反问句的特征词、序列模式,对大规模未被标注的微博语料进行初步筛选,获取大量伪反问句。然后通过多个卷积核分别对句子的词向量和反问句的特征进行抽取,获取句子语义特征和反问词特征,将两者共同作用生成句子的表示。最后利用softmax分类器实现句子的分类。实验结果表明,利用该方法对微博中反问句的识别准确率、召回率和F1值分别达到了89.5%、84.2%和86.7%。  相似文献   

2.
反问是现代汉语中一种常用的修辞手法,根据是否含有反问标记可分为显式反问句与隐式反问句。其中隐式反问句表达的情感更为丰富,表现形式也十分复杂,对隐式反问句的识别更具挑战性。该文首先扩充了汉语反问句语料库,语料库规模达到10 000余句,接着针对隐式反问句的特点,提出了一种融合情感分析的隐式反问句识别模型。模型考虑了句子的语义信息、上下文信息,并借助情感分析任务辅助识别隐式反问句。实验结果表明,该文提出的模型在隐式反问句识别任务上取得了良好的性能。  相似文献   

3.
张雪  赵晖 《计算机科学》2023,(5):238-247
隐式情感分析是检测不包含明显情感词的句子的情感。文中集中于以事件为中心的情感分析,该任务是通过句子中描述的事件推断其情感极性。在以事件为中心的情感分析中,现有方法要么将文本中名词短语看作事件,要么采用复杂的模型建模事件,未能充分建模事件信息,并且没有考虑到包含多个事件的情况。为解决以上问题,提出将事件表示为事件三元组〈主语,谓语,宾语〉的形式,基于这种事件表示,进一步提出基于事件增强语义的情感分析模型MEA来检测文本的情感。文中利用句法信息捕获事件三元组的关系,根据每个事件对句子贡献程度的不同,采用注意力机制建模事件之间的关系。与此同时,采用双向长短时记忆网络建模句子的上下文信息,并采用多级性正交注意力机制捕获不同极性下注意力权重的差异,这可以作为显著的判别特征。最后,依据事件特征和句子特征的重要程度为其分配不同的权重比例,并将它们融合得到最终的句子表示。此外,文中还提出一个用于事件增强情感分析的数据集MEDS,其中每条句子都标有事件三元组表示和情感极性标签。研究表明,在自建的数据集中,所提模型优于现有的基线模型。  相似文献   

4.
实体关系抽取任务是对句子中实体对间的语义关系进行识别。该文提出了一种基于Albert预训练语言模型结合图采样与聚合算法(Graph Sampling and Aggregation, GraphSAGE)的实体关系抽取方法,并在藏文实体关系抽取数据集上实验。该文针对藏文句子特征表示匮乏、传统藏文实体关系抽取模型准确率不高等问题,提出以下方案: ①使用预先训练的藏文Albert模型获得高质量的藏文句子动态词向量特征; ②使用提出的图结构数据构建与表示方法生成GraphSAGE模型的输入数据,并通过实验证明了该方法的有效性; ③借鉴GraphSAGE模型的优势,利用其图采样与聚合操作进行关系抽取。实验结果表明,该文方法有效提高了藏文实体关系抽取模型的准确率,且优于基线实验效果。  相似文献   

5.
针对传统语言模型的词向量表示无法解决多义词表征的问题,以及现有情感分析模型不能充分捕获长距离语义信息的问题,提出了一种结合BERT和BiSRU-AT的文本情感分类模型BERT- BiSRU-AT。首先用预训练模型BERT获取融合文本语境的词向量表征;然后利用双向简单循环单元(BiSRU)二次提取语义特征和上下文信息;再利用注意力机制对BiSRU层的输出分配权重以突出重点信息;最后使用Softmax激励函数得出句子级别的情感概率分布。实验采用中文版本的推特数据集和酒店评论数据集。实验结果表明,结合BERT和BiSRU-AT的文本情感分析模型能够获得更高的准确率,双向简单循环模型和注意力机制的引入能有效提高模型的整体性能,有较大的实用价值。  相似文献   

6.
在篇章级的情感分类中由于篇章级文本较长,特征提取较普通句子级分析相对较难,大多方法使用层次化的模型进行篇章文本的情感分析,但目前的层次化模型多以循环神经网络和注意力机制为主,单一的循环神经网络结构提取的特征不够明显。本文针对篇章级的情感分类任务,提出一种层次化双注意力神经网络模型。首先对卷积神经网络进行改进,构建词注意力卷积神经网络。然后模型从两个层次依次提取篇章特征,第一层次使注意力卷积神经网络发现每个句子中的重要词汇,提取句子的词特征,构建句子特征向量;第二层次以循环神经网络获取整个篇章的语义表示,全局注意力机制发现篇章中每个句子的重要性,分配以不同的权重,最后构建篇章的整体语义表示。在IMDB、YELP 2013、YELP 2014数据集上的实验表明,模型较当前最好的模型更具优越性。  相似文献   

7.
不同的用户通常具有多粒度的用户偏好,即用不同的用词习惯来表达情感(单词级用户偏好);在不同的句子上表达出不同的情感强度(句子级用户偏好);用不同的评分特征对产品进行评价(文档级用户偏好)。现有情感模型在文本特征表示时并未考虑用户偏好的多粒度性,据此,该文提出了一种融合多粒度用户偏好的情感分析模型。首先,在单词粒度上,将用户信息融合到注意机制中来获取基于用户偏好的句子表示;然后,在句子粒度上,结合自注意机制获取基于用户偏好的文档表示;最后,在文档粒度上,将得到的文档表示与用户信息直接进行融合得到文档的特征表示,并利用该表示进行分类。在IMDB、Yelp13、Yelp14三个文档级数据集上的实验表明,该模型能更有效地提升分类性能。  相似文献   

8.
传统基于深度学习的复述识别模型通常以关注文本表示为核心,忽略了对多粒度交互特征的挖掘与匹配.为此,建模文本交互空间,分别利用双向长短时记忆网络对两个候选复述句按条件编码,基于迭代隐状态的输出,通过逐词软对齐的方式从词、短语、句子等多个粒度层次推理并获取句子对的语义表示,最后综合不同视角的语义表达利用softmax实现二元分类.为解决复述标注训练语料不足,在超过580000句子对的数据集上利用语言建模任务对模型参数无监督预训练,再使用预训练好的参数在标准数据集上有监督微调.与先前最佳的神经网络模型相比,所提出模型在标准数据集MSRP上准确率提高2.96%,$F_1$值改善2%.所提出模型综合文本全局和局部匹配信息,多粒度、多视角地描述文本交互匹配模式,能够降低对人工特征工程的需求,具有良好的实用性.  相似文献   

9.
琚生根  李天宁  孙界平 《软件学报》2021,32(8):2545-2556
细粒度命名实体识别是对文本中的实体进行定位,并将其分类至预定义的细粒度类别中.目前,中文细粒度命名实体识别仅使用预训练语言模型对句子中的字符进行上下文编码,并没有考虑到类别的标签信息具有区分实体类别的能力.由于预测句子不带有实体标签,使用关联记忆网络来捕获训练集句子的实体标签信息,并将标签信息融入预测句子的字符表示中.该方法将训练集中带实体标签的句子作为记忆单元,利用预训练语言模型获取原句子和记忆单元句子的上下文表示,再通过注意力机制将记忆单元句子的标签信息与原句子的表示结合,从而提升识别效果.在CLUENER 2020中文细粒度命名实体识别任务上,该方法对比基线方法获得了提升.  相似文献   

10.
在方面级情感分析中,常用的方法是将循环神经网络和注意力机制结合,利用注意力获取序列中不同单词的重要程度,但这并不能获取不同句子的重要程度,仅仅依赖单层注意力难于获取深层次情感特征信息。为了解决上述问题,该文提出一种基于双层注意力循环神经网络模型。通过双层注意力分别对单词层和句子层进行建模,捕获不同单词和不同句子的重要性,利用双向的循环神经网络获取更多的序列上下文依赖信息。情感特征信息具有重要性,但在深层神经网络中却未被充分利用。因此,该文将方面、词性信息和位置信息作为模型的辅助信息,进行更深层次情感特征信息学习,有效识别不同方面的情感极性。该方法与IAN模型相比,在SemEval 2014中的Restaurant数据集和Laptop数据集上进行实验,分类准确率分别提升了2.0%和5.2%。在与TD-LSTM模型对比中,Twitter数据集的分类准确率提升了1.7%。  相似文献   

11.
相似度匹配是自然语言处理领域一个重要分支,也是问答系统抽取答案的重要途径之一.本文提出了一种基于正负样本和Bi-LSTM的文本相似度匹配模型,该模型首先为了提升问题和正确答案之间的相似度,构建正负样本问答对用于模型训练;其次为了解决分词错误引起的实验误差,采用双层嵌入词向量方法进行预训练;再次为了解决注意力机制导致的特征向量向后偏移的问题,在特征提取之前,采取内部注意力机制方法;然后为了保留重要的时序特性,采用Bi-LSTM神经网络进行数据训练;最后为了能在语义层次上计算相似度,提出一种包含语义信息的相似度计算函数.将本文提出的文本相似度匹配模型在公共数据集DuReader上进行了仿真实验,并和其他模型进行对比分析,实验结果表明,提出的模型不仅准确率高且鲁棒性好,top-1准确率达到78.34%.  相似文献   

12.
问句分类的目标是将用户提出的自然语言问句分到预先设定的类别.在社区问答中,如何准确高效的对问句进行分类是一项重要任务.本文提出了一种基于深度神经网络的问句分类方法,该方法首先将问句用词向量进行表示,然后用融合双向长短时记忆网络(Bi-LSTM)和卷积神经网络(CNN)结构并包含注意力机制的深度学习模型提取问句特征进行分类.该方法的特色在于利用Bi-LSTM和CNN在句子级文本表示的优点,充分捕捉问句特征,并结合问句的对应答案来表示问句,丰富了问句信息.实验表明,该问句分类方法准确率较高,在多个数据集上取得不错结果.  相似文献   

13.
卢天兰  陈荔 《计算机应用研究》2021,38(5):1409-1415,1427
方面情感分析是指分析语句中目标方面项的情感极性,但目前较少研究语句中邻近方面项间依赖关系对情感分类的影响。基于此,针对方面情感分析提出一个结合基于注意力机制的双向LSTM和多跳端到端记忆网络的方面情感分类模型。首先利用Bi-LSTM的序列学习能力,并引入注意力机制来得到语义向量表示;然后用多跳记忆网络来对目标方面项和语句中其余方面项间相关性进行建模构建深层的情感分类特征向量,输入到softmax函数得到最终的情感极性分类结果。该模型在SemEval 2014任务中的restaurant和laptop两个数据集和一组公开的Twitter数据集上进行实验,在三个数据集上的分类准确率都有所提高。实验结果表明,该模型对方面级别情感分类的有效性和考虑方面间依赖关系对于情感分类是有益的。  相似文献   

14.
医疗问题诉求分类属于文本分类,是自然语言处理中的基础任务。该文提出一种基于强化学习的方法对医疗问题诉求进行分类。首先,通过强化学习自动识别出医疗问题中的关键词,并且对医疗问题中的关键词和非关键词赋予不同的值构成一个向量;其次,利用该向量作为attention机制的权重向量,对Bi-LSTM模型生成的隐含层状态序列加权求和得到问题表示;最后通过Softmax分类器对问题表示进行分类。实验结果表明,该方法比基于Bi-LSTM模型的分类结果准确率提高1.49%。  相似文献   

15.
在对中文文本进行分类的过程中,由于关键特征在整个文本中具有分布不均匀的特点,容易出现关键特征丢失的问题,降低了分类的准确性。针对这一问题,提出一种基于注意力机制的双通道文本分类模型。将输入文本通过词嵌入进行向量表示,利用Bi-LSTM通道提取文本中的上下文关联信息,利用CNN通道提取文本中连续词间的局部特征。在两个通道中均引入注意力机制进行全局权重分配,使模型能够进一步关注到文本中的关键词。在CNN通道中,将原始输入向量与各层CNN的输出向量进行选择性融合,从而实现特征重利用。在今日头条和THUCNews两个公开数据集上进行性能评估,实验结果表明,与其他分类模型相比,所提模型的分类准确率分别为97.59%、90.09%,具有更好的分类性能。  相似文献   

16.
针对现有的目标和观点抽取模型未能充分考虑两者的联系的问题,提出一种基于上下文专注机制的特定目标观点抽取模型。将抽取出的目标特征向量与每个位置的上下文词向量拼接构成最终的句子表示,加强目标与句子之间的交互,实现目标融合;采用上下文专注机制把注意力更多地放在目标词的周围,削弱远距离词的语义特征。提出的模型采用双向长短时记忆(bi-directional long short-term memory,BiLSTM)网络将句子编码,并提取特征。与现有模型相比,所提模型的精确率、召回率和F1值都有一定程度的提升,证明了所提算法的有效性。同时,预训练的BERT模型也被应用到当前任务中,使模型效果获得了进一步的提升。  相似文献   

17.
对于越南语组块识别任务,在前期对越南语组块内部词性构成模式进行统计调查的基础上,该文针对Bi-LSTM+CRF模型提出了两种融入注意力机制的方法: 一是在输入层融入注意力机制,从而使得模型能够灵活调整输入的词向量与词性特征向量各自的权重;二是在Bi-LSTM之上加入了多头注意力机制,从而使模型能够学习到Bi-LSTM输出值的权重矩阵,进而有选择地聚焦于重要信息。实验结果表明,在输入层融入注意力机制后,模型对组块识别的F值提升了3.08%,在Bi-LSTM之上加入了多头注意力机制之后,模型对组块识别的F值提升了4.56%,证明了这两种方法的有效性。  相似文献   

18.
对于法律文书中证据名、证实内容和卷宗号等实体的正确提取,可以有效提升法官的办案效率。然而,这些实体与一般实体不同,具有字符长度较长和相互关联性较强的特点。因此,该文提出了一种基于JCWA-DLSTM(join character word and attention-dual long short-term memory)的法律文书命名实体识别方法。该方法利用字级语言模型获取词语的表示,同时,利用自注意力机制获得句子的内部表示。在此基础上,采用双向LSTM将句子内部表示和基于字级语言模型词语表示分别与词向量拼接编码,再将两种语义表示拼接融合,获得最终的句子语义表示。最后利用CRF将句子的语义表示解码,得到最优标记序列。实验结果表明,该文提出的方法可对法律文书中的证据名、证实内容和卷宗号等实体边界进行有效的确定,提升了命名实体识别的结果。  相似文献   

19.
对文本中的上下文信息进行充分利用能够提高关系抽取性能,但当前多数基于深度学习的关系抽取方法仅捕获文本序列中的浅层特征信息,在长序列文本中易丢失上下文信息。针对传统LSTM中输入和隐藏状态之间相互独立且缺少信息交互的问题,建立一种基于Mogrifier LSTM的序列标注关系抽取模型。将由词嵌入、字符嵌入和位置嵌入构成的嵌入层结果输入Mogrifier LSTM层,该层通过在传统LSTM计算之前交替地让当前输入与之前隐藏状态进行多轮运算,以增强上下文交互能力。使用自注意力机制提高模型对重要特征的关注度,同时采用基于关系的注意力机制获取特定关系下的句子表示,从而解决实体关系重叠问题。在关系分类模块,利用Bi-LSTM进行序列标注,将句子中的每个词汇映射为相应的标签。实验结果表明,在NYT数据集上该模型的F1值达到0.841,优于HRL、OrderRL等模型,在存在SEO重叠类型的关系抽取中,F1值仍能达到0.745,所提模型能够在一定程度上解决关系重叠问题同时有效提升关系抽取性能。  相似文献   

20.
针对区块链平台上智能合约应用种类繁多,人工筛选合适的智能合约应用服务日益困难的问题,提出一种基于层级注意力机制与双向长短期记忆(Bi-LSTM)神经网络的智能合约自动分类模型——HANN-SCA。首先,利用Bi-LSTM网络从智能合约源代码和账户信息两个角度同时建模,最大限度地提取智能合约的特征信息。其中源代码角度关注智能合约中的代码语义特征,账户信息角度关注智能合约的账户特征。然后,在特征学习过程中从词层面和句层面分别引入注意力机制,重点捕获对智能合约分类有重要意义的单词和句子。最后,拼接代码特征与账户特征以生成智能合约文档级特征表示,通过Softmax层完成分类任务。实验结果表明,所提模型在Dataset-E、Dataset-N和Dataset-EO数据集上的分类正确率分别达到了93.1%、91.7%和92.1%,效果明显优于传统的支持向量机模型(SVM)和其他神经网络基准模型,且具有更好的稳定性与更高的收敛速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号