首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 139 毫秒
1.
针对短文本自动评分中存在的特征稀疏、一词多义及上下文关联信息少等问题,提出一种基于BERT-BiLSTM(bidirectional encoder representations from transformers-bidirectional long short-term memory)的短文本自动评分模型.使用BERT(bidirectional encoder representations from transformers)语言模型预训练大规模语料库习得通用语言的语义特征,通过预训练好的BERT语言模型预微调下游具体任务的短文本数据集习得短文本的语义特征和关键词特定含义,再通过BiLSTM(bidirectional long short-term memory)捕获深层次上下文关联信息,最后将获得的特征向量输入Softmax回归模型进行自动评分.实验结果表明,对比CNN(convolutional neural networks)、CharCNN(character-level CNN)、LSTM(long short-term memory)和BERT等基准模型,基于B...  相似文献   

2.
基于改进语言表示,通过预训练模型ERNIE,根据上下文计算出文本数据向量表示.使用LCNN模型对该向量表示进行标注.该方法与CNN、FastText、BERT、BiLSTM、Transformer算法等在准确率、召回率、F1值等评价指标上进行了仿真对比.  相似文献   

3.
跨领域文本情感分析时,为了使抽取的共享情感特征能够捕获更多的句子语义信息特征,提出域对抗和BERT(bidirectional encoder representations from transformers)的深度网络模型。利用BERT结构抽取句子语义表示向量,通过卷积神经网络抽取句子的局部特征。通过使用域对抗神经网络使得不同领域抽取的特征表示尽量不可判别,即源领域和目标领域抽取的特征具有更多的相似性;通过在有情感标签的源领域数据集上训练情感分类器,期望该分类器在源领域和目标领域均能达到较好的情感分类效果。在亚马逊产品评论数据集上的试验结果表明,该方法具有良好的性能,能够更好地实现跨领域文本情感分类。  相似文献   

4.
隐喻普遍存在于自然语言中,精确的识别隐喻可以促进自然语言处理具体任务中语义的理解.为了提高中文名词隐喻识别效果,提出一种基于知识增强的语义表示(ERNIE)和双向长短期记忆网络(BiLSTM)的分类模型ERNIE_BiLSTM.该模型使用ERNIE进行编码,获取上下文相关的语义表示;并利用双向LSTM再次训练词向量,捕获文本长距离的语义关系.实验结果表明,ERNIE_BiLSTM模型在中文名词隐喻识别数据集上表现良好,准确率达到90.34%.  相似文献   

5.
军事实体关系抽取是军事信息抽取的主要任务之一,目的在于识别非结构化军事文本中两个命名实体的关系类别.传统的军事关系抽取方法难以解决人工特征不充分、军事领域中文分词不准确以及未能充分利用句子间的实体关系特征等问题.因此,提出了一种融合预训练语言模型(BERT)和注意力机制的军事关系识别方法.该方法能够有效学习上下文语义特...  相似文献   

6.
针对典型的循环神经网络方法在抽取主题词时因缺少上下文相关的句子级信息而导致识别准确率较低的问题,提出了一种基于双向长短期记忆网络条件随机场(BiLSTM-CRF)模型联合TextRank的主题词抽取方法。首先,利用TextRank对新闻文本进行主题句抽取,再使用双向长短期记忆(BiLSTM)模型获取文本的前后特征,最后使用条件随机场(CRF)完成句子级序列标注,得到主题词。在多组体育类新闻数据集上进行实验,该方法较对照组BiLSTM方法F1值提高约0.8%~5.1%,且用时更短。因此,改进的BiLSTM-CRF方法可显著提升主题词的抽取准确率和效率。  相似文献   

7.
针对细粒度情感分析属性分类准确率低的问题,提出了一种融合句法依存关系和基于转换器的双向编码器-注意力机制-双向长短期记忆网络(BERT-Att-BiLSTM)的属性分类模型。该模型首先构建基于句法依存关系的目标信息提取层,进行属性-观点对提取;其次,在词嵌入层,使用BERT模块实现结合上下文动态特征的词向量预训练;然后,在特征提取层,融入Att的BiLSTM模块进行特征空间降维处理;最后,在分类层,通过激活函数输出属性-观点对的属性类别。实验结果表明,所提模型的精准度、召回率和F1值分别为85.25%、72.38%和77.06%,均优于其他模型,证明了所提模型的有效性。  相似文献   

8.
针对基于通信的城市轨道交通列车控制系统车载设备故障排查困难,故障维修日志由于信息零散、语义模糊及归类混乱等导致的传统文本分布式表示与浅层机器学习算法分类精度低等问题,提出一种基于焦点损失函数BERT-CNN(bidirectional encoder representations from transformers-convolutional neural network)的故障分类方法,建立故障处理及结论、故障现象的关系模型.利用预训练好的BERT模型微调获取故障现象的词向量,充分捕捉融合了上下文的双向语义并关注重点词汇;利用卷积神经网络(convolutional neural network, CNN)进行训练,改进损失函数以缓解数据类别不平衡引起的性能下降问题.通过对某车载信号工区数据进行实验,对比基于交叉熵损失函数的BERT-CNN、单一BERT模型与word2vec-CNN(word to vector-CNN)方法,基于焦点损失函数BERT-CNN方法在分类指标上最优,对某些样本数量少的类别能够更精准分类.研究结果有助于建立更完善的智能运维故障案例库.  相似文献   

9.
针对文本匹配过程中存在语义损失和句子对间信息交互不充分的问题,提出基于密集连接网络和多维特征融合的文本匹配方法. 模型的编码端使用BiLSTM网络对句子进行编码,获取句子的上下文语义特征;密集连接网络将最底层的词嵌入特征和最高层的密集模块特征连接,丰富句子的语义特征;基于注意力机制单词级的信息交互,将句子对间的相似性特征、差异性特征和关键性特征进行多维特征融合,使模型捕获更多句子对间的语义关系. 在4个基准数据集上对模型进行评估,与其他强基准模型相比,所提模型的文本匹配准确率显著提升,准确率分别提高0.3%、0.3%、0.6%和1.81%. 在释义识别Quora数据集上的有效性验证实验结果表明,所提方法对句子语义相似度具有精准的匹配效果.  相似文献   

10.
基于预训练和注意机制的意图分类和语义槽填充,提出一种结合双向长短时记忆(bidirectional long short-term memory, BiLSTM)、条件随机场(conditional random fields, CRF)和注意机制的双向编码(bidirectional encoder representations from transformers, BERT)具有双向编码表示和注意机制的联合模型。该模型无需过多依赖手工标签数据和领域特定的知识或资源,避免了目前普遍存在的弱泛化能力。在自主公交信息查询系统语料库上进行的试验表明,该模型意图分类的准确性和语义槽填充F1值分别达到98%和96.3%,均产生有效改进。  相似文献   

11.
为了解决单一卷积神经网络(CNN)缺乏利用文本上下文信息的能力和简单循环神经网络(RNN)无法解决长时依赖的问题,提出CNN-BiLSTM网络引入注意力模型的文本情感分析方法。首先利用CNN的特征强学习能力提取局部特征,再利用双向长短时记忆网络(BiLSTM)提取上下文相关特征的能力进行深度学习,最后,增加注意力层获取重要特征,使模型提取到有效的特征。在IMDB数据集上Accuracy值和均方根误差(RMSE)值分别达到90.34%和0.296 7,在Twitter数据集上Accuracy值和RMSE值分别达到76.90%、0.417 4,且模型时间代价小。结果表明,本文提出的模型有效提升了文本分类的准确率。  相似文献   

12.
大量涌现的电商产品评论对企业制定商业决策十分有利, BERT 应用在英语文本情感分析中取得了不错的效果。针对中文电商产品文本评论提出了一个新的融合Stacking 集成思想和深度学习算法模型。首先在文本信息特征提取层使用Chinese-BERT-wwm 生成含有丰富语义信息的动态句子表征向量, Chinese-BERT-wwm 是专门针对中文特点改进后的预训练模型, 具有稳健的中文文本特征信息提取能力, 其次该层同时设计了TextCNN 和BiLSTM捕获文本中局部关键信息特征与语序信息特征, 并将这些特征拼接在一起以获得更全面丰富的句子信息, 最后基于Stacking 集成学习思想使用SVM 对该特征进行分类。为了评估模型效果, 人工标注3 万条具有三类情感极性的中文电商产品文本数据进行实验, 该数据集可广泛用于中文情感分析领域。实验结果表明, 与基线模型相比, 提出的模型可以有效提高中文文本情感极性分类任务的准确率。  相似文献   

13.
基于预训练和注意机制的意图分类和语义槽填充,提出一种结合双向长短时记忆(bidirectional long short-term memory, BiLSTM)、条件随机场(conditional random fields, CRF)和注意机制的双向编码(bidirectional encoder representations from transformers, BERT)具有双向编码表示和注意机制的联合模型。该模型无需过多依赖手工标签数据和领域特定的知识或资源,避免了目前普遍存在的弱泛化能力。在自主公交信息查询系统语料库上进行的试验表明,该模型意图分类的准确性和语义槽填充F1值分别达到98%和96.3%,均产生有效改进。  相似文献   

14.
提出了一种针对小训练集环境的文本自动分类方法。在传统自动训练过程中通过训练集为每个类别建立初步类别特征向量,由于初步类别特征向量是在小训练集基础上建立的,含有的类别特征信息不够充分。在初步类别特征向量基础上,标定了一定数量的一级和二级类别核心特征词,在文本/类别相似度计算中,利用自动训练过程得到的核心特征词权重因子对核心特征词权重加权,以提高类别特征向量中类别特征信息的含量。实验结果显示,这种分类方法自动分类重合率达到94.12%以上,与不进行权重加权方法的52.94%相比,有很大提高。  相似文献   

15.
基于一维心电信号,提出了一种改进的卷积双向长短时记忆网络以实现心律失常的自动分类。基于卷积神经网络(CNN)及其注意力机制提取关键特征,搭建双向长短时记忆网络(BiLSTM)挖掘心电信号的时间相关性,最终实现心电信号的自动分类。在MIT-BIH心律失常数据集上进行的实验结果表明,该方法在获得总体精度99.32%的基础上,实现了稀有类别分类的提升,其S与F类分类精确度分别提升了1.02%和10.07%,召回率分别提升了12.52%和4.25%,满足心律失常自动分类的检测要求。  相似文献   

16.
提出一种基于BERT(bidirectional encoder representations from transformers)和TextRank关键词提取的实体链接方法。将BERT预训练语言模型引入实体链接任务,进行实体指称上下文和候选实体相关信息的关联度分析,通过提升语义分析的效果来增强实体链接的结果。采用TextRank关键词提取技术增强目标实体综合描述信息的主题信息,增强文本相似度度量的准确性,从而优化模型效果。使用CCKS2019评测任务二的数据集对模型效果进行验证,实验结果表明,所提方法的实体链接效果明显优于其他实体链接方法,能有效解决实体链接问题。  相似文献   

17.
针对医学文本缺乏可量化数据结构,基于关键词模型的文本处理方法不适用的问题,在研究词之间潜在语义关联和关键词树结构的基础上,构造了一种基于潜在语义树的语义分析模型用于医学文本的数据挖掘。进一步地将隐含主题与潜在语义的研究相关联,设计出一种基于潜在狄利克雷分配和潜在语义树模型的文本处理方法,可针对不同类型的医学文本生成有一定可读性的自动批注。该方法形成的自动批注主观性低,其准确度和可读性均高于关键词模型的处理结果,可辅助医生进行医学文本的批注和分类,从而减轻其工作量。程序结果表明,该方法目前可应用于对医学图像所见形成诊断意见、对病人病历进行摘要形成和对病症描述给出对症处方等方面,批注的语义匹配度可达67.7%,文本的平均可读性为60.02%。  相似文献   

18.
提出一种基于Attention-BiLSTM(attention-bidirectional long short-term memory)深度神经网络的命名实体识别方法。应用BiLSTM神经网络自动学习文本的隐含特征,可以解决传统识别方法存在长距离依赖等问题;引入注意力机制(attention mechanism)对文本全局特征做重要度计算,获取文本局部特征,解决了传统深度学习方法不能充分提取特征的问题;在预训练过程中加入维基百科知识,进一步提升了命名实体识别系统的性能。实验表明,所提方法在SIGHAN 2006 Bakeoff-3评测数据集上获得了优良的识别性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号