首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 109 毫秒
1.
针对目前网络评论文本情感分类准确性不高的问题,提出一种基于BERT和双向门控循环单元(BiGRU)的改进模型,使用能够表征文本丰富语义特征的BERT模型进行词向量表示,结合能够长期保留文本上下文关联信息的BiGRU神经网络提高模型的分类效果,并在此基础上引入注意力机制,突出文本中更能表达分类结果的情感词权重,提高情感分类的准确率。将上述模型分别在Acllmdb_v1和酒店评论两个公开数据集上进行测试,实验结果表明,该模型在中、英文文本情感分类任务中都获得了良好的性能。  相似文献   

2.
为提高自然语言处理任务中文本相似度检测的准确率,提出一种改进双向长短期记忆网络(Bi-LSTM)的文本相似度计算方法。将输入的句子转换成多个单词向量,通过Bi-LSTM提取出每个单词向量的最佳词特征,引入注意力机制,减小非关键因素的影响;采用多层相似加权对两个句子分别从词与词、句子与句子、词与句子3个层面进行多层比较,加权得到其最终的相似度;基于SMTeuroparl、MSRvid和MSRpar这3个数据集对所提方法的性能进行评估。实验结果表明,相比于其它方法,所提方法的文本相似度计算更佳,适用于处理复杂的长文本。  相似文献   

3.
该文探究手术操作术语归一化方法的构建.首先,分析手术操作术语归一化数据集的特点;其次,调研术语归一化的相关方法;最后,结合调研知悉的技术理论方法和数据集特征,建立手术操作术语归一化模型.该文融合文本相似度排序+BERT模型匹配开展建模,在2019年中文健康信息处理会议(CHIP2019)手术操作术语归一化学术评测中,验...  相似文献   

4.
针对传统词向量在自动文本摘要过程中因无法对多义词进行有效表征而降低文本摘要准确度和可读性的问题,提出一种基于BERT(Bidirectional Encoder Representations from Transformers)的自动文本摘要模型构建方法。该方法引入BERT预训练语言模型用于增强词向量的语义表示,将生成的词向量输入Seq2Seq模型中进行训练并形成自动文本摘要模型,实现对文本摘要的快速生成。实验结果表明,该模型在Gigaword数据集上能有效地提高生成摘要的准确率和可读性,可用于文本摘要自动生成任务。  相似文献   

5.
文本相似度分析是自然语言处理领域的核心任务,基于深度文本匹配模型进行文本相似度分析是当前研究该任务的主流思路。针对传统的MatchPyramid模型对文本特征提取的不足之处进行改进,提出了基于增强MatchPyramid模型进行文本相似度分析的方法。该方法在输入编码层加入多头自注意力机制和互注意力机制,同时对双注意力机制的输入词向量使用自编码器做降维处理,以降低模型的计算量。接着将双注意力机制的输出与原始词向量相连接,提升了词向量对文本关键信息的表征能力。最后将两个文本的词向量矩阵点积形成的单通道图映射到多个特征子空间形成了多通道图,使用密集连接的卷积神经网络对多通道图进行特征提取。实验结果表明,相比于传统的MatchPyramid模型,所提出的模型准确率提升了1.59个百分点,F1值提升了2.49个百分点。  相似文献   

6.
新闻文本与新闻评论相似度计算旨在筛选出与新闻文本相关的评论,而大部分评论以短文本的形式对新闻文本做出评价,因此新闻文本与评论的相似度计算本质上是长文本与短文本的相似度计算.传统长文本处理方法易导致文本信息缺失、文章主题不明确等问题,降低相似度计算的准确率.针对新闻文本与评论的长度差距,结合评论的特点,该文提出了结合对比学习的新闻文本与评论相似度计算方法,该方法通过关键词的提取实现新闻文本压缩同时减少文本的冗余信息;将关键词序列与新闻标题拼接作为新闻文本的表示;然后通过BERT预训练模型使用对比学习的方法实现文本正负例的构造;最后通过交叉熵和相对熵损失函数对预训练模型进行微调,实现文本的相似度计算.实验表明,该文提出的方法较近几年的长文本处理方法在准确率上提高了3.6%,并在中文文本相似度计算的公共数据集上也取得了较好的效果.  相似文献   

7.
针对传统神经网络模型不能很好地提取文本特征的问题,提出基于capsule-BiGRU的文本相似度分析方法,该方法将胶囊网络(capsule)提取的文本的局部特征矩阵和双向门控循环单元网络(BiGRU)提取的文本的全局特征矩阵分别进行相似度分析,得到文本的相似度矩阵,将相似度矩阵融合,得到两个文本的多层次相似度向量,从而进行文本相似度的判定。将传统的胶囊网络进行改进,把与文本语义无关的单词视为噪声胶囊,赋予较小权值,从而减轻对后续任务的影响。针对文本相似度的任务,在文本特征矩阵提取前加入互注意力机制,对于待分析的两个文本,通过计算一个文本中单词与另一文本中所有单词的相似度来对词向量赋予权值,从而能更准确地判断文本的相似度。在Quora Questions Pairs数据集进行实验,实验结果表明所提出的方法准确率为86.16%,F1值为88.77%,结果优于其他方法。  相似文献   

8.
文本相似度计算是自然语言处理的核心任务之一,传统的文本相似度计算方法只考虑文本的结构或者语义等单方面特征,缺少对文本多特征的深度分析,导致性能较低。提出一种基于多重相关信息交互的文本相似度计算方法,在文本嵌入矩阵中增加余弦相关性特征,使用自注意力机制考虑文本自身的相关性和词语依赖关系,进而使用交替协同注意力机制提取文本之间的语义交互信息,从不同角度获得更深层、更丰富的文本表征。实验结果表明,所提方法在2个数据集上的F1值分别为0.916 1和0.769 5,其性能优于基准方法的。  相似文献   

9.
汉越文本相似度计算是实现汉越文本理解和文本分类的基础.目前使用神经网络来计算文本相似度是一个有效方法,但由于文本较长、冗余信息较多,神经网络难以有效捕获文本间的相似信息,同时汉-越平行语料稀缺导致模型泛化性能一般,此方法受到一定限制.故提出一种融合关键词和语义特征的汉越文本相似度计算方法.针对文本较长冗余信息较多,提出使用文本关键词来获得文本关键信息以压缩文本减少冗余,同时计算出文本间关键词相似信息;针对汉-越平行语料稀缺,提出使用知识蒸馏的方法来训练神经网络来对文本进行编码,得到上下文语义特征;最后将词的相似信息和上下文语义特征融合实现文本相关性判断.实验表明,本文提出的方法能有效提升汉-越文本相似度计算的准确率.  相似文献   

10.
事实一致性是摘要内容与源文档内容的信息一致。最近的研究表明,文本摘要模型生成的摘要存在较多与原文事实不一致的问题,设计能够检测并评估出事实不一致错误的方法至关重要。目前基于自然语言推理的方法存在对源文档内容提取简单,推理信息交互不充分等问题。提出多注意力机制的文本摘要事实一致性评估模型,利用预训练模型微调的sentence-BERT模型挑选源文档中的关键句,然后将摘要句与关键句组合成句子对,输入BERT模型编码获得向量表示结合ESIM进行句子对的推理,利用图注意力网络完成推理信息的聚合,提高文本摘要事实一致性评估模型的准确率。实验结果表明,该算法与多个典型算法在在领域内常用的数据集进行实验比较,其可行性和有效性得到验证。  相似文献   

11.
文本相似度主要应用于学术论文查重检测、搜索引擎去重等领域,而传统的文本相似度计算方法中的特征项提取与分词环节过于冗杂,而且元素的随机挑选也会产生权重的不确定性. 为了解决传统方法的不足,提出一种基于改进的Jaccard系数确定文档相似度的方法,该算法综合考虑了各元素、样本在文档中的权重及其对多个文档相似度的贡献程度. 实验结果表明,基于改进的Jaccard系数的文档相似度算法具有实效性并且能够得到较高的准确率,适用于各种长度的中英文文档,有效地解决现有技术中存在的文档间相似度计算不精的问题.  相似文献   

12.
在文本情感分析时,使用无监督的聚类方法,可以有效节省人力和数据资源,但同时也面临聚类精度不高的问题。相似性是文本聚类的主要依据,该文从文本相似度计算的角度,针对情感聚类中文本—特征向量的高维和稀疏问题,以及对评论文本潜在情感因素的表示问题,提出一种基于子空间的文本语义相似度计算方法(RESS)。实验结果表明,基于RESS的文本相似度计算方法,有效解决了文本向量的高维问题,更好地表达了文本间情感相似性,并获得较好的聚类结果。  相似文献   

13.
针对当前政务系统中人工审批文本效率低下的问题,本文将文本相似度引入电子政务中。当前基于文本相似度的网络模型中,存在着生成的词向量矩阵巨大,需要大量的时间去训练,而且仅利用上下文的环境来生成词向量,忽略了文档的语序和语义的关系。为了提高效率并降低训练成本,本文提出基于Do-Bi-LSTM文本相似度计算方法,该模型首先通过Doc2vec语言模型把训练数据集中的文本转换成向量,该方法在词向量的基础上增加了文本向量,从而获取了句子之间以及段落之间的相互关系。然后把得到的向量作为Bi-LSTM网络模型的输入进行模型训练,最后与LSTM网络模型、传统的深度网络模型相比,实验表明本文方法的准确率有很大的提高,具有可行性。  相似文献   

14.
短文本匹配是自然语言处理领域中的一个核心问题,可应用于信息检索、问答系统、复述问题等任务.过去的工作大多在提取文本特征时只考虑文本内部信息,忽略了两个文本之间的交互信息,或者仅进行单层次交互.针对以上问题,提出一种基于Transformer改进的短文本匹配模型ISTM.ISTM模型以DSSM为基本架构,利用BERT模型对文本进行向量化表示,解决Word2Vec一词多义的问题,使用Transformer编码器对文本进行特征提取,获取文本内部信息,并考虑两个文本之间的多层次交互信息,最后由拼接向量推理计算出两个文本之间的语义匹配度.实验表明,相比经典深度短文本匹配模型,本文提出的ISTM模型在LCQMC中文数据集上表现出了更好的效果.  相似文献   

15.
基于语境框架的文本相似度计算   总被引:12,自引:0,他引:12  
介绍了一种新的文本形式化的语义模型———语境框架。语境框架是一个三维的语义描述,它把文本内容抽象成领域(静态范畴)、情景(动态描述)、背景(褒贬、参照等)三个侧面。在语境框架的基础上,设计实现了文本相似度计算算法。算法从概念层面入手,充分考虑了文本的领域和对象的语义角色对相似度的影响,重点针对文本中的歧义、多义、概念组合现象,以及语言中的褒贬倾向,实现了文本间语义相似程度的量化。算法已经应用到文本过滤系统中,用以比较用户过滤要求和待过滤文本之间的相似度。实际应用中取得了比较满意的效果。  相似文献   

16.
多标签文本分类问题是多标签分类的重要分支之一,现有的方法往往忽视了标签之间的关系,难以有效利用标签之间存在着的相关性,从而影响分类效果.基于此,本文提出一种融合BERT和图注意力网络的模型HBGA(hybrid BERT and graph attention):首先,利用BERT获得输入文本的上下文向量表示,然后用Bi-LSTM和胶囊网络分别提取文本全局特征和局部特征,通过特征融合方法构建文本特征向量,同时,通过图来建模标签之间的相关性,用图中的节点表示标签的词嵌入,通过图注意力网络将这些标签向量映射到一组相互依赖的分类器中,最后,将分类器应用到特征提取模块获得的文本特征进行端到端的训练,综合分类器和特征信息得到最终的预测结果.在Reuters-21578和AAPD两个数据集上面进行了对比实验,实验结果表明,本文模型在多标签文本分类任务上得到了有效的提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号