首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
机器译文自动评价是机器翻译中的一个重要任务。针对目前译文自动评价中完全忽略源语言句子信息,仅利用人工参考译文度量翻译质量的不足,该文提出了引入源语言句子信息的机器译文自动评价方法: 从机器译文与其源语言句子组成的二元组中提取描述翻译质量的质量向量,并将其与基于语境词向量的译文自动评价方法利用深度神经网络进行融合。在WMT-19译文自动评价任务数据集上的实验结果表明,该文所提出的方法能有效增强机器译文自动评价与人工评价的相关性。深入的实验分析进一步揭示了源语言句子信息在译文自动评价中发挥着重要作用。  相似文献   

2.
以Word2Vec为代表的静态蒙古文词向量学习方法,将处于不同语境的多种语义词汇综合表示成一个词向量,这种上下文无关的文本表示方法对后续任务的提升非常有限。通过二次训练多语言BERT预训练模型与CRF相结合,并采用两种子词融合方式,提出一种新的蒙古文动态词向量学习方法。为验证方法的有效性,在内蒙古师范大学蒙古文硕博论文的教育领域、文学领域数据集上用不同的模型进行了同义词对比实验,并利用K-means聚类算法对蒙古文词语进行聚类分析,最后在嵌入式主题词挖掘任务中进行了验证。实验结果表明,BERT学出的词向量质量高于Word2Vec,相近词的向量在向量空间中的距离非常近,不相近词的向量较远,在主题词挖掘任务中获取的主题词有密切的关联。  相似文献   

3.
如何在中文BERT字向量基础上进一步得到高质量的领域词向量表示,用于各种以领域分词为基础的文本分析任务是一个亟待解决的问题。提出了一种基于BERT的领域词向量生成方法。建立一个BERT-CRF领域分词器,在预训练BERT字向量基础上结合领域文本进行fine-tuning和领域分词学习;通过领域分词解码结果进一步得到领域词向量表示。实验表明,该方法仅利用少量的领域文本就可以学习出符合领域任务需求的分词器模型,并能获得相比原始BERT更高质量的领域词向量。  相似文献   

4.
词语的情感信息对于情感分析任务至关重要,现有大多数基于词向量的无监督学习方法只能对词语的语法语境建模,但忽略了词语的情感信息。本文提出了一种结合监督学习和非监督学习的词向量学习方法:既能够获得词语的语义信息又能够获得情感内容。在相关实验中,论文对词向量分析做了直观地举例对比,并将该方法用于情感分类任务中,通过引入新的评论数据集对本文方法进行验证。实验结果表明,融合了语义与情感的词向量方法效果良好,能更为精确地对情感信息进行分类,更为客观地对用户信息进行评价,助力社交网络良性发展。  相似文献   

5.
张潇鲲  刘琰  陈静 《智能系统学报》2019,14(5):1056-1063
针对信息网络(text-based information network)现有研究多基于网络自身信息建模,受限于任务语料规模,只使用任务相关文本进行建模容易产生语义漂移或语义残缺的问题,本文将外部语料引入建模过程中,利用外部语料得到的词向量对建模过程进行优化,提出基于外部词向量的网络表示模型NE-EWV(network embedding based on external word vectors),从语义特征空间以及结构特征空间两个角度学习特征融合的网络表示。通过实验,在现实网络数据集中对模型有效性进行了验证。实验结果表明,在链接预测任务中的AUC指标,相比只考虑结构特征的模型提升7%~19%,相比考虑结构与文本特征的模型在大部分情况下有1%~12%提升;在节点分类任务中,与基线方法中性能最好的CANE性能相当。证明引入外部词向量作为外部知识能够有效提升网络表示能力。  相似文献   

6.
立场检测是指分析文本对于某一目标话题表达的立场,立场通常分为支持、反对和其他。近期的工作大多采用BERT等方法提取文本和话题的句语义特征,通常采用BERT首符号隐藏状态或者句子中每个词隐藏状态取平均作为句向量。该文对句向量的获取进行了改进,采用提示学习模板获取提示句向量,提高句向量的特征提取效果。设计了一种基于多掩码与提示句向量融合分类的立场检测模型(PBMSV),将提示句向量分类与多掩码的模板-答案器结构提示学习分类结合,向句向量引入文本、话题和立场词信息,融合句向量和答案器分类结果,对模型进行联合优化。在NLPCC中文立场检测数据集上的实验表明,在五个话题单独训练模型的实验中,该文方法与此前最优方法相比在三个目标上取得领先或持平,取得了79.3的总F1值,与最优方法接近,并在句向量对比实验中,验证了提示句向量的优势。  相似文献   

7.
神经网络机器翻译模型在蒙古文到汉文的翻译任务上取得了很好的效果。神经网络翻译模型仅利用双语语料获得词向量,而有限的双语语料规模却限制了词向量的表示。该文将先验信息融合到神经网络机器翻译中,首先将大规模单语语料训练得到的词向量作为翻译模型的初始词向量,同时在词向量中加入词性特征,从而缓解单词的语法歧义问题。其次,为了降低翻译模型解码器的计算复杂度以及模型的训练时间,通常会限制目标词典大小,这导致大量未登录词的出现。该文利用加入词性特征的词向量计算单词之间的相似度,将未登录词用目标词典中与之最相近的单词替换,以缓解未登录词问题。最终实验显示在蒙古文到汉文的翻译任务上将译文的BLEU值提高了2.68个BLEU点。  相似文献   

8.
构建三元组时在文本句子中抽取多个三元组的研究较少,且大多基于英文语境,为此提出了一种基于BERT的中文多关系抽取模型BCMRE,它由关系分类与元素抽取两个任务模型串联组成。BCMRE通过关系分类任务预测出可能包含的关系,将预测关系编码融合到词向量中,对每一种关系复制出一个实例,再输入到元素抽取任务通过命名实体识别预测三元组。BCMRE针对两项任务的特点加入不同前置模型;设计词向量优化BERT处理中文时以字为单位的缺点;设计不同的损失函数使模型效果更好;利用BERT的多头与自注意力机制充分提取特征完成三元组的抽取。BCMRE通过实验与其他模型,以及更换不同的前置模型进行对比,在F1的评估下取得了相对较好的结果,证明了模型可以有效性提高抽取多关系三元组的效果。  相似文献   

9.
针对传统语言模型的词向量表示无法解决多义词表征的问题,以及现有情感分析模型不能充分捕获长距离语义信息的问题,提出了一种结合BERT和BiSRU-AT的文本情感分类模型BERT- BiSRU-AT。首先用预训练模型BERT获取融合文本语境的词向量表征;然后利用双向简单循环单元(BiSRU)二次提取语义特征和上下文信息;再利用注意力机制对BiSRU层的输出分配权重以突出重点信息;最后使用Softmax激励函数得出句子级别的情感概率分布。实验采用中文版本的推特数据集和酒店评论数据集。实验结果表明,结合BERT和BiSRU-AT的文本情感分析模型能够获得更高的准确率,双向简单循环模型和注意力机制的引入能有效提高模型的整体性能,有较大的实用价值。  相似文献   

10.
任务中的生成式摘要模型对原文理解不充分且容易生成重复文本等问题,提出将词向量模型ALBERT与统一预训练模型UniLM相结合的算法,构造出一种ALBERT-UniLM摘要生成模型。该模型采用预训练动态词向量ALBERT替代传统的BERT基准模型进行特征提取获得词向量。利用融合指针网络的UniLM语言模型对下游生成任务微调,结合覆盖机制来降低重复词的生成并获取摘要文本。实验以ROUGE评测值作为评价指标,在2018年CCF国际自然语言处理与中文计算会议(NLPC-C2018)单文档中文新闻摘要评价数据集上进行验证。与BERT基准模型相比,ALBERT-UniLM模型的Rouge-1、Rouge-2和Rouge-L指标分别提升了1.57%、1.37%和1.60%。实验结果表明,提出的ALBERT-UniLM模型在文本摘要任务上效果明显优于其他基准模型,能够有效提高文本摘要的生成质量。  相似文献   

11.
译后编辑是近年来随机器翻译发展新兴的计算机应用研究领域。综述了译后编辑所涉及的三方面的技术问题:自动译后编辑,自动机器翻译质量评估以及译后编辑工作量测量。自动译后编辑与自动机器翻译质量评估均应用自然语言处理领域相关技术,通过自动完成部分编辑工作、筛选机器翻译译文来降低译员工作量,从而提高效率。对译后编辑工作量的研究侧重于分析机器翻译译文的错误对译员工作量的影响,为译后编辑系统环境的设计提供理论依据。总体而言,译后编辑技术研究的主要目的是提高译员的工作效率。  相似文献   

12.
关系分类是自然语言处理领域中重要的语义处理任务,随着机器学习技术的发展,预训练模型BERT在多项自然语言处理任务中取得了大量研究成果,但在关系分类领域尚有待探索.该文针对关系分类的问题特点,提出一种基于实体与实体上下文信息增强BERT的关系分类方法(EC_BERT),该方法利用BERT获取句子特征表示向量,并结合两个目...  相似文献   

13.
陈玺  杨雅婷  董瑞 《计算机工程》2021,47(12):112-117
针对训练汉维机器翻译模型时汉语-维吾尔语平行语料数据稀疏的问题,将汉语预训练语言BERT模型嵌入到汉维神经机器翻译模型中,以提高汉维机器翻译质量。对比不同汉语BERT预训练模型编码信息的嵌入效果,讨论BERT不同隐藏层编码信息对汉维神经机器翻译效果的影响,并提出一种两段式微调BERT策略,通过对比实验总结出将BERT模型应用在汉维神经机器翻译中的最佳方法。在汉维公开数据集上的实验结果显示,通过该方法可使机器双语互译评估值(BLEU)提升1.64,有效提高汉维机器翻译系统的性能。  相似文献   

14.
司法文书短文本的语义多样性和特征稀疏性等特点,对短文本多标签分类精度提出了很大的挑战,传统单一模型的分类算法已无法满足业务需求。为此,提出一种融合深度学习与堆叠模型的多标签分类方法。该方法将分类器划分成两个层次,第一层使用BERT、卷积神经网络、门限循环单元等深度学习方法作为基础分类器,每个基础分类器模型通过K折交叉验证得到所有数据的多标签分类概率值,将此概率值数据进行融合形成元数据;第二层使用自定义的深度神经网络作为混合器,以第一层的元数据为输入,通过训练多标签概率矩阵获取模型参数。该方法将强分类器关联在一起,获得比单个分类器更加强大的性能。实验结果表明,深度学习堆叠模型实现了87%左右的短文本分类F1分数,优于BERT、卷积神经网络、循环神经网络及其他单个模型的性能。  相似文献   

15.
王昆  郑毅  方书雅  刘守印 《计算机应用》2020,40(10):2838-2844
方面级情感分析旨在分类出文本在不同方面的情感倾向。在长文本的方面级情感分析中,由于长文本存在的冗余和噪声问题,导致现有的方面级情感分析算法对于长文本中方面相关信息的特征提取不够充分,分类不精准;而在方面分层为粗粒度和细粒度方面的数据集上,现有的解决方案没有利用粗粒度方面中的信息。针对以上问题,提出基于文本筛选和改进BERT的算法TFN+BERT-Pair-ATT。该算法首先利用长短时记忆网络(LSTM)和注意力机制相结合的文本筛选网络(TFN)从长文本中直接筛选出与粗粒度方面相关的部分语句;然后将部分语句按次序进行组合,并与细粒度方面相结合输入至在BERT上增加注意力层的BERT-Pair-ATT中进行特征提取;最后使用Softmax进行情感分类。通过与基于卷积神经网络(CNN)的GCAE(Gated Convolutional Network with Aspect Embedding)、基于LSTM的交互式注意力模型(IAN)等经典模型相比,该算法在验证集上的相关评价指标分别提高了3.66%和4.59%,与原始BERT模型相比提高了0.58%。实验结果表明,基于文本筛选和改进BERT的算法在长文本方面级情感分析任务中具有较大的价值。  相似文献   

16.
王昆  郑毅  方书雅  刘守印 《计算机应用》2005,40(10):2838-2844
方面级情感分析旨在分类出文本在不同方面的情感倾向。在长文本的方面级情感分析中,由于长文本存在的冗余和噪声问题,导致现有的方面级情感分析算法对于长文本中方面相关信息的特征提取不够充分,分类不精准;而在方面分层为粗粒度和细粒度方面的数据集上,现有的解决方案没有利用粗粒度方面中的信息。针对以上问题,提出基于文本筛选和改进BERT的算法TFN+BERT-Pair-ATT。该算法首先利用长短时记忆网络(LSTM)和注意力机制相结合的文本筛选网络(TFN)从长文本中直接筛选出与粗粒度方面相关的部分语句;然后将部分语句按次序进行组合,并与细粒度方面相结合输入至在BERT上增加注意力层的BERT-Pair-ATT中进行特征提取;最后使用Softmax进行情感分类。通过与基于卷积神经网络(CNN)的GCAE(Gated Convolutional Network with Aspect Embedding)、基于LSTM的交互式注意力模型(IAN)等经典模型相比,该算法在验证集上的相关评价指标分别提高了3.66%和4.59%,与原始BERT模型相比提高了0.58%。实验结果表明,基于文本筛选和改进BERT的算法在长文本方面级情感分析任务中具有较大的价值。  相似文献   

17.
张云婷  叶麟  唐浩林  张宏莉  李尚 《软件学报》2024,35(7):3392-3409
对抗文本是一种能够使深度学习分类器作出错误判断的恶意样本, 敌手通过向原始文本中加入人类难以察觉的微小扰动制作出能欺骗目标模型的对抗文本. 研究对抗文本生成方法, 能对深度神经网络的鲁棒性进行评价, 并助力于模型后续的鲁棒性提升工作. 当前针对中文文本设计的对抗文本生成方法中, 很少有方法将鲁棒性较强的中文BERT模型作为目标模型进行攻击. 面向中文文本分类任务, 提出一种针对中文BERT的攻击方法Chinese BERT Tricker. 该方法使用一种汉字级词语重要性打分方法——重要汉字定位法; 同时基于掩码语言模型设计一种包含两类策略的适用于中文的词语级扰动方法实现对重要词语的替换. 实验表明, 针对文本分类任务, 所提方法在两个真实数据集上均能使中文BERT模型的分类准确率大幅下降至40%以下, 且其多种攻击性能明显强于其他基线方法.  相似文献   

18.
长文本匹配是自然语言处理的一项基础工作,在文本聚类、新闻推荐等方面有着关键作用.受语料、篇幅结构、文本表示技术的限制,长文本匹配工作进展缓慢.近年提出的BERT模型在文本表示方面具有非常卓越的表现,而对于BERT来说,长文本的处理有截断法、分段法和压缩法3种常用方式,截断法丢失大量文本信息,分段法保留文本信息却丢失部分...  相似文献   

19.
事实验证任务要求能够从大规模的文本语料库中抽取相关的证据,并通过推理对给定的声明得出事实性的判断。现有的研究通常将检索到的证据拼接,然后比较声明和证据嵌入的余弦相似度,这些方法忽视了长距离证据之间的联系,以及不同层次的语义相似度,而这些特征对于推理验证至关重要。设计了一种基于图的多层次注意力模型(Graph-aware Hierarchical Attention Networks for Fact Verification,GHAN)。该模型首先通过BERT(Bidirectional Encoder Representation from Transformers)筛选出所需的证据片段,再利用卷积神经网络提取不同长度的[N]-gram特征,构造不同粒度的相似度转移矩阵提取相似度特征。为了综合考虑字符级别和句子级别的语义信息,将证据信息构建成信息融合图,再利用基于核函数的注意力机制进行信息传递与证据推理。该算法在FEVER数据集上取得较好的效果,优于其他基于BERT的方法。  相似文献   

20.
为了应对智慧法院项目中刑期预测任务的实际需求,提出了基于BERT与改进BP神经网络的刑期预测模型。以盗窃案为切入点,剖析相关案情要素,介绍刑期预测的整体框架和具体过程。基于大量真实案件数据,结合法官的审理流程,首先使用BERT识别裁判文书中的案情要素,然后基于规则抽取对应的涉案金额,最后使用改进的BP神经网络预测刑期,并与传统模型对比。实验证明,提出的模型刑期预测的平均误差小于2.5个月,优于进行对比的传统模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号