首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对传统英语翻译的语法纠错系统存在英语语法错误检测准确率低,纠正效果不佳的问题,提出一种基于Seq2Seq神经网络的英语翻译语法纠错模型。首先,采用Seq2Seq神经网络中的Encode部分对输入序列进行建模,并输出此序列的语义向量;然后在Decode部分引入Attention机制,实现原始序列到目标序列的直接映射,从而完成英语语法纠错。实验结果表明,在CoNLL2018数据集的英语语法纠错测试结果中,本模型的准确率、召回率和F0.5值分别为35.44%、40.68%和32.56%,均高于传统CAMB语法纠错模型。在英语冠词错误纠正结果中,本方法的F0.5取值为32.36%,比传统UIUC方法和Corpus GEC方法高出了7.02%和2.76%;介词错误纠错实验中,本方法比另外两种方法高出了5.91%和13.15%。综合分析可知,本模型对英语翻译语法纠错准确率和精度更高,对比于传统的语法纠错模型纠错效果更好,可在英语翻译机器人语法纠错系统中进行广泛应用和推广。  相似文献   

2.
针对中文同一个词的不同词性在句子中所代表的关系不同的问题,提出基于Transformer融合词性特征的中文语法纠错(CGEC)模型,所提模型将语言学知识作为辅助信息融入中文语法纠错任务。首先,在不改变句子序列长度的基础上,在原始词嵌入层中以不同方式拼接词性向量,得到全差异词嵌入、词差异词嵌入和词性差异词嵌入三种不同的词嵌入方式;然后,将新的词嵌入方式与Transformer模型相结合,对错误语句进行语法纠错。实验结果表明,三种词嵌入方式均不同程度地提高了F0.5值,且全差异词嵌入方式的效果最好:与Transformer模型相比,F0.5提升了2.73个百分点,BLEU提升了6.27个百分点;与基于Transformer增强架构的中文语法纠错模型相比,F0.5提升了1.88个百分点。所提模型在对词性特征提取时可以侧重源语句与目标语句的语法差异,更好地捕捉句子的语法特征。  相似文献   

3.
针对传统英语翻译机器人在错误文本检测中存在语法纠错准确率低的问题,以英语翻译机器人错误检测系统为研究对象,提出构建一个双编码器的语法错误纠正模型。此模型分别采用Transformer编码器和Bi-GRU编码器对句子上下文信息和源句进行特征提取;之后利用解码器端的门控结构对输入的相关特征信息进行整合,由此实现各个特征与注意力机制的适配。实验结果表明,在CoNLL-2014数据集中,本模型的精确率、召回率和F0.5分别取值为85.42%、42.31%和75.33%,均高于传统的Nested-GRU*模型和SMT+NMT+FST-LM混合模型,本模型的F0.5值比前两者模型分别高出了32.97%和14.62%。且本模型的GLEU值取值为85.93%,超出前两种模型39.14%和25.62%。由此可知,本模型可实现英语翻译机器人语法错误准确检测和纠正,语法纠错精确率高达81.08%,可在英语错误文本检测系统中进行应用。  相似文献   

4.
为了进一步提升语法自动纠错技术的实用性,研究对以循环神经网络为核心的Sep2Sep模型进行优化改进,引入双向LSTM循环神经网络,将基于双向LSTM的Sep2Sep模型与MLP神经网络相结合构建语法自动纠错系统,并通过测试实验验证语法自动纠错系统的准确率。研究结果表明,研究所设计的语法自动纠错系统F0.5值为56.37,P值和R值分别为66.78和35.09,检测准确率较高。纠错系统的运行响应时间保持在1.34 s,能在多个检测目标并发情况下进行快速系统响应。研究利用双向LSTM和MLP神经网络解决传统纠错模型的梯度爆炸问题,并采用分布式架构提升自动纠错系统的运行能力,对进一步加强自动语法纠错技术的实用性具有重要意义。  相似文献   

5.
后处理是检测和纠正文字识别后文本中错误的重要步骤,老挝语文字识别结果中存在大量相似字符替换错误及字符断裂、粘连导致的字符插入、删除错误,针对该问题进行分析,该文提出了一种融合字符形状特征的多任务老挝语文字识别后纠错方法.该方法引入基于长短期记忆网络的seq2seq模型架构,将老挝字形特征融入模型以辅助模型对相似字符替换错误的纠正,针对文本中插入、删除错误在编码端联合多尺度卷积网络以不同的卷积核大小提取文本的局部特征;再使用语言模型对解码端预测的文本序列与原始文本进行重排名,得到最佳候选;同时,采用多任务学习的方式,以错误检测辅任务优化模型纠错效果,此外,该文以数据增强的方式扩充数据集.实验结果表明,该方法使老挝文字识别的字符错率低至7.94%.  相似文献   

6.
为提高语音阅读交互系统中回复内容的匹配速率和准确率,从信息匹配的算法入手,提出基于attention机制对传统seq2seq模型进行改进,并引入beam search算法对语音识别结果进行剪枝,选择出最佳的匹配内容输出;接着进行语音阅读交互系统设计,选择语音识别系统、设定文本信息向编码信息转换的方式、对基于改进seq2seq模型的答复匹配设计;最后为验证改进后的seq2seq模型在语音阅读交互系统中的优势,配置语音阅读交互系统运行的实验环境,并进行算法验证实验。最终的结果证明,改进后的算法损失函数的收敛性性能更好;交互时回复信息的相关性明显高于改进前,且回复的信息的内容更为丰富。  相似文献   

7.
针对传统手写英语字体存在语法错误检测准确率低,导致语法纠错效果不佳的问题。提出基于机器视觉的手写英语自动翻译语法错误检测系统。首先触发采集传感器,利用工业相机对手写英语字体进行拍摄和字体采集;然后利用处理算法对手写英语字体轮廓进行提取和识别定位;之后对识别字体特征进行重排序处理;最后通过训练后的基于BERT的英语语法错误检测模型进行语法错误检测。实验表明,对比于其他语法错误检测模型,本模型在测试集上的检测精确度明显更高,其最高可达90%。在120幅不同类别的英语手写图像中,本系统的英语语法检错正确率高达99.62%,比传统的人工检测方法高出了41.66%,且本系统进行语法错误检测的所用时间控制在25 s以下,相较于人工检测方式低了5倍。由此可知,本系统可实现手写英语字体的准确识别和分类,通过本模型能够提升手写英语语法错误检测率和效率,从而进一步提高了语法纠错效果。  相似文献   

8.
目前机器翻译主要对印欧语系进行优化与评测,很少有对中文进行优化的,而且机器翻译领域效果最好的基于注意力机制的神经机器翻译模型-seq2seq模型也没有考虑到不同语言间语法的变换。提出一种优化的英汉翻译模型,使用不同的文本预处理和嵌入层参数初始化方法,并改进seq2seq模型结构,在编码器和解码器之间添加一层用于语法变化的转换层。通过预处理,能缩减翻译模型的参数规模和训练时间20%,且翻译性能提高0.4 BLEU。使用转换层的seq2seq模型在翻译性能上提升0.7~1.0 BLEU。实验表明,在规模大小不同的语料英汉翻译任务中,该模型与现有的基于注意力机制的seq2seq主流模型相比,训练时长一致,性能提高了1~2 BLEU。  相似文献   

9.
案例学习是CBR(Case-Based Reasoning)推理机的重要环节,但由于案例的多样性以及对领域的依赖性,导致CBR系统中案例自动生成困难的问题。针对这一问题,本文提出将seq2seq(Sequence-to-Sequence)模型用于案例学习,通过seq2seq模型自动生成案例,引入attention机制,提高seq2seq模型生成案例的效果,并利用潜在语义分析LSA(Latent Semantic Analysis)对网络爬取语料库进行筛选,利用过滤后的语料库对模型进行训练,提出一种基于三元组的评估方法,对生成案例进行评估和存储,从而实现CBR推理机的自主学习。最后将改进的案例学习系统应用到实际的智能机器人上进行验证,测试结果表明该方法具有可行性,且能够有效提高机器人的智能性及易用性。  相似文献   

10.
当前的英文语法纠错模型往往忽略了有利于语法纠错的文本句法知识, 从而使得英语语法纠错模型的纠错能力受到影响. 针对上述问题, 提出一种基于差分融合句法特征的英语语法纠错模型. 首先, 本文提出的句法编码器不仅可以直接从文本中无监督地生成依存关系图和成分句法树信息, 而且还能将上述两种异构的句法结构进行特征融合, 编码成高维的句法表征. 其次, 为了同时利用文本中的语义和句法信息, 差分融合模块先使用差分正则化加强语义编码器捕获句法编码器未能生成的语义特征, 然后采用协同注意力将句法表征和语义表征进一步融合, 作为Transformer编码端的输出特征, 最终输入到解码端, 从而生成语法正确的文本. 在CoNLL-2014 英文纠错任务数据集上进行对比实验, 结果表明, 该方法的准确率和F0.5值优于基于Copy-Augmented Transformer的语法纠错模型, 其F0.5值提升了5.2个百分点, 并且句法知识避免了标注数据过少问题, 具有更优的文本纠错效果.  相似文献   

11.
针对藏文新闻主客观分类的现实需求,该文以藏文新闻文本数据为研究对象,提出一种基于混合表示的藏文新闻主客观句子分类模型(HRTNSC)。首先通过融合音节级特征和包含当前音节的单词级特征丰富模型输入的语义信息,然后将融合后的特征向量输入到BiLSTM+CNN网络中进行语义提取,最后采用Softmax分类器实现句子的主客观分类。测试结果表明,HRTNSC模型在Word2Vec音节向量+BERT音节向量+注意力机制加权的单词向量特征组合下最优F1值达到90.84%,分类效果优于对比模型,可以较有效地分类主客观句子,具有一定的应用价值。  相似文献   

12.
宋长平  李婧 《计算机应用研究》2020,37(11):3297-3301
传统序列到序列模型未充分利用输入文本的句子结构,导致其无法生成结构严谨、语法更好的摘要。因此,提出了一种融合句子基本结构的摘要生成方法。首先,明确提出融合句子结构生成文本摘要的概念。再者,在摘要生成器上增添了句子基本结构模块和监督模块,句子基本结构模块从输入文本中捕捉一系列句子结构,监督模块评估已捕获句子结构的重要性,以此协助句子基本结构模块从中提取可用的句子结构。最后,摘要生成器融合可用的句子结构生成最终摘要。在数据集LCSTS上的实验表明,此方法的ROUGE得分相较于seq2seq皆有提高,即其生成摘要的准确性优于seq2seq模型。实验也验证了句子基本结构模块和监督模块存在的必要性。  相似文献   

13.
针对英语文章语法错误自动纠正(Grammatical Error Correction,GEC)问题中的冠词和介词错误,该文提出一种基于LSTM(Long Short-Term Memory,长短时记忆)的序列标注GEC方法;针对名词单复数错误、动词形式错误和主谓不一致错误,因其混淆集为开放集合,该文提出一种基于ESL(English as Second Lauguage)和新闻语料的N-gram投票策略的GEC方法。该文方法在2013年CoNLL的GEC数据上实验的整体F1值为33.87%,超过第一名UIUC的F1值31.20%。其中,冠词错误纠正的F1值为38.05%,超过UIUC冠词错误纠正的F1值33.40%,介词错误的纠正F1为28.89%,超过UIUC的介词错误纠正F1值7.22%。  相似文献   

14.
实体关系抽取是实现海量文本数据知识化、自动构建大规模知识图谱的关键技术。考虑到头尾实体信息对关系抽取有重要影响,该文采用注意力机制将实体对信息融合到关系抽取过程中,提出了基于实体对注意力机制的实体关系联合抽取模型(EPSA)。首先,使用双向长短时记忆网络(Bi-LSTM)结合条件随机场(CRF)完成实体的识别;其次,将抽取的实体配对,信息融合成统一的嵌入式表示形式,用于计算句子中各词的注意力值;然后,使用基于实体对注意力机制的句子编码模块得到句子表示,再利用显式融合实体对的信息得到增强型句子表示;最后,通过分类方式完成实体关系的抽取。在公开数据集NYT和WebNLG上对提出的EPSA模型进行评估,实现结果表明,与目前主流联合抽取模型相比,EPSA模型在F1值上均得到提升,分别达到84.5%和88.5%,并解决了单一实体重叠问题。  相似文献   

15.
为解决办公人员在进行文档写作时存在各种文本格式和内容错误的问题,设计基于深度学习的文本自动纠错系统,用于辅助办公人员的写作和校对工作;分析办公人员的文本纠错需求,并进行文本格式与内容纠错方法研究;设计系统由写作模板生成、文本格式纠错和文本内容纠错三个功能组成;首先,设计文本要素识别与检查算法并基于VBA技术实现文本格式校对;然后基于Seq2Seq深度学习模型训练字词、语法和标点符号查错模型完成公文内容纠错,并根据办公人员工作需求建立纠错辅助字库提升系统纠错准确率;最终,通过系统测试实验结果表明,设计系统能够极大地提升办公人员写作效率并减轻文本校对工作负担。  相似文献   

16.
以法学知识为中心的认知智能是当前司法人工智能发展的重要方向。该文提出了以自然语言处理(NLP)为核心技术的司法案件案情知识图谱自动构建技术。以预训练模型为基础,对涉及的实体识别和关系抽取这两个NLP基本任务进行了模型研究与设计。针对实体识别任务,对比研究了两种基于预训练的实体识别模型;针对关系抽取任务,该文提出融合平移嵌入的多任务联合的语义关系抽取模型,同时获得了结合上下文的案情知识表示学习。在“机动车交通事故责任纠纷”案由下,和基准模型相比,实体识别的F1值可提升0.36,关系抽取的F1值提升高达2.37。以此为基础,该文设计了司法案件的案情知识图谱自动构建流程,实现了对数十万份判决书案情知识图谱的自动构建,为类案精准推送等司法人工智能应用提供语义支撑。  相似文献   

17.
复句的关系识别是为了区分句子语义关系的类别,是自然语言处理(NLP)中必不可少的基础研究任务。现有研究无法使机器在表层判别缺少显式句间连接词句子的语义关系类型。该文将Attention机制与图卷积神经网络(GCN)相结合应用到汉语复句语义关系识别中,通过BERT预训练模型获取单句词向量,输入到Bi-LSTM获取句子位置表示,经Attention机制得到各位置间权重构建图网络以捕获句子间的语义信息,通过图卷积抽取深层的关联信息。该文的方法对缺少显式句间连接词句子的关系识别达到了较好的识别效果,为进一步研究计算机自动分析、识别处理复句的基本方法奠定基础。实验结果表明,在汉语复句语料库(CCCS)和汉语篇章树库(CDTB)数据集上,与先前最好的模型相比,其准确率分别为77.3%和75.7%,提升约1.6%,宏平均F1值分别为76.2%和74.4%,提升约2.1%,说明了该文方法的有效性。  相似文献   

18.
目前,自然语言处理大多是借助于分词结果进行句法依存分析,主要采用基于监督学习的端对端模型。该方法主要存在两个问题,一是标注体系繁多,相对比较复杂;二是无法识别语言嵌套结构。为了解决以上问题,该文提出了基于短语窗口的依存句法标注规则,并标注了中文短语窗口数据集(CPWD),同时引入短语窗口模型。该标注规则以短语为最小单位,把句子划分为7类可嵌套的短语类型,同时标示出短语间的句法依存关系;短语窗口模型借鉴了计算机视觉领域目标检测的思想,检测短语的起始位置和结束位置,实现了对嵌套短语及句法依存关系的同步识别。实验结果表明,在CPWD数据集上,短语窗口模型比传统端对端模型F1值提升超过1个百分点。相应的方法应用到了CCL2018的中文隐喻情感分析比赛中,在原有基础上F1值提升了1个百分点以上,取得第一名成绩。  相似文献   

19.
从认知学角度,隐喻情绪由句子中“源语义场景-目标语义场景”词对的情绪场景融合而成。鉴于此特点,该文提出了融合词语场景的隐喻情绪识别模型。该模型借助情绪词典及大规模语料库,构建了词语情绪分布表示获取算法,用于捕获句子中映射词对的情绪分布表示。在此基础上,利用注意力机制与最大池化策略,编码句子的多情绪场景融合表示,以刻画句子情绪形成的诱因。最后,设计情绪分类器,联合句子情绪及上下文表示作为输入,多角度地构建句子的语义,以提升隐喻情绪识别性能。在隐喻情绪数据集上进行实验,与基线模型和最好评测模型进行对比,该文提出的模型在宏F1值上提升了5.74%与2.73%。另外,定性的实例分析解释了词语场景对隐喻情绪识别的作用。  相似文献   

20.
案件要素识别指将案件描述中重要事实描述自动抽取出来,并根据领域专家设计的要素体系进行分类,是智慧司法领域的重要研究内容。基于传统神经网络的文本编码难以提取深层次特征,基于阈值的多标签分类难以捕获标签间的依赖关系,因此该文提出了基于预训练语言模型的多标签文本分类模型。该模型采用以Layer-attentive策略进行特征融合的语言模型作为编码器,使用基于LSTM的序列生成模型作为解码器。在“CAIL2019”数据集上进行实验,该方法比基于循环神经网络的算法在F1值上平均可提升7.4%,在相同超参数设置下宏平均F1值比基础语言模型(BERT)平均提升3.2%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号