首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
针对传统英语翻译的语法纠错系统存在英语语法错误检测准确率低,纠正效果不佳的问题,提出一种基于Seq2Seq神经网络的英语翻译语法纠错模型。首先,采用Seq2Seq神经网络中的Encode部分对输入序列进行建模,并输出此序列的语义向量;然后在Decode部分引入Attention机制,实现原始序列到目标序列的直接映射,从而完成英语语法纠错。实验结果表明,在CoNLL2018数据集的英语语法纠错测试结果中,本模型的准确率、召回率和F0.5值分别为35.44%、40.68%和32.56%,均高于传统CAMB语法纠错模型。在英语冠词错误纠正结果中,本方法的F0.5取值为32.36%,比传统UIUC方法和Corpus GEC方法高出了7.02%和2.76%;介词错误纠错实验中,本方法比另外两种方法高出了5.91%和13.15%。综合分析可知,本模型对英语翻译语法纠错准确率和精度更高,对比于传统的语法纠错模型纠错效果更好,可在英语翻译机器人语法纠错系统中进行广泛应用和推广。  相似文献   

2.
针对传统英语翻译机器人在错误文本检测中存在语法纠错准确率低的问题,以英语翻译机器人错误检测系统为研究对象,提出构建一个双编码器的语法错误纠正模型。此模型分别采用Transformer编码器和Bi-GRU编码器对句子上下文信息和源句进行特征提取;之后利用解码器端的门控结构对输入的相关特征信息进行整合,由此实现各个特征与注意力机制的适配。实验结果表明,在CoNLL-2014数据集中,本模型的精确率、召回率和F0.5分别取值为85.42%、42.31%和75.33%,均高于传统的Nested-GRU*模型和SMT+NMT+FST-LM混合模型,本模型的F0.5值比前两者模型分别高出了32.97%和14.62%。且本模型的GLEU值取值为85.93%,超出前两种模型39.14%和25.62%。由此可知,本模型可实现英语翻译机器人语法错误准确检测和纠正,语法纠错精确率高达81.08%,可在英语错误文本检测系统中进行应用。  相似文献   

3.
篇章关系分为显式和隐式两种。显式关系的显著特征是篇章的基本单元之间存在显式连接词。针对汉语显式篇章关系,构建了包括汉语连接词识别和篇章关系分类的显式篇章关系分析平台。该文选取汉语宾州树库(Chinese Penn Treebank, CTB)中的500篇文本进行了汉语显式篇章关系标注;结合连接词的中心词,采用最大熵分类器构建了汉语连接词识别模块,其性能F1值达到了66.79%;基于连接词及其词性等上下文特征,构建了篇章关系分类器,其在最顶层4大类语义关系上的分类性能的F1值为91.92%。  相似文献   

4.
针对现阶段中文命名实体识别(NER)方法存在训练时间过长、性能有待提高的不足,提出一种融合“自注意力”机制的ALBERT中文NER方法。选择ALBERT作为嵌入层,通过BiLSTM获取字符位置信息,经过自注意力层进一步寻找序列内部联系,CRF解码获得最优序列。在《人民日报》和MRSA数据集上的实验F1值分别达到了93.97%、97.35%。进一步从2个方面验证模型的有效性,实验结果表明,该方法比BERT BiLSTM-CRF训练时间减少约13.8%,P、R、F1均提升0.8%左右。  相似文献   

5.
实体关系联合抽取任务旨在识别命名实体的同时可抽取实体间的语义关系。该文提出了一种基于多特征融合及奖惩机制的藏医药领域实体关系联合抽取方法,针对基于序列标注的联合抽取方法中标注策略的局限性及特征单一、模型学习能力有限的问题,提出以下解决方案:(1)使用嵌套实体标注策略突破原有标注方法的局限;(2)使用类别特征静态融合、多特征动态融合方法及奖惩机制分别用于特征增强及模型优化。实验结果表明,该文方法提升了藏医药领域联合抽取模型的效果,模型最终的F1值为79.23%。同时,为了证明该文模型的鲁棒性及有效性,还在SKE及NYT领域数据上进行了相关实验,实验结果验证该模型的有效性,且优于基线方法。  相似文献   

6.
该文归纳了问句形式在问句语料筛选中的作用,探索了问句分类必需的形式特征,同时通过人工标注建设了中文问句分类语料库,并在此基础上进行了基于规则和统计的分类实验,通过多轮实验迭代优化特征组合形成特征规则集,为当前问答提供形式上的分类基础。实验中,基于优化特征规则集的有限状态自动机可实现宏平均F1值为0.94;统计机器学习中随机森林模型的分类效果较好,F1值宏平均达到0.98。  相似文献   

7.
目前,自然语言处理大多是借助于分词结果进行句法依存分析,主要采用基于监督学习的端对端模型。该方法主要存在两个问题,一是标注体系繁多,相对比较复杂;二是无法识别语言嵌套结构。为了解决以上问题,该文提出了基于短语窗口的依存句法标注规则,并标注了中文短语窗口数据集(CPWD),同时引入短语窗口模型。该标注规则以短语为最小单位,把句子划分为7类可嵌套的短语类型,同时标示出短语间的句法依存关系;短语窗口模型借鉴了计算机视觉领域目标检测的思想,检测短语的起始位置和结束位置,实现了对嵌套短语及句法依存关系的同步识别。实验结果表明,在CPWD数据集上,短语窗口模型比传统端对端模型F1值提升超过1个百分点。相应的方法应用到了CCL2018的中文隐喻情感分析比赛中,在原有基础上F1值提升了1个百分点以上,取得第一名成绩。  相似文献   

8.
该文主要基于共振峰对六对发音相似的朝汉语单元音的分类方法进行了研究。首先,提取音频文件的前三个共振峰F1、F2、F3;其次,分析六对发音相似的朝汉语单元音的共振峰分布差异,针对不同的分类对象选择不同的共振峰频率特征参数或其组合形式作为分类特征;最后,采用信息增益方法确定分类阈值并对朝汉语单元音进行分类。实验结果表明,朝鲜语单元音和具有相似发音的汉语单元音之间存在可区分性,所采用的方法计算过程简单,获得了良好的分类效果。  相似文献   

9.
汉语框架语义角色标注对汉语框架语义分析具有重要作用。目前汉语框架语义角色标注任务主要针对动词框架,但是汉语没有丰富的形态变化,很多语法意义都是通过虚词来表现的,其中副词研究是现代汉语虚词研究的重要部分,因此该文从副词角度出发构建了汉语副词框架及数据集,且对框架下的词元按照语义强弱进行了等级划分。目前的语义角色标注模型大多基于BiLSTM网络模型,该模型虽然可以很好地获取全局信息,但容易忽略句子局部特征,且无法并行训练。针对上述问题,该文提出了基于BERT特征融合与膨胀卷积的语义角色标注模型,该模型包括四层:BERT层用于表达句子的丰富语义信息,Attention层对BERT获取的每一层信息进行动态权重融合,膨胀卷积(IDCNN)层进行特征提取,CRF层修正预测标签。该模型在三个副词框架数据集上表现良好,F1值均达到了82%以上。此外,将该模型应用于CFN数据集上,F1值达到88.29%,较基线模型提升了4%以上。  相似文献   

10.
针对中文同一个词的不同词性在句子中所代表的关系不同的问题,提出基于Transformer融合词性特征的中文语法纠错(CGEC)模型,所提模型将语言学知识作为辅助信息融入中文语法纠错任务。首先,在不改变句子序列长度的基础上,在原始词嵌入层中以不同方式拼接词性向量,得到全差异词嵌入、词差异词嵌入和词性差异词嵌入三种不同的词嵌入方式;然后,将新的词嵌入方式与Transformer模型相结合,对错误语句进行语法纠错。实验结果表明,三种词嵌入方式均不同程度地提高了F0.5值,且全差异词嵌入方式的效果最好:与Transformer模型相比,F0.5提升了2.73个百分点,BLEU提升了6.27个百分点;与基于Transformer增强架构的中文语法纠错模型相比,F0.5提升了1.88个百分点。所提模型在对词性特征提取时可以侧重源语句与目标语句的语法差异,更好地捕捉句子的语法特征。  相似文献   

11.
采用改进重采样和BRF方法的定义抽取研究   总被引:1,自引:0,他引:1  
为了从专业领域语料中发现并获取所有的专业术语定义,该文提出了使用分类方法进行专业术语定义抽取的方法。该文采用一种基于实例距离分布信息的过采样方法,将其与随机欠采样方法结合用以建立平衡训练语料,并使用BRF(Balanced Random Forest)方法来获得C4.5决策树的聚合分类结果。该方法获得了最好65%的F1-measure成绩和78%的F2-measure成绩,超过了仅使用BRF方法取得的成绩。  相似文献   

12.
英语介词纠错系统,针对英语学习者英语语言中常见的介词错误进行计算机自动纠正.首先,对标注过得语料库中介词错误进行了分类统计,总结出21种常见介词,在英语wiki语料库中利用计算机自动错误插值算法获得训练集合.然后在训练集合基础之上,通过使用基于最大熵模型的分类器,选择了包括上下文、介词补足语等特征,在训练集上进行模型的训练,最后使用模型对于输入句子进行预测并纠正存在的使用错误.在NUCLE语料的实验中,给出了语料处理、模型特点、训练语料的大小、迭代次数对于测试集效果的影响,并且比较了朴素贝叶斯模型的结果,最后在测试数据达到27.68的F值,相对于CoNLL2013的shared task中最好结果有小幅提升.  相似文献   

13.
藏文分词问题是藏文自然语言处理的基本问题之一,该文首先通过对35.1M的藏文语料进行标注之后,通过条件随机场模型对其进行训练,生成模型参数,再用模版对未分词的语料进行分词,针对基于条件随机场分词结果中存在的非藏文字符切分错误,藏文黏着词识别错误,停用词切分错误,未登录词切分错误等问题分别总结了规则,并对分词的结果利用规则进行再加工,得到最终的分词结果,开放实验表明该系统的正确率96.11%,召回率96.03%,F值96.06%。  相似文献   

14.
远程监督是关系抽取领域重要的语料扩充技术,可以在少量已标注语料的基础上快速生成伪标注语料。但是传统的远程监督方法主要应用于单语种文本,维吾尔语等低资源语言并不能使用这类方法得到伪标注语料。针对上述问题,提出一种针对维汉的跨语言远程监督方法,在无语料的情况下利用现有的汉语语料进行维语语料的自动扩充。将远程监督视为文本语义相似度计算问题而不是简单的文本查找,从实体语义和句子语义2个层面判断维语和汉语句子对是否包含同一关系,若为同一关系则将已有的汉语标注转移到维语句子上,实现维语语料从零开始的自动扩充。此外,为有效捕获实体的上下文和隐藏语义信息,提出一种带有门控机制的交互式匹配方法,通过门控单元控制编码层、注意力层之间的信息传递。人工标记3 500条维语句子和600条汉语句子用于模拟远程监督过程并验证模型的性能。实验结果表明,该方法 F1值达到73.05%,并且成功构造了包含97 949条维语句子的关系抽取伪标注数据集。  相似文献   

15.
该文提出一种融入简单名词短语信息的介词短语识别方法。该方法首先使用CRF模型识别语料中的简单名词短语,并使用转换规则对识别结果进行校正,使其更符合介词短语的内部短语形式;然后依据简单名词短语识别结果对语料进行分词融合;最后,通过多层CRFs模型对测试语料进行介词短语识别,并使用规则进行校正。介词短语识别的精确率、召回率及F-值分别为: 93.02%、92.95%、92.99%,比目前发表的最好结果高1.03个百分点。该实验结果表明基于简单名词短语的介词短语识别算法的有效性。
  相似文献   

16.
关注社交群中的问答资源,提出面向社交群的问答对获取方法,主要包括问句识别和答案获取.分析了基于规则和深度学习及结合方法三种问句识别方法的特性;答案获取以深度学习模型为基础,将区分正反例回答同问题的相关度作为学习目标,对各个候选答案与问题的相关度打分排序.引入回答顺序和共现词特征对基础打分作调整进行二次打分排序.实验结果...  相似文献   

17.
18.
提出一种新的基于语义关系的特征,在句法分析的基础上,抽取句子及问题的语义关系三元组,利用搜索引擎计算三元组的相似度,在此基础上计算得到句子和问题的相似度,抽取句子形成问答式文摘。权威语料上的实验证明,使用该特征在各项文摘性能指标上超越了经典的TF*IDF方法,ROUGE-4指标提高了46.4%,而且由该特征单独编制的系统,在32家单位参加的国际评测中ROUGE-L指标排名为第10。  相似文献   

19.
该文提出一种统计与规则相结合的时间表达式识别方法。首先,通过分析中文文本中时间表达式的词形、词性和上下文信息,采用条件随机场识别时间单元而非时间表达式整体,避免了中文时间表达式边界定位不准确的问题;然后,从训练语料中自动获取候选触发词,并依据评价函数对候选触发词打分,筛选出正确的触发词完善触发词库;最后,根据时间触发词库与时间缀词库,制定规则对时间表达式边界进行定位。实验结果显示开式测试F1值达到98.31%。  相似文献   

20.
该文从中文信息处理角度对动宾型离合词自动识别进行研究。通过分析离合词在实际语料中的使用特点以及离合词离析成分在大规模语料库中的表现形式,从离合词内部入手,形式化地表示离合词的离析形式,总结自动识别的规则,设计基于规则的自动识别算法。经过优化后,该算法在20亿字的语料中达到了91.6%的正确率。离合词语素构词能力强,分词与词性标注错误,规则的不完整性,语料本身的错误,以及人工标注的疏漏等是影响实验结论的主要因素。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号