首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
针对传统英语翻译的语法纠错系统存在英语语法错误检测准确率低,纠正效果不佳的问题,提出一种基于Seq2Seq神经网络的英语翻译语法纠错模型。首先,采用Seq2Seq神经网络中的Encode部分对输入序列进行建模,并输出此序列的语义向量;然后在Decode部分引入Attention机制,实现原始序列到目标序列的直接映射,从而完成英语语法纠错。实验结果表明,在CoNLL2018数据集的英语语法纠错测试结果中,本模型的准确率、召回率和F0.5值分别为35.44%、40.68%和32.56%,均高于传统CAMB语法纠错模型。在英语冠词错误纠正结果中,本方法的F0.5取值为32.36%,比传统UIUC方法和Corpus GEC方法高出了7.02%和2.76%;介词错误纠错实验中,本方法比另外两种方法高出了5.91%和13.15%。综合分析可知,本模型对英语翻译语法纠错准确率和精度更高,对比于传统的语法纠错模型纠错效果更好,可在英语翻译机器人语法纠错系统中进行广泛应用和推广。  相似文献   

2.
后处理是检测和纠正文字识别后文本中错误的重要步骤,老挝语文字识别结果中存在大量相似字符替换错误及字符断裂、粘连导致的字符插入、删除错误,针对该问题进行分析,该文提出了一种融合字符形状特征的多任务老挝语文字识别后纠错方法.该方法引入基于长短期记忆网络的seq2seq模型架构,将老挝字形特征融入模型以辅助模型对相似字符替换错误的纠正,针对文本中插入、删除错误在编码端联合多尺度卷积网络以不同的卷积核大小提取文本的局部特征;再使用语言模型对解码端预测的文本序列与原始文本进行重排名,得到最佳候选;同时,采用多任务学习的方式,以错误检测辅任务优化模型纠错效果,此外,该文以数据增强的方式扩充数据集.实验结果表明,该方法使老挝文字识别的字符错率低至7.94%.  相似文献   

3.
语法纠错任务是自然语言处理领域的一项重要任务,近年来受到了学术界广泛关注。该任务旨在自动识别并纠正文本中所包含的语法、拼写以及语序错误等。该文将语法纠错任务看作是翻译任务,即将带有错误表达的文本翻译成正确的文本,采用基于多头注意力机制的Transformer模型作为纠错模型,并提出了一种动态残差结构,动态结合不同神经模块的输出来增强模型捕获语义信息的能力。受限于目前训练语料不足的情况,该文提出了一种数据增强方法,通过对单语语料的腐化从而生成更多的纠错数据,进一步提高模型的性能。实验结果表明,该文所提出的基于动态残差的模型增强以及腐化语料的数据增强方法对纠错性能有着较大的提升,在NLPCC 2018中文语法纠错共享评测数据上达到了最优性能。  相似文献   

4.
语法纠错任务旨在通过自然语言处理技术自动检测并纠正文本中的语序、拼写等语法错误。当前许多针对汉语的语法纠错方法已取得较好的效果,但往往忽略了学习者的个性化特征,如二语等级、母语背景等。因此,该文面向汉语作为第二语言的学习者,提出个性化语法纠错,对不同特征的学习者所犯的错误分别进行纠正,并构建了不同领域汉语学习者的数据集进行实验。实验结果表明,将语法纠错模型适应到学习者的各个领域后,性能得到明显提升。  相似文献   

5.
韦向峰  张全  熊亮 《计算机科学》2006,33(10):152-155
汉语语音识别的研究越来越重视与语言处理的结合,语音识别已经不是单纯的语音信号处理。N-gram语言模型应用到语音识别系统中,大大增强了系统的正确率和稳定性,但它也有其自身的局限性,使得语音识别出现许多语法和语义的错误结果。本文分析了语音识别产生语音和文字方面的错误的原因和类型,在概念层次网络语言模型的基础上提出了一种基于语句语义分析和混淆音矩阵的语音识别纠错方法。通过三个发音人、5万字的声音语料和216句实验语句的纠错测试,本文的纠错系统在纠正语义搭配型错误方面有比较好的表现,可克服N-gram语言模型带来的一些缺陷。本文提出的纠错方法还可以融合到语音识别系统中,以便更好地为语音识别的纠错处理服务。  相似文献   

6.
为解决办公人员在进行文档写作时存在各种文本格式和内容错误的问题,设计基于深度学习的文本自动纠错系统,用于辅助办公人员的写作和校对工作;分析办公人员的文本纠错需求,并进行文本格式与内容纠错方法研究;设计系统由写作模板生成、文本格式纠错和文本内容纠错三个功能组成;首先,设计文本要素识别与检查算法并基于VBA技术实现文本格式校对;然后基于Seq2Seq深度学习模型训练字词、语法和标点符号查错模型完成公文内容纠错,并根据办公人员工作需求建立纠错辅助字库提升系统纠错准确率;最终,通过系统测试实验结果表明,设计系统能够极大地提升办公人员写作效率并减轻文本校对工作负担。  相似文献   

7.
针对中文同一个词的不同词性在句子中所代表的关系不同的问题,提出基于Transformer融合词性特征的中文语法纠错(CGEC)模型,所提模型将语言学知识作为辅助信息融入中文语法纠错任务。首先,在不改变句子序列长度的基础上,在原始词嵌入层中以不同方式拼接词性向量,得到全差异词嵌入、词差异词嵌入和词性差异词嵌入三种不同的词嵌入方式;然后,将新的词嵌入方式与Transformer模型相结合,对错误语句进行语法纠错。实验结果表明,三种词嵌入方式均不同程度地提高了F0.5值,且全差异词嵌入方式的效果最好:与Transformer模型相比,F0.5提升了2.73个百分点,BLEU提升了6.27个百分点;与基于Transformer增强架构的中文语法纠错模型相比,F0.5提升了1.88个百分点。所提模型在对词性特征提取时可以侧重源语句与目标语句的语法差异,更好地捕捉句子的语法特征。  相似文献   

8.
气象文本是国家气象部门面向公众发布的气象信息,具体包括预警、预报、专报、公报、提示等类型。现有文本生产需要人工编写审核,效率不高,而全自动文本生成主要依赖模板、形式比较固定。针对这个现状,提出气象文本推荐思路并给出具体实现方法。气象文本推荐读入用户输入信息,自动推荐后续相关文本供用户选择,提升编写效率及质量。该方法分为两步:进行气象要素抽取,替换得到模板文本;基于模板文本构建邻居子句生成模型。要素抽取使用CRF序列标注模型,文本生成利用Seq2Seq模型。基于公开预警文本的实验结果表明:利用CRF进行要素抽取平均准确率超过90%,基于Seq2Seq模型的生成方法在BLEU值上达到12.2,准确率达到65%。  相似文献   

9.
郑纬民  张华  王小川 《软件学报》2006,17(2):193-199
提出了一种新的测序纠错算法.该算法在对测序数据拼接之前对其进行检查,找出并修正测序序列中的错误.该算法将测序数据映射成欧拉超路,并通过一种称为合并变换的等价变换,通过一系列规则的限制和引导,动态地对欧拉超路进行简化.在此过程中,该算法将错误的边和正确的边对应起来,再通过替换纠错过程消除错误.在对T.tengcongensis(TT)和T.whipplei(TW)两个数据集的测试过程中,这种方法分别找出并修正了86%和83%的错误,而原欧拉序列拼接中的纠错算法对这两组数据集的纠错结果只有71%和53%.  相似文献   

10.
从单文档中生成简短精炼的摘要文本可有效缓解信息爆炸给人们带来的阅读压力。近年来,序列到序列(sequence-to-sequence,Seq2Seq)模型在各文本生成任务中广泛应用,其中结合注意力机制的Seq2Seq模型已成为生成式文本摘要的基本框架。为生成能体现摘要的特定写作风格特征的摘要,在基于注意力和覆盖率机制的Seq2Seq模型基础上,在解码阶段利用变分自编码器(variational auto-encoder,VAE)刻画摘要风格特征并用于指导摘要文本生成;最后,利用指针生成网络来缓解模型中可能出现的未登录词问题。基于新浪微博LCSTS数据集的实验结果表明,该方法能有效刻画摘要风格特征、缓解未登录词及重复生成问题,使得生成的摘要准确性高于基准模型。  相似文献   

11.
旨在对冗长的文本进行简短精确的总结,同时保留文本的原始语义。该文提出一种融合义原的中文摘要生成方法(Add Sememe-Pointer Model, ASPM),以词为单位在LCSTS数据集上进行实验。算法利用基于Seq2Seq的指针网络模型以解决由于词汇表规模导致的未登录词问题。考虑到中文一词多义现象较多,只通过指针网络模型难以很好地理解文本语义,导致生成的摘要可读性不高。方法引入了义原知识库,训练多义词的词向量表示,准确地捕捉一个词在上下文的具体含义,并对LCSTS中的一些多义词进行义原标注,以使算法能更好地获取数据集中词语的语义信息。实验结果表明,该文提出的融合义原的中文摘要生成方法可以得到更高的ROUGE分数,使生成的摘要更加具有可读性。  相似文献   

12.
针对产业化的汽车仪表指针人工视觉检测效果差、检测速度慢和实时性低等问题,本文提出了一种改进的Faster R-CNN汽车仪表指针实时检测算法。通过改进原始的RoI网络层结构,实现小目标高低层特征之间的完整传递;采用双线性内插算法替代两次量化操作,使得特征聚集变成连续的过程,能够有效减少计算时间;最后将工业机采集的视频数据,预处理成VOC格式数据集进行训练,调整超参数得到改进汽车仪表指针检测模型。实验结果表明:所提出的方法能够快速、准确地实现汽车仪表指针检测,单张图片的平均检测时间为0.197 s,平均检测精度可达92.7%。在不同类别仪表指针的迁移实验中,展示了良好的泛化性能。  相似文献   

13.
Graph matching and graph edit distance have become important tools in structural pattern recognition. The graph edit distance concept allows us to measure the structural similarity of attributed graphs in an error-tolerant way. The key idea is to model graph variations by structural distortion operations. As one of its main constraints, however, the edit distance requires the adequate definition of edit cost functions, which eventually determine which graphs are considered similar. In the past, these cost functions were usually defined in a manual fashion, which is highly prone to errors. The present paper proposes a method to automatically learn cost functions from a labeled sample set of graphs. To this end, we formulate the graph edit process in a stochastic context and perform a maximum likelihood parameter estimation of the distribution of edit operations. The underlying distortion model is learned using an Expectation Maximization algorithm. From this model we finally derive the desired cost functions. In a series of experiments we demonstrate the learning effect of the proposed method and provide a performance comparison to other models.  相似文献   

14.
针对传统Seq2Seq序列模型在文本摘要任务中无法准确地提取到文本中的关键信息、无法处理单词表之外的单词等问题,本文提出一种基于Fastformer的指针生成网络(pointer generator network, PGN)模型,且该模型结合了抽取式和生成式两种文本摘要方法.模型首先利用Fastformer模型高效的获取具有上下文信息的单词嵌入向量,然后利用指针生成网络模型选择从源文本中复制单词或利用词汇表来生成新的摘要信息,以解决文本摘要任务中常出现的OOV(out of vocabulary)问题,同时模型使用覆盖机制来追踪过去时间步的注意力分布,动态的调整单词的重要性,解决了重复词问题,最后,在解码阶段引入了Beam Search优化算法,使得解码器能够获得更加准确的摘要结果.实验在百度AI Studio中汽车大师所提供的汽车诊断对话数据集中进行,结果表明本文提出的FastformerPGN模型在中文文本摘要任务中达到的效果要优于基准模型,具有更好的效果.  相似文献   

15.
李慧慧  闫坤  张李轩  刘威  李执 《计算机应用》2021,41(4):1214-1220
针对目前指针式仪表识别任务在使用深度学习算法时存在模型参数量大、计算量大、准确率较低的问题,提出一种基于改进预训练MobileNetV2网络模型与圆形Hough变换相结合的圆形指针式仪表智能检测和识别系统。首先,采用Hough变换解决复杂场景内非圆形区域的干扰问题;然后,提取圆形区域以构建数据集;最后,使用基于改进预训练MobileNetV2网络模型对圆形指针式仪表进行识别。为客观反映所提模型的性能优劣,采用平均混淆矩阵来衡量模型性能。实验结果表明,该系统在圆形指针式仪表识别任务中的识别率达到99.76%。同时,将所提模型与其他5种不同的网络模型进行对比的结果表明,该模型与ResNet50的准确率最高,但在模型参数量和模型计算量方面,所提网络模型相较于ResNet50分别降低了90.51%和92.40%,可见该模型有助于进一步在移动端或嵌入式设备中部署和实现工业级的实时圆形指针式仪表检测和识别。  相似文献   

16.
由于大量的游客在社交媒体上记录自己的心情,人们在享受便捷获取网络上大量旅游信息的同时,也淹没在混乱的游记信息海洋里.为了从游记中获取游客关心的景点信息和游客对景点表达的情感信息,该文提出了一个多文档游记的情感摘要生成方法,该方法结合指针生成网络和最大边界相关算法,构建了一个端到端的神经网络摘要生成模型.该模型在进行文本...  相似文献   

17.
The core of intelligent manufacturing is to incorporate the expert knowledge in manufacturing process, and knowledge transformation is the key to knowledge accumulation and application. In this paper, the research carried on transformation for different granularity knowledge from the cases of sheet metal parts in process planning. First of all, this paper analyzes the difference of organization structure between process data and knowledge in the base. The multi-granularity model of process knowledge is established in the form of tuple, which helps to clarify the hierarchy structure and internal relations. Thereafter, the concrete process is presented to transform single granularity process data into multi-granularity process knowledge, i.e., process data extraction, state determination and knowledge construction. With respect to state determination, similarity measure methods for different granularity knowledge are established to reduce the redundancy in the transformation process. As a novel approach, sequence alignment based on edit distance is proposed to calculate similarity exactly between two process flows. Finally, the knowledge transformation tool for different granularity knowledge is developed to enhance knowledge acquisition and improve the strength of knowledge reuse in fabrication order design for sheet metal parts through application of the above method. Also an example is given to illustrate the usefulness of the proposed method.  相似文献   

18.
针对遗传算法在求解旅行商问题时,受限于初始种群质量而存在收敛速度慢、易陷入局部最优等问题,提出一种基于指针网络改进遗传算法种群模型。通过经改进指针网络生成初始种群取代原种群,并结合基于汉明距离轮盘赌策略对种群个体进行择优,形成个体质量和种群多样性高的新种群。实验在TSPLIB标准库上多组实例进行测试,并和研究进展种群改进算法和多种主流启发式算法进行多项系数对比。结果表明,经过优化后算法的收敛速度和寻优能力有显著提高,能够有效用于改善遗传算法在旅行商问题上的应用。  相似文献   

19.
李洪泽  凌卫青  刘飞翔 《控制与决策》2021,36(11):2825-2831
随着钢铁行业的数字化发展,其订单逐渐趋于多样化和随机化,这对热轧调度模型的适应性和灵活性等提出了新的要求.针对热轧调度问题,当前的主流方法是启发式算法,但其存在两个问题:一是没有考虑数据的组织表示;二是此类算法具有很强的针对性,当问题发生很小的改变就需要进行复杂的参数调整.相比之下,机器学习具有更好的适应性和灵活性,对此,采用本体进行人机物三元数据的组织表示,提出一种指针网络$+$强化学习的热轧调度求解方法.采用指针网络来学习序列到序列的映射,同时为解决指针网络训练困难和性能不高等问题,通过actor-critic网络进行训练,提高模型的准确性和收敛速度.最后,通过设计相应的实验对算法的性能进行仿真并与LK-H的局部搜索算法进行对比,进一步验证了所提出方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号