共查询到18条相似文献,搜索用时 156 毫秒
1.
古汉语与现代汉语在句法、用词等方面存在巨大的差异。古文句与句之间通常缺少分隔和标点符号,现代读者难以理解。人工断句有助于缓解上述困境,但需要丰富的专业知识,耗时耗力。计算机自动断句有助于加速对古文的准确理解,从而促进古籍研究以及中华文化的弘扬。除自动断句,该文还尝试了自动标点任务。该方案自行预训练古汉语BERT(Bidirectional Encoder Representations from Transformers)模型,并针对具体任务进行微调适配。实验表明,该方案优于目前深度学习中的主流序列切割BiLSTM+CRF模型,在单一文本类别和复合文本类别测试集上的F1值分别达到89.97%和91.67%。更重要的是,模型表现出了很强的泛化能力,未参与任何训练的《道藏》测试集上的F1值依然可达到88.76%。自动标点任务仅使用少量较为粗糙的带标点文本训练集时F1值为70.40%,较BiLSTM+CRF模型提升12.15%。两任务结果均达到当前最佳,相关代码和模型已经开源发布。 相似文献
2.
古汉语信息处理的基础任务包括自动断句、自动分词、词性标注、专名识别等。大量的古汉语文本未经标点断句,所以词法分析等任务首先需要建立在断句基础之上。然而,分步处理容易造成错误的多级扩散,该文设计实现了古汉语断句与词法分析一体化的标注方法,基于BiLSTM-CRF神经网络模型在四种跨时代的测试集上验证了不同标注层次下模型对断句、词法分析的效果以及对不同时代文本标注的泛化能力。研究表明,一体化的标注方法对古汉语的断句、分词及词性标注任务的F1值均有提升。综合各测试集的实验结果,断句任务F1值达到78.95%,平均提升了3.5%;分词任务F1值达到85.73%,平均提升了0.18%;词性标注任务F1值达到72.65%,平均提升了0.35%。 相似文献
3.
基于标点符号分割的汉语句法分析算法 总被引:6,自引:0,他引:6
目前大部分句法解析器都忽略标点符号这一重要的句法特征或者只进行非常简单的处理。本文根据标点符号的句法结构特性,提出单独解析块的概念,并且根据标点符号在句子中的特有特征和位置关系,给出了基于决策树算法(Id3)单独解析块识别方法,将标点融入汉语句法分析中。本文所用的实验数据(包括训练集和测试集)均来自中文宾州树库5.0。对句长大于40个词的汉语长句单独进行了实验,句法分析精度和召回率分别提高1.59%和0.93%,同时时间开销降低了近2/3。实验结果表明,标点对汉语长句句法分析非常有利, 系统性能获得了较大提高。 相似文献
4.
5.
目前,大部分句法分析都忽略标点符号这一重要的句法特征或者只进行非常简单的处理。本文根据标点符号的句法结构特性,提出规则分层的方法,将标点融入汉语句法分析中。利用标点符号的分割作用,将长句分成一个个小的句子的序列,并对每个小的句子单元进行句法和结构分析,再根据已经抽取出来的类型规则进行二次句法分析,从而得到一个完整的句法分析树。实验表明,这种方法不但解决了部分长句无法正确得到句法树的难题,而且分析的歧义减小了,效率得到了提高。 相似文献
6.
外语教学资源开发水平的高低直接影响到外语教学的效率和效果。对目前外语视听教学资源开发中存在的问题进行了分析;对语音自动断句技术及其在外语视听教学资源开发中的应用进行了研究和探讨;结合作者研发的FLAVS(V3.2)系统,给出了实现语音断句的基本思路以及视听资源的同步整合方法。 相似文献
7.
8.
9.
为提高外语翻译校对系统的校对准确性,增强短语与句法的连贯性,,构建基于改进短语翻译模型的外语数据库智能校对系统。首先,将分析语义特征和短语译文结合,构建语义本体翻译模型;然后构建智能校对系统,并对系统程序进行具体设计和实现。最后,验证本研究构建的系统校对效果和性能。实验结果表明,构建系统的校对精度高达99.1%,相较于为校对前提升了27.7%,由此说明本研究构建系统校对精确度得到显著提升;对比其他校对方法,构建系统的校对精确度更高,短语和语句的连贯性更强,进一步说明本系统更具优越性。 相似文献
10.
11.
12.
13.
泰文很少运用标点符号,句子间没有明显的分隔符,需要根据语义进行断句,为泰文词法分析、句法分析和机器翻译等自然语言处理任务带来了额外的困难。针对泰文断句问题提出一种基于Siamese循环神经网络的句子自动切分方法。相比传统泰文断句方法,该方法无需人工定义特征,而是采用统一的循环神经网络分别对候选断句点前后的词序列进行编码;然后,通过综合前后词序列的编码向量作为特征来构建泰文句子切分模型。在ORCHID泰文语料上的实验结果表明,所提出的方法优于传统泰文句子切分方法。 相似文献
14.
基于自动句对齐的相似古文句子检索 总被引:3,自引:0,他引:3
随着语料库语言学的兴起,基于实例的机器翻译(EBMT)得到越来越多的研究。如何快速准确地构建大规模古今汉语平行语料库,以及从大量的对齐实例(句子级)中检索和输入句子最相似的源句子是基于实例的古今汉语机器翻译必须解决的问题。本文综合考虑句子长度、汉字字形、标点符号三个因素提出了古今汉语句子互译模型,基于遗传算法、动态规划算法实现了古今汉语的自动句对齐。接着为古文句子建立全文索引,基于汉字的信息熵,本文设计与实现一种高效的最相似古文句子检索算法。最后给出了自动句对齐和最相似古文句子检索的实验结果。 相似文献
15.
欧阳丽 《数码设计:surface》2010,(3):84-86
本文以中国古代书籍形态的演变过程为切入点进行论述,通过对翻阅在中国古代书籍形态发展中的重要性的分析,提出"中国古代书籍在翻阅中具有独立艺术价值的观赏形态"的观点,从而进一步探讨中国古代书籍翻阅中观赏形态带给我们的人生启迪。当我们与之对话时,不仅是发现它的美,更应该细细品位、观赏这种容易被人忽视的翻阅过程,并在不断的翻阅中对其观赏形态进行新的思考。 相似文献
16.
17.
基于多策略分析的复杂长句翻译处理算法 总被引:2,自引:1,他引:2
在实用机器翻译系统的研究开发中,复杂长句的翻译处理是其面临的一个主要难题。本文提出一种多语种通用的基于多策略分析的复杂长句翻译处理算法,该算法通过基于实例模式匹配和规则分析相结合的方法,综合利用源语言句子中多种相关的语言特征,包括语法语义特征、句子长度、标点符号、功能词以及上下文语境条件等对复杂长句进行切分简化处理和译文的复合生成。另一方面,通过对不同语种设计相同的知识表示形式,实现该算法对不同语种翻译系统的通用性。 相似文献
18.
本文对藏文古籍著录的内容进行了具体的研究和分析,并对著录系统界面进行了设计和基本功能的实现。本系统包括了四个子系统,分别是书籍著录系统、铭刻著录系统、文书著录系统和讲唱著录系统。最后,本文详细介绍了书籍著录系统的设计和实现。 相似文献