期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

俞敬松魏一张永伟《中文信息学报》2019,33(11):57-63

古汉语与现代汉语在句法、用词等方面存在巨大的差异。古文句与句之间通常缺少分隔和标点符号,现代读者难以理解。人工断句有助于缓解上述困境,但需要丰富的专业知识,耗时耗力。计算机自动断句有助于加速对古文的准确理解,从而促进古籍研究以及中华文化的弘扬。除自动断句,该文还尝试了自动标点任务。该方案自行预训练古汉语BERT(Bidirectional Encoder Representations from Transformers)模型,并针对具体任务进行微调适配。实验表明,该方案优于目前深度学习中的主流序列切割BiLSTM+CRF模型,在单一文本类别和复合文本类别测试集上的F₁值分别达到89.97%和91.67%。更重要的是,模型表现出了很强的泛化能力,未参与任何训练的《道藏》测试集上的F₁值依然可达到88.76%。自动标点任务仅使用少量较为粗糙的带标点文本训练集时F₁值为70.40%,较BiLSTM+CRF模型提升12.15%。两任务结果均达到当前最佳,相关代码和模型已经开源发布。相似文献

2.

基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究

程宁李斌葛四嘉郝星月冯敏萱《中文信息学报》2020,34(4):1-9

古汉语信息处理的基础任务包括自动断句、自动分词、词性标注、专名识别等。大量的古汉语文本未经标点断句,所以词法分析等任务首先需要建立在断句基础之上。然而,分步处理容易造成错误的多级扩散,该文设计实现了古汉语断句与词法分析一体化的标注方法,基于BiLSTM-CRF神经网络模型在四种跨时代的测试集上验证了不同标注层次下模型对断句、词法分析的效果以及对不同时代文本标注的泛化能力。研究表明,一体化的标注方法对古汉语的断句、分词及词性标注任务的F₁值均有提升。综合各测试集的实验结果,断句任务F₁值达到78.95%,平均提升了3.5%;分词任务F₁值达到85.73%,平均提升了0.18%;词性标注任务F₁值达到72.65%,平均提升了0.35%。相似文献

3.

基于标点符号分割的汉语句法分析算法 总被引：6，自引：0，他引：6

毛奇连乐新周文翠袁春风《中文信息学报》2007,21(2):29-34

目前大部分句法解析器都忽略标点符号这一重要的句法特征或者只进行非常简单的处理。本文根据标点符号的句法结构特性,提出单独解析块的概念,并且根据标点符号在句子中的特有特征和位置关系,给出了基于决策树算法(Id3)单独解析块识别方法,将标点融入汉语句法分析中。本文所用的实验数据(包括训练集和测试集)均来自中文宾州树库5.0。对句长大于40个词的汉语长句单独进行了实验,句法分析精度和召回率分别提高1.59%和0.93%,同时时间开销降低了近2/3。实验结果表明,标点对汉语长句句法分析非常有利, 系统性能获得了较大提高。相似文献

4.

一种基于层叠CRF的古文断句与句读标记方法*

张合王晓东杨建宇周卫东《计算机应用研究》2009,26(9):3326-3329

针对利用自然语言理解技术进行古汉语断句及句读标注的主要挑战是数据稀疏问题,设计了一种六字位标记集,提出了一种基于层叠式CRF模型的古文断句与句读标记方法。基于六字位标集,低层模型用观察序列确定句子边界,高层模型同时使用观察序列和低层的句子边界信息进行句读标记。实验在5M混合古文语料上分别进行了封闭测试和开放测试,封闭测试断句与句读标注的F值分别达到96.48%和91.35%,开放测试断句与句读标注的F值分别达到71.42%和67.67%。相似文献

5.

汉语句法分析中标点符号的运用

下载免费PDF全文

张小艳邵刚史月飞《计算机工程与科学》2009,31(1)

目前,大部分句法分析都忽略标点符号这一重要的句法特征或者只进行非常简单的处理。本文根据标点符号的句法结构特性,提出规则分层的方法,将标点融入汉语句法分析中。利用标点符号的分割作用,将长句分成一个个小的句子的序列,并对每个小的句子单元进行句法和结构分析,再根据已经抽取出来的类型规则进行二次句法分析,从而得到一个完整的句法分析树。实验表明,这种方法不但解决了部分长句无法正确得到句法树的难题,而且分析的歧义减小了,效率得到了提高。相似文献

6.

语音自动断句及外语视听教学资源的同步整合

张增良《计算机时代》2014,(6):4-7

外语教学资源开发水平的高低直接影响到外语教学的效率和效果。对目前外语视听教学资源开发中存在的问题进行了分析;对语音自动断句技术及其在外语视听教学资源开发中的应用进行了研究和探讨;结合作者研发的FLAVS(V3.2)系统,给出了实现语音断句的基本思路以及视听资源的同步整合方法。相似文献

7.

基于句法信息的微博情绪识别方法研究

黄磊李寿山周国栋《计算机科学》2017,44(2):244-249

情绪识别旨在自动识别文本是否含有情绪。情绪识别是情感分析研究中的一项基本任务。针对该任务,提出了一种基于句法信息的微博文本情绪识别方法。该方法的特色在于充分考虑了微博文本的句法信息。具体实现中,首先利用词性标注(POS)序列和结构句法树来表示句法信息,以分别提取POS序列模式、重写规则和二元句法标签作为特征进行文本表示;然后利用最大熵分类算法对微博文本进行情绪识别。实验结果表明, 所提方法能够获得较好的识别效果。相似文献

8.

关联词搭配的自动发现*

姚双云胡金柱肖升沈威《计算机应用研究》2011,28(12):4426-4428

提出了关联词搭配模式自动发现的基本方法.建立一个大规模语料库,然后作分词处理,并对关联词进行自动标注和人工校对;评估关联词搭配的三个重要参数(搭配距离、搭配强度MI值、搭配强度Z值),并设定阈值,超过阈值的格式自动作为候选搭配模式.通过实验,标注的准确率为88.75％,表明本方法具有较好效果.运用该方法,发现了以往大量未被注意的句法搭配模式,对研制高质量的关联词知识库起到了积极的促进作用,对复句句法、语义的自动分析具有重要的意义. 相似文献

9.

基于改进短语翻译模型的外语数据库智能校对系统

赵石楠杜文《自动化与仪器仪表》2022,(2):90-93+99

为提高外语翻译校对系统的校对准确性,增强短语与句法的连贯性,,构建基于改进短语翻译模型的外语数据库智能校对系统。首先,将分析语义特征和短语译文结合,构建语义本体翻译模型;然后构建智能校对系统,并对系统程序进行具体设计和实现。最后,验证本研究构建的系统校对效果和性能。实验结果表明,构建系统的校对精度高达99.1%,相较于为校对前提升了27.7%,由此说明本研究构建系统校对精确度得到显著提升;对比其他校对方法,构建系统的校对精确度更高,短语和语句的连贯性更强,进一步说明本系统更具优越性。相似文献

10.

古籍自动校勘的研究和实现 总被引：1，自引：0，他引：1

常娥侯汉清曹玲《中文信息学报》2007,21(2):83-88

古籍自动校勘是指利用计算机自动发现并标记出古籍不同版本之间的文字差异,并提供各种校勘辅助工具帮助专家勘误。本文讨论了古籍自动校勘的意义,接着详细阐述了古籍自动校勘系统的总体设计及其实现,包括选题和资料收集、自动校勘的对象和方法,最深入讨论了古代官名表、人名表、地名表等自动校勘辅助工具的建设问题。最后,设计了实验检查校勘系统的效果。实验结果表明,本系统的召回率和精确率分别达到了92.3%、95.2%。相似文献

11.

基于深层语言模型的古汉语知识表示及自动断句研究

胡韧奋李绅诸雨辰《中文信息学报》2021,35(4):8-15

古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求.该文提出了一种基于深层语言模型(BERT)的古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型.在诗、词和古文三种文体上,模型断句F1值分别达到99％、95％和92％以上.在表达较为灵活的词和... 相似文献

12.

基于小句复合体的句子边界自动识别研究

何晓文罗智勇胡紫娟王瑞琦《中文信息学报》2021,35(5):1-8

自然语言文本的语法结构层次包括语素、词语、短语、小句、小句复合体、语篇等.其中,语素、词、短语等相关处理技术已经相对成熟,而句子的概念至今未有公认的、适用于语言信息处理的界定.该文重新审视了语言学中句子的定义和自然语言处理中句子的切分问题,提出了中文句子切分的任务;基于小句复合体理论将句子定义为最小的话头自足的标点句序... 相似文献

13.

基于Siamese循环神经网络的泰文句子切分方法

线岩团张志菊王红斌文永华《计算机工程与科学》2021,43(12):2238-2242

泰文很少运用标点符号,句子间没有明显的分隔符,需要根据语义进行断句,为泰文词法分析、句法分析和机器翻译等自然语言处理任务带来了额外的困难。针对泰文断句问题提出一种基于Siamese循环神经网络的句子自动切分方法。相比传统泰文断句方法,该方法无需人工定义特征,而是采用统一的循环神经网络分别对候选断句点前后的词序列进行编码;然后,通过综合前后词序列的编码向量作为特征来构建泰文句子切分模型。在ORCHID泰文语料上的实验结果表明,所提出的方法优于传统泰文句子切分方法。相似文献

14.

基于自动句对齐的相似古文句子检索 总被引：3，自引：0，他引：3

郭锐宋继华廖敏《中文信息学报》2008,22(2):87-91,105

随着语料库语言学的兴起,基于实例的机器翻译(EBMT)得到越来越多的研究。如何快速准确地构建大规模古今汉语平行语料库,以及从大量的对齐实例(句子级)中检索和输入句子最相似的源句子是基于实例的古今汉语机器翻译必须解决的问题。本文综合考虑句子长度、汉字字形、标点符号三个因素提出了古今汉语句子互译模型,基于遗传算法、动态规划算法实现了古今汉语的自动句对齐。接着为古文句子建立全文索引,基于汉字的信息熵,本文设计与实现一种高效的最相似古文句子检索算法。最后给出了自动句对齐和最相似古文句子检索的实验结果。相似文献

15.

关于中国古代书籍翻阅中观赏形态的思考

欧阳丽《数码设计:surface》2010,(3):84-86

本文以中国古代书籍形态的演变过程为切入点进行论述,通过对翻阅在中国古代书籍形态发展中的重要性的分析,提出"中国古代书籍在翻阅中具有独立艺术价值的观赏形态"的观点,从而进一步探讨中国古代书籍翻阅中观赏形态带给我们的人生启迪。当我们与之对话时,不仅是发现它的美,更应该细细品位、观赏这种容易被人忽视的翻阅过程,并在不断的翻阅中对其观赏形态进行新的思考。相似文献

16.

藏文句义分割方法

柔特色差甲才让加《计算机工程》2020,46(2):286-291

句子是字或词根据语法规则进行组合的编码,句义分割是句子组合规律的解码问题,即对句义进行解析。在藏文分词后直接进行语义分析,其颗粒度过小,容易出现词语歧义,而以句子为分析单位,则颗粒度过大,不能较好地揭示句子的语义。为此,提出一种藏文句义分割方法,通过长度介于词语和句子之间的语义块单元进行句义分割。在对句子进行分词和标注的基础上,重新组合分词结果,将句子分割为若干个语义块,并采用空洞卷积神经网络模型对语义块进行识别。实验结果表明,该方法对藏文句义分割的准确率达到94.68%。相似文献

17.

基于多策略分析的复杂长句翻译处理算法 总被引：2，自引：1，他引：2

黄河燕陈肇雄《中文信息学报》2002,16(3):2-8

在实用机器翻译系统的研究开发中,复杂长句的翻译处理是其面临的一个主要难题。本文提出一种多语种通用的基于多策略分析的复杂长句翻译处理算法,该算法通过基于实例模式匹配和规则分析相结合的方法,综合利用源语言句子中多种相关的语言特征,包括语法语义特征、句子长度、标点符号、功能词以及上下文语境条件等对复杂长句进行切分简化处理和译文的复合生成。另一方面,通过对不同语种设计相同的知识表示形式,实现该算法对不同语种翻译系统的通用性。相似文献

18.

基于JSP的藏文古籍著录系统设计研究及实现

施艳蕊单广荣《广东电脑与电讯》2007,(11):1-2,13

本文对藏文古籍著录的内容进行了具体的研究和分析,并对著录系统界面进行了设计和基本功能的实现。本系统包括了四个子系统,分别是书籍著录系统、铭刻著录系统、文书著录系统和讲唱著录系统。最后,本文详细介绍了书籍著录系统的设计和实现。相似文献