期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

闻媛宋丽吴泰中李斌周俊生曲维光《中文信息学报》2018,32(12):31-40

非投影结构是指依存树上的词语节点与原句中的词语序列出现错位的现象,对于句法分析器的影响较大,在语言理论上也有较大研究价值。在世界多种语言的依存树或图库上,都发现了含有非投影结构的句子,并对比展开了相关研究。而汉语的非投影结构尚未得到重视,语料库构建过程中也因遵循了投影性原则而缺乏对非投影结构的标注。该文基于概念对齐版的中文AMR语料库,在10 149句语料上统计出带有非投影结构的句子比例为31.62%,其三种主要类型为模态词提升、话题化和成分分离,并提出了相应的自动分析方案,以提高中文AMR自动分析效果。相似文献

2.

融合概念对齐信息的中文AMR语料库的构建

李斌闻媛宋丽卜丽君曲维光薛念文《中文信息学报》2017,31(6):93-102

作为一种新的句子语义表示方法,抽象语义表示(AMR)将一个句子抽象为单根有向无环图,目前已经建立了较大规模的英文语料库。然而,句子中的词语和AMR图的概念对齐信息缺失,使得自动分析效果和语料标注质量受到影响,同时中文尚无较大规模的AMR语料库。该文介绍了中文AMR语料库的构建工作,针对汉语特点调整了AMR的标注体系,增加对复句关系的标注,提出了融合概念对齐的一体化标注方案,解决了中英文输入法频繁切换的问题,增加了错别字纠正和未标注词高亮功能,提高了标注效率。然后,从CTB中选取了6 923句进行人工标注,形成中文AMR语料库,统计得到图和环的比例分别为48%和1%,以及利用对齐信息才能获取的非投影句的比例32%,为中文AMR的理论和自动分析研究奠定基础。相似文献

3.

基于概念关系对齐的中文抽象语义表示解析评测方法

肖力铭李斌许智星霍凯蕊冯敏萱周俊生曲维光《中文信息学报》2022,36(1):21-30,38

抽象语义表示(Abstract Meaning Representation,AMR)是一种句子语义表示方法,能够将句子的语义表示为一个单根有向无环图.随着中文AMR语料库规模的扩大,解析系统的研究也相继展开,将句子自动解析为中文AMR.然而,现有的AMR解析评测方法并不能处理中文AMR的重要组成部分——概念对齐和关系... 相似文献

4.

基于神经网络的连动句识别

孙超曲维光魏庭新顾彦慧李斌周俊生《中文信息学报》2022,36(2):12-21

连动句是具备连动结构的句子,是汉语中一种特殊的句法结构,在现代汉语中十分常见且使用频繁.连动句语法结构和语义关系都很复杂,在识别中存在许多问题,对此该文针对连动句的识别问题进行了研究,提出了一种基于神经网络的连动句识别方法.该方法分两步:第一步,运用简单的规则对语料进行预处理;第二步,利用文本分类的思想,使用BERT编... 相似文献

5.

第二届中文抽象语义表示解析评测

李斌许智星肖力铭周俊生曲维光薛念文《中文信息学报》2023,(6):33-43

抽象语义表示是近年来国内外句子语义解析领域的研究热点,国际上已举办了CoNLL2019和CoNLL2020两届跨语言的评测。中文抽象语义表示评测是CoNLL2020的五大任务之一,取得了接近英语的解析效果,但是评测数据和评测指标仍有较大改进空间。为了推动中文抽象语义解析研究,该文在第二十一届中国计算语言学大会技术评测任务研讨会上组织了第二届评测,以新设计的Align-smatch指标为排名标准,采用改进的语义标注方案和标注语料库来进行评测。在基础测试集上,封闭模式的最高F₁值为80.00%;盲测集上的表现则相比基础测试集下降了7个百分点左右。本次评测的最佳结果在MRP指标下比上届提高了2.66个百分点。统计发现,整体性能提升主要来源于概念之间的语义关系预测准确率的提高,而语义关系的对齐还有待提升。相似文献

6.

自然语言句子抽象语义表示AMR研究综述

曲维光周俊生吴晓东戴茹冰顾敏 顾彦慧 《数据采集与处理》2017,32(1):26-36

句子的语义处理是自然语言处理的重要难题与挑战。抽象语义表示(Abstract meaning representation, AMR)是近几年国际上新兴的句子级语义表示方法,突破了传统的句法树结构的限制,将一个句子语义抽象为一个单根有向无环图,很好地解决了论元共享问题,成为语言资源建设和句子语义解析的研究热点。本文从AMR概念与规范、解析算法和应用等方面对AMR相关研究进行系统的梳理,特别对AMR的各种解析算法进行了比较深入的分析和比较,指出了现有算法存在的问题和不足,同时介绍了中文AMR的开发进展,最后展望了AMR未来的研究方向。相似文献

7.

基于图卷积神经网络和RoBERTa的物流订单分类

王建兵杨超刘方方黄暕项勇《计算机技术与发展》2023,(10):195-201

订单信息贯穿于物流供应链的所有环节,高效的订单处理是保障物流服务质量和运营效率的关键。面对日益增长的差异化客户物流订单,人工对订单分类费时、低效,难以满足现代物流要求的效率标准。为了提升物流订单分类的性能,该文提出了一种基于图卷积神经网络(graph convolution network, GCN)和RoBERTa预训练语言模型的订单分类方法。首先,基于物流订单文本的抽象语义表示(abstract meaning representation, AMR)结果和关键词构建全局AMR图,并使用图卷积神经网络对全局AMR图进行特征提取,获取订单文本的全局AMR图表示向量;其次,基于AMR算法构建物流订单文本分句的局部AMR图集合,然后使用堆叠GCN处理图集合得到订单文本局部AMR图表示向量;再次,使用RoBERTa模型处理物流订单文本,得到文本语义表示向量;最后,融合三种类型的文本表示向量完成物流订单分类。实验结果表明：该方法在多项评价指标上优于其他基线方法。消融实验结果也验证了该分类方法各模块的有效性。相似文献

8.

AMR文本生成的数据扩充方法

付叶蔷李军辉《计算机工程》2022,48(5):91-97

在抽象语义表示（AMR）文本生成过程中,AMR图到文本形式的转换在很大程度上受语料规模的影响。提出一种简单有效的动态数据扩充方法,在已标注数据集规模有限的情况下提高AMR文本生成性能。将AMR文本生成模型解码端视作一个语言模型,使用单词级别的扩充方法,通过动态地对目标端单词进行随机替换,得到带噪声的数据,从而增强模型的泛化能力。在加载数据时,随机选择目标句子中的部分单词做噪声化处理,利用约束编码器预测被覆盖的单词并还原出原始语句,使模型具有更深层的语言表征能力。基于AMR2.0和AMR3.0英文标准数据集进行实验,结果表明,该方法可有效提升AMR文本生成系统性能,与未引入噪声的基准Transformer模型相比,能够获得更优的BLEU、Meteor和chrF++指标,其中BLEU值在人工标注语料场景下分别提升0.68和0.64,且在大规模自动标注语料场景下也能提升0.60和0.68。相似文献

9.

基于神经网络的中文谓语动词识别研究

李婷秦永彬黄瑞章程欣宇陈艳平《数据采集与处理》2020,35(3):582-590

识别谓语动词是理解句子的关键。由于中文谓语动词结构复杂、使用灵活、形式多变,识别谓语动词在中文自然语言处理中是一项具有挑战的任务。本文从信息抽取角度,介绍了与中文谓语动词识别相关的概念,提出了一种针对中文谓语动词标注方法。在此基础上,研究了一种基于Attentional-BiLSTM-CRF神经网络的中文谓语动词识别方法。该方法通过双向递归神经网络获取句子内部的依赖关系,然后用注意力机制建模句子的焦点角色。最后通过条件随机场（Conditional random field, CRF)层返回一条最大化的标注路径。此外,为解决谓语动词输出唯一性的问题,提出了一种基于卷积神经网络的谓语动词唯一性识别模型。通过实验,该算法超出传统的序列标注模型CRF,在本文标注的中文谓语动词数据上到达76.75%的F值。相似文献

10.

基于FEBM和模糊神经网络的模糊概念识别

李金厚张绍德等《微机发展》2002,12(4):25-27

在基于解释的机器学习问题上,近期提出的模糊模型FEBM（Fuzzy Explanation-Based Model)为模糊概念的识别和分类提供了一种很好的解决手段。在对该模型当对象的解释谓词在[0,1]上取确值的情况时,计算“对象属于概念C的真值”的公式进行适当调整的基础上,结合神经网络可以用于模式识别和分类的特点,提出了一种基于模糊神经网络和FEBM的模糊概念识别方法。实验表明,该方法是有效的和可行的,是关于该模型应用的一个极为有意义的尝试。相似文献

11.

基于转移的中文篇章结构解析研究

孙成孔芳《中文信息学报》2018,32(12):48-56

篇章结构解析作为篇章分析的子任务,对于篇章理解和下游篇章应用至关重要。该文基于中文连接依存树篇章标注语料,利用转移系统和深度学习的方法,给出了一个完整的从平文本到树形结构的篇章结构自动解析框架。该文统计了中文篇章语料的基本特点,提出了针对树形篇章结构的评测方法,并采用不同的方法对篇章解析过程的篇章子结构进行分布式表示,对比了不同方法下篇章结构解析的性能。相似文献

12.

基于多特征融合编码的神经网络依存句法分析模型

刘明童张玉洁徐金安陈钰枫《中文信息学报》2018,32(12):41-47

在基于神经网络的依存句法分析中,对分析栈和决策层信息的表示和利用依然有值得深入研究的空间。针对分析栈的表示,已有工作并没有对单棵依存子树独立编码的表示,导致无法利用各个依存子树的局部特征;也没有对生成的依存弧序列进行编码,导致无法利用依存弧的全局信息。针对决策层的表示,已有工作利用MLP预测转移动作,该结构无法利用历史决策动作的信息。对此,该文提出基于多特征融合编码的神经网络依存句法分析模型,基于依存子树和历史生成的依存弧表示分析栈,利用TreeLSTM网络编码依存子树信息,利用LSTM网络编码历史生成的依存弧序列,以更好地表示分析栈的局部信息和全局信息。进一步提出基于LSTM网络的结构预测转移动作序列,引入历史决策动作信息作为特征辅助当前决策。该文以汉语为具体研究对象,在CTB5汉语依存分析数据上验证所提出的多特征融合编码的神经网络模型。实验结果显示,汉语依存句法分析性能得到改进,在目前公布的基于转移的分析系统中取得最好成绩,在UAS和LAS评价指标上分别达到87.8%和86.8%的精度,表明所提出的对依存子树局部特征及历史依存弧信息和历史决策动作信息的编码方法,在改进依存分析模型性能方面的有效性。相似文献

13.

基于图神经网络的汉语依存分析和语义组合计算联合模型

汪凯刘明童张玉洁陈圆梦徐金安陈钰枫《中文信息学报》2022,36(7):24-32

组合原则表明句子的语义由其构成成分的语义按照一定规则组合而成,由此基于句法结构的语义组合计算一直是一个重要的探索方向,其中采用树结构的组合计算方法最具有代表性。但是该方法难以应用于大规模数据处理,主要问题是其语义组合的顺序依赖于具体树的结构,无法实现并行处理。该文提出一种基于图的依存句法分析和语义组合计算的联合框架,并借助复述识别任务训练语义组合模型和句法分析模型。一方面,图模型可以在训练和预测阶段采用并行处理,极大地缩短计算时间;另一方面,联合句法分析的语义组合框架不必依赖外部句法分析器,同时两个任务的联合学习可使语义表示同时学习句法结构和语义的上下文信息。我们在公开汉语复述识别数据集LCQMC上进行评测,实验结果显示准确率接近树结构组合方法,达到79.54%,预测速度最高可提升30倍以上。相似文献

14.

基于卷积神经网络的语种识别系统

金马宋彦戴礼荣《数据采集与处理》2019,34(2):322-330

从给定语音中提取有效语音段表示是语种识别的关键点。近年来深度学习在语种识别应用中有重要的进展,通过深度神经网络可以提取音素相关特征,并有效提升系统性能。基于深度学习的端对端语种识别系统也表现出其优异的识别性能。本文针对语种识别任务提出了基于卷积神经网络的端对端语种识别系统,利用神经网络强大的特征提取能力及区分性建模能力,提取具有语种区分性的基本单元,再通过池化层得到有效语音段表示,最后输入全连接层得到识别结果。实验表明,在NIST LRE 2009数据集上,相比于现阶段国际主流语种识别系统,提出的系统在30 s,10 s和3 s等语音段上错误率分别相对下降了1.35%,12.79%和29.84%,且平均错误代价在3种时长上均相对下降30%以上。相似文献

15.

基于神经网络的手写体汉字识别实验系统

郑少兰《广东电脑与电讯》2015,1(5):44-46

基于神经网络的手写体汉字识别是将汉字点阵图形转换成电信号,然后输入给数字信号处理器或计算机进行处理,依据一定的分类算法在众多汉字字符中找出和它相互匹配的汉字字符。本文阐述了手写体汉字识别实验系统的设计目标,分析了手写体汉字的预处理及其原理,详细介绍了手写汉字的特征提取。相似文献

16.

基于DNN的汉语框架识别研究

赵红燕李茹张晟张力文《中文信息学报》2016,30(6):75-83

框架识别是语义角色标注的基本任务,它是根据目标词激起的语义场景,为其分配一个合适的语义框架。目前框架识别的研究主要是基于统计机器学习方法,把它看作多分类问题,框架识别的性能主要依赖于人工选择的特征。然而,人工选择特征的有效性和完备性无法保证。深度神经网络自动学习特征的能力,为我们提供了新思路。该文探索了利用深度神经网络自动学习目标词上下文特征,建立了一种新的通用的框架识别模型,在汉语框架网和《人民日报》2003年3月新闻语料上分别取得了79.64%和78.58%的准确率,实验证明该模型具有较好的泛化能力。相似文献

17.

一种用于函数学习的小波神经网络 总被引：9，自引：0，他引：9

吕柏权李天铎吕崇德刘兆辉《自动化学报》1998,24(4):548-551

在非线性系统辨识中,系统输入往往是多变量的.小波处理此类问题则比较复杂.结合神经网络形式和小波特点建立一种新型的网络,可简单有效地解决网络多输入问题.同时给出此网络可以逼近任意连续函数的数学证明.并通过实例验证了此方法的正确性. 相似文献

18.

基于多路径回溯的神经网络验证方法

郑烨施晓牧刘嘉祥《软件学报》2022,33(7):2464-2481

基于线性抽象的符号传播方法在神经网络验证中具有重要地位.针对这类方法,提出了多路径回溯的概念.现有方法可看作仅使用单条回溯路径计算每个神经网络节点的上下界,是这一概念的特例.使用多条回溯路径,可以有效地改善这类方法的精度.在数据集ACAS Xu, MNIST和CIFAR10上,将多路径回溯方法与使用单条回溯路径的Deep Poly进行定量比较,结果表明,多路径回溯方法能够获得明显的精度提升,而仅引入较小的额外时间代价.此外,在数据集MNIST上,将多路径回溯方法与使用全局优化的Optimized LiRPA比较,结果表明,该方法仍然具有精度优势. 相似文献