首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
依存句法分析是自然语言处理的一个关键环节,目前对于越南语短语结构树的研究比较多,而依存结构树的研究就显得十分薄弱。提出了一种新的方法,尝试结合越南语的语言特点和语法特征,利用中心子节点过滤表的思想与统计的方法将越南语的短语结构树转换成依存结构树。首先依据中文依存关系标注体系与越南语的语法规则,制定出依存关系列表;然后结合越南语的语言特点,制定出中心子节点过滤表,利用中心子节点过滤表的思想进行初步转化;最后使用依存关系标注器来进行依存关系标注。基于转换后得到的依存结构树,利用MSTParser工具进一步训练得到更多的越南语依存结构树。对实验结果进行了抽样评估,树库转换的准确率达到了89.4%,较好地解决了越南语由短语树到依存树的转换问题。  相似文献   

2.
构建藏语依存树库是实现藏语句法分析的重要基础,对藏语本体研究和信息处理具有重要价值。基于此,该文提出了一种基于树库转换的藏语依存树库构建方法。该方法首先扩充了前期构建的藏语短语结构树库,然后根据藏语短语结构树和依存树的特征设计树库转换规则,实现藏语短语结构树到依存结构树的初步转换,最后对自动转换结果进行人工校验,得到了2.2万句藏语依存树。为了对转换结果做出量化评价,该文抽取了依存树库中5%的依存树,对其依存关系进行校验和统计,最终依存关系的准确率达到89.36%,中心词的准确率达到92.09%。此外,该文使用基于神经网络的句法分析模型验证了依存树库的有效性。在该模型上,UAS值和LAS值分别达到83.62%和81.90%。研究证明,使用半自动的树库转换方法能够有效地完成藏语依存树库构建工作。  相似文献   

3.
汉语依存树库的建设相对其他语言如英语,在规模和质量上还有一些差距。树库标注需要付出很大的人力物力,并且保证树库质量也比较困难。该文尝试通过规则和统计相结合的方法,将宾州汉语短语树库Penn Chinese Treebank转化为哈工大依存树库HIT-IR-CDT的体系结构,从而增大现有依存树库的规模。将转化后的树库加入HIT-IR-CDT,训练和测试依存句法分析器的性能。实验表明,加入少量经转化后的树库后,依存句法分析器的性能有所提高;但加入大量树库后,性能反而下降。经过细致分析,作为一种利用多种树库提高依存句法分析器性能的方法,短语转依存还存在很多需要深入研究的方面。  相似文献   

4.
目前,自然语言处理大多是借助于分词结果进行句法依存分析,主要采用基于监督学习的端对端模型。该方法主要存在两个问题,一是标注体系繁多,相对比较复杂;二是无法识别语言嵌套结构。为了解决以上问题,该文提出了基于短语窗口的依存句法标注规则,并标注了中文短语窗口数据集(CPWD),同时引入短语窗口模型。该标注规则以短语为最小单位,把句子划分为7类可嵌套的短语类型,同时标示出短语间的句法依存关系;短语窗口模型借鉴了计算机视觉领域目标检测的思想,检测短语的起始位置和结束位置,实现了对嵌套短语及句法依存关系的同步识别。实验结果表明,在CPWD数据集上,短语窗口模型比传统端对端模型F1值提升超过1个百分点。相应的方法应用到了CCL2018的中文隐喻情感分析比赛中,在原有基础上F1值提升了1个百分点以上,取得第一名成绩。  相似文献   

5.
依存树到串模型使用基于HDR片段的翻译规则。HDR片段是由中心词及其所有依存节点组成的树片段。这种翻译规则可以较好地捕捉语言中的句子模式和短语模式等组合现象,但在捕捉非组合现象(如习惯用语或固定搭配)方面存在不足。这类非组合现象易于由短语捕捉。为了更好地改善依存树到串模型的性能,本文提出了三种引入双语短语的方法,分别为引入句法短语、引入泛化句法短语及引入非句法短语。实验结果表明,同时使用句法短语、泛化句法短语及非句法短语时,可以将依存树到串模型的性能显著提高约1.0 BLEU值。  相似文献   

6.
该文从短语结构和句式结构的区别与联系入手,设计了一种将短语结构自动转换为句式结构的算法。并以清华短语结构树库(TCT)为测试语料,实现了将大规模短语结构语料向句式结构语料的转换。最后,搭建了一套可扩展的可视化系统,用于不同句法结构语料的可视化查看。这一研究不仅实现了两种结构之间的初步转换,而且极大地丰富了汉语句本位图解树库的语料规模,并为汉语句本位图解树库的后续应用研究奠定了基础。  相似文献   

7.
1.概述作为一个高效、鲁棒的自然语言查询接口系统(NLIDB),在进行了自然语言查询的分析之后,要有及时的反馈功能帮助用户理解系统的处理结果,避免用户对结果理解的偏差。具体来说,NLIDB的反馈功能,包括两个层次的含义:一是中间结果的反馈,即把系统对自然语言处理的中间结果(可以认为是系统对语言的一种理解)以某种用户可以接受的形式反馈给用户,常见的形式是把中间结果重新转换为自然语言,即转述(paraphrasi-ng);另一种是查询结果的反馈,即对查询结果作出明确的分析和解释,帮助用户理解系统的处理结果,我们称这一部分为结果语义分析。 NChiql在将自然语言查询转化为数据库查询语言之前,提供一套交互机制来确保系统对自然语言查询的理解和用户真正查询要求一致是极为必要的。 NChiql系统的自然语言理解过程可分为两阶段,即首先将自然语言转化为无歧义的中间形式——语义依存树,然后再将语义依存树转换成为SQL语句。  相似文献   

8.
目前,实体识别与依存关系分析,采用的主要是基于监督学习的深度端到端方法.这种方法存在两个问题:不能引入背景知识;不能识别出自然语言的多粒度、嵌套特征.为了解决以上问题,提出了基于短语窗口的依存句法标注规则,并标注了中文短语窗口数据集(CPWD),同时设计了配套的多维端到端短语识别模型(MDM模型).该标注规则以短语为最...  相似文献   

9.
一种短语结构规则的自动获取方法   总被引:5,自引:0,他引:5  
文中提出一种新的知识获取方法,即从完全没有任何标注的生语料库中,采用NA假设自动构造带标训练数据,利用基于多特征的相似评估技术自动获取名词短语结构规则,该方法具有两个特点:(1)由于从没有任何标注的生语料库中自动获取带标训练数据,促使带标数据规模可以很大,且容易构造不同领域的带标语料库;(2)所获取的短语结构规则具有概率属性,可用于分类检索等应用中的名词短语抽取,为论证方法有效性,采用美国Beri  相似文献   

10.
树库是自然语言处理中一项重要的基础资源,现有树库基本上都是单视图树,支持短语结构语法或者依存语法。该文提出一套基于依存语法的多视图汉语树库标注体系,仅需标注中心语和语法角色两类信息,之后可以自动地推导出描述句法结构所需的短语结构功能和层次信息,从而可以在不增加标注工作量的前提下获得更多语法信息。基于该体系,构建了北京大学多视图汉语树库(PMT)1.0版,含有64000句、140万词,支持短语结构语法和依存语法两个视图。  相似文献   

11.
Dependency parsers, which are widely used in natural language processing tasks, employ a representation of syntax in which the structure of sentences is expressed in the form of directed links (dependencies) between their words. In this article, we introduce a new approach to transition‐based dependency parsing in which the parsing algorithm does not directly construct dependencies, but rather undirected links, which are then assigned a direction in a postprocessing step. We show that this alleviates error propagation, because undirected parsers do not need to observe the single‐head constraint, resulting in better accuracy. Undirected parsers can be obtained by transforming existing directed transition‐based parsers as long as they satisfy certain conditions. We apply this approach to obtain undirected variants of three different parsers (the Planar, 2‐Planar, and Covington algorithms) and perform experiments on several data sets from the CoNLL‐X shared tasks and on the Wall Street Journal portion of the Penn Treebank, showing that our approach is successful in reducing error propagation and produces improvements in parsing accuracy in most of the cases and achieving results competitive with state‐of‐the‐art transition‐based parsers.  相似文献   

12.
短语结构的语法关系判定是自然语言处理领域的关键问题之一,应用支持向量机进行分类判定,其核心问题是如何将汉语短语结构转换为适合支持向量机使用的数值向量的形式。在自建N1+N2结构语料库的基础上,利用《同义词词林》对N1+N2结构内部两个名词进行语义编码,并将编码转换为数值向量,运用支持向量机的方法判定该结构的语法关系,按照训练集与测试集9∶1的比例使用随机交叉验证的方法进行检验,平均正确率达到86.2%。实验结果证明了所提算法的有效性,也证明了运用人工智能方法处理自然语言处理领域的问题势在必行。  相似文献   

13.
应用二叉树剪枝识别韵律短语边界   总被引:2,自引:0,他引:2  
句子的韵律短语识别是语音合成的重要研究内容。本文提出了应用统计语言模型生成的二叉树,结合最大熵方法识别待合成汉语句子的语音停顿点。文中给出了二叉树相关的模型训练和生成算法;二叉树与语音停顿点之间的关系;在最大熵方法中应用二叉树剪枝识别句子的韵律短语。实验结果表明,在搜索算法中,利用二叉树进行剪枝,可以很大程度上提高语音停顿预测的正确率和召回率,基于试验数据的f-Score提高了近35%。  相似文献   

14.
对于语言表达式的组成成分及它们间的关系的刻画,目前大多数语法研究都着重在句法层面,而本文的范畴表达式演算理论则着重在语义层面。我们首先考察了完全表达式与不完全表达式、句法类型与语义类型、继承、顺序、提取、并列等若干重要的语言现象以及各种语法理论对这些现象的解释,然后提出范畴表达式的形式化定义,分析了句法层面的形式约束对语义层面的内容组织的制导作用,并且用典型的语言例子直观的说明了如何利用短语结构制导,进行范畴表达式的演算。这种机制可形式化、可验证,能很好的捕捉语言的组成成分及它们间的相互关系,揭示一个句子所说的内容。  相似文献   

15.
The paper discusses the requirements for practical natural language interfaces (NLIs), claiming that acceptance is not only based on the linguistic capabilities of a system but on other features as well, particularly portability and ease of handling. It is shown how these features have been realised in Datenbank-DIALOG*, a German language interface to relational databases. After a brief look at the linguistic capabilities of Datenbank-DIALOG we demonstrate our approach towards a portable and easy-to-handle system. We also show the dependability of the solutions on the design of the core system. The aspects mentioned have rarely been treated in the technical literature, furthermore it is their combination and interaction that makes Datanbank-DIALOG a suitable device for casual users of databases.  相似文献   

16.
从搭配知识获取最优种子的词义消歧方法   总被引:5,自引:3,他引:5  
基于统计的词义消歧模型的一个关键问题是如何自动从语料库中获取指示词,虽然通过学习初始搭配实例能够在语料库中获取更多的搭配知识,但人工获取质量较好的初始搭配是比较困难的,并且无法保证有效的扩大搭配知识。针对该问题,提出了通过机器学习初始搭配实例获取最优种子,再由最优种子扩增更多指示词,最后利用这些指示词实现具有多个义项的多义词消歧。采用该方法对8 个多义词进行消歧的测试实验中取得了8717 %的平均正确率。  相似文献   

17.
张烨  聂一鸣 《智能安全》2023,2(4):100-112
大语言模型一般指包含百亿个以上参数的预训练语言模型,通过在大规模语料库上进行训练,大语言模型不仅在自然语言处理问题上表现出色,而且在各个垂直领域中也展现出强大的能力,成为当前人工智能领域的热点研究内容之一。首先,介绍了仅编码器结构、编码器-解码器结构、仅解码器结构大语言模型的发展历程,重点关注相关预训练、适配微调等关键技术。然后,分析了大语言模型在医疗、编程、数据生成等领域的应用现状,以及因模型规模不断扩大而产生的计算资源、模型可解释性等方面的问题。最后,从智能安全的角度出发,探讨了大语言模型强大的文本理解、处理与生成能力在提升网络、交通等领域安全性方面的应用潜力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号