共查询到20条相似文献,搜索用时 437 毫秒
1.
义类自动标注方法的研究 总被引:3,自引:1,他引:2
句法分析不能满足汉语分析的需要,句法和语义相结合的分析方法适用于汉语分析。分析的基础要有一部语法语义词典。目前的机读词典多是语法词典,因而需要在语法词典中加入词的语义信息。《同义词词林》是一部较好的义类词典,但没有语法信息,可以《同义词词林》的分类体系对语法词典进行义类标注,得到语法语义词典。这一过程中有不一致的情况,特别地,对《同义词词林》中未收录的词就不能直接标注义类。本文采用《同义词词林》的分类体系,研究设计了一个汉语词自动义类标注算法,对北大《现代汉语语法信息词典》进行自动义类标注。实验结果较为满意,得到91%的准确率。 相似文献
2.
以维吾尔语小学语文教材语料为验证对象,利用从语法语义相结合角度制定的《现代维吾尔语词干词类标注标记集》,对维吾尔语小学语文教材词干进行了词性标注,验证该标记集规范的可行性、适应性和可靠性。首先介绍小学语文教材电子语料库;其次讨论《信息处理用现代维吾尔语词干词类标注标记集》的基本情况和多策略现代维吾尔语词干标注系统模型设计与算法;最后分析现代维吾尔语词性标注标记集验证结果,并验证《信息处理用现代维吾尔语词干词类标注标记集》的科学性,补充和改正部分词类的语义分类及标注代码,提出了规范的扩充建议。 相似文献
3.
才让加 《计算机工程与应用》2011,47(6):138-139
为了使藏语语料库具有规范性、统一性和实用性,提高加工的整体水平,在藏语语料库的加工过程中首先要对五花八门的藏语语料库进行整理和统一,得到高质量的原始语料库,其次确定藏语原料库加工的切分单位,针对藏语的语法特征提出藏语语料库藏语词语类别和词类标记集,同时在对藏语词语进行归类和统计的基础上建立分词标注词典库,设计并实现藏文自动分词标注软件,利用分词标注软件对大规模藏语语料库进行切分和标注,最终实现藏语语料库的多级加工。 相似文献
4.
现代汉语语法信息词典规格说明书 总被引:7,自引:2,他引:5
《现代汉语语法信息词典》是为计算机实现汉语分析和汉语生成而研制的一部电子词典。这部电子词典可以在语言信息处理的广泛领域中得到应用。本词典的详细规格说明书的初稿制订于1990年。在八五攻关期间1991年至1995年,一方面严格按照规格说明书进行词典内容的开发, 一方面在开发过程中又对规格说明书进行了局部的调整与修订, 于1995年11月形成的现在的版本。这份规格说明书也是汉语信息处理研究的一项重要成果。#br#现在发表的这份规格说明书共分以下五章第一章介绍词典的设计目标与结构第二章介绍总库的属性字段。第三章介绍各类词库的共同属性字段,第四章介绍各类词库专有的属性字段。第五章介绍《现代汉语语法信息词典》于年月通过专家鉴定时所达到的规模附录给出了面向信息处理的现代汉语词语分类体系的词类代码表。 相似文献
5.
现代汉语语法信息词典规格说明书 总被引:16,自引:2,他引:14
《现代汉语语法信息词典》是为计算机实现汉语分析和汉语生成而研制的一部电子词典。这部电子词典可以在语言信息处理的广泛领域中得到应用。本词典的详细规格说明书(specification)的初稿制订于1990年。在八五攻关期间(1991年至1995年),一方面严格按照规格说明书进行词典内容的开发,一方面在开发过程中又对规格说明书进行了局部的调整与修订,于1995年11月形成了现在的版本、这份规格说明书也是汉语信息处理研究的一项重要成果。现在发表的这份规格说明书共分以下五章:第一章介绍词典的设计目标与结构。第二章介绍总库的属性字段。第三章介绍各类词库的共同属性字段、第四章介绍各类词库专有的属性字段。第五章介绍《现代汉语语法信息词典》于1995年11月通过专家鉴定时所达到的规模。附录给出了面向信息处理的现代汉语词语分类体系的词类代码表。 相似文献
6.
7.
规则和统计相结合的汉语词类标注方法 总被引:22,自引:5,他引:17
本文分析了汉语的多类词现象与汉语词类标注的困难, 介绍了汉语词类标注中的规则排歧和统计排歧的处理策略以及规则和统计相结合的处理思路。按此思路设计的软件系统, 对封闭语料和开放语料的标注正确率分别达到了96.06%和95.82%。 相似文献
8.
论文首先分析了词典的现状,提出了一种将现有词典转换成XML形式的机读词典方法,该方法分两步实现现有词典转换成数据库,再将数据库转换成为XML形式的词典。并提出了一套适合于词典标注的中文XML的词汇表,利用它对词典进行标注,使词典的可读性得到很大的提高。最后初步实现了一个汉语词典的集成处理系统。 相似文献
9.
10.
该文首先介绍《动词句法语义信息词典》的体系结构与理论背景;然后,介绍该词典所区分的8种动词小类及其定义;重点介绍该词典为动词所设置的22种语义角色及其定义,由这些语义角色的不同配置而造成的20来种句法格式及其例句,及其所考察的动词的9种主要的语法功能及其对于该词类的隶属度;最后,给出该词典的检索系统的界面截图,交代其相应的纸质版本的情况。 相似文献
11.
词性标注有很多不同的研究方法,目前的维吾尔语词性标注方法都以基于规则的方法为主,其准确程度尚不能完全令人满意。在大规模人工标注的语料库的基础之上,研究了基于N元语言模型的维吾尔语词性自动标注的方法,分析了N元语言模型参数的选取以及数据平滑,比较了二元、三元文法模型对维吾尔语词性标注的效率;研究了标注集和训练语料规模对词性标注正确率的影响。实验结果表明,用该方法对维吾尔语进行词性标注有良好的效果。 相似文献
12.
This paper presents a part-of-speech tagging method based on a min-max modular neural-network model. The method has three main steps. First, a large-scale tagging problem is decomposed into a number of relatively smaller and simpler subproblems according to the class relations among a given training corpus. Secondly, all of the subproblems are learned by smaller network modules in parallel. Finally, following two simple module combination laws, all of the trained network modules are integrated into a modular parallel tagging system that produces solutions to the original tagging problem. The proposed method has several advantages over existing tagging systems based on multilayer perceptrons. (1) Training times can be drastically reduced and desired learning accuracy can be easily achieved; (2) the method can scale up to larger tagging problems; (3) the tagging system has quick response and facilitates hardware implementation. In order to demonstrate the effectiveness of the proposed method, we perform simulations on two different language corpora: a Thai corpus and a Chinese corpus, which have 29,028 and 45,595 ambiguous words, respectively. We also compare our method with several existing tagging models including hidden Markov models, multilayer perceptrons and neuro-taggers. The results show that both the learning accuracy and generalization performance of the proposed tagging model are better than statistical models and multilayer perceptrons, and they are comparable to the most successful tagging models. 相似文献
13.
汉语语料词性标注自动校对方法的研究 总被引:6,自引:0,他引:6
兼类词的词类排歧是汉语语料词性标注中的难点问题,它严重影响语料的词性标注质量。针对这一难点问题,本文提出了一种兼类词词性标注的自动校对方法。它利用数据挖掘的方法从正确标注的训练语料中挖掘获取有效信息,自动生成兼类词词性校对规则,并应用获取的规则实现对机器初始标注语料的自动校对,从而提高语料中兼类词的词性标注质量。分别对50万汉语语料做封闭测试和开放测试,结果显示,校对后语料的兼类词词性标注正确率分别可提高11.32%和5.97%。 相似文献
14.
15.
16.
基于完全二阶隐马尔可夫模型的汉语词性标注 总被引:12,自引:0,他引:12
该文基于隐马尔可夫理论,提出了一种三元词汇概率和词性概率相结合的汉语词性标注模型,并对传统的Viterbi算法进行了扩展。对统计模型中出现的数据稀疏问题,给出了基于线性插值法的平滑算法,实验表明,完全二阶隐马尔可夫模型比标准的二元,三元模型有更高的词性标注正确率和消歧率。 相似文献
17.
18.
古汉语信息处理的基础任务包括自动断句、自动分词、词性标注、专名识别等。大量的古汉语文本未经标点断句,所以词法分析等任务首先需要建立在断句基础之上。然而,分步处理容易造成错误的多级扩散,该文设计实现了古汉语断句与词法分析一体化的标注方法,基于BiLSTM-CRF神经网络模型在四种跨时代的测试集上验证了不同标注层次下模型对断句、词法分析的效果以及对不同时代文本标注的泛化能力。研究表明,一体化的标注方法对古汉语的断句、分词及词性标注任务的F1值均有提升。综合各测试集的实验结果,断句任务F1值达到78.95%,平均提升了3.5%;分词任务F1值达到85.73%,平均提升了0.18%;词性标注任务F1值达到72.65%,平均提升了0.35%。 相似文献
19.
20.
介绍一种利用句法依存关系对网络评论的极性进行自动分类的方法。通过从评论中提取出依存关系和词性,构成依存关系词性对,并利用自定义的极性词典进行分类,有效地减少计算的复杂度和提高分类的精度。实验表明,该方法相比其他方法取得了较好的分类效果,是一种可行且有效的对评论极性分类的方法。 相似文献