首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
语料库作为基本的语言数据库和知识库,是各种自然语言处理方法实现的基础。随着统计方法在自然语言处理中的广泛应用,语料库建设已成为重要的研究课题。自动分词是句法分析的一项不可或缺的基础性工作,其性能直接影响句法分析。本文通过对85万字节藏语语料的统计分析和藏语词的分布特点、语法功能研究,介绍基于词典库的藏文自动分词系统的模型,给出了切分用词典库的结构、格分块算法和还原算法。系统的研制为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定了基础。  相似文献   

2.
针对传统的汉语句法分析算法进行改进,采用了自底向上与自顶向下相结合的线图分析方法,分析、设计和实现了一个汉语句法分析原型系统.该系统实现了基于最大词长匹配算法的分词模块、基于统计方法的词性标注模块和基于改进的线图分析算法的句法分析模块.最后对系统进行小规模中文文本试验测试,测试结果表明利用改进的分析算法,使得句法分析效率和分析结果的准确率均有一定程度的提高.  相似文献   

3.
针对基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法所存在的缺陷,提出基于本体和句法分析的某领域分词方法,通过建立体裁本体进行句法分析,从智能化的角度进行查词,避免了传统方法不考虑上下文信息导致的语义丢失等情况。实验结果证明,该方法可以较大地提高分词的精度。  相似文献   

4.
曲维光 《计算机科学》2002,29(Z1):54-56
1引言 计算机自动分词是现代汉语处理的重要组成部分,也是最基础的工作.汉语处理的后续工作,如词性标注、句法分析、语义分析、篇章理解以及机器翻译等,都以自动分词后的文本作为处理的起点.要想最终实现高质量的篇章理解和机器翻译系统,自动分词质量的高低至关重要.  相似文献   

5.
汉语语料的切分标注加工系统   总被引:3,自引:1,他引:3  
徐菁  张辉  陆汝占 《计算机工程》2003,29(9):66-68,165
介绍了一个对汉语语料进行切分标注粗加工的系统WegPos。该系统采用前缀码分词算法,用二元语法模型进行词性标注,并利用概率统计、规则、歧义数据库、部分句法分析等多种方法的结合排除分词和标注中产生的歧义。  相似文献   

6.
基于字符的中文分词、词性标注和依存句法分析联合模型   总被引:1,自引:0,他引:1  
目前,基于转移的中文分词、词性标注和依存句法分析联合模型存在两大问题: 一是任务的融合方式有待改进;二是模型性能受限于全标注语料的规模。针对第一个问题,该文利用词语内部结构将基于词语的依存句法树扩展成了基于字符的依存句法树,采用转移策略,实现了基于字符的中文分词、词性标注和依存句法分析联合模型;依据序列标注的中文分词方法,将基于转移的中文分词处理方案重新设计为4种转移动作: Shift_S、Shift_B、Shift_M和Shift_E,同时能够将以往中文分词的研究成果融入联合模型。针对第二个问题,该文使用具有部分标注信息的语料,从中抽取字符串层面的n-gram特征和结构层面的依存子树特征融入联合模型,实现了半监督的中文分词、词性标注和依存句法分析联合模型。在宾州中文树库上的实验结果表明,该文的模型在中文分词、词性标注和依存分析任务上的F1值分别达到了98.31%、94.84%和81.71%,较单任务模型的结果分别提升了0.92%、1.77%和3.95%。其中,中文分词和词性标注在目前公布的研究结果中取得了最好成绩。  相似文献   

7.
本文系统介绍了拼音-汉字转换系统的设计与实现方法.系统主要由拼音自动分词子系统和语法分析子系统两部分组成.拼音自动分词子系统是在书面汉语自动分词系统基础上根据音字转换的特点和要求建造的.语法分析子系统是由词法分析、短语分析和句法分析三部分组成,语法分析采取关键词驱动的自底向上分析策略.由于汉语句子的构造原则与词组一致,因此语法分析是以短语分析为主,语法分析子系统的主要工作是进行分层次的短语组合  相似文献   

8.
蒋志鹏  关毅 《自动化学报》2019,45(2):276-288
完全句法分析是自然语言处理(Natural language processing,NLP)中重要的结构化过程,由于中文电子病历(Chinese electronic medical record,CEMR)句法标注语料匮乏,目前还没有面向中文电子病历的完全句法分析研究.本文针对中文电子病历模式化强的子语言特征,首次以树片段形式化中文电子病历复用的模式,提出了面向数据句法分析(Data-oriented parsing,DOP)和层次句法分析融合模型.在树片段抽取阶段,提出效率更高的标准树片段和局部树片段抽取算法,分别解决了标准树片段的重复比对问题,以及二次树核(Quadratic tree kernel,QTK)的效率低下问题,获得了标准树片段集和局部树片段集.基于上述两个树片段集,提出词汇和词性混合匹配策略和最大化树片段组合算法改进面向数据句法分析模型,缓解了无效树片段带来的噪声.实验结果表明,该融合模型能够有效改善中文电子病历句法分析效果,基于少量标注语料F1值能够达到目前最高的80.87%,并且在跨科室句法分析上超过Stanford parser和Berkeley parser 2%以上.  相似文献   

9.
基于两种句法分析的语义角色标注比较研究   总被引:1,自引:0,他引:1  
首先介绍了短语结构句法树和依存树,比较了两者的差别.然后通过构建基于短语结构句法分析和基于依存句法分析的两个不同的语义角色标注系统,在实验数据的基础上,重点分析短语结构句法分析和依存句法分析的差别以及两者对语义角色标注的影响.实验结果表明,基于依存句法分析的语义角色标注系统的性能略好于基于短语结构句法分析的语义角色标注系统.  相似文献   

10.
基于移进归约的句法分析系统具有线性的时间复杂度,因此在大规模句法分析任务中具有特别实际的意义。然而目前移进归约句法分析系统的性能远低于领域内最好的句法分析器,例如,伯克利句法分析器。该文研究如何利用向上学习和无标注数据改进移进归约句法分析系统,使之尽可能接近伯克利句法分析器的性能。我们首先应用伯克利句法分析器对大规模的无标注数据进行自动分析,然后利用得到的自动标注数据作为额外的训练数据改进词性标注系统和移进归约句法分析器。实验结果表明,向上学习方法和无标注数据使移进归约句法分析的性能提高了2.3%,达到82.4%。这个性能与伯克利句法分析器的性能可比。与此同时,该文最终得到的句法分析系统拥有明显的速度优势(7倍速度于伯克利句法分析器)。  相似文献   

11.
汉英机器翻译源语分析中词的识别   总被引:1,自引:1,他引:0  
汉英MT源语分析首先遇到的问题是词的识别。汉语中的“词”没有明确的定义,语素和词、词和词组、词组和句子,相互之间也没有清楚的界限。按照先分词、再句法分析的办法,会在分词时遇到构词问题和句法问题相互交错的困难。作者认为,可以把字作为源语句法分析的起始点,使词和词组的识别与句法分析同时进行。本文叙述了这种观点及其实现过程,并且以处理离合词为例,说明了识别的基本方法。  相似文献   

12.
语句拼音-汉字转换的智能处理机制分析   总被引:4,自引:4,他引:4  
语句拼音- 汉字转换是中文信息处理研究的一个重要方面,是键盘汉字输入和语音输入的核心技术,其主要特征是对动态输入的拼音串进行词法分析,给出所有可能的汉语句子,然后对这些汉语句子根据上下文环境进行句法分析和语义分析,动态调整句子中的字词,输出最佳结果。近年来,语句拼音- 汉字转换系统大量应用了人工智能技术和机器翻译的理论,以期提高系统转换的准确率和增强系统的智能处理功能。本文分析了语句拼音- 汉字转换系统所采用的核心技术,即知识支持、自动分词和动态调整等,讨论了语句拼音- 汉字转换的处理方法和过程,知识库的组成结构,用于拼音串自动分词的算法和实现,音字转换中动态调整的概率模型等,本文还分析了现有语句拼音- 汉字转换系统在拼音串自动分词和音字转换的动态调整中发生错误的原因,并提出了改进方法。  相似文献   

13.
一种现代汉语句法分析方法的建立与实现   总被引:1,自引:0,他引:1  
本文以7万小学生语文课本分词语料为基础,建立一个隐马尔可夫模型与层次分析法相结合的完全句法分析方法,实现了现代汉语完全句法分析。实验结果表明,该方法具有一定的独创性和高效性,其完全句法分析正确率在封闭和开放测试中分别为92.43%和65.374%。  相似文献   

14.
基于动作建模的中文依存句法分析   总被引:1,自引:0,他引:1  
决策式依存句法分析,也就是基于分析动作的句法分析方法,常常被认为是一种高效的分析算法,但是它的性能稍低于一些更复杂的句法分析模型。本文将决策式句法分析同产生式、判别式句法分析这些复杂模型做了比较,试验数据采用宾州中文树库。结果显示,对于中文依存句法分析,决策式句法分析在性能上好于产生式和判别式句法分析。更进一步,我们观察到决策式句法分析是一种贪婪的算法,它在每个分析步骤只挑选最有可能的分析动作而丢失了对整句话依存分析的全局视角。基于此,我们提出了两种模型用来对句法分析动作进行建模以避免原决策式依存分析方法的贪婪性。试验结果显示,基于动作建模的依存分析模型在性能上好于原决策式依存分析方法,同时保持了较低的时间复杂度。  相似文献   

15.
未登录词与分词粒度是汉日日汉机器翻译研究的两个主要问题。与英语等西方语言不同,汉语与日语词语间不存在空格,分词为汉日双语处理的重要工作。由于词性标注体系、文法及语义表现上的差异,分词结果的粒度需要进一步调整,以改善统计机器翻译系统的性能。提出了面向统计机器翻译的基于汉日汉字对照表及日汉词典信息的汉语与日语的分词粒度调整方法。实验结果表明,该方法能有效地调节源语言和目标语言端的分词粒度,提高统计机器翻译系统的性能。通过对比实验结果,分析探讨分词粒度对汉日双语统计系统性能的影响。  相似文献   

16.
汉语术语定义的结构分析和提取   总被引:13,自引:2,他引:13  
本文介绍的工作是在汉语句法分析研究基础上的一种应用研究,对术语如何下定义问题进行了理论上的探讨。术语的定义形式在汉语语法结构方面提供了模板结构和构成方式,可以作为知识发现研究的数据基础,也可以作为特定领域的语法知识系统。本文针对电子学和计算机领域的语料进行了分词和词性标注处理,然后应用句法分析工具分析出句子中的短语成分,并根据汉语句子的句型结构,总结出术语定义的结构特点,自动提取定义的模板。最后根据已建立的数据和概念描述,给出了术语发现的算法。  相似文献   

17.
构建《数据结构》课程的领域本体和标准(学生)答案的句框架,在此基础上,形成一种新的主观题自动阅卷方法。该方法对标准(学生)答案进行分词、词性标注、句法分析、代词消解、提取句框架、计算词语相似度。与以往的主观题自动阅卷系统相比,该系统尽可能地让计算机以理解“语义”为核心,保持标准答案和学生答案的语义联系,评分准确率有所提高。  相似文献   

18.
基于PATRICIA tree的汉语自动分词词典机制   总被引:17,自引:2,他引:17  
分词词典是汉语信息处理系统的一个基本组成部分,其查询和更新效率将直接影响汉语信息处理系统的性能。本文采用PATRICIA tree的数据结构,设计了一种可以对词典词条进行快速查询、更新的分词词典机制,并从理论上初步分析了它的性能。最后通过实验,在时间效率上与逐字二分的分词词典机制进行了比较。结果表明,基于PATRICIA tree的分词词典机制具有更高的查询速度和更新效率,能满足大规模、开放文本处理系统的需求。  相似文献   

19.
多级索引的藏语分词词典设计   总被引:1,自引:0,他引:1  
藏语分词词典是藏语自动分词系统的重要基础,词典规模大小和算法设计的优劣直接影响着分词的效率.本项目首先收集了多部藏语字、词典的所有词条及藏语标点符号,形成了约10万词条的大型藏语分词词库;根据藏字不同长度的特点,建立了藏语特有的多级索引分词词典机制,分析设计藏语整词二分法进行藏语分词.实验结果表明该藏语分词词典具有结构简单,分词速度快和查询性能高等优点.  相似文献   

20.
句法分析是自然语言处理领域中应用前景非常广阔的一个研究方向。针对目前句法分析多数是从字、词的角度出发且存在诸多不足,提出了二、三元词模型相结合的句法规则层次化分析算法,并结合分词、词性标注以及句子组织信息之间的结合度来解决词元间优先合成的问题,同时利用句子成分之间的语法结构关系对词性、词序的影响,实现句法规则的层次化分析实验。实验结果表明,二元与三元词模型相结合的句法规则层次化分析算法相比于独立二、三元词模型,准确率和召回率分别提高了82.04%和8083%,与现有基于二分结构句法分析的RNN-INT算法和词汇化模型算法相比,准确率和召回率均有明显提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号