首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 9 毫秒
1.
基于SRNN神经网络的汉语文本词类标注方法   总被引:3,自引:0,他引:3  
词类标注是语料库加工流程一个关键环节,是句法,语义标注分析的前提,本文提出了一种基于SRNN神经网络的词类标记方法,SRNN在三层前向神经网络的结构基础上,增加了隐层节点与输入层状态节点之间的反馈联接,这种结构使用网络具有利用上下文词类信息的处理能力,本文还讨论了网络的训练算法,以人工标注的句子作训练集,经过训练收敛后的网络对新语料的词类标注正确率达到了94%。  相似文献   

2.
统计和规则相结合的汉语组块分析   总被引:6,自引:0,他引:6  
从广西中获得的组块对机器翻译,信息检索等很多领域都非常有用,介绍了规则和统计进行组块分析的处理策略,提出了规则与统计相结合的处理方法,并且结合组块分析的实际情况改进了一般评价系统性能的指标,通过封闭测试和开放测度验证,与单纯规则组块划分相比较,组块识别的精确率和召回率都得到了提高,组块划分错误率降低了7%。  相似文献   

3.
In the paper, we introduce chinese corpus tagging based on statistical language model (bi-gram model)and Huang-Yu‘s smoothing method. Especially, we also suggest a two-directions method based on statistical languagemodel, namely, we not only compute probability of P(CIW)(W= w1w2w3…. wm),but also compute probability of P(C |wnwn-1…… w1)-From our experience we can see it can enhance the accuracy of Chinese corpus tagging using this method of two directions comoutation.  相似文献   

4.
用数据采掘方法获取汉语词性标注规则   总被引:8,自引:0,他引:8  
从数据采掘的角度对汉语文本词性标注规则的获取进行研究,在满足用户规定的支持度向量的前提下,先从侯选集模式中挑选出常用模式;然后采掘出具有高可信度的产生式规则。该过程完全是自动的,而获取的规则有表达上是明确的,同时又是隐含在数据中的、用户不易发现的,实验表明:在原有统计方法的基础上,利用自动获得的标注规则作为补充,可以提高词性标注的正确率。  相似文献   

5.
基于搭配模式的汉语词性标注规则的获取方法   总被引:2,自引:0,他引:2  
文章介绍了一种基于搭配模式的汉语词性标注规则的获取方法。该方法从已标注了词性的语料库中自动获取候选搭配模式规则,然后根据可信度从候选规则中选择出大于某阈值的规则,再通过不断测试新语料来完善规则。将获取的规则用于汉语的词性标注,使标注的正确率得到了明显提高。  相似文献   

6.
汉语句法结构标注的研究   总被引:2,自引:0,他引:2  
在自然语言处理中,利用语料库标注词性已获得了极大成功,本文利用语料库的思想,探讨了句法结构标注的可能性和方法。  相似文献   

7.
统计与规则并举的汉语词性自动标注算法   总被引:8,自引:0,他引:8  
张民  李生  赵铁军  张艳风 《软件学报》1998,9(2):134-138
本文提出并实现了一种基于定量统计分析优先的统计和规则并举的汉语词性自动标注算法.本算法引入置信区间的概念,优先采用高准确率的定量统计分析技术,然后利用规则标注剩余语料和校正部分统计标注错误.封闭和开放测试表明,在未考虑生词和汉语词错误切分的情况下,本算法的准确率为98.9%和98.1%.  相似文献   

8.
汉语短语标注标记集的确定   总被引:25,自引:9,他引:16  
本文提出了一个汉语短语标注的基本标记集, 并从句法功能和结构组成方面对不同短语的性质进行了深入的分析和探讨, 以期为汉语短语划分和标注的自动处理和人工校对提供一个统一的处理标准。  相似文献   

9.
汉语词性标注排歧方法探讨   总被引:4,自引:0,他引:4  
该文将概率统计的二元模型与三元模型用于汉语词性自动标注,在算法为线性阶的时间复杂度的情况下,对20万训练集和1万的测试集,分别进行封闭测试和开放测试,对稀疏矩阵零元素及词性标注的结果做了统计分析。  相似文献   

10.
规则与统计结合分析汉语   总被引:2,自引:2,他引:2  
在自然语言处理中,规则方法和统计方法各有优缺点。采用规则方法进行汉语切分、标注,并采用规则方法与切分标注评分结合进行消歧。对切分标注正确的句子进行句法分析,并采用规则方法与句法语义评分结合进行消歧。根据对多个结果的评分,选择出评分较大的结果,尽可能早地删除掉不正确的结果,从而加快汉语分析的速度,减少分析的空间消耗,提高分析的正确率。  相似文献   

11.
苗海  张仰森 《计算机科学》2013,40(12):282-286
针对多年来词义消歧方法的不完善,从可计算性及其计算复杂度方面分析了多种不同结构的知识词典,最后选择北大计算语言所的《现代汉语语法信息词典》、《现代汉语语义词典》和同形标注的人民日报语料作为词义消歧知识源。研究了异构多知识源的融合方法,提取了敏捷规则知识库和词义搭配库,设计出了一种规则与统计相结合的词义消歧方法。在多种方法中最大熵与规则相结合的词义消歧方法准确率最高,与SemEval 2007(task #5)的最好成绩相比,分别在微平均值 MicroAve(micro-average accuracy)和宏平均值MacroAve(macro-average accuracy)上提升了5.5%和0.9%。  相似文献   

12.
汉语词性标注方法的研究   总被引:4,自引:0,他引:4  
1 引言自然语言中,表达意义的符号(词)往往在各个层面上有歧义。在句法层面上,一个词可以兼好几种词性;在语义层面上,一个词可能有多个义项。词性歧义是由语言中的兼类词,即具有不止一个词性特征的词所引起的,只有在一定的上下文语境关系中,词所表现  相似文献   

13.
基于义原同现频率的汉语词义排歧方法   总被引:19,自引:0,他引:19  
词义排岐是自然语言处理的重点和难点问题之一。基于语料库的统计方法已被广泛地应用于词义排岐,大多数的统计方法都受到数据稀疏的困扰,对于词义排岐而言,由于有大量同义词的存在,数据稀疏问题变得更为严重。充分利用“知网”这个知识源的特性,提出了一种基于义原同现频率的同义排岐方法,在很大程度上克服了数据稀疏问题。此外,该方法还避免了繁重的人工标注语料的过程,通过在一个约10万字的语料库上获得义原同现频率矩阵,并以此作为词义排岐的依据,实验表明,该方法对词义排岐具有较高的正确率。  相似文献   

14.
汉语词性自动标注系统的设计与实现   总被引:3,自引:1,他引:2  
介绍汉语词性自动标注系统的设计与实现。该系统实现了统计与相结合的方法进行汉语词性自动标注。描述了该系统的总体结构,以及所使用的非兼类词表、兼类词表、标记集和词性标注规则的组织,特别对稀疏矩阵及其存储方法进行了详细的介绍。  相似文献   

15.
面向答疑文本的词类标注方法的研究与实现   总被引:3,自引:0,他引:3  
针对已有词类标注方法在标注网络答疑文本时存在的不足,文章提出了一种面向自然语言答疑文本的词类标注方法。该方法根据答疑文本的特点和后续关键信息提取的需要,对已有的词类标记集进行了扩展;用统计方法标注答疑真实文本,将其结果与正确结果相比较,从中获取词类排歧规则,使规则具有较强的文本针对性,以提高规则排歧的精度;对规则进行分类和优化,提高了标注的速度;采用先规则后统计的标注方法,较好地解决了答疑文本中规则和统计方法的组合问题。目前,该方法已在基于自然语言的网络答疑系统(NaturalLanguageOrientedWebAnswerSystem,,简称NL_WAS)中实现并得到了初步应用。  相似文献   

16.
一种规则与统计相结合的汉语分词方法   总被引:20,自引:2,他引:18  
汉语自动分词是中文信息处理领域的一项基础性课题,对现有的汉语分词方法作了简单的概述和分析,然后提出了一种新的分词方法,该方法基于一个标注好了的语料库,并且结合了规则和语料库统计两种分词方法。  相似文献   

17.
汉语语料的切分标注加工系统   总被引:3,自引:1,他引:3  
徐菁  张辉  陆汝占 《计算机工程》2003,29(9):66-68,165
介绍了一个对汉语语料进行切分标注粗加工的系统WegPos。该系统采用前缀码分词算法,用二元语法模型进行词性标注,并利用概率统计、规则、歧义数据库、部分句法分析等多种方法的结合排除分词和标注中产生的歧义。  相似文献   

18.
汉语篇章修辞结构标注项目CJPL采用大陆主要媒体的财经评论文章为语料,依据修辞结构理论(Rhetorical Structure Theory,RST),定义了以标点符号为边界的篇章修辞分析基本单元和47种区分核心性单元的汉语修辞关系集,并草拟了近60页的篇章结构标注工作守则。这一工作目前完成了对97篇财经评论文章的修辞结构标注,在较大规模数据的基础上检验了修辞结构理论及其形式化方法在汉语篇章分析中的可移用性。树库所带有的修辞关系信息以及三类篇章提示标记的篇章用法特征,可以为篇章层级的中文信息处理提供一些浅层语言形式标记的数据。  相似文献   

19.
规则与统计结合进行汉英机器翻译消歧   总被引:2,自引:0,他引:2  
刘颖 《计算机应用》2002,22(5):21-23,30
采用基于转换的方法进行汉英机器翻译,在机器翻译的每个阶段(汉语切分、词性标注、句法语义分析、树转换、词串生成)采用规则方法和统计方法相结合进行消歧。实验结果表明:两种方法结合提高了机器翻译的正确率。  相似文献   

20.
汉语短语的自动划分和标注   总被引:13,自引:2,他引:13  
考虑到传统的基于规则的汉语分析器对大规模真实文本的分析所遇到的困难, 本文在使用统计方法进行汉语自动句法分析方面作了一些探索, 提出了一套基于统计的汉语短语自动划分和标注算法, 它分为预测划分点、括号匹配和分析树生成等三个处理阶段, 其间利用了从人工标注的树库中统计得到的各种数据进行自动句法排歧, 最终得到一棵最佳句法分析树, 从而可以自顶向下地完成对一句句子的短语自动划分和标注, 对一千多句句子的封闭测试结果表明, 短语划分的正确率约为86%, 短语标注的正确率约为92%, 处理效果还是比较令人满意的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号