首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 484 毫秒
1.
基于内容主题的语料库系统设计与实现*   总被引:2,自引:0,他引:2  
介绍了笔者开发制作的汉语语料库系统的特点、功能,以及系统的设计思想和总体框架。系统以2001年《人民日报》电子文本为生语料,实现了KWIC索引、词表生成、词语搭配分析和分类主题词提取等功能,能够为网络信息挖掘和自然语言处理研究提供丰富而真实的语言环境。  相似文献   

2.
《现代汉语语法信息词典》的新进展   总被引:5,自引:0,他引:5  
《现代汉语语法信息词典》是面向汉语信息处理的基本语言知识库。1995年11月底通过技术鉴定。5年来,北大计算语言学研究所在应用、推广的同时,仍把重要的力量投入词典本身的发展。至目前为止,词典收词已由5万条增加到7.3万条,并且全部完成了归类;为了处理未定义词,还开发了一个全新的语素库;词语语法属性描述中的瑕疵得到了进一步的修正,新增了20多个语法属性项目和大量的实例。整个词典的规模和质量有了显著的提高。  相似文献   

3.
本文主要介绍了一个利用最大熵进行实体名识别的系统以及所采用的模型和选取的特征。这些特征包括单词本身的词法词态特征和上下文信息。利用这些在任何语言的文本上都极易获得的特征,我们采用最大熵分类器构建了一个基准系统。在此基础上,我们首先通过网络资源建立了实体名词典知识库;并利用词典和基准系统在未标注语料上抽取出现的实体名作为辅助的训练语料;最后再将这些语料加入训练。实验结果表明,辅助的训练语料能够在一定程度上提高系统的性能。  相似文献   

4.
“汉英-泰互译有声语料库”的开发,在泰文舆情分析领域,解决了词典分词算法中训练语料缺乏的问题. 本文采用计算机化信息处理技术,对大量的收集来的泰文语料进行整理、规范、加工与存储,统计出泰文词汇8000多个. 然后利用词典翻译和人工校对其进行语料对齐. 最后,结合泰文语言语法特征以及句法的语义特点,分类归纳和规范标注泰语语料,构建了5万条左右的的汉英-泰语料数据库.  相似文献   

5.
在医疗命名实体识别中,由于存在大量医学专业术语和语料中语言不规范的原因,识别的准确率不高。为了识别未登录的医学术语和应对语言不规范问题,提出一种基于N-grams新词发现的Lattice-LSTM的多粒度命名实体识别模型。在医疗对话语料中使用N-grams算法提取新词并构造一个医疗相关的词典,通过Lattice-LSTM模型将输入的字符和所有能在词典匹配的单词一起编码,其中门结构能够使模型选择最相关的字符和单词。Lattice-LSTM能够利用发现的新词信息识别未登录的医学术语,从而得到更好的实验识别结果。  相似文献   

6.
神经网络机器翻译模型在蒙古文到汉文的翻译任务上取得了很好的效果。神经网络翻译模型仅利用双语语料获得词向量,而有限的双语语料规模却限制了词向量的表示。该文将先验信息融合到神经网络机器翻译中,首先将大规模单语语料训练得到的词向量作为翻译模型的初始词向量,同时在词向量中加入词性特征,从而缓解单词的语法歧义问题。其次,为了降低翻译模型解码器的计算复杂度以及模型的训练时间,通常会限制目标词典大小,这导致大量未登录词的出现。该文利用加入词性特征的词向量计算单词之间的相似度,将未登录词用目标词典中与之最相近的单词替换,以缓解未登录词问题。最终实验显示在蒙古文到汉文的翻译任务上将译文的BLEU值提高了2.68个BLEU点。  相似文献   

7.
蒙古文属于黏着语,词根和后缀能够组合成近百万的蒙古文单词.现有的蒙古语大词汇量连续语音识别(LVCSR)系统的发音词典无法包含所有蒙古文单词.同时发音词典较大时,训练语料的稀疏将导致LVCSR系统的性能明显下降.为了解决LVCSR系统中大多数蒙古文单词的识别问题和蒙古语语音关键词检测系统中大量集外词的检测问题,结合蒙古文的构词特点,提出了基于分割识别的蒙古语LVCSR方法,并建立了对应的声学模型和语言模型.最后,将此方法应用到了蒙古语语音关键词检测系统中并在蒙古语语音语料上进行了测试.实验结果表明,基于分割识别的蒙古语LVCSR方法能解决大部分蒙古文单词的识别问题,并将蒙古语语音关键词检测系统的大量集外词转化成了集内词,大幅度提高了检测系统的查准率和召回率.  相似文献   

8.
词表的质量直接影响汉语语言模型的性能, 而当前汉语词典编撰工作同语言建模工作相脱离, 一方面使得现有的汉语语言模型受词表规模所限, 性能不能发挥到最优, 另一方面因为缺乏专业领域的词表, 难以建立面向特定领域的语言模型. 本文旨在通过建立优化词表的方式来提高现有汉语语言模型的性能, 并使其自动适应训练语料的领域. 本文首先将词表自动生成工作同汉语语言建模工作相结合, 构建一体化迭代算法框架, 在自动生成优化词表的同时能够获得高性能的汉语语言模型. 在该框架下, 本文提出汉字构词强度的概念来描述汉语的词法信息, 并将其作为词法特征与统计特征相结合, 构造一种基于多特征的汉语词表自动生成算法. 最后, 本文提出两种启发式方法, 自动根据训练语料的特点调整系统中的各项参数, 使系统能够自动适应训练语料的领域. 实验表明, 本文的方法能够在生成高质量词表的同时获得高性能的语言模型, 并且能够有效自动适应训练语料的领域.  相似文献   

9.
现代汉语语法信息词典规格说明书   总被引:14,自引:2,他引:14  
《现代汉语语法信息词典》是为计算机实现汉语分析和汉语生成而研制的一部电子词典。这部电子词典可以在语言信息处理的广泛领域中得到应用。本词典的详细规格说明书(specification)的初稿制订于1990年。在八五攻关期间(1991年至1995年),一方面严格按照规格说明书进行词典内容的开发,一方面在开发过程中又对规格说明书进行了局部的调整与修订,于1995年11月形成了现在的版本、这份规格说明书也是汉语信息处理研究的一项重要成果。现在发表的这份规格说明书共分以下五章:第一章介绍词典的设计目标与结构。第二章介绍总库的属性字段。第三章介绍各类词库的共同属性字段、第四章介绍各类词库专有的属性字段。第五章介绍《现代汉语语法信息词典》于1995年11月通过专家鉴定时所达到的规模。附录给出了面向信息处理的现代汉语词语分类体系的词类代码表。  相似文献   

10.
班智达藏文语料切分词典的建立与算法研究   总被引:2,自引:0,他引:2  
才藏太 《计算机应用》2009,29(7):2019-2021
随着自然语言信息处理的不断发展和完善,大规模语料文本处理已经成为计算语言学界的一个热门话题。一个重要的原因是从大规模的语料库中能够提取出所需要的知识。而语料文本的处理与加工以语法信息词典作基础。结合藏文语料库切分标注规范,论述了对藏文语料库切分与标注用的藏文语法信息词典的建立和设计,重点讨论了该词典的内容建设、语法信息的标注、索引结构及查找算法。  相似文献   

11.
大规模现代汉语标注语料库的加工规范   总被引:14,自引:5,他引:9  
北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上,又在实施另一项大型语言工程,即对大规模的现代汉语原始语料进行多级加工,目前的加工项目包括词语切分、词性标注(包括动词和形容词的特殊用法) ,并标出专有名词以及短语型的地名、机构名称等等。 规划中的语料库规模约为2700万字。现在已经完成了1400万字的任务,而且质量很高。 要建成高质量的标注语料库,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。  相似文献   

12.
汉语中介语是伴随着汉语国际教育产生的,随着汉语学习在全球的不断开展,汉语中介语的规模不断增长,由于这些语料在语言使用上有其独特性,使得中介语成为语言信息处理和智能语言辅助学习的独特资源。依存语法分析是语言信息处理的重要步骤,英语中介语的依存语法标注语料已经有很好的应用,目前汉语中介语语料库对句法的关注度较低,缺乏一个充分考虑汉语中介语特点的依存句法标注规范。该文着眼于汉语中介语的依存句法标注语料库的建构,探讨依存标注规范,在充分借鉴国际通用依存标注体系(Universal Dependencies)的基础上,制定了汉语中介语的依存标注规范,并进行了标注实践,形成了一个包括汉语教学语法点的中介语依存语料库。  相似文献   

13.
为了实现多语种词对齐,该文提出一种以点互信息为基础的翻译概率作为改进的多语种单词关联强度度量方法。首先,论证了在服从Zipf定律的普通频级词区域,单词间关联强度的点互信息度量法可简化为翻译概率;其次,对汉语、英语、朝鲜语平行语料进行句子对齐、分词和去停用词等预处理后计算平行语料单词之间的翻译概率,取翻译概率最高的前k个词作为候选翻译词,并通过优化处理提高了词对齐准确率。实验结果表明,该方法可以不完全依赖语料规模,在小规模语料中取得94%以上的准确率,为跨语言小众文献及低资源语言词对齐提供了技术基础。  相似文献   

14.
本文介绍在单词记忆不准确的情况下, 如何查找词典以及如何只键入单词中的几个字母快速录入单词的算法。在辅助翻译和写作系统中, 词汇级的帮助是最基本的, 主要指词典查询。但很多情况下, 用户单词记忆不很准确, 只记住了几个字母, 本文解决这种情况下的模糊查询问题。这种模糊技术的核心是全文检索, 依赖于词典的特殊索引。在解决了模糊查询之后, 利用全文检索技术以及模糊二分查找技术进一步开发了写作系统中的快速录入功能。  相似文献   

15.
汉缅双语词典是开展机器翻译、跨语言检索等研究的重要数据资源.当前在种子词典的基础上使用迭代自学习的方法在平行语料中抽取双语词典取得了较好的效果,然而针对低资源语言汉语-缅语的双语词典抽取任务,由于双语平行资源匮乏,基于迭代自学习的方法不能得到有效的双语词向量表示,致使双语词典抽取模型准确度较低.研究表明,可比语料中相似...  相似文献   

16.
评《现代汉语语法信息词典详解》   总被引:1,自引:1,他引:0  
北京大学计算语言学研究所俞士汶、朱学锋、王惠、张芸芸著的《现代汉语语法信息词典详解》,最近作为《中文信息处理丛书》之一由清华大学出版社出版了。这本专著是根据电子版《现代汉语语法信息词典》编写的,整部词典收词5万多条,存储空间达16兆字节。这部词典对真实文本的覆盖率高,所采用的体系反映了汉语语法研究的最新成就,分类体系可操作性强,对语法属性的描述非常深入、非常丰富,具有较高的权威性和可靠性。在1995年11月电子部组织技术鉴定会上专家一致认为:“这部词典的规模、深度与质量,在我国语言工程实践中是前所未有的,达到了国内外领先水平。”《现代汉语语法信息词典详解》从这部具有国内外领先水平的词典中,选出1万词作为本书的大部分篇幅提供给读者,并对词典的内容、基本理论依据、词语的语法功能分类、词语的语法属性描述、以及词典的应用与发展详细地加以说明,使我们从中不难窥测到词典的全貌,并进一步了解到作者所依据的理论和方法。  相似文献   

17.
义类自动标注方法的研究   总被引:3,自引:1,他引:2  
句法分析不能满足汉语分析的需要,句法和语义相结合的分析方法适用于汉语分析。分析的基础要有一部语法语义词典。目前的机读词典多是语法词典,因而需要在语法词典中加入词的语义信息。《同义词词林》是一部较好的义类词典,但没有语法信息,可以《同义词词林》的分类体系对语法词典进行义类标注,得到语法语义词典。这一过程中有不一致的情况,特别地,对《同义词词林》中未收录的词就不能直接标注义类。本文采用《同义词词林》的分类体系,研究设计了一个汉语词自动义类标注算法,对北大《现代汉语语法信息词典》进行自动义类标注。实验结果较为满意,得到91%的准确率。  相似文献   

18.
篇章分析系统性研究的开展依赖于大规模高质量的标注语料.现有标注语料以纯手工标注和单机辅助标注为主,难以满足标注效率和语料质量的需求.因此,该文提出了一套简洁的语料标注协同流程,并基于此实现了一个汉语篇章宏观结构语料协同标注系统,提供了一种流程简洁、分角色协同合作、自动流程控制、安全可靠的线上标注模式.该系统通过设立标注流程状态、收集标注流程中用户的行为数据和语料库辅助统计等方法,从流程控制角度,优化汉语宏观篇章的标注流程,实现质量管控和数据分析.项目实践表明,该系统有效减少了相关标注人员的工作量,提高了标注效率和标注质量,可为大规模、协同汉语篇章语料标注打下基础.  相似文献   

19.
在程序教学发展的过程中,代码语言的教学一直是学生必须要迈过的一个"坎儿",学生需要像学习一门语言一样,理解其中的单词(关键词)、语法(关键词使用规则),并能够写出一篇像样的"命题作文"(根据项目需求,编程解决问题)。但是学生记忆这些单词和语法需要时间和比较系统的训练,在这个过程中,核心是习惯用代码表达想  相似文献   

20.
语法是汉语(二语)教学中的重点和难点,而面向语法教学领域的知识库、语料库较少,不能满足汉语国际教育事业发展的需求。该文首先根据三个平面理论和对外汉语教学语法理论提出了面向汉语(二语)教学的语法点描述框架,建立了包含121个教学常用语法点的知识库。其次,在141 464条对外汉语教材语料和新HSK样题文本语料中对121个语法点进行了句法语义信息的综合标注,共获得95 592个句次的标注语料,涉及形式类别580项,语义类别233项,形成了与语法点知识库配套的语法点标注语料库。最后,讨论了语法点知识库和语法点标注语料库在汉语(二语)教学及教材研究领域的应用。
  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号