首页 | 本学科首页   官方微博 | 高级检索  
检索     
共有20条相似文献,以下是第1-20项 搜索用时 672 毫秒

1.  汉语语义倾向语料库的建设  
   《中文信息学报》,2014年第5期
   该文从研究背景、设计思路、标注体系和方法、加工步骤等方面介绍了汉语语义倾向语料库的建设过程。该语料库是一个以研究语言主观性表达为目的的共时、非平衡、单语标注语料库,依据语言主观性多维度描述体系而设计,规模为100万字,配备有集检索与统计、结果检查与可视化于一体的专用语料库工具箱系统,具有可用性大、标注质量高、语言学理据强等特点。    

2.  汉语语料库加工技术  
   张国煊《杭州电子科技大学学报》,1996年第16卷第1期
   实现对大规模真实文本的处理是计算语言学今后的一个时期的战略目标。基于语料库的语言研究是计算语言学一个重要领域,这是由于语料库是最理想语言知识资源。为从语料库获取语言知识,必须在各个层次上对汉语语料库进行加工。本文讨论了汉语语料库的加工技术,即对语料库进行词法、句法和语义等方面的标注。其中,重点介绍汉语自动分词系统和汉语短语边界划分的方法。    

3.  情感语料库的构建和分析  被引次数:3
   徐琳宏  林鸿飞  赵晶《中文信息学报》,2008年第22卷第1期
   本文介绍了情感语料库构建方面的一些经验,讨论了在设计和建设情感语料库中的几个基本问题:制定标注规范、选择标注集、设计标注工具以及标注过程中的质量监控。目前已经标注完成近4万句,100万字的语料。在完成这些已标注语料的基础上,进一步给出了语料库的情感分布,情感迁移规律等统计数据,分析了情感语料库的特点及应用。它的建成将为文本情感计算提供更加强大的资源支持。    

4.  BFS-CTC汉语句义结构标注语料库  被引次数:2
   刘盈盈  罗森林  冯扬  韩磊  陈功  王倩《中文信息学报》,2013年第27卷第1期
   句义结构分析是汉语语义分析中不可逾越的重要环节,为了满足汉语句义结构分析的需要,基于现代汉语语义学理论构建了一种层次化的汉语句义结构模型,定义了标注规范和标记形式,建设了一个汉语句义结构标注语料库BFS-CTC(Beijing Forest Studio-Chinese Tagged Corpus).标注内容方面,基于句义结构模型的定义标注了句义结构句型层、描述层、对象层和细节层中所包含的各个要素及其组合关系,包括句义类型、谓词及其时态、语义格类型等信息,并且提供了词法和短语结构句法信息,便于词法、句法、句义的对照分析研究;语料库组织结构方面,该语料库包括四个部分,即原始句子库、词法标注库、句法标注库和句义结构标注库,可根据研究的需要,在词法、句法、句义结构标注的基础上进行深加工,在核心标注库的基础上添加更多具有针对性的扩展标注库,利用句子的唯一ID号进行识别和使用;语料来源和规模方面,语料全部来自新闻语料,经过人工收集、整理,合理覆盖了主谓句、非主谓句、把字句等六种主要句式类型,规模已达到10000句.同其他语义标注库相比,BFS-CTC基于现代汉语语义学,提供了多层次的句义结构标注信息,兼容进行了词法和语法标注,各类标注既可以单独使用也可综合使用进行横向分析,可用于自然语言处理多方面的研究,进一步推动汉语语义分析的研究和发展.    

5.  语料库中语料的标注  
   董爱华《北京印刷学院学报》,2016年第5期
   在语料库应用过程中,ESP文本分析、学习者语言分析及双语翻译研究等都要用到标注。语料库语料标注的准确性是基于语料库的学术研究结果可靠性的前提。文章介绍了语料库标注的原则、方法模式,并分析了控制标注质量的相关因素,目的是为标注语料库的使用者检验标注质量提供帮助。    

6.  北京大学现代汉语语料库基本加工规范(续)  被引次数:8
   俞士汶  段慧明  朱学锋  孙斌《中文信息学报》,2002年第16卷第6期
   北京大学计算语言学研究所已经完成了一个有 2 70 0万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外 ,还包括专有名词 (人名、地名、团体机构名称等 )标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉 ,更广泛地向专家、同行征询意见 ,以便进一步修订。    

7.  北京大学现代汉语语料库基本加工规范  被引次数:35
   俞士汶  段慧明  朱学锋  孙斌《中文信息学报》,2002年第16卷第5期
   北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉,更广泛地向专家、同行征询意见,以便进一步修订。    

8.  基于内容主题的语料库系统设计与实现*  被引次数:2
   李文翔  晏蒲柳  夏德麟《计算机应用研究》,2004年第21卷第10期
   介绍了笔者开发制作的汉语语料库系统的特点、功能,以及系统的设计思想和总体框架。系统以2001年《人民日报》电子文本为生语料,实现了KWIC索引、词表生成、词语搭配分析和分类主题词提取等功能,能够为网络信息挖掘和自然语言处理研究提供丰富而真实的语言环境。    

9.  中文阅读理解语料库构建技术研究  
   郝晓燕  李济洪  由丽萍  刘开瑛《中文信息学报》,2007年第21卷第6期
   阅读理解问答系统指的是能够自动分析一个自然语言文章,并且根据文中的信息为每个问题生成一个答案的系统,具有很高的研究价值。然而,缺乏中文阅读理解语料库已经成为制约汉语阅读理解问答系统发展的主要障碍。本文对于中文阅读理解语料库的构建过程进行了详细的介绍,包括语料选材、编写问句,标注答案句、语料加工和评测机制,尤其是基于汉语框架语义知识库对语料进行了框架元素、短语类型和句法功能三个层面标注的深加工技术。    

10.  基于语义依存关系的汉语语料库的构建  被引次数:5
   尤昉  李涓子  王作英《中文信息学报》,2003年第17卷第1期
   语料库是自然语言处理中用于知识获取的重要资源。本文以句子理解为出发点,讨论了在设计和建设一个基于语义依存关系的汉语大规模语料库过程中的几个基础问题,包括:标注体系的选择、标注关系集的确定,标注工具的设计,以及标注过程中的质量控制。该语料库设计规模100万词次,利用70个语义、句法依存关系,在已具有语义类标记的语料上进一步标注句子的语义结构。其突出特点在于将《知网》语义关系体系的研究成果和具体语言应用相结合,对实际语言环境中词与词之间的依存关系进行了有效的描述,它的建成将为句子理解或基于内容的信息检索等应用提供更强大的知识库支持。    

11.  藏文语料库深加工方法研究  
   才藏太《计算机工程与应用》,2012年第48卷第26期
   随着自然语言信息处理的不断发展和完善,大规模语料文本处理已经成为计算语言学界的一个热门话题。一个重要的原因是从大规模的语料库中能够提取出所需要的知识。结合973前期项目《藏文语料库分词标注规范研究》的开发经验,论述了班智达大型藏文语料库的建设,分词标注词典库和分词标注软件的设计与实现,重点讨论了词典库的索引结构及查找算法、分词标注软件的格词分块匹配算法和还原算法。    

12.  汉语句法树库标注体系  被引次数:23
   周强《中文信息学报》,2004年第18卷第4期
   语料库的句法标注是语料库语言学研究的前沿课题.本文在研究和总结国内外句法树库标注实践的基础上,提出了一套汉语真实文本的句法树标注体系.它以完整的层次结构树为基础,对句法树上的每个非终结符节点都给出两个标记:成分标记和关系标记,形成双标记集的句法信息描述体系.目前,这两个标记集分别包含了16和27个标记,对汉语句子的不同句法组合的外部功能分布和内部组合特点进行了详细描述.在此基础上,我们开发完成了100万词规模的汉语句法树库TCT,对其中各种复杂语言现象的标注实践显示了这套标注体系具有很好的信息覆盖率和语料适应性.    

13.  中医药古文献语料库设计与开发研究  被引次数:2
   刘耀  段慧明  王惠临  周扬  王振国  李宏展《中文信息学报》,2008年第22卷第4期
   专业领域语料库是对专业领域文献进行自然语言处理的重要的不可或缺的基础,是对专业文本内容与意图进行深层把握的必由之路。通过对研究背景的分析,进一步明析了专业文献进行自然语言处理的必要性,并在对专业文献语料库的研究特点进行分析的基础上,深入探讨了专业语料库的设计思想及原理,同时,对语料库词类的标注信息进行了深入研究。成功地开发了针对专业领域语料库的辅助加工系统,为专业领域语料库建设提供了理论指导和技术支撑。    

14.  法律语料库建设设想  
   杨海燕《术语标准化与信息技术》,2007年第1期
   本文主要从法律语料库的定义、设计、语料的采集筛选和标注、检索软件的选择等方面探讨了法律语料库建设设想,指出法律语料库的建设是必要的,也是可行的。法律语料库的建设和应用为法律语言学研究的新领域。    

15.  汉语意见型主观性文本类型体系的研究  被引次数:1
   刘全升  姚天昉  黄高辉  刘军  宋鸿彦《中文信息学报》,2008年第22卷第6期
   主观性文本是一种描述个人想法、情感和意见等的非约束性文本。它与主要描述以事实为主的客观性文本在内容和结构上有很大的不同。意见型文本是包含有意见元素(意见持有者、意见陈述范围、意见主题和意见情感)的一种主观性文本,它大量出现在网上的电子公告板、论坛和博客等媒介中,受到广泛的关注,并成为研究意见挖掘方法和技术的语料。该文介绍了主观性文本的定义及其与客观性文本的差异,同时着重讨论了意见型文本的定义、特点、类型体系及其在意见挖掘技术中的应用。    

16.  词义标注语料库建设综述  被引次数:2
   金澎  吴云芳  俞士汶《中文信息学报》,2008年第22卷第3期
   词义消歧的关键问题是缺少大规模、高质量的词义标注语料库。本文分别从语料选取、词典选择、标注规模和标注质量等方面介绍已经建成的较有影响的若干词义标注语料库。在自动构建词义标注语料库的方法中,本文集中介绍bootstrapping策略在语料库建设方面的应用以及利用双语对齐语料库开展的相关研究。最后,针对词义标注语料库建设存在的问题提出自己的分析和思考。    

17.  基于FrameNet的汉语语义框架网络自动构造  
   龙波  郭文《现代计算机》,2010年第2期
   语义知识库是自然语言处理的基础性工程,但现阶段语义知识库的构建,大部分工作基于人工.基于英语框架网络FrameNet,采用FrameNet的现有框架库作为汉语框架网络的框架库,通过FrameNet中现有标注英文例句训练一语义角色标注器,利用英汉双语平行语料,对英文语料进行语义角色标注并将其映射到中文句子上,从标注好的汉语句子中提取汉语词元和例句填充汉语框架,构建汉语词汇库和例句库,从而实现汉语语义框架网络的自动构造.    

18.  面向语言处理的单句句型句模对应关系研究——基于标注语料库的定量考察  
   孙道功  亢世勇  孙茂松《计算机工程与应用》,2006年第42卷第33期
   文章首先介绍了句子句法、语义结构标注语料库的基本情况。在标注语料库的基础上,从句型的角度着眼定量统计,构建现代汉语单句的句型句模的对应体系,并进一步说明了句型句模对应关系研究的意义。    

19.  汉语普通话语音合成语料库TH-CoSS的建设和分析  被引次数:6
   蔡莲红  崔丹丹  蔡锐《中文信息学报》,2007年第21卷第2期
   本文介绍了汉语语音合成语料库TH-CoSS的建设和分析。本语料库包括男女声朗读语句约2万个。语料库分为四个部分:TTS系统建库用语句、TTS系统测试用语句、特殊语调语句和特殊音节组。语料设计考虑了语料的平衡和音段、韵律信息的丰富。语料库中除了文本、语音数据外,还带有音段切分标志,标注文件采用XML格式。为了方便语音分析与开发,特研制了标注软件。本文还给出了语境特征对语音韵律影响的分析结果。    

20.  基于Web的财经院校金融语料库系统建设研究  
   方冰  吴江  李太勇《信息通信》,2014年第7期
   金融语料库是金融文本及其标注的集合。在财经院校中,金融语料库是金融及相关学科教学和科研的重要基础。然而,我国金融语料库的建设尚处于起步阶段,文章描述了基于Web的金融语料库系统构建的需求、设计模式和关键技术,所构建的基于Web2.0的金融语料库系统可应用于金融及相关学科的课程教学和科研活动。    

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号