首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 78 毫秒
1.
汉语意见型主观性文本类型体系的研究   总被引:1,自引:0,他引:1  
主观性文本是一种描述个人想法、情感和意见等的非约束性文本。它与主要描述以事实为主的客观性文本在内容和结构上有很大的不同。意见型文本是包含有意见元素(意见持有者、意见陈述范围、意见主题和意见情感)的一种主观性文本,它大量出现在网上的电子公告板、论坛和博客等媒介中,受到广泛的关注,并成为研究意见挖掘方法和技术的语料。该文介绍了主观性文本的定义及其与客观性文本的差异,同时着重讨论了意见型文本的定义、特点、类型体系及其在意见挖掘技术中的应用。  相似文献   

2.
文本意见挖掘综述   总被引:10,自引:2,他引:10  
意见挖掘是针对主观性文本自动获取有用的意见信息和知识,它是一个新颖而且十分重要的研究课题。这种技术可以应用于现实生活中的许多方面,如电子商务、商业智能、信息监控、民意调查、电子学习、报刊编辑、企业管理等。本文首先对意见挖掘进行了定义,然后阐述了意见挖掘研究的目的,接着从主题的识别、意见持有者的识别、陈述的选择和情感的分析四个方面对意见挖掘的研究现状进行了综述,并介绍了几个成型的系统。此外,我们针对汉语的意见挖掘做了特别的分析。最后对整个领域的研究进行了总结。  相似文献   

3.
汉语普通话语音合成语料库TH-CoSS的建设和分析   总被引:6,自引:0,他引:6  
本文介绍了汉语语音合成语料库TH-CoSS的建设和分析。本语料库包括男女声朗读语句约2万个。语料库分为四个部分: TTS系统建库用语句、TTS系统测试用语句、特殊语调语句和特殊音节组。语料设计考虑了语料的平衡和音段、韵律信息的丰富。语料库中除了文本、语音数据外,还带有音段切分标志,标注文件采用XML格式。为了方便语音分析与开发,特研制了标注软件。本文还给出了语境特征对语音韵律影响的分析结果。  相似文献   

4.
文本情绪分析研究近年来发展迅速,但相关的中文情绪语料库,特别是面向微博文本的语料库构建尚不完善。为了对微博文本情绪表达特点进行分析以及对情绪分析算法性能进行评估,该文在对微博文本情绪表达特点进行深入观察和分析的基础上,设计了一套完整的情绪标注规范。遵循这一规范,首先对微博文本进行了微博级情绪标注,对微博是否包含情绪及有情绪微博所包含的情绪类别进行多标签标注。而后,对微博中的句子进行有无情绪及情绪类别进行标注,并标注了各情绪类别对应的强度。目前,已完成14000条微博,45431句子的情绪标注语料库构建。应用该语料库组织了NLP&CC2013中文微博情绪分析评测,有力地促进了微博情绪分析相关研究。  相似文献   

5.
汉语篇章修辞结构标注项目CJPL采用大陆主要媒体的财经评论文章为语料,依据修辞结构理论(Rhetorical Structure Theory,RST),定义了以标点符号为边界的篇章修辞分析基本单元和47种区分核心性单元的汉语修辞关系集,并草拟了近60页的篇章结构标注工作守则。这一工作目前完成了对97篇财经评论文章的修辞结构标注,在较大规模数据的基础上检验了修辞结构理论及其形式化方法在汉语篇章分析中的可移用性。树库所带有的修辞关系信息以及三类篇章提示标记的篇章用法特征,可以为篇章层级的中文信息处理提供一些浅层语言形式标记的数据。  相似文献   

6.
词义标注语料库建设综述   总被引:1,自引:2,他引:1  
词义消歧的关键问题是缺少大规模、高质量的词义标注语料库。本文分别从语料选取、词典选择、标注规模和标注质量等方面介绍已经建成的较有影响的若干词义标注语料库。在自动构建词义标注语料库的方法中,本文集中介绍bootstrapping策略在语料库建设方面的应用以及利用双语对齐语料库开展的相关研究。最后,针对词义标注语料库建设存在的问题提出自己的分析和思考。  相似文献   

7.
情感语料库的构建和分析   总被引:4,自引:0,他引:4  
本文介绍了情感语料库构建方面的一些经验,讨论了在设计和建设情感语料库中的几个基本问题制定标注规范、选择标注集、设计标注工具以及标注过程中的质量监控。目前已经标注完成近4万句,100万字的语料。在完成这些已标注语料的基础上,进一步给出了语料库的情感分布,情感迁移规律等统计数据,分析了情感语料库的特点及应用。它的建成将为文本情感计算提供更加强大的资源支持。  相似文献   

8.
汉语句法树库标注体系   总被引:16,自引:10,他引:16  
语料库的句法标注是语料库语言学研究的前沿课题。本文在研究和总结国内外句法树库标注实践的基础上,提出了一套汉语真实文本的句法树标注体系。它以完整的层次结构树为基础,对句法树上的每个非终结符节点都给出两个标记:成分标记和关系标记,形成双标记集的句法信息描述体系。目前,这两个标记集分别包含了16和27个标记,对汉语句子的不同句法组合的外部功能分布和内部组合特点进行了详细描述。在此基础上,我们开发完成了100万词规模的汉语句法树库TCT,对其中各种复杂语言现象的标注实践显示了这套标注体系具有很好的信息覆盖率和语料适应性。  相似文献   

9.
基于语义依存关系的汉语语料库的构建   总被引:4,自引:1,他引:4  
语料库是自然语言处理中用于知识获取的重要资源。本文以句子理解为出发点,讨论了在设计和建设一个基于语义依存关系的汉语大规模语料库过程中的几个基础问题,包括:标注体系的选择、标注关系集的确定,标注工具的设计,以及标注过程中的质量控制。该语料库设计规模100万词次,利用70个语义、句法依存关系,在已具有语义类标记的语料上进一步标注句子的语义结构。其突出特点在于将《知网》语义关系体系的研究成果和具体语言应用相结合,对实际语言环境中词与词之间的依存关系进行了有效的描述,它的建成将为句子理解或基于内容的信息检索等应用提供更强大的知识库支持。  相似文献   

10.
基于SRNN神经网络的汉语文本词类标注方法   总被引:3,自引:0,他引:3  
词类标注是语料库加工流程一个关键环节,是句法,语义标注分析的前提,本文提出了一种基于SRNN神经网络的词类标记方法,SRNN在三层前向神经网络的结构基础上,增加了隐层节点与输入层状态节点之间的反馈联接,这种结构使用网络具有利用上下文词类信息的处理能力,本文还讨论了网络的训练算法,以人工标注的句子作训练集,经过训练收敛后的网络对新语料的词类标注正确率达到了94%。  相似文献   

11.
SMS-2008标注中文短信息库   总被引:2,自引:0,他引:2  
随着短信息应用的普及,用户、运营商及政府管理部门均迫切需要智能短信处理工具。语料库是研究算法,开发系统,测试性能等必不可少的基础资源。但受到技术、版权保护、隐私权利等种种原因,目前还没有公开的标准短信息语料库。SMS-2008标注短信息库是本项目组在国内外率先建立的多用途中文短信息语料库,它包括原始语料库、预处理语料库、隐私标注语料库、内容标注语料库、错误标注语料库等。该语料库可用于短信语言现象研究、短信分类过滤算法研究、隐私保护算法研究、自动纠错算法研究等。  相似文献   

12.
中医药古文献语料库设计与开发研究   总被引:1,自引:2,他引:1  
专业领域语料库是对专业领域文献进行自然语言处理的重要的不可或缺的基础,是对专业文本内容与意图进行深层把握的必由之路。通过对研究背景的分析,进一步明析了专业文献进行自然语言处理的必要性,并在对专业文献语料库的研究特点进行分析的基础上,深入探讨了专业语料库的设计思想及原理,同时,对语料库词类的标注信息进行了深入研究。成功地开发了针对专业领域语料库的辅助加工系统,为专业领域语料库建设提供了理论指导和技术支撑。  相似文献   

13.
第三届中文倾向性分析评测(COAE2011)语料的构建与分析   总被引:1,自引:0,他引:1  
文本倾向性分析已成为自然语言处理领域研究的热点问题之一。为进一步推动中文倾向性分析的研究,中国中文信息学会信息检索专业委员会举办了第三届中文倾向性分析评测(COAE2011)。该次评测主要关注领域和上下文语境(Context)对中文倾向性分析的影响。该文主要介绍COAE2011评测语料的构建及其对评测的支撑 首先介绍了COAE2011语料的领域选取、媒介分布等获取过程,然后详细阐述语料的标注原则与方法,最后依据评测结果分析领域和上下文语境因素对倾向性的影响。COAE2011语料的建立将为中文倾向性分析提供强大的资源支持。  相似文献   

14.
基于视频三音子的汉语双模态语料库的建立   总被引:2,自引:0,他引:2  
为实现可视语音合成和双模态语音识别,需要建立符合条件的双模态语料库。该文提出了一种汉语双模态语料库的建立方法。根据视频中唇部发音特征,对已有的三音子模型聚类,形成视频三音子。在视频三音子的基础上,利用评估函数对原始语料中的句子打分,并实现语料的自动选取。与其他双模态语料库相比,该文所建立的语料库在覆盖率、覆盖效率和高频词分布律有了较大改进,能够更加真实反映汉语中的双模态语言现象。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号