首页 | 本学科首页   官方微博 | 高级检索  
检索     
共有20条相似文献,以下是第1-20项 搜索用时 31 毫秒

1.  基于平行论元的隐式篇章关系推理研究  
   周小佩  洪宇  车婷婷  姚建民  朱巧明《计算机应用与软件》,2012年第9期
   基于Penn Discourse TreeBank(简称PDTB)语料中的隐式篇章关系类型,提出一种无指导的识别方法。主要依据显式与隐式平行论元对之间的映射关系实现显式到隐式关系的推理,即利用显式论元对的篇章关系,推理与之平行的隐式论元对的篇章关系。推理过程主要包括:基于大规模语料库以及基于搜索引擎的平行语料挖掘,平行语料中显式连接词映射到篇章关系过程的消歧。与传统基于监督学习的分类方法相比,基于统计的无指导方法在隐式篇章关系推理的性能上获得显著提升,识别精确率提高了近15.6%。此外,在分析比较各研究方法的同时,指出目前隐式篇章关系推理研究所面临的主要困难与挑战。    

2.  基于树核的隐式篇章关系识别  
   徐凡  朱巧明  周国栋《软件学报》,2013年第24卷第5期
   隐式篇章关系识别是篇章结构分析中最具有挑战性的任务之一.传统的方法注重篇章中的概念和意义特征,导致系统的性能不高.系统地探索了篇章中的浅层语义信息和以态度韵为导向的句子级情感等平面特征的有效性,同时提出了一种简单而有效的树核方法,最后采用复合核方法加以集成.在Penn Discourse Treebank(PDTB) 2.0语料库上的实验结果表明,引入浅层语义和情感等信息后,准确率得到显著提升.    

3.  一种无指导的隐式篇章关系推理方法研究  
   周小佩  洪宇  车婷婷  姚建民  朱巧明《中文信息学报》,2013年第27卷第2期
   该文提出一种基于信息检索的无指导方法,用于推理隐式篇章片段之间的语义连接关系,如因果关系、转折关系等。该文基于Google搜索引擎,抽取在句子结构以及语义层面上均与原隐式片段相似的显式片段,通过分析和识别相关显式关系来间接推理隐式关系。主要包括以下三个模块:构建高质量查询关键词并抽取候选显式关系;结合三种隐式关系推理模型(相似度、置信度、关联度),综合考察查询关键词以及候选关系的质量;基于排序学习的方法,统计高质量候选关系中的类别分布以实现最终隐式关系的推理。该文采用Penn Discourse TreeBank 2.0篇章语料库,最终方法精确率达到54.3%,与有指导的方法相比,提高了约14.3%。    

4.  中文篇章关系任务分析及语料标注  
   张牧宇  秦兵  刘挺《智能计算机与应用》,2016年第5期
   篇章关系( Discourse Relation)是篇章语义分析的重要内容,本文在英文篇章关系研究的基础上分析了中英文间的差异,总结了中文篇章语义分析的特点,并在此基础上提出面向中文的层次化篇章关系体系,对其关系类型进行详细描述。在其基础上,研究构建包含1096篇语料的中文篇章关系语料库,为进一步的篇章语义分析工作奠定基础。    

5.  中文篇章级句间语义关系体系及标注  
   《中文信息学报》,2014年第2期
   篇章句间关系(Discourse Relation)是篇章级语义分析的重要内容,该文在英文篇章句间关系研究的基础上分析了中英文间的差异,总结了中文篇章级语义分析的特点,并在此基础上提出面向中文篇章句间关系的层次化语义关系体系,对句间关系类型进行详细描述。为了验证体系的合理性和完备性,我们在互联网新闻语料上进行了标注实践,分析了标注中遇到的难点并给出解决方案,为进一步的中文篇章级语义分析工作奠定基础。    

6.  宏观篇章结构表示体系和语料建设  
   褚晓敏  奚雪峰  蒋峰  徐昇  朱巧明  周国栋《软件学报》,2020年第31卷第2期
   篇章结构分析是自然语言处理领域的一个重要研究方向.篇章结构分析有助于理解篇章的结构和语义,并为自然语言处理的应用(如自动文摘、主题抽取、问答系统等)提供有力的支撑.目前篇章结构分析主要集中在微观的层面,分析重点是句子内部或句子与句子之间的关系和结构,而宏观层面的研究相对较少.因此,本文以篇章结构作为研究对象,并将研究重点放在宏观篇章结构的表示体系和语料资源建设上.本文探讨了篇章结构分析的重要性,从理论体系、语料资源、计算模型等三个方面阐述了篇章结构分析的研究现状,提出了以篇章主次关系为媒介的宏观和微观统一的篇章结构表示框架,并分别构建了宏观篇章的逻辑语义结构和功能语用结构.在此基础上本文标注了规模为720篇新闻报道的宏观篇章结构语料,并对标注的结果进行了一致性分析和标注统计分析.    

7.  平行推理机制:一种隐式篇章关系检测方法  
   洪宇  严为绒  车婷婷  梁颖红  姚建民  朱巧明  周国栋《软件学报》,2014年第25卷第11期
   篇章是论元经过语义关联和结构化组织形成的自然语言文体.篇章分析研究的核心任务之一是解释论元的语义关系,其中,显式关系因具有直观线索而易于检测,目前检测精度高达90%;相对而言,隐式关系因缺乏直观线索而难于检测,目前精度仅约40%.针对这一问题,基于一种"论元平行则关系平行"的假设,并利用显式篇章关系易于检测的特点,通过平行论元的识别与平行关系的消歧,实现了一种显式关系平行推理隐式关系的隐式篇章关系检测方法.利用标准宾州篇章关系树库(Penn discourse Tree Bank,简称PDTB)对这一检测方法进行评测,结果显示,精确率提升达17.26%.    

8.  汉语显式篇章关系分析  
   《中文信息学报》,2014年第6期
   篇章关系分为显式和隐式两种。显式关系的显著特征是篇章的基本单元之间存在显式连接词。针对汉语显式篇章关系,构建了包括汉语连接词识别和篇章关系分类的显式篇章关系分析平台。该文选取汉语宾州树库(Chinese Penn Treebank,CTB)中的500篇文本进行了汉语显式篇章关系标注;结合连接词的中心词,采用最大熵分类器构建了汉语连接词识别模块,其性能F1值达到了66.79%;基于连接词及其词性等上下文特征,构建了篇章关系分类器,其在最顶层4大类语义关系上的分类性能的F1值为91.92%。    

9.  汉语篇章修辞结构的标注研究  
   乐明《中文信息学报》,2008年第22卷第4期
   汉语篇章修辞结构标注项目CJPL采用大陆主要媒体的财经评论文章为语料,依据修辞结构理论(Rhetorical Structure Theory,RST),定义了以标点符号为边界的篇章修辞分析基本单元和47种区分核心性单元的汉语修辞关系集,并草拟了近60页的篇章结构标注工作守则。这一工作目前完成了对97篇财经评论文章的修辞结构标注,在较大规模数据的基础上检验了修辞结构理论及其形式化方法在汉语篇章分析中的可移用性。树库所带有的修辞关系信息以及三类篇章提示标记的篇章用法特征,可以为篇章层级的中文信息处理提供一些浅层语言形式标记的数据。    

10.  正则表达式在PDTB语料数据预处理中的应用  
   贾震斌《福建电脑》,2011年第27卷第10期
   篇章关系识别是计算机自然语言处理领域中近年来研究的一个难点,采用语料库结合机器学习分类是目前主要研究路径,将语料数据转换成适合篇章关系识别训练与测试数据过程通常比较繁琐,本文结合自己研究过程提出了语料数据预处理的方法,该方法在隐式篇章关系识别研究效率中取得了明显效果,为进一步研究提供了基础。    

11.  汉语篇章理解研究综述  
   孔芳  王红玲  周国栋《软件学报》,2019年第30卷第7期
   人们理解自然语言通常是在篇章级进行的,随着词汇级及句子级研究的日益成熟,自然语言处理研究的焦点已转向篇章级.篇章分析的主要任务就是从整体上分析出篇章结构及其构成单元之间的语义关系,并利用上下文理解篇章.根据不同的篇章分析目的,篇章单元及其关系可以表示为不同的篇章基本结构,不同篇章基本结构及其关系的研究可提供不同层面的篇章理解.目前对汉语篇章内在规律的研究较少,缺乏对篇章进行有效分析和深入理解的理论方法体系,这严重制约了篇章级的相关研究及应用.重点关注篇章的两个最基本特征,即衔接性和连贯性,从篇章结构分析的理论研究、资源建设和计算模型这3个方面,分别探讨篇章修辞结构(体现篇章连贯性)和话题结构(体现篇章衔接性),对篇章理解的国内外研究现状进行了归纳和整理,并给出了目前存在的主要问题和研究趋势.    

12.  短语结构树库向依存结构树库转化研究  
   李正华  车万翔  刘挺《中文信息学报》,2008年第22卷第6期
   汉语依存树库的建设相对其他语言如英语,在规模和质量上还有一些差距。树库标注需要付出很大的人力物力,并且保证树库质量也比较困难。该文尝试通过规则和统计相结合的方法,将宾州汉语短语树库PennChinese Treebank转化为哈工大依存树库HIT-IR-CDT的体系结构,从而增大现有依存树库的规模。将转化后的树库加入HIT-IR-CDT,训练和测试依存句法分析器的性能。实验表明,加入少量经转化后的树库后,依存句法分析器的性能有所提高;但加入大量树库后,性能反而下降。经过细致分析,作为一种利用多种树库提高依存句法分析器性能的方法,短语转依存还存在很多需要深入研究的方面。    

13.  基于框架语义的隐式篇章关系推理  
   严为绒  朱珊珊  洪宇  姚建民  朱巧明《中文信息学报》,2015年第29卷第3期
   篇章关系分析是一种专门针对篇章语义关系及修辞结构进行分析与处理的自然语言理解任务.隐式篇章关系分析是其中重要的研究子任务,要求在显式关联线索缺失的情况下,自动检测特定论元对之间的语义关系类别.目前,隐式篇章关系分析性能较低,主流检测方法的准确率仅约为40%.造成这一现状的主要原因是:现有方法脱离论元的语义框架进行关系分析与检测,仅仅局限于特定论元特征的关联分析.针对这一问题,该文提出一种基于框架语义的隐式篇章关系推理方法,这一方法有效利用了框架语义知识库(即FrameNet)和相关识别技术,实现了论元语义框架的自动识别,并在此基础上,借助大规模文本数据中框架语义关联关系的分布概率,进行论元语义一级的关系判定.实验结果显示,仅仅利用第一层框架语义知识,即可提高隐式篇章关系检测性能至少5.14%;同时,在考虑关系类别平衡性的情况下,这一方法能提高至少10.68%.    

14.  中文核心框架元素标注规则的获取和实验——以认知语义领域为例  
   张惠春  由丽萍《电脑开发与应用》,2011年第24卷第12期
   计算机语义分析是当前制约中文信息检索、信息抽取与机器翻译等应用技术发展的瓶颈问题,而语义角色标注是语义分析的一个主要任务。即以框架语义理论为基础,以汉语框架语义知识库的核心框架元素为语义角色标注的范畴知识体系,以认知语义领域为研究实例,以真实语料为依据,根据短语类型、句法功能以及短语内、外部其他句法语义特征,获取中文语义角色标注规则,并通过实验检验规则的使用效果,为计算机自动语义分析探索一条可行的技术路线。    

15.  中文语义依存关系分析的统计模型  被引次数:7
   李明琴  李涓子  王作英  陆大《计算机学报》,2004年第27卷第12期
   该文提出了一个统计语义分析器,它能够发现中文句子中的语义依存关系.这些语义依存关系可以用于表示句子的意义和结构.语义分析器在1百万词的标有语义依存关系的语料库(语义依存网络语料库,SDN)上训练并测试,文中设计、实现了多个实验以分析语义分析器的性能.实验结果表明,分析器在非限定领域中表现出了较好的性能,分析正确率与中文句法分析器基本相当。    

16.  BFS-CTC汉语句义结构标注语料库  被引次数:2
   刘盈盈  罗森林  冯扬  韩磊  陈功  王倩《中文信息学报》,2013年第27卷第1期
   句义结构分析是汉语语义分析中不可逾越的重要环节,为了满足汉语句义结构分析的需要,基于现代汉语语义学理论构建了一种层次化的汉语句义结构模型,定义了标注规范和标记形式,建设了一个汉语句义结构标注语料库BFS-CTC(Beijing Forest Studio-Chinese Tagged Corpus).标注内容方面,基于句义结构模型的定义标注了句义结构句型层、描述层、对象层和细节层中所包含的各个要素及其组合关系,包括句义类型、谓词及其时态、语义格类型等信息,并且提供了词法和短语结构句法信息,便于词法、句法、句义的对照分析研究;语料库组织结构方面,该语料库包括四个部分,即原始句子库、词法标注库、句法标注库和句义结构标注库,可根据研究的需要,在词法、句法、句义结构标注的基础上进行深加工,在核心标注库的基础上添加更多具有针对性的扩展标注库,利用句子的唯一ID号进行识别和使用;语料来源和规模方面,语料全部来自新闻语料,经过人工收集、整理,合理覆盖了主谓句、非主谓句、把字句等六种主要句式类型,规模已达到10000句.同其他语义标注库相比,BFS-CTC基于现代汉语语义学,提供了多层次的句义结构标注信息,兼容进行了词法和语法标注,各类标注既可以单独使用也可综合使用进行横向分析,可用于自然语言处理多方面的研究,进一步推动汉语语义分析的研究和发展.    

17.  中医药古文献语料库设计与开发研究  被引次数:2
   刘耀  段慧明  王惠临  周扬  王振国  李宏展《中文信息学报》,2008年第22卷第4期
   专业领域语料库是对专业领域文献进行自然语言处理的重要的不可或缺的基础,是对专业文本内容与意图进行深层把握的必由之路。通过对研究背景的分析,进一步明析了专业文献进行自然语言处理的必要性,并在对专业文献语料库的研究特点进行分析的基础上,深入探讨了专业语料库的设计思想及原理,同时,对语料库词类的标注信息进行了深入研究。成功地开发了针对专业领域语料库的辅助加工系统,为专业领域语料库建设提供了理论指导和技术支撑。    

18.  基于语义解析的中文GIS自然语言接口实现研究  
   《中文信息学报》,2014年第6期
   该文对基于语义解析的中文地理信息系统(GIS)自然语言接口实现技术与方法进行了探索性的研究。首先,我们针对一个具体GIS应用领域设计和开发了一种函数式的形式化意义表示语言GISQL和一个中文语义解析标注语料库;然后,我们通过引入混合树作为隐变量用于构造输入句子与输出表示结构之间的对应关系,提出了一种基于含隐变量的感知器模型的语义解析算法。在开发的中文语义解析标注语料库上的实验结果显示,该文提出的语义解析算法的F1值达到了90.67%,明显优于baseline系统。更重要的是,该文的研究证明了基于语义解析方法实现中文GIS的自然语言接口是一种有效可行的途径。    

19.  基于语义依存关系的汉语语料库的构建  被引次数:5
   尤昉  李涓子  王作英《中文信息学报》,2003年第17卷第1期
   语料库是自然语言处理中用于知识获取的重要资源。本文以句子理解为出发点,讨论了在设计和建设一个基于语义依存关系的汉语大规模语料库过程中的几个基础问题,包括:标注体系的选择、标注关系集的确定,标注工具的设计,以及标注过程中的质量控制。该语料库设计规模100万词次,利用70个语义、句法依存关系,在已具有语义类标记的语料上进一步标注句子的语义结构。其突出特点在于将《知网》语义关系体系的研究成果和具体语言应用相结合,对实际语言环境中词与词之间的依存关系进行了有效的描述,它的建成将为句子理解或基于内容的信息检索等应用提供更强大的知识库支持。    

20.  HNC语义标注模型的构建  被引次数:1
   谢法奎  张全《计算机科学》,2009年第36卷第5期
   介绍一种基于HNC理论的、人机结合的汉语语料语义标注模型.首先分析了HNC语义标注的内容,在此基础上定义了标注的流程.因标注十分复杂,在流程的主要环节使用机器标注来帮助人工标注.具体地说,在语义块切分问题上采用最大熵模型,其正确率和召回率分别达到了83.78%和91.17%;在句类判断问题上采用基于实例的模型,其正确率达到了51.64%.运用此标注模型建设了HNC语义标注语料库,目前语料规模已达到40万字.    

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号