首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
隐喻识别是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的重要地位。本研究在前人工作的实验和考察基础上,发现基于分类器来识别隐喻的方法存在数据稀疏的问题,即当训练语料中缺少需要识别的源域词数据时,分类的结果将不会太好。应对数据稀疏问题,该文提出了一种基于聚类与分类结合的隐喻短语获取方法。该方法将包含源域词S的短语进行聚类。将聚类的结果作为分类的一类特征。实验表明,使用聚类产生的特征训练出来的分类器,不仅能很好地识别训练语料中存在源域词数据的情况,也能很好地识别训练语料中缺少源域词数据的情况,具有很高的召回率。  相似文献   

2.
本文在讨论了英文事的形态结构特征的基础上,提出了一种以短语模式空间匹配为基础的短语识别算法。该算法通过对短语的原型描述与输入文本中的全部可能路径进行递增模式匹配来识别具有外部形态约束和框架结构的复杂短语构。本文最后讨论了短语模板和基于复杂特征的短语描述方式。  相似文献   

3.
基于神经元网络的汉语短语边界识别   总被引:4,自引:2,他引:4  
短语边界的识别是浅层句法分析或组块分析的基础,对真实文本的处理具有重要意义。在一个含有64426词的汉语树库的支持下,本文设计并实现了基于神经元网络的汉语短语边界自动识别模型。初步实验结果显示,该模型的界定准确率为93.24%(封闭测试)和92.56%(开放测试)。  相似文献   

4.
该文提出一种融入简单名词短语信息的介词短语识别方法。该方法首先使用CRF模型识别语料中的简单名词短语,并使用转换规则对识别结果进行校正,使其更符合介词短语的内部短语形式;然后依据简单名词短语识别结果对语料进行分词融合;最后,通过多层CRFs模型对测试语料进行介词短语识别,并使用规则进行校正。介词短语识别的精确率、召回率及F-值分别为: 93.02%、92.95%、92.99%,比目前发表的最好结果高1.03个百分点。该实验结果表明基于简单名词短语的介词短语识别算法的有效性。
  相似文献   

5.
汉语短语标注标记集的确定   总被引:25,自引:9,他引:16  
本文提出了一个汉语短语标注的基本标记集, 并从句法功能和结构组成方面对不同短语的性质进行了深入的分析和探讨, 以期为汉语短语划分和标注的自动处理和人工校对提供一个统一的处理标准。  相似文献   

6.
一个汉语短语自动界定模型   总被引:7,自引:1,他引:7  
周强 《软件学报》1996,7(A00):315-322
本文提出了一个汉语短语自动界定模型,它通过基于统计的自动界定处理,利用通过错误驱动自动学习而得到的调整规则界定情况局部调整,利用人工总结的全局调整规则进行精调整等3个处理阶段,可以较邹地确定一句经过正确切分和词性注处理的汉语句子中不同短语的边界位置,从而为时一步的汉语短语自动划分和标注处理打下了良好的基础,对1000多句句子的实验结果表明,模型的界定正确率达到了96.33%(封闭测试)、94.55  相似文献   

7.
该文提出一种基于语言知识评价的分类器集成方法,利用自动获得的搭配资源和人工评价规则,融合了基于支持向量机的最长名词短语识别结果和基于条件随机场的归约识别结果,进一步基于确定性规则有针对性地识别了分类器易出错的特殊结构,提高了对连续动词介词和连续名词造成的边界歧义的识别能力。实验取得了89.30%的正确率和89.62%的召回率,多词结构F1值较归约方法提高了0.75%。  相似文献   

8.
汉语复合名词短语因其使用范围广泛、结构独特、内部语义复杂的特点,一直是语言学分析和中文信息处理领域的重要研究对象。国内关于复合名词短语的语言资源极其匮乏,且现有知识库只研究名名复合形式的短语,包含动词的复合名词短语的知识库构建仍处于空白阶段,同时现有的复合名词短语知识库大部分脱离了语境,没有句子级别的信息。针对这一现状,该文从多个领域搜集语料,建立了一套新的语义关系体系,标注构建了一个具有相当规模的带有句子信息的基本复合名词语义关系知识库。该库的标注重点是标注句子中基本复合名词短语的边界以及短语内部成分之间的语义关系,总共收录27 007条句子。该文对标注后的知识库做了详细的计量统计分析。最后基于标注得到的知识库,使用基线模型对基本复合名词短语进行了自动定界和语义分类实验,并对实验结果和未来可能的改进方向做了总结分析。  相似文献   

9.
本文针对统计方法和规则方法各自的特点,提出基于最大熵方法和转换规则方法相结合的中文基本名词短语识别算法,该算法是在一定词性标注的基础上实现的.在训练和测试两个阶段中,均先采用最大熵方法识别基本名词短语,然后将已具有一定精度的识别结果作为初始标注结果运用于转换规则方法中.实验表明,该方法具有一定的可行性.  相似文献   

10.
隐喻是我们日程生活中常见的语言现象,利用计算机识别隐喻已经成为自然语言处理、人工智能乃至应用语言学领域中的一个具有重要价值的研究课题。本文根据隐喻特点,基于最大熵原理建立了一个隐喻识别模型,并论证了利用统计手段建立该模型的合理性。实验结果表明,该模型具有较高的准确度和召回率,以及较为理想的f值,是非常有前途的  相似文献   

11.
首先分析了汉语中韵律短语的边界情况,然后提出了一个韵律短语切分方法,开放和封闭测试表明该方法取得了相当好的结果。  相似文献   

12.
针对现有隐喻计算知识库的广度和深度不足问题,提出了引入了网络百科资源作为隐喻识别的世界知识库的方法.利用信息检索技术,从概念对应的百科页面中获取概念的背景世界知识,计算两个概念的世界知识的重合程度,作为判断它们是否属于同一个概念域的依据,进行隐喻的识别.实验结果表明在使用百度百科作为世界知识库时,隐喻/常规表达的识别正确率达到81.06%,算法的有效性得到证明.  相似文献   

13.
在机器阅读理解任务中,由于中文实词的组合性和隐喻性,且缺乏有关中文实词辨析的数据集,因此传统方法对中文实词的理解程度和辨析能力仍然有限.为此,构建了一个大规模(600k)的中文实词辨析数据集(Chinese notional word discrimination cloze data set, CND).在数据集中,一句话中的一个实词被替换成了空白占位符,需要从提供的两个候选实词中选择正确答案.设计了一个基线模型RoBERTa-ND (RoBERTa-based notional word discrimination model)来对候选词进行选择.模型首先利用预训练语言模型提取语境中的语义信息.其次,融合候选实词语义并通过分类任务计算候选词得分.最后,通过增强模型对位置及方向信息的感知,进一步加强了模型的中文实词的辨析能力.实验表明,该模型在CND上准确率达到90.21%,战胜了DUMA (87.59%), GNN-QA (84.23%)等主流的完形填空模型.该工作填补了中文隐喻语义理解研究的空白,可以在提高中文对话机器人认知能力等方向开发更多实用价值.数据集CND及RoBERT...  相似文献   

14.
指代消解是自然语言处理领域中要研究的关键问题之一。在自然语言中,为了使语言简明,减少冗余,往往对同一意思的单词、句子或某一事件用不同的单词来代替。相对于人而言,计算机理解这些指代现象就比较困难,因此近年来关于指代消解的研究越来越多。由于中文指代消解研究起步较晚,因此关于中文名词短语指代消解的研究还比较少,大多研究是关于英文指代消解的。给出了一个基于SVM的中文名词短语指代消解平台并详细介绍了整个实现过程,语料库采用OntoNotes 3.0的中文新闻语料。利用3种评测算法对系统性能进行了评测,结果表明本系统是一个比较好的中文指代消解平台。  相似文献   

15.
口语理解在口语自动翻译和人机对话系统中具有非常重要的作用。本文面向口语自动翻译提出了一种统计和规则相结合的汉语口语理解方法,该方法利用统计方法从训练语料中自动获取语义规则,生成语义分类树,然后利用语义分类树对待解析的汉语句子中与句子浅层语义密切相关的词语进行解析,最后再利用统计理解模型对各个词语的解析结果进行组合,从而获得整个句子的浅层语义领域行为。实验结果表明,该方法具有较高的准确率和鲁棒性,适合应用在限定领域的汉语口语浅层语义理解。  相似文献   

16.
基于汉语句模的中文分词算法   总被引:8,自引:2,他引:6  
张滨  晏蒲柳  李文翔  夏德麟 《计算机工程》2004,30(1):134-135,191
讨论了在汉语信息计算机处理中的中文分词问题。综合考虑可行性和准确性,提出了旨在降低分词难度和提高分词精度的基于汉语句模理论的处理策略。实验表明,该方法是可行的和具有广阔发展空间的。  相似文献   

17.
隐喻理解的计算模型综述   总被引:2,自引:0,他引:2  
国际上,隐喻在思维及语言中所处的中心地位正逐渐引起人工智能研究者的重视。但在国内学术界,还鲜有开展隐喻计算化这方面研究的;实际上,作为异常用法的隐喻现象是自然语言中的普遍情况,因此隐喻问题若得不到很好的解决,将成为制约自然语言理解和机器翻译的瓶颈问题。本文结合相关的隐喻理论基础,根据不同的计算路线对已有隐喻理解计算模型进行分类,包括基于语义优先方法、基于知识表示的方法、基于逻辑的方法和基于统计语料库的方法,并在分析这些方法的适用范围和优缺点的基础上,对隐喻的计算理解方法以及面向汉语的隐喻理解计算模型研究提出了展望和建议。  相似文献   

18.
传统时间短语识别方法存在中文文本时间短语边界定位不准确和长距离依赖的问题。为此,提出一种基于条件随机场(CRFs)的时间短语识别方法。采用基于机器学习的方法识别时间短语,分析中文文本中时间短语的词法、句法和上下文信息等语言学特征,将时间短语分为日期型和事件型2种类型,并半自动构建3个常用词表作为外部特征。在此基础上,引入能整合不同层面特征的CRFs方法,将识别问题转化为序列标注问题。实验结果表明,该方法在日期型时间短语和事件型时间短语识别上分别取得95.70%和85.75%的F1值,识别效果较好。  相似文献   

19.
本文考察了汉语名词隐喻的相似性特点,尝试利用隐喻相似度推理、词典信息等多种方法实现n+n隐喻表达的发现和提取。隐喻相似度推理,首先运用人机互助方法对中文概念词典(CCD)进行合理剪裁,建立了一个词语对应一个语义类的词典格式,为后续的推理实验提供了保证。同时也验证了名词隐喻知识库的有效性。实验证明,最大熵方法、隐喻相似度、词典知识等多种方法大大提高了识别效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号