首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
针对现有隐喻计算知识库的广度和深度不足问题,提出了引入了网络百科资源作为隐喻识别的世界知识库的方法.利用信息检索技术,从概念对应的百科页面中获取概念的背景世界知识,计算两个概念的世界知识的重合程度,作为判断它们是否属于同一个概念域的依据,进行隐喻的识别.实验结果表明在使用百度百科作为世界知识库时,隐喻/常规表达的识别正确率达到81.06%,算法的有效性得到证明.  相似文献   

2.
从认知学角度,隐喻情绪由句子中“源语义场景-目标语义场景”词对的情绪场景融合而成。鉴于此特点,该文提出了融合词语场景的隐喻情绪识别模型。该模型借助情绪词典及大规模语料库,构建了词语情绪分布表示获取算法,用于捕获句子中映射词对的情绪分布表示。在此基础上,利用注意力机制与最大池化策略,编码句子的多情绪场景融合表示,以刻画句子情绪形成的诱因。最后,设计情绪分类器,联合句子情绪及上下文表示作为输入,多角度地构建句子的语义,以提升隐喻情绪识别性能。在隐喻情绪数据集上进行实验,与基线模型和最好评测模型进行对比,该文提出的模型在宏F1值上提升了5.74%与2.73%。另外,定性的实例分析解释了词语场景对隐喻情绪识别的作用。  相似文献   

3.
隐喻目前已经成为一个涉及认知语言学、心理学、教育学、逻辑学、计算机科学等多学科交叉的研究领域。本文将从认知语言学和计算机科学的交叉角度对隐喻识别所涉及的理论和方法进行探究,以期让更多的研究人员不仅停留在技术层面,而是更多地关注计算机技术背后的认知语言学理论基础,同时为语言教育者提供一些计算思维和计算机网络环境下语言教学新的思路和方法。  相似文献   

4.
基于区分词的汉语隐喻短语识别   总被引:1,自引:1,他引:0  
符建辉  曹存根  王石 《计算机科学》2010,37(10):193-196,232
隐喻识别是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的中心地位。从计算语言学和自然语言处理的角度来考虑,隐喻问题若不能得到很好的处理,语言理解和机器翻译的效果都会受到影响。通过观察隐喻短语和非隐喻短语在汉语中的上下文发现,有一批词可用于有效地识别隐喻短语,称之为区分词。首先从Web中自动抽取了一部分区分词,进而提出了一种基于区分词的隐喻短语识别方法。实验表明基于区分词的识别方法是有效的。  相似文献   

5.

跨域命名实体识别旨在缓解目标领域标注数据不足的问题. 现有方法通常利用特征表示或者模型参数的共享来实现实体识别能力的跨领域迁移,但对文本序列中结构化知识的充分利用仍有所欠缺. 基于此,提出了基于多层结构化语义知识增强的跨领域命名实体识别(multi-level structured semantic knowledge enhanced cross-domain named entity recognition,MSKE-CDNER)模型,即通过在多个层级实现对源领域和目标领域文本各自蕴含的结构化表示的对齐来促进实体识别能力跨领域迁移. 首先,MSKE-CDNER利用结构特征表示层从不同领域中获取文本的结构化语义知识表示;然后,将获得的结构化语义知识表示通过潜层对齐模块在对应的层级进行结构化对齐,获取结构化的跨领域不变知识,从而提高模型对文本结构化知识的利用;此外,将域不变知识与特定域知识融合,进一步增强模型的泛化能力;最后,分别在5个英文数据集和特定的跨域命名实体识别数据集上进行实验. 结果显示,对比当前跨域模型,MSKE-CDNER的平均性能提高了0.43%和1.47%,表明利用特征表示中的结构化知识可以有效提高目标领域的实体识别能力.

  相似文献   

6.
词语隐喻意义的机器识别和正确翻译是机译的难点。提出了语义语法模式的概念、提取方法以及一种基于语义语法模式集、固定搭配集和变量表示库的英语隐喻识别与汉译的合一算法。语义语法模式集包括语法隐喻模式集、词汇隐喻模式集、字面意义模式集、短语模式集、构句模式集等子集。以人体词为研究对象,构建了英语人体词的语义语法模式集、固定搭配集和变量表示库。实验表明,该方法能有效解决英语人体隐喻的识别与汉译问题。  相似文献   

7.

隐喻识别是自然语言处理中语义理解的重要任务之一,目标为识别某一概念在使用时是否借用了其他概念的属性和特点. 由于单纯的神经网络方法受到数据集规模和标注稀疏性问题的制约,近年来,隐喻识别研究者开始探索如何利用其他任务中的知识和粗粒度句法知识结合神经网络模型,获得更有效的特征向量进行文本序列编码和建模.然而,现有方法忽略了词义项知识和细粒度句法知识,造成了外部知识利用率低的问题,难以建模复杂语境.针对上述问题,提出一种基于知识增强的图编码方法(knowledge-enhanced graph encoding method,KEG)来进行文本中的隐喻识别. 该方法分为3个部分:在文本编码层,利用词义项知识训练语义向量,与预训练模型产生的上下文向量结合,增强语义表示;在图网络层,利用细粒度句法知识构建信息图,进而计算细粒度上下文,结合图循环神经网络进行迭代式状态传递,获得表示词的节点向量和表示句子的全局向量,实现对复杂语境的高效建模;在解码层,按照序列标注架构,采用条件随机场对序列标签进行解码.实验结果表明,该方法的性能在4个国际公开数据集上均获得有效提升.

  相似文献   

8.
基于词典的名词性隐喻识别   总被引:1,自引:0,他引:1  
隐喻是用一个事物来类比另外一个事物的语言表达,在自然语言中非常普遍,要实现自然语言理解隐喻处理不可避免。该文针对最基本的隐喻类型——名词性隐喻,提出基于词典的识别方法。结合同义词词林的语义距离与HowNet的语义关系来识别隐喻,考察隐喻与语义距离及语义关系之间的关联。  相似文献   

9.
词语间依存关系的定量识别   总被引:2,自引:1,他引:2  
本文扩展和改进了现有的词语间依存关系定量识别算法,充分考虑词项概率分布的影响;明确区分词项之间的搭配关系、并列关系和从属关系,针对它们不同的特点,提出不同的识别算法;提出字串匹配模型;充分考虑两个词项之间相互位置的离散分布和距离的影响、以及它们的概率分布特性, 提出词项间的依存强度模型,并据此构建词语间依存关系树;提出更新策略,对已经建好的依存关系树进行裁剪,并挖掘出潜在的依存关系。应用实验结果表明,本文提出的算法可以有效地识别出词语间的依存关系。  相似文献   

10.
隐喻是我们日程生活中常见的语言现象,利用计算机识别隐喻已经成为自然语言处理、人工智能乃至应用语言学领域中的一个具有重要价值的研究课题。本文根据隐喻特点,基于最大熵原理建立了一个隐喻识别模型,并论证了利用统计手段建立该模型的合理性。实验结果表明,该模型具有较高的准确度和召回率,以及较为理想的f值,是非常有前途的  相似文献   

11.
This paper presents a survey on off-line Cursive Word Recognition. The approaches to the problem are described in detail. Each step of the process leading from raw data to the final result is analyzed. This survey is divided into two parts, the first one dealing with the general aspects of Cursive Word Recognition, the second one focusing on the applications presented in the literature.  相似文献   

12.
随着微博等社交网络的普及,新词源源不断涌现,分词系统经常将新词错误切分为单字.新词发现已经成为中文自然语言处理领域的研究热点.现有新词识别方法依赖大规模语料统计数据,对低频新词识别能力差.本文提出一种扩展Skip-gram模型和词向量投影方法,将两者结合后能缓解自然语言处理中常见的数据稀疏问题,有效识别低频新词,进而提高分词系统的准确率和召回率.  相似文献   

13.
隐喻识别是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的重要地位。本研究在前人工作的实验和考察基础上,发现基于分类器来识别隐喻的方法存在数据稀疏的问题,即当训练语料中缺少需要识别的源域词数据时,分类的结果将不会太好。应对数据稀疏问题,该文提出了一种基于聚类与分类结合的隐喻短语获取方法。该方法将包含源域词S的短语进行聚类。将聚类的结果作为分类的一类特征。实验表明,使用聚类产生的特征训练出来的分类器,不仅能很好地识别训练语料中存在源域词数据的情况,也能很好地识别训练语料中缺少源域词数据的情况,具有很高的召回率。  相似文献   

14.
针对手写阿拉伯单词书写连笔,且相似词较多的特点,该文提出一种新的脱机手写文字识别算法。该算法以固定组件为成分拆分阿拉伯单词,构建自组件特征至单词类别的加权贝叶斯推理模型。算法结合单词组件分割、多级混合式组件识别、组件加权系数估计等,计算单词类别的后验概率并得到单词识别结果。在IFN/ENIT库上的实验,获得了90.03%的单词识别率,证实组件分解对笔画连写具有鲁棒性,组件识别能提高相似词的辨别能力,而且该算法所需训练类别少,易向大词汇量识别扩展。  相似文献   

15.
该文介绍一种维吾尔语联机手写体识别系统。其针对维吾尔语词语的书写特点采用了基于多分类器融合的系统和方法,分别使用混合高斯模型模拟整词的静态特征和隐马尔科夫模型模拟书写笔迹的动态特征,有效地提升了识别系统的准确率。在第一期实验中,整词识别率达到97%;第二期的实验中,整词识别率达到99%。  相似文献   

16.
针对日渐丰富的少数民族语言资源进行管理、研究和使用有着重要的应用价值。为了解决语言差异引起的语言鸿沟,针对中朝两种语言环境下的跨语言文本分类任务,提出了双语主题词嵌入模型。该文将词嵌入模型与主题模型扩展到双语环境,并将两种模型相结合,解决了歧义性对跨语言文本分类精度带来的影响。首先,在大规模单词级别对齐平行句对中训练中朝单词的词嵌入向量;其次,利用主题模型对中朝分类语料进行表示,并获得中朝单词的含有主题信息的词嵌入向量;最后,将中朝单词的主题词嵌入向量输入至文本分类器,进行模型的训练与分类预测。实验结果表明,中朝跨语言文本分类任务的准确率达到了91.76%,已达到实际应用的水平,同时该文提出的模型可以对一词多义单词的多个词义有很好的表示。  相似文献   

17.
wordlattice是与词图(wordgraph)结构类似但是结构没有词图致密的在小任务语音识别的情况下较为常见的一种中间输出结构,给出了在wordlattice结构上的语音识别置信度估计的一种算法。以lattice结构中的连接弧作为计算单元,给出了利用前后向算法高效计算lattice中每个弧的词后验概率及以其为基础计算每个词的置信度的算法。  相似文献   

18.
19.
张军  李学斌 《计算机仿真》2009,26(10):348-351,364
针对动态时间规整(DTW)对孤立词端点检测准确性过度依赖的问题,针对上述问题,采用放宽端点和限定动态规整计算范围结合的算法,不仅更准确的放松前后端点降低端点检测的敏感度,而且结合对动态规整计算范围的限定,减少计算量,提高执行效率。分别测试了基于传统DTW算法的识别率和改进后DTW算法的识别率。实验结果表明,改进后的算法,能有效提高孤立词识别率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号