首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 656 毫秒
1.
隐喻识别是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的重要地位。本研究在前人工作的实验和考察基础上,发现基于分类器来识别隐喻的方法存在数据稀疏的问题,即当训练语料中缺少需要识别的源域词数据时,分类的结果将不会太好。应对数据稀疏问题,该文提出了一种基于聚类与分类结合的隐喻短语获取方法。该方法将包含源域词S的短语进行聚类。将聚类的结果作为分类的一类特征。实验表明,使用聚类产生的特征训练出来的分类器,不仅能很好地识别训练语料中存在源域词数据的情况,也能很好地识别训练语料中缺少源域词数据的情况,具有很高的召回率。  相似文献   

2.
隐喻是我们日程生活中常见的语言现象,利用计算机识别隐喻已经成为自然语言处理、人工智能乃至应用语言学领域中的一个具有重要价值的研究课题。本文根据隐喻特点,基于最大熵原理建立了一个隐喻识别模型,并论证了利用统计手段建立该模型的合理性。实验结果表明,该模型具有较高的准确度和召回率,以及较为理想的f值,是非常有前途的  相似文献   

3.
田嘉  苏畅  陈怡疆 《软件学报》2015,26(1):40-51
作为自然语言处理中的普遍现象,隐喻若不得到解决,将成为制约自然语言处理和机器翻译的瓶颈问题.结合相关的隐喻理论基础,从隐喻识别和隐喻解释这两个隐喻计算的子任务出发,介绍了现有的隐喻计算模型以及隐喻语料资源,并对这些隐喻模型的优缺点和适用范围进行了比较.  相似文献   

4.
基于词典的名词性隐喻识别   总被引:1,自引:0,他引:1  
隐喻是用一个事物来类比另外一个事物的语言表达,在自然语言中非常普遍,要实现自然语言理解隐喻处理不可避免。该文针对最基本的隐喻类型——名词性隐喻,提出基于词典的识别方法。结合同义词词林的语义距离与HowNet的语义关系来识别隐喻,考察隐喻与语义距离及语义关系之间的关联。  相似文献   

5.
词语隐喻意义的机器识别和正确翻译是机译的难点。提出了语义语法模式的概念、提取方法以及一种基于语义语法模式集、固定搭配集和变量表示库的英语隐喻识别与汉译的合一算法。语义语法模式集包括语法隐喻模式集、词汇隐喻模式集、字面意义模式集、短语模式集、构句模式集等子集。以人体词为研究对象,构建了英语人体词的语义语法模式集、固定搭配集和变量表示库。实验表明,该方法能有效解决英语人体隐喻的识别与汉译问题。  相似文献   

6.
隐喻自动处理研究进展   总被引:1,自引:1,他引:0  
隐喻在人类语言中普遍存在,是自然语言理解必须面对的问题。该文首先探讨了对隐喻的认识及语言中隐喻表达的分类。把隐喻自动处理分为隐喻识别、隐喻理解和隐喻生成三个子任务,对以往的研究成果进行梳理,着重介绍近几年来隐喻自动处理研究的新成果、新特点。隐喻自动处理离不开隐喻知识库的支持,文章也介绍了国内外隐喻知识库建设的主要成果。隐喻自动处理的目的是为了提高自然语言处理的智能化水平,文章探讨了隐喻处理在自然语言处理任务中的应用。最后展望了汉语隐喻自动处理研究的前景。  相似文献   

7.
隐喻通常借助具体的概念来表达抽象的概念。如果能判断出文本中词语所指的概念是具体还是抽象的,即度量出词语的抽象程度,那么这将为隐喻的机器识别提供重要的依据。该文提出基于跨语言知识迁移的汉语词语抽象性度量方法,把英语中的词语抽象性知识迁移到汉语中来。提出基于词语抽象性知识的隐喻识别方法,并详细分析了词语抽象性与隐喻之间的关系。实验表明,知识迁移是可行的,基于抽象性知识的隐喻识别有较高的准确率,可以有效提高从真实文本中抽取隐喻的效率。  相似文献   

8.
识别短文本的语言种类是社交媒体中自然语言处理的重要前提,也是一个挑战性热点课题.由于存在集外词和不同语种相同词汇干扰的问题,传统基于n-gram的短文本语种识别方法(如Textcat、LIGA、logLIGA等)识别效果在不同的数据集上相差甚远,鲁棒性较差.本文提出了一种基于n-gram频率语种识别改进方法,根据训练数据不同特性,自动确定语言中特征词和共有词的权重,增强语种识别模型在不同数据集上的鲁棒性.实验结果证明了该方法的有效性.  相似文献   

9.
苏畅  王晓梅  黄舒曼  陈怡疆 《软件学报》2017,28(12):3167-3182
隐喻理解已成为语言学、认知学、计算机科学等研究的重要课题,也是自然语言处理中不可避免的任务.本文提出一种基于相关性约束的隐喻理解方法,利用隐含的相关角度计算目标域和源域的相关程度.首先,我们基于词、词的主题及语篇的主题扩展出多层次的语义表示.然后,我们利用上下文信息的相关关系,构建多层次的相关性模型.模型通过多种角度的相关关系将跨层次的语义信息关联起来.接着,我们采用random walk的方法,通过迭代计算获得隐含角度的相关关系.最后,选择与目标域具有最大相关度的属性作为隐喻理解的结果.本文将模型应用到隐喻理解任务中,实验结果表明我们的方法能够有效地实现隐喻自动理解.  相似文献   

10.
苏畅  付泽  郑发魁  陈怡疆 《软件学报》2019,30(11):3340-3354
隐喻计算是自然语言处理领域中的重要问题.尝试以差异性计算为基础,结合语言、心理和认知的角度对英语隐喻识别进行深入分析和探索.对人类而言,隐喻识别是一个动态分类的过程,动态分类是从多个角度来度量事物之间的差异性.研究了如何模仿人类来获取概念的特征、选择分类角度、在特定分类角度下计算差异性,并进行了英语名词性隐喻识别的实验.该方法对隐喻/常规表达识别的准确率达到85.4%,实验结果表明,该方法是有效的.  相似文献   

11.
A sememe is defined as the minimum semantic unit of languages in linguistics. Sememe knowledge bases are built by manually annotating sememes for words and phrases. HowNet is the most well-known sememe knowledge base. It has been extensively utilized in many natural language processing tasks in the era of statistical natural language processing and proven to be effective and helpful to understanding and using languages. In the era of deep learning, although data are thought to be of vital importance, there are some studies working on incorporating sememe knowledge bases like HowNet into neural network models to enhance system performance. Some successful attempts have been made in the tasks including word representation learning, language modeling, semantic composition, etc. In addition, considering the high cost of manual annotation and update for sememe knowledge bases, some work has tried to use machine learning methods to automatically predict sememes for words and phrases to expand sememe knowledge bases. Besides, some studies try to extend HowNet to other languages by automatically predicting sememes for words and phrases in a new language. In this paper, we summarize recent studies on application and expansion of sememe knowledge bases and point out some future directions of research on sememes.  相似文献   

12.
在中文自然语言处理领域中,分词是非常重要的步骤之一,它是关键词抽取、文本自动摘要、文本聚类的基础,分词结果的好坏直接影响进一步文本处理的准确性.近年来随着微博平台、直播平台、朋友圈等自由舆情平台的兴起,大量不规范使用的舆情文本尤其是不断出现的新词给分词结果的准确性带来了巨大的挑战,新词发现成为分词算法必须解决的问题.为解决在新词发现过程中,新词整体数据体量小、新词用法灵活以及过度合并词语易形成短语块等问题,本文提出了结合关联置信度与结巴分词的新词发现算法,该算法以结巴分词的初步分词结果为基础,通过计算词语与其左右邻接词集中各个词语之间的关联置信度,将被错误拆分的词语合并成候选新词,并通过切分连接词以防止多个词语被连接成短语的情况出现.以微博言论数据进行测试的实验表明,相比于其它基于置信度的分词方法结果,本文提出的算法可以大幅度提升发现新词尤其是命名实体、网络用语的准确率,在确保新词语义完整的前提下降低新词长度,并且在少量测试语料的情境下,本文提出的算法对低频新词依然具有识别能力.  相似文献   

13.
Identifying and interpreting user intent are fundamental to semantic search. In this paper, we investigate the association of intent with individual words of a search query. We propose that words in queries can be classified as either content or intent, where content words represent the central topic of the query, while users add intent words to make their requirements more explicit. We argue that intelligent processing of intent words can be vital to improving the result quality, and in this work we focus on intent word discovery and understanding. Our approach towards intent word detection is motivated by the hypotheses that query intent words satisfy certain distributional properties in large query logs similar to function words in natural language corpora. Following this idea, we first prove the effectiveness of our corpus distributional features, namely, word co-occurrence counts and entropies, towards function word detection for five natural languages. Next, we show that reliable detection of intent words in queries is possible using these same features computed from query logs. To make the distinction between content and intent words more tangible, we additionally provide operational definitions of content and intent words as those words that should match, and those that need not match, respectively, in the text of relevant documents. In addition to a standard evaluation against human annotations, we also provide an alternative validation of our ideas using clickthrough data. Concordance of the two orthogonal evaluation approaches provide further support to our original hypothesis of the existence of two distinct word classes in search queries. Finally, we provide a taxonomy of intent words derived through rigorous manual analysis of large query logs.  相似文献   

14.
With the development of Internet, people are more likely to post and propagate opinions online. Sentiment analysis is then becoming an important challenge to understand the polarity beneath these comments. Currently a lot of approaches from natural language processing’s perspective have been employed to conduct this task. The widely used ones include bag-of-words and semantic oriented analysis methods. In this research, we further investigate the structural information among words, phrases and sentences within the comments to conduct the sentiment analysis. The idea is inspired by the fact that the structural information is playing important role in identifying the overall statement’s polarity. As a result a novel sentiment analysis model is proposed based on recurrent neural network, which takes the partial document as input and then the next parts to predict the sentiment label distribution rather than the next word. The proposed method learns words representation simultaneously the sentiment distribution. Experimental studies have been conducted on commonly used datasets and the results have shown its promising potential.  相似文献   

15.
词向量在自然语言处理中起着重要的作用,近年来受到越来越多研究者的关注。然而,传统词向量学习方法往往依赖于大量未经标注的文本语料库,却忽略了单词的语义信息如单词间的语义关系。为了充分利用已有领域知识库(包含丰富的词语义信息),文中提出一种融合语义信息的词向量学习方法(KbEMF),该方法在矩阵分解学习词向量的模型上加入领域知识约束项,使得拥有强语义关系的词对获得的词向量相对近似。在实际数据上进行的单词类比推理任务和单词相似度量任务结果表明,KbEMF比已有模型具有明显的性能提升。  相似文献   

16.
辅助汉语学习研究作为一个重要的研究领域,已经在自然语言处理领域激发起越来越多人的兴趣。文中提出一个基于字分析单元的辅助阅读系统,它可以为汉语学习者提供即时的辅助翻译和学习功能。系统首先提出基于字信息的汉语词法分析方法,对汉语网页中文本进行分词处理,然后利用基于组成字结构信息的方法发现新词。对于通用词典未收录的新词(例如: 专业术语、专有名词和固定短语),系统提出了基于语义预测和反馈学习的方法在Web上挖掘出地道的译文。对于常用词,系统通过汉英(或汉日)词典提供即时的译文显示,用户也可通过词用法检索模块在网络上检索到该词的具体用法实例。该系统关键技术包括: 基于字信息的汉语词法分析,基于组成字结构信息的新词发现,基于语义预测和反馈学习的新词译文获取,这些模块均以字分析单元的方法为主线,并始终贯穿着整个系统。实验表明该系统在各方面都具有良好的性能。  相似文献   

17.
词义消歧一直是自然语言理解中的一个关键问题,该问题解决的好坏直接影响到自然语言处理中诸多问题的解决.现在大部分的词义消歧方法都是在分词的基础上做的.借鉴前人的向量空间模型运用统计的方法,提出了不用直接分词而在术语抽取的基础上做消歧工作.在义项矩阵的计算中,采用改进了的tf.idf.ig方法.在8个汉语高频多义次的测试中取得了平均准确率为84.52%的较好的效果,验证了该方法的有效性.  相似文献   

18.

Automatic text processing is now a mature discipline in computer science, and so attempts at advancements using quantum computation have emerged as the new frontier, often under the term of quantum natural language processing. The main challenges consist in finding the most adequate ways of encoding words and their interactions on a quantum computer, considering hardware constraints, as well as building algorithms that take advantage of quantum architectures, so as to show improvement on the performance of natural language tasks. In this paper, we introduce a new framework that starts from a grammar that can be interpreted by means of tensor contraction, to build word representations as quantum states that serve as input to a quantum algorithm. We start by introducing an operator measurement to contract the representations of words, resulting in the representation of larger fragments of text. We then go on to develop pipelines for the tasks of sentence meaning disambiguation and question answering that take advantage of quantum features. For the first task, we show that our contraction scheme deals with syntactically ambiguous phrases storing the various different meanings in quantum superposition, a solution not available on a classical setting. For the second task, we obtain a question representation that contains all possible answers in equal quantum superposition, and we implement Grover’s quantum search algorithm to find the correct answer, agnostic to the specific question, an implementation with the potential of delivering a result with quadratic speedup.

  相似文献   

19.
蒙古文整词编码研究   总被引:4,自引:2,他引:2  
作者基于蒙古文黏着记录其词汇方式和按书面音节拼读书写整词规则,提出了蒙古文整词编码方法。本文依据可计算性理论,提出了拼音文字非键盘映射编码方法,将整词编码分为输写码与计算码。整词输写码设计模仿传统蒙古文整词固有拼读书写规则,达到了最佳人机键盘交互目的。整词计算码既可载荷整词复杂特征知识信息、又可保证信息的可计算性,从而为蒙古文整词复杂特征合一计算和并行处理奠定了可行性科学基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号