首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 187 毫秒
1.
指代消解是文本信息处理中的一项重要任务,针对这一任务过于复杂,本文分析了中文突发事件语料中人称代词的特点, 提出一种基于语料库,运用规则预处理与最大熵模型相结合的人称代词消解方法。在ACE05 bnews中文测试语料上,分别与仅用基于规则和仅用统计方法进行了对比实验,结果表明该方法分别在召回率、准确率和F值上有一定的提高,本方法是中文人称代词指代消解的较好平台。  相似文献   

2.
指代消解是自然语言处理技术的核心问题,该文结合维吾尔语语义特征,提出基于深度学习的维吾尔语人称代词指代消解方法。通过堆叠多层无监督RBM网络和一层有监督BP网络,构建DBN深度神经网络学习模型,RBM网络保证特征向量映射达到最优,BP网络对RBM网络的输出向量进行分类,实现维吾尔语人称代词指代消解。经过维吾尔语指代消解语料库测试, F值达到83.81%,比SVM方法高出2.88%。实验结果表明,同等条件下,该方法能有效提升维吾尔语人称代词消解的精度,有助于维吾尔语指代消解研究。  相似文献   

3.
针对深度神经网络模型学习照应语和候选先行语的语义信息忽略了每一个词在句中重要程度, 且无法关注词序列连续性关联和依赖关系等问题, 提出一种结合语境多注意力独立循环神经网络(Contextual multi-attention independently recurrent neural network, CMAIR) 的维吾尔语人称代词指代消解方法. 相比于仅依赖照应语和候选先行语语义信息的深度神经网络, 该方法可以分析上下文语境, 挖掘词序列依赖关系, 提高特征表达能力. 同时, 该方法结合多注意力机制, 关注待消解对多层面语义特征, 弥补了仅依赖内容层面特征的不足, 有效识别人称代词与实体指代关系. 该模型在维吾尔语人称代词指代消解任务中的准确率为90.79 %, 召回率为83.25 %, F值为86.86 %. 实验结果表明, CMAIR模型能显著提升维吾尔语指代消解性能.  相似文献   

4.
针对维吾尔语人称代词指代消解研究忽略了待消解项识别而引入了噪声的问题,提出一种基于深度置信网络(Deep Belief Networks,DBN)的维吾尔语人称代词待消解项识别方法。在分析维吾尔语人称代词语法特征和语言规则的基础上,总结出包含10项特征的维吾尔语人称代词待消解项特征集。所提方法首先通过逐层贪婪地训练每一层受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)网络,来保证特征向量映射到不同的特征空间,尽可能多地保留特征信息;并在最后一层设置BP网络,对RBM输出的特征向量进行分类,以有监督的方式训练整个网络并进行微调。实验结果表明,所提方法正确识别维吾尔语人称代词待消解项的准确率达到95.17%,比SVM算法提高了9%,从而验证了其有效性和可行性。  相似文献   

5.
采用优先选择策略的中文人称代词的指代消解   总被引:9,自引:4,他引:9  
指代是自然语言中常见的语言现象,指代消解是文本信息处理中的一个重要任务。随着篇章处理相关应用日益广泛,指代消解也显示出前所未有的重要性。本文针对中文人称代词的指代特点,提出了一种基于语料库的,运用决策树机器学习算法并结合优先选择策略,进行指代消解的方法。该方法充分考虑了与指代相关的若干属性,及相互之间的影响。实验表明,对中文人称代词的消解特别是第三人称的消解获得了一定的效果。  相似文献   

6.
结合规则与语义的中文人称代词指代消解   总被引:1,自引:1,他引:0  
指代消解是一种为了确定文章中出现的指代词与前文中出现的内容是否为同一事物的技术,在海量信息文本智能处理中具有重要的作用,而人称代词在各种指代词集合中占有相当一部分比例。本文采用规则与语义相结合的方法对中文人称代词进行指代消解,在基础的语法过滤规则之上新增同位语规则过滤指代词的候选消解项;提出更精确的同义词距离计算方法,利用同义词词林和知网对人称代词的关联词与候选先行词的关联词进行语义关系计算,选择关联度最高的候选先行词作为最终的指代结果。通 过不同方法的对比实验和在真实语料数据集上的实验表明,本文所提方法获得了较好的效果。  相似文献   

7.
提出一套分为两步的代词指代消解算法,算法不需要人工清洗语料及预定义规则.算法第1步采用一些新特征和机器学习算法对名词性指代代词和非名词性指代(non-anaphoric)代词分类,第2步分别对两类代词进行消解.针对名词性代词指代消解,提出了适用于口语对话的特征抽取及表示方法,如代词和候选先行词的距离、语法、语义等的抽取...  相似文献   

8.
藏文虚词在歧义消解、句法、句型和语义处理等方面起着重要的语法作用。该文在分析传统藏文虚词研究成果的基础上,统计了面向自然语言处理的藏文虚词及特征,提出了基于规则和最大熵模型相结合的藏文虚词识别策略。实验表明,该方法识别藏文虚词的准确率、召回率和F1值分别达98.39%、98.75%、98.57%。  相似文献   

9.
汉语中人称代词的消解研究   总被引:15,自引:0,他引:15  
人称代词的消解是自然语言处理中十分重要的问题,人称代词消解,就是确定人称代词与先行语之间的相互关系,从而明确人称代词究竟指代什么对象,现有的许多应用系统,如文本摘要、信息抽取等采取了从文本中直接抽取句子的做法,而结果可能会含有某些无先行语的人称代词,使理解变得非常困难,人称代词消解无疑可以解决类似的问题。该文主要结合句类基本知识,根据人称代词所在语义块中的语义角色和人称代词对应的先行语可能的语义角色,给出了消解人称代词的基本规则。同时,作者也从句法的角度,结合局部焦点法给出了优选性规则。  相似文献   

10.
分词是自然语言处理的一项基础性工作,对自然语言处理的后继工作有较大的影响。紧缩格的识别是藏文分词中最难最重要的技术之一。通过剖析已有藏文紧缩词识别方法,分析藏文字词的特征,针对性地提出了识别藏文紧缩格的规则算法、添加—还原算法和最大熵模型的特征模板,从而得到基于规则、添加还原法与最大熵模型相结合的藏文紧缩格识别方法。实验数据表明,该方法识别藏文紧缩格的准确率、召回率和F1值分别达99.26%、96.47%、97.85%,比现有最高的准确率有了较明显的提高。  相似文献   

11.
藏文人名识别是藏文信息处理领域研究的难点之一,其识别效果直接影响到藏文自动分词的精度和相关应用系统的性能,包括藏汉翻译、藏文信息检索、文本分类等。该文在分析藏文人名构成规律和特点的基础上,提出了一种最大熵和条件随机场相融合的藏文人名识别方法。实验表明,该方法可以获取较好的识别效果,在我们的测试集上F-测度值到达了93.08%。  相似文献   

12.
中文人称名词短语单复数自动识别   总被引:2,自引:1,他引:1  
名词短语的单复数信息在共指消解中是必不可少的特征. 与英语不同, 中文属于汉藏语系, 名词本身不能明显体现单复数信息, 需要借助其所在的名词短语来进行体现. 本文在自动内容抽取(Automatic content extraction, ACE)语料上抽取得到人称名词短语的单复数信息, 分别采用了基于规则和机器学习的方法来进行人称名词短语的单复数自动识别. 基于规则的方法, 在一些知识资源的基础上定义了规则模板库, 每条规则采用槽和槽值的方法来进行体现; 机器学习方法采用最大熵模型组合考察了词形、词性、词义、数量关系等特征. 两种方法分别达到了48.24\%和87.48\%的正确率. 实验结果显示, 基于规则的方法能够保证精确率而不能保证召回率, 机器学习的方法可以更好地完成单复数信息的识别任务.  相似文献   

13.
句子边界识别是藏文信息处理领域中一项重要的基础性工作,该文提出了一种基于最大熵和规则相结合的方法识别藏语句子边界。首先,利用藏语边界词表识别歧义的句子边界,最后采用最大熵模型识别规则无法识别的歧义句子边界。该方法有效利用藏语句子边界规则减少了最大熵模型因训练语料稀疏或低劣而导致对句子边界的误判。实验表明,该文提出的方法具有较好的性能,F1值可达97.78%。  相似文献   

14.
本文的任务是判别标点句缺失话题是上句的主语还是宾语,将该任务作为标点句缺失话题自动识别研究的切入点。首先归纳了判别这一任务的一系列字面特征和语义特征,然后结合规则和最大熵模型,进行自动判别实验。结果显示,对特定类别动词的实验F值达到82%。对实验结果的分析说明,动词特征和语义特征对判别该任务的作用最大,规则方法和统计方法在判别任务中不能偏废,精细化的知识对判别的性能有重要影响。  相似文献   

15.
互联网已成为一个海量的开放式知识库,其中包含着许多有价值的信息,而网页是互联网信息承载的载体,将 信息结构化成为知识库构建的基础。网页信息不仅包含许多指代词,还含有自身的标题。指代词消解是信息结构化的前提, 综合网页信息具有的一般性和特殊性的特点,本文提出基于多特性融合的代词消解方法研究,能更好地适应网页信息代词的 消解,提高网页信息代词消解的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号