共查询到15条相似文献,搜索用时 187 毫秒
1.
2.
指代消解是自然语言处理技术的核心问题,该文结合维吾尔语语义特征,提出基于深度学习的维吾尔语人称代词指代消解方法。通过堆叠多层无监督RBM网络和一层有监督BP网络,构建DBN深度神经网络学习模型,RBM网络保证特征向量映射达到最优,BP网络对RBM网络的输出向量进行分类,实现维吾尔语人称代词指代消解。经过维吾尔语指代消解语料库测试, F值达到83.81%,比SVM方法高出2.88%。实验结果表明,同等条件下,该方法能有效提升维吾尔语人称代词消解的精度,有助于维吾尔语指代消解研究。 相似文献
3.
针对深度神经网络模型学习照应语和候选先行语的语义信息忽略了每一个词在句中重要程度, 且无法关注词序列连续性关联和依赖关系等问题, 提出一种结合语境多注意力独立循环神经网络(Contextual multi-attention independently recurrent neural network, CMAIR) 的维吾尔语人称代词指代消解方法. 相比于仅依赖照应语和候选先行语语义信息的深度神经网络, 该方法可以分析上下文语境, 挖掘词序列依赖关系, 提高特征表达能力. 同时, 该方法结合多注意力机制, 关注待消解对多层面语义特征, 弥补了仅依赖内容层面特征的不足, 有效识别人称代词与实体指代关系. 该模型在维吾尔语人称代词指代消解任务中的准确率为90.79 %, 召回率为83.25 %, F值为86.86 %. 实验结果表明, CMAIR模型能显著提升维吾尔语指代消解性能. 相似文献
4.
针对维吾尔语人称代词指代消解研究忽略了待消解项识别而引入了噪声的问题,提出一种基于深度置信网络(Deep Belief Networks,DBN)的维吾尔语人称代词待消解项识别方法。在分析维吾尔语人称代词语法特征和语言规则的基础上,总结出包含10项特征的维吾尔语人称代词待消解项特征集。所提方法首先通过逐层贪婪地训练每一层受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)网络,来保证特征向量映射到不同的特征空间,尽可能多地保留特征信息;并在最后一层设置BP网络,对RBM输出的特征向量进行分类,以有监督的方式训练整个网络并进行微调。实验结果表明,所提方法正确识别维吾尔语人称代词待消解项的准确率达到95.17%,比SVM算法提高了9%,从而验证了其有效性和可行性。 相似文献
5.
采用优先选择策略的中文人称代词的指代消解 总被引:9,自引:4,他引:9
指代是自然语言中常见的语言现象,指代消解是文本信息处理中的一个重要任务。随着篇章处理相关应用日益广泛,指代消解也显示出前所未有的重要性。本文针对中文人称代词的指代特点,提出了一种基于语料库的,运用决策树机器学习算法并结合优先选择策略,进行指代消解的方法。该方法充分考虑了与指代相关的若干属性,及相互之间的影响。实验表明,对中文人称代词的消解特别是第三人称的消解获得了一定的效果。 相似文献
6.
结合规则与语义的中文人称代词指代消解 总被引:1,自引:1,他引:0
张文艳李存华仲兆满王艺李莉 《数据采集与处理》2017,32(1):149-156
指代消解是一种为了确定文章中出现的指代词与前文中出现的内容是否为同一事物的技术,在海量信息文本智能处理中具有重要的作用,而人称代词在各种指代词集合中占有相当一部分比例。本文采用规则与语义相结合的方法对中文人称代词进行指代消解,在基础的语法过滤规则之上新增同位语规则过滤指代词的候选消解项;提出更精确的同义词距离计算方法,利用同义词词林和知网对人称代词的关联词与候选先行词的关联词进行语义关系计算,选择关联度最高的候选先行词作为最终的指代结果。通
过不同方法的对比实验和在真实语料数据集上的实验表明,本文所提方法获得了较好的效果。 相似文献
7.
8.
9.
汉语中人称代词的消解研究 总被引:15,自引:0,他引:15
人称代词的消解是自然语言处理中十分重要的问题,人称代词消解,就是确定人称代词与先行语之间的相互关系,从而明确人称代词究竟指代什么对象,现有的许多应用系统,如文本摘要、信息抽取等采取了从文本中直接抽取句子的做法,而结果可能会含有某些无先行语的人称代词,使理解变得非常困难,人称代词消解无疑可以解决类似的问题。该文主要结合句类基本知识,根据人称代词所在语义块中的语义角色和人称代词对应的先行语可能的语义角色,给出了消解人称代词的基本规则。同时,作者也从句法的角度,结合局部焦点法给出了优选性规则。 相似文献
10.
11.
12.
中文人称名词短语单复数自动识别 总被引:2,自引:1,他引:1
名词短语的单复数信息在共指消解中是必不可少的特征. 与英语不同, 中文属于汉藏语系, 名词本身不能明显体现单复数信息, 需要借助其所在的名词短语来进行体现. 本文在自动内容抽取(Automatic content extraction, ACE)语料上抽取得到人称名词短语的单复数信息, 分别采用了基于规则和机器学习的方法来进行人称名词短语的单复数自动识别. 基于规则的方法, 在一些知识资源的基础上定义了规则模板库, 每条规则采用槽和槽值的方法来进行体现; 机器学习方法采用最大熵模型组合考察了词形、词性、词义、数量关系等特征. 两种方法分别达到了48.24\%和87.48\%的正确率. 实验结果显示, 基于规则的方法能够保证精确率而不能保证召回率, 机器学习的方法可以更好地完成单复数信息的识别任务. 相似文献
13.
14.
本文的任务是判别标点句缺失话题是上句的主语还是宾语,将该任务作为标点句缺失话题自动识别研究的切入点。首先归纳了判别这一任务的一系列字面特征和语义特征,然后结合规则和最大熵模型,进行自动判别实验。结果显示,对特定类别动词的实验F值达到82%。对实验结果的分析说明,动词特征和语义特征对判别该任务的作用最大,规则方法和统计方法在判别任务中不能偏废,精细化的知识对判别的性能有重要影响。 相似文献
15.
互联网已成为一个海量的开放式知识库,其中包含着许多有价值的信息,而网页是互联网信息承载的载体,将
信息结构化成为知识库构建的基础。网页信息不仅包含许多指代词,还含有自身的标题。指代词消解是信息结构化的前提,
综合网页信息具有的一般性和特殊性的特点,本文提出基于多特性融合的代词消解方法研究,能更好地适应网页信息代词的
消解,提高网页信息代词消解的准确率。 相似文献