共查询到18条相似文献,搜索用时 62 毫秒
1.
2.
本文提出了一种简单有效的词义消歧方法,该模型充分利用依存文法分析,从句子的内部结构,寻找词语之间支配与被支配的关系,借以确定能够对词语语义构成内在限制的词语。借助《知网》系统的实体关系,并结合与该岐义词相关联词语的义项,计算歧义词的义项权重,从而根据义项权重大小来判断歧义词的词义。 相似文献
3.
4.
一种基于知网的中文词义消歧算法 总被引:1,自引:2,他引:1
词义消歧对自然语言处理领域许多问题的研究具有重要的理论和实践价值.针对该问题,提出了一种基于知网的中文词义消歧算法.为了考虑上下文词汇对词义消歧的不同影响,以语义相似度计算为基础,设计了三种语义联系强度计算方法,并且制定了四条词义消歧规则,依此实现中文词义消歧.实验数据显示该方法可获得65%左右的召回率和75%左右的准确率. 相似文献
5.
简要介绍了PageRank算法的核心思想,阐述了知网知识库在词义消歧中的作用,并提出将两者结合起来进行词义消歧的办法.对比了传统统计的消歧方法和该方法的优缺点,重点解释了如何将该算法运行到语义网络中去.介绍了使用知网义原概念和联系进行构图的方法,并对算法实现思想做了详细说明,最后通过一个实例简要概括了基于该算法和知网词义消歧的方法,并给出了少量测试数据,提出了研究中存在的困难和下一步的研究重点. 相似文献
6.
词义消歧是自然语言处理中的一个关键问题,为提高大规模词义消歧的准确率,提出了一种基于模板的无导词义消歧方法。利用多义词不同义项的同义或近义单义词对该义项进行表述,综合考虑共现词出现的位置、上下文距离及出现频次,据此构造语境模板,有效地解决了多义词义项确定的困难。实验结果表明,本文提出的方法在消歧性能方面有较明显的改善。 相似文献
7.
词义消歧一直是自然语言处理领域中的重要问题,该文将知网(HowNet)中表示词语语义的义原信息融入到语言模型的训练中。通过义原向量对词语进行向量化表示,实现了词语语义特征的自动学习,提高了特征学习效率。针对多义词的语义消歧,该文将多义词的上下文作为特征,形成特征向量,通过计算多义词词向量与特征向量之间相似度进行词语消歧。作为一种无监督的方法,该方法大大降低了词义消歧的计算和时间成本。在SENSEVAL-3的测试数据中准确率达到了37.7%,略高于相同测试集下其他无监督词义消歧方法的准确率。 相似文献
8.
句法分析是自然语言处理的基础技术,主流的由数据驱动的神经网络句法分析模型需要大规模的标注数据,但是通过人工标注扩展树库成本很高,因此如何利用现有标注树库进行数据增强成为研究焦点。在汉语句法分析的数据增强任务中,对于给定的标注树库,要求数据增强所生成的句子满足如下条件:第一,要求生成句具有多样化且完整的句法树结构;第二,要求生成句具有合理的语义。对此,我们首次提出基于词汇化树邻接语法的数据增强方法。针对第一个需求,该文设计实现基于词汇化树邻接语法的词汇化树抽取算法与句法树合成算法,基于该语法可以在句法树之间进行“接插”和“替换”的操作,从而推导生成新的句法树,并且用语言学的知识保证生成句符合语法规则且具有完整的句法树结构。针对第二个需求,该文利用语言模型对生成句进行语义合理性评估,选取语义合理的句子作为最终的增强数据,从而获取高质量的标注树库。我们以汉语为例开展研究,在汉语树库CTB5上进行句法分析的数据增强评测实验。实验结果显示,在小样本(CTB5的20%)实验中,通过该方法得到的增强数据使依存句法分析和成分句法分析的精度分别提高1.39%和2.14%。在鲁棒性实验中,该文通过构建扩展... 相似文献
9.
基于多知识源的词汇消歧一体化处理 总被引:1,自引:0,他引:1
词汇消歧是语言分析的基石,本文提出一种基于多知识源的词汇消歧一体化处理机制,该机制充分利用了知识库和文本结构的信息,以句法标签、词频、搭配、上下文语义,语义可选约束,句法线索等知识源为消歧指示器 相似文献
10.
11.
基于《知网》的中文信息结构抽取研究 总被引:2,自引:0,他引:2
文章提出了一种在真实文本中抽取中文信息结构的方法—利用大规模基于语义依存关系的语料库对《知网》的中文信息结构模式进行训练,用这些带概率的模式作为规则建立部分依存分析器,从而从真实文本中最大限度地抽取符合知网中文信息结构定义的短语。该研究除了对将要建立的基于语义依存关系的语言模型是个有益的补充外,对于文本理解、对话系统甚至语音合成中的重音预测、韵律建模等等方面都有十分广阔的应用前景。 相似文献
12.
This paper describes a parsing algorithm for Tree Adjoining Grammar (TAG) and its parallel implementation on the Connection Machine. TAG is a formalism for natural language that employs trees as the basic grammar structures. Parsing involves the application of two operations, called adjunction and substitution, to produce derived tree structures. Sequential parsing algorithms for TAGs run in time quadratic in the grammar size, which is impractical for the very large grammars currently being developed for natural language. This paper presents two parallel algorithms, one running in time nearly linear in the grammar size, and the other running in time logarithmic in the grammar size. Both parallel algorithms were implemented on a Connection Machine CM-2 and performance measurements were obtained for varying grammar sizes.This research was supported in part by NSF Grant BNS-9022010, by the ARO Center for Excellence in Artificial Intelligence, University of Pennsylvania, and by the Army High Performance Computing Research Center (AHPCRC), University of Minnesota. 相似文献
13.
面向数据的分析技术(Data-Oriented Parsing,DOP)是一种概率分析策略,其概率模型的主要目的在于为一个给定的句子找到最可能的分析,即分析消歧。实际上,有关算法计算复杂度的大量研究证明,该类消歧问题属于NP-完全问题。因此,为有效实现最可能的分析,国外学者提出许多近似分析算法。本文主要论述在 DOP 框架中,基于 Monte Carlo 方法找到最可能分析的近似分析算法,并说明该方法可在合理的算法时间代价范围内实现,而且在统计上受控,以确保所获得的近似解确实对应着分析消歧后的精确解。 相似文献
14.
15.
基于词汇化随机文法模型的RNA二级结构预测 总被引:1,自引:0,他引:1
针对经典的随机文法模型预测RNA二级结构存在精度不高的问题,本文给出了一种词汇化随机文法模型预测RNA二级结构的方法。首先,用最大熵模型获取RNA序列中的词条信息,通过Viterbi算法搜索每个词条被标注为某种二级结构类型的最大概率;然后,将这些词条信息作为先验信息在随机文法模型训练过程中引入,从而加快对二级结构的搜索过程,提高准确率。 相似文献
16.
MapReduce是Google提出的一种分布式计算模型,已在海量数据处理领域得到了广泛的应用。提出一种基于树型结构的新型MapReduce并行模型。该模型适合于利用Internet或Intranet环境下不可靠的桌面PC资源进行海量科学数据分析。该模型以P2P的形式将计算节点进行组织,模型的底层采用了P2P-MPI框架,采用基于消息传递的模式来实现MapReduce应用层。在MapReduce应用层的实现中,在Map阶段采用广播的形式来分发数据块,在Reduce阶段建立反向二叉树来实现有效的结果合并和化简。将提出的MapReduce模型与现有主流MapReduce模型进行了比较,结果表明,基于树型结构的MapReduce并行模型在容错性能方面具有较优的性能,且系统简单,易于应用开发。 相似文献
17.
基于短语的模型是目前发展相对成熟的一种统计机器翻译(Statistical machine translation, SMT)模型. 但基于短语的模型不包含任何结构信息, 因而缺乏有效的全局调序能力, 同时不能对非连续短语进行建模. 基于句法的模型因具有结构信息而具有解决以上问题的潜力, 因而越来越受到研究者们的重视. 然而现有的大多数基于句法的模型都因严格的句法限制而制约了模型的描述能力. 为突破这种限制并将 基于短语的模型的优点融入到句法模型中, 本文提出一种基于同步树序列替换文法(Synchronous tree sequence substitution grammar, STSSG)的统计机器翻译模型. 在此模型中, 树序列被用作为基本的翻译单元. 在这种框架下, 不满足句法限制的翻译等价对和满足句法限制的翻译等价对都可以融入句法信息并被翻译模型所使用. 从而, 两种模型的优点均得到充分利用. 在2005年度美国国家标准与技术研究所(NIST)举办的机器翻译评比的中文翻译任务语料上的实验表明, 本文提出的模型显著地超过了两个基准系统: 基于短语的翻译系统Moses和一个基于严格树结构的句法翻译模型. 相似文献