首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 305 毫秒
1.
付健  孔芳 《计算机工程》2020,46(1):45-51
在LEE等人提出的端到端指代消解模型基础上,考虑中文行文特点,提出一种融合结构化信息的中文指代消解模型。压缩文档中所进行有句子对应的成分句法树并获取文档压缩树叶节点深度,采用成分句法树的结构化嵌入(SECT)方法将结构信息进行向量化处理,将词性、文档压缩树叶节点深度与SECT信息作为3个特征向量引入模型中进行中文指代消解。在CoNLL2012数据集中的测试结果表明,通过结合上述3个特征,可使该模型的中文指代消解性能得到有效提高,其平均F_1值可达62.33%,较基准模型提升5.28%。  相似文献   

2.
针对维吾尔语名词短语指代现象,提出了一种利用栈式自编码深度学习算法进行基于语义特征的指代消解方法.通过对维吾尔语名词短语指称性的研究,提取出利于消解任务的13项特征.为提高特征对文本语义的表达,在特征集中引入富含词汇语义及上下文位置关系的Word embedding.利用深度学习机制无监督的提取隐含的深层语义特征,训练Softmax分类器进而完成指代消解任务.该方法在维吾尔语指代消解任务中的准确率为74.5%,召回率为70.6%,F值为72.4%.实验结果证明,深度学习模型较浅层的支持向量机更合适于本文的指代消解任务,对Word embedding特征项的引入,有效地提高了指代消解模型的性能.  相似文献   

3.
指代是一种重要的语言现象,运用指代可以避免复杂的词语在句子中重复出现,使语句简洁连贯。在多轮口语对话中,使用代词指代实体可以提高沟通的效率,然而,对话中频繁出现的代词给计算机语言理解增加了难度,进而影响了机器生成回复的质量。该文提出通过消解代词提高对话生成质量,先通过端到端的共指消解模型识别出多轮对话中蕴含的表述同一实体的所有代词和名词短语,即指代簇(coreference clusters);然后使用两种不同的方法,利用指代簇信息增强对话模型: ①使用指代簇信息恢复问句的完整语义,以降低机器语言理解的难度; ②使用图卷积神经网络将指代簇信息编码融入对话生成模型,以提高机器理解对话的能力。该文所提的两个方法在RiSAWOZ公开数据集上进行了验证,实验结果表明,两个方法均可以显著提升对话生成的性能。  相似文献   

4.
指代消解是自然语言处理中语篇理解的关键问题之一。近年来对于树核函数的研究为指代消解提出了新的思路。基于树核函数,提出了一种新的中文代词的消解方法。将句法树作为一个特征,使用SVM提供的树核函数自动获取句法信息。在ACE2005 NWIRE基准数据上进行实验的结果表明树核对中文代词的消解能起到显著的作用,其中F值达到了75.8%。  相似文献   

5.
基于树核函数的代词指代消解   总被引:1,自引:1,他引:0       下载免费PDF全文
提出一种基于树核的英文代词消解方法。针对结构化信息在指代消解中的重要作用,使用SVM提供的卷积树核函数自动获取句法结构信息,将句法树作为一个特征与其他基本特征结合。通过应用不同的剪枝策略,考虑不同句法树对系统的影响,在原有的句法树上扩充一些语义节点。在ACE2004 NWIRE基准数据上进行实验的结果证明,该方法对代词的消解起到明显的作用,综合值,提高了11.9%。  相似文献   

6.
最长名词短语携带着丰富的句法和语义信息,经常与句法成分对应,在句子中充当一定的语义角色。最长名词短语识别在自然语言处理中占重要地位,是分析和理解句子结构、意义的基础。该文通过梳理不同概念的最长名词短语的含义,从句法树角度界定了藏语最长名词短语的基本概念;从句法树库中抽取6 038个句子,分析了最长名词短语的结构类型、边界特征和出现频次,最后采用序列标注模型和句法分析模型对最长名词短语进行识别。序列标注模型识别结果的正确率、召回率和F1值分别为87.14%、84.72%、85.92%。句法分析模型识别结果的正确率、召回率、F1值分别为85.02%、84.51%、84.76%。  相似文献   

7.
针对深度神经网络模型学习照应语和候选先行语的语义信息忽略了每一个词在句中重要程度, 且无法关注词序列连续性关联和依赖关系等问题, 提出一种结合语境多注意力独立循环神经网络(Contextual multi-attention independently recurrent neural network, CMAIR) 的维吾尔语人称代词指代消解方法. 相比于仅依赖照应语和候选先行语语义信息的深度神经网络, 该方法可以分析上下文语境, 挖掘词序列依赖关系, 提高特征表达能力. 同时, 该方法结合多注意力机制, 关注待消解对多层面语义特征, 弥补了仅依赖内容层面特征的不足, 有效识别人称代词与实体指代关系. 该模型在维吾尔语人称代词指代消解任务中的准确率为90.79 %, 召回率为83.25 %, F值为86.86 %. 实验结果表明, CMAIR模型能显著提升维吾尔语指代消解性能.  相似文献   

8.
孔芳  周国栋 《软件学报》2012,23(5):1085-1099
基于树核函数,提出了从使用中心理论、集成竞争者信息和融入语义角色相关信息这3个方面对结构化句法树进行动态扩展来提升中英文代词消解的性能.首先探索了3种基本结构化句法树捕获方案,并使用SVMLight 中提供的卷积树核函数直接进行基于结构化句法树的相似度计算,从而完成指代消解任务;其次,在分析3种结构化句法树捕获方案的基础上,从中心理论、竞争者信息和语义角色相关信息等几方面对捕获的结构化句法树进行了扩 展;最后,通过ACE 2004 NWIRE英文语料和ACE 2005 NWIRE中文语料上的实验,说明了这些扩展能够提升代词消解的性能.  相似文献   

9.
基于树核函数,提出了从使用中心理论、集成竞争者信息和融入语义角色相关信息这3个方面对结构化句法树进行动态扩展来提升中英文代词消解的性能。首先探索了3种基本结构化句法树捕获方案,并使用SVMLight中提供的卷积树核函数直接进行基于结构化句法树的相似度计算,从而完成指代消解任务;其次,在分析3种结构化句法树捕获方案的基础上,从中心理论、竞争者信息和语义角色相关信息等几方面对捕获的结构化句法树进行了扩展;最后,通过ACE 2004 NWIRE英文语料和ACE 2005 NWIRE中文语料上的实验,说明了这些扩展能够提升代词消解的性能。  相似文献   

10.
基于最大熵模型的英文名词短语指代消解   总被引:11,自引:0,他引:11  
提出了一种新颖的基于语料库的英文名词短语指代消解算法,该算法不仅能解决传统的代词和名词/名词短语间的指代问题,还能解决名词短语间的指代问题。同时,利用最大熵模型,可以有效地综合各种互不相关的特征,算法在MUC7公开测试语料上F值达到了60.2%,极为接近文献记载的该语料库上F值的最优结果61.8%。  相似文献   

11.
为融合节点描述信息提升网络表示学习质量,针对社会网络中节点描述属性信息存在的语义信息分散和不完备性问题,提出一种融合节点描述属性的网络表示(NPA-NRL)学习算法。首先,对属性信息进行独热编码,并引入随机扰动的数据集增强策略解决属性信息不完备问题;然后,将属性编码和结构编码拼接作为深度神经网络输入,实现两方面信息的相互补充制约;最后,设计了基于网络同质性的属性相似性度量函数和基于SkipGram模型的结构相似性度量函数,通过联合训练实现融合语义信息挖掘。在GPLUS、OKLAHOMA和UNC三个真实网络数据集上的实验结果表明,和经典的DeepWalk、TADW(Text-Associated DeepWalk)、UPP-SNE(User Profile Preserving Social Network Embedding)和SNE(Social Network Embedding)算法相比,NPA-NRL算法的链路预测AUC(Area Under Curve of ROC)值平均提升2.75%,节点分类F1值平均提升7.10%。  相似文献   

12.
针对维吾尔语句子情感信息:喜、怒、哀、乐和客观五分类任务,提出一种利用深度信念网络模型(Deep Belief Nets, DBN)的深度学习机制进行基于深层语义特征的句子级情感分析方法。该方法通过对维吾尔语情感句及语言特点的深入研究,提取出利于情感分析任务的8项情感特征。为了提高特征对文本语义的表达,将富含词汇深层语义和上下文信息的word embedding特征与情感特征进行融合,作为深度信念网络的输入。利用多层无监督的波尔兹曼机(RBM)训练并提取隐含的深层语义特征,通过有监督的后向传播算法对网络进行微调,进而完成情感分类任务。该方法在维吾尔语句子级情感分类任务中的准确率为83,35%,召回率为84.42%,F值为:83.88%. 实验结果证明,深度学习模型较浅层的学习模型更合适于本文的情感分类任务,对word embedding特征项的引入,有效的提高了情感分类模型的性能.  相似文献   

13.
由于Java Web应用业务场景复杂,且对输入数据的结构有效性要求较高,现有的测试方法和工具在测试Java Web时存在测试用例的有效率较低的问题.为了解决上述问题,本文提出了基于解析树的Java Web应用灰盒模糊测试方法.首先为Java Web应用程序的输入数据包进行语法建模创建解析树,区分分隔符和数据块,并为解析树中每一个叶子结点挂接一个种子池,隔离测试用例的单个数据块,通过数据包拼接生成符合Java Web应用业务格式的输入,从而提高测试用例的有效率;为了保留高质量的数据块,在测试期间根据测试程序的执行反馈信息,为每个数据块种子单独赋予权值;为了突破深度路径,会在相应种子池中基于条件概率学习提取数据块种子特征.本文实现了基于解析树的Java Web应用灰盒模糊测试系统PTreeFuzz,测试结果表明,该系统相较于现有工具取得了更好的测试准确率.  相似文献   

14.
This paper proposes a tree kernel method of semantic relation detection and classification(RDC) between named entities.It resolves two critical problems in previous tree kernel methods of RDC.First,a new tree kernel is presented to better capture the inherent structural information in a parse tree by enabling the standard convolution tree kernel with context-sensitiveness and approximate matching of sub-trees.Second,an enriched parse tree structure is proposed to well derive necessary structural informat...  相似文献   

15.
针对基于机器学习的中文共指消解中不同类别名词短语特征向量的使用差异,提出一种基于特征分选策略的方法。该方法在选择特征向量时对人称代词和普通名词短语分别处理,充分利用不同名词短语的已有特征进行共指消解,并减少部分无效特征在共指消解过程中产生的“噪声”。实验结果表明,该中文共指消解方法能提高共指消解的性能, 值达到80.72%。  相似文献   

16.
针对金融类公告中的结构化数据难以被高效快速提取的问题,提出一种基于文档结构与Bi-LSTM-CRF网络模型的信息抽取方法。自定义一种文档结构树生成算法,利用规则从文档结构树中抽取所需节点信息;构建基于信息句触发词的局部句子规则,抽取包含结构化字段信息的信息句;将字段的结构化信息抽取看作序列标注问题,分词时加入领域知识词典,构建基于Bi-LSTM-CRF的神经网络模型进行字段信息识别。实验结果表明,该信息抽取方法可以满足多类型公告的结构化信息提取,最终的信息句与字段信息抽取的平均F1值均可达到91%以上,验证了该方法在产品业务中的可行性和实用性。  相似文献   

17.
近年来,深度学习取得了重大突破,融合深度学习技术的神经机器翻译逐渐取代统计机器翻译,成为学术界主流的机器翻译方法。然而,传统的神经机器翻译将源端句子看作一个词序列,没有考虑句子的隐含语义信息,使得翻译结果与源端语义不一致。为了解决这个问题,一些语言学知识如句法、语义等被相继应用于神经机器翻译,并取得了不错的实验效果。语义角色也可用于表达句子语义信息,在神经机器翻译中具有一定的应用价值。文中提出了两种融合句子语义角色信息的神经机器翻译编码模型,一方面,在句子词序列中添加语义角色标签,标记每段词序列在句子中担当的语义角色,语义角色标签与源端词汇共同构成句子词序列;另一方面,通过构建源端句子的语义角色树,获取每个词在该语义角色树中的位置信息,将其作为特征向量与词向量进行拼接,构成含语义角色信息的词向量。在大规模中-英翻译任务上的实验结果表明,相较基准系统,文中提出的两种方法分别在所有测试集上平均提高了0.9和0.72个BLEU点,在其他评测指标如TER(Translation Edit Rate)和RIBES(Rank-based Intuitive Bilingual Evaluation Score)上也有不同程度的性能提升。进一步的实验分析显示,相较基准系统,文中提出的融合语义角色的神经机器翻译编码模型具有更佳的长句翻译效果和翻译充分性。  相似文献   

18.
Knowledge of noun phrase anaphoricity might be profitably exploited in coreference resolution to bypass the resolution of non-anaphoric noun phrases.However,it is surprising to notice that recent attempts to incorporate automatically acquired anaphoricity information into coreference resolution systems have been far from expectation.This paper proposes a global learning method in determining the anaphoricity of noun phrases via a label propagation algorithm to improve learning-based coreference resolutio...  相似文献   

19.
传统决策树通过对特征空间的递归划分寻找决策边界,给出特征空间的“硬”划分。但对于处理大数据和复杂模式问题时,这种精确决策边界降低了决策树的泛化能力。为了让决策树算法获得对不精确知识的自动获取,把模糊理论引进了决策树,并在建树过程中,引入神经网络作为决策树叶节点,提出了一种基于神经网络的模糊决策树改进算法。在神经网络模糊决策树中,分类器学习包含两个阶段:第一阶段采用不确定性降低的启发式算法对大数据进行划分,直到节点划分能力低于真实度阈值[ε]停止模糊决策树的增长;第二阶段对该模糊决策树叶节点利用神经网络做具有泛化能力的分类。实验结果表明,相较于传统的分类学习算法,该算法准确率高,对识别大数据和复杂模式的分类问题能够通过结构自适应确定决策树规模。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号