首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
词性标注和依存句法分析是自然语言处理领域中句子级别基本分析技术的两个重要任务,一般来说词性标注是依存句法分析的一个前提条件。基于联合分析的方法将这两个任务在一个统一的统计模型中联合处理能避免错误传播这类问题的发生,因此这种联合模型能取得比较好的性能。但是这种联合模型会带来算法上的时间复杂度的额外开销,因此导致联合分析的方法,速度非常慢。本文提出一种基于过训练的方法,通过极少量的性能损失,使得联合模型的解码速度提升了6倍。  相似文献   

2.
抽象语义表示(Abstract Meaning Representation,AMR)解析任务是从给定的文本中抽象出句子的语义特征,成分句法分析(Constituency Parsing)任务则探寻句子中的层次逻辑结构。由于AMR解析和成分句法分析之间存在着很强的互补性,抽象语义需要把握文本的句法结构,而句法分析可以通过理解句子中的语义信息来避免歧义,因此该文提出了一种联合训练方法用于捕获两个任务之间的内部联系从而提升各自任务的性能。此外,为了解决两个任务由于数据量过少造成的数据依赖问题,该文利用外部语料获得大规模自动标注 AMR 图以及自动标注句法树,并基于上述联合学习方法,采用预训练+微调的半监督学习方法进行训练。实验结果表明,该方法可以有效提高模型的性能,其中AMR解析任务在AMR 2.0上提升了8.73个F1值,句法分析在PTB上获得了6.36个F1值的提升。  相似文献   

3.
目前互联网中包含了大量的实体介绍文本,为实体知识构建提供了资源基础。别名作为实体的一种属性,是实体正式名称的不同表达,在知识图谱构建中具有重要意义。该文以景点介绍文本作为语料,结合不同别名描述方式提出别名标注策略,人工构建别名标注数据集。别名抽取可分为实体识别与关系分类两个子任务。该文提出基于深度学习的景点实体别名抽取联合模型,同时完成两个子任务。在该文构建的数据集上的实验结果表明,联合模型与流水线式处理模型相比性能有显著提高。  相似文献   

4.
针对文本匹配任务,该文提出一种大规模预训练模型融合外部语言知识库的方法。该方法在大规模预训练模型的基础上,通过生成基于WordNet的同义—反义词汇知识学习任务和词组—搭配知识学习任务引入外部语言学知识。进而,与MT-DNN多任务学习模型进行联合训练,以进一步提高模型性能。最后利用文本匹配标注数据进行微调。在MRPC和QQP两个公开数据集的实验结果显示,该方法可以在大规模预训练模型和微调的框架基础上,通过引入外部语言知识进行联合训练有效提升文本匹配性能。  相似文献   

5.
摘 要: 针对生物文献库中人工标注样本数量缺乏的问题,提出一种半监督类型的基于联合训练的方法。在样本预处理的基础上,基于词特征的机器学习方法和基于模式学习的方法选择样本的不同特征子集,并被合成到联合训练方法中。在训练过程中每种方法能够利用少量初始标注样本和大量未标注样本进行学习,并用另一方法的学习结果扩充标注样本集。该方法在AIMED语料库中获得了63.9%的F1值,比较实验结果表明,该方法性能优于监督方法,且能有效利用未标注样本以适应实际抽取任务。  相似文献   

6.
针对训练深度模型时样本标注成本较大的问题,文中提出结合源域差异性与目标域不确定性的深度迁移主动学习方法.以源任务网络模型作为目标任务初始模型,在主动学习迭代中结合源域差异性和目标域不确定性挑选对模型最具有贡献的目标域样本进行标注,根据学习阶段动态调整两种评价指标的权重.定义信息榨取比概念,提出基于信息榨取比的主动学习批次训练策略及T&N训练策略.两个跨数据集迁移实验表明,文中方法在取得良好性能的同时可有效降低标注成本,提出的主动学习训练策略可优化计算资源在主动学习过程中的分配,即让方法在初始学习阶段对样本学习更多次数,在终末学习阶段对样本学习较少次数.  相似文献   

7.
中文分词任务是自然语言处理的一项基本任务。但基于统计的中文分词方法需要大规模的训练样本,且拥有较差的领域适应性。然而,法律文书涉及众多领域,对大量的语料进行标注需要耗费大量的人力、物力。针对该问题,该文提出了一种基于联合学习的跨领域中文分词方法,该方法通过联合学习将大量的源领域样本辅助目标领域的分词,从而提升分词性能。实验结果表明,在目标领域标注样本较少的条件下,该文方法的中文分词性能明显优于传统方法。  相似文献   

8.
在自然语言处理中,实体指代项识别通常被看作是序列标注任务进行处理.而实体指代项又是由多个连续的序列标注子任务组成的.这些子任务包括切分识别、实体识别和指代项识别.传统的管道方法经常会导致每步间的错误向下传递.级联方式的联合模型会带来大量的标记.虚结点方法同时规避了上面两个方法的缺点.系统采用虚结点的在线联合模型,不仅减少了训练时间,性能也比普通的在线联合模型要好.  相似文献   

9.
针对有监督排序学习所需带标记训练数据集不易获得的情况,引入众包这种新型大众网络聚集模式来完成标注工作,为解决排序学习所需大量训练数据集标注工作耗时耗力的难题提供了新的思路。首先介绍了众包标注方法,着重提出两种个人分类器模型来解决众包结果质量控制问题,同时考虑标注者能力和众包任务的难度这两个影响众包质量的因素。再基于得到的训练集使用RankingSVM进行排序学习并在微软OHSUMED数据集上衡量了该方法在NDCG@n评价准则下的性能。实验结果表明该众包标注方法能够达到95%以上的正确率,所得排序模型的性能基本和RankingSVM算法持平,从而验证了众包应用于排序学习的可行性和优越性。  相似文献   

10.
目前实体识别和关系抽取任务大多采用流水线方式,但该方法存在错误累积、忽略两个任务相关性和信息冗余等诸多问题。结合中医文本的特点,提出一种基于深度学习的中医实体关系联合抽取方法。该方法使用改进的序列标注策略,将中医的实体关系联合抽取转换成序列标注任务,词向量与字符向量并联拼接作为双向LSTM-CRF输入,利用双向LSTM神经网络强大的特征提取能力,以及CRF在序列标注上的突出优势,结合优化的抽取规则完成中医实体关系联合抽取。在中医语料库上的实验结果表明,实体关系联合抽取的F1值可以达到80.42%,与传统流水线方法以及其他方法相比,实验效果更佳。  相似文献   

11.
马尔可夫逻辑网络是将马尔可夫网络与一阶逻辑相结合的一种统计关系学习模型,在自然语言处理、复杂网络、信息抽取等领域都有重要的应用前景.较为全面、深入地总结了马尔可夫逻辑网络的理论模型、推理、权重和结构学习,最后指出了马尔可夫逻辑网络未来的主要研究方向.  相似文献   

12.
Semantic role labeling (SRL) is a fundamental task in natural language processing to find a sentence-level semantic representation. The semantic role labeling procedure can be viewed as a process of competition between many order parameters, in which the strongest order parameter will win by competition and the desired pattern will be recognized. To realize the above-mentioned integrative SRL, we use synergetic neural network (SNN). Since the network parameters of SNN directly influence the synergetic recognition performance, it is important to optimize the parameters. In this paper, we propose an improved particle swarm optimization (PSO) algorithm based on log-linear model and use it to effectively determine the network parameters. Our contributions are two-folds: firstly, a log-linear model is introduced to PSO algorithm which can effectively make use of the advantages of a variety of different knowledge sources, and enhance the decision making ability of the model. Secondly, we propose an improved SNN model based on the improved PSO and show its effectiveness in the SRL task. The experimental results show that the proposed model has a higher performance for semantic role labeling with more powerful global exploration ability and faster convergence speed, and indicate that the proposed model has a promising future for other natural language processing tasks.  相似文献   

13.
统计关系学习模型Markov逻辑网综述   总被引:1,自引:0,他引:1  
统计关系学习是人工智能研究的热点,在生物信息学、地理信息系统和自然语言理解等领域有着重要应用,Markov逻辑网是将Markov网与一阶逻辑相结合的一种全新的统计关系学习模型。介绍了Markov逻辑网的理论模型和学习方法,并探讨了目前存在的问题和研究方向。  相似文献   

14.
链接预测是对实体间的关系进行预测,是一个重要而复杂的任务。传统同类独立同概率分布的方法会带来很大的噪音,导致预测效果很差。将Markov逻辑网应用到链接预测中,旨在改善这一问题。Markov逻辑网是将Markov网与一阶逻辑结合的统计关系学习方法。利用Markov逻辑网构建关系模型,对实体之间是否存在链接关系以及当链接关系存在时预测此链接关系的类型。针对两个数据集的实验结果显示了采用Markov逻辑网模型要比传统链接预测模型有更好的效果,进而为Markov逻辑网解决实际问题提供了依据。  相似文献   

15.
基于语义组块分析的汉语语义角色标注   总被引:1,自引:1,他引:0  
近些年来,中文语义角色标注得到了大家的关注,不过大多是传统的基于句法树的系统,即对句法树上的节点进行语义角色识别和分类。该文提出了一种与传统方法不同的处理策略,我们称之为基于语义组块分析的语义角色标注。在新的方法中,语义角色标注的流程不再是传统的“句法分析——语义角色识别——语义角色分类”,而是一种简化的“语义组块识别——语义组块分类”流程。这一方法将汉语语义角色标注从一个节点的分类问题转化为序列标注问题,我们使用了条件随机域这一模型,取得了较好的结果。同时由于避开了句法分析这个阶段,使得语义角色标注摆脱了对句法分析的依赖,从而突破了汉语语法分析器的时间和性能限制。通过实验我们可以看出,新的方法可以取得较高的准确率,并且大大节省了分析的时间。通过对比,我们可以发现在自动切分和词性标注上的结果与在完全正确的切分和词性标注上的结果相比,还有较大差距。  相似文献   

16.
中文名词性谓词语义角色标注   总被引:2,自引:0,他引:2  
研究了中文名词性谓词的语义角色标注(semantic role labeling,简称SRL).在使用传统动词性谓词SRL相关特征的基础上,进一步提出了名词性谓词SRL相关的特征集.此外,探索了中文动词性谓词SRL对中文名词性谓词SRL的影响,并且联合谓词自动识别实现了全自动的中文名词性谓词SRL.在中文NomBank上的实验结果表明,中文动词性谓词的SRL合理使用能够大幅度提高中文名词性谓词的SRL性能;基于正确句法树和正确谓词识别,中文名词性谓词的SRL性能F1值达到了72.67,大大优于目前国内外的同类系统;基于自动句法树和自动谓词识别,性能F1值为55.14.  相似文献   

17.
如何有效的从轨迹数据中挖掘轨迹模式和规律具有重要意义,本文基于交通路网研究移动对象轨迹预测,将序列分析方法和马尔科夫统计模型结合,提出了一种基于后缀自动机的变阶马尔科夫模型挖掘方法。该方法根据移动对象的历史轨迹数据进行学习训练,计算轨迹序列上下文的概率特征,建立序列的后缀自动机模型,结合当前实际轨迹数据,动态自适应预测将来的位置信息。实验结果表明:相比固定阶马尔科夫模型,随着阶数的增加(L>=2),固定阶马尔科夫模型预测的精度逐步降低,而该方法能动态自适应,精度保持在81.3%左右,取得较好的预测效果;同时,该方法只需线性的时间和空间开销,大大降低了存储空间和时间,能实现大规模数据的在线学习。  相似文献   

18.
In this work, we report large-scale semantic role annotation of arguments in the Turkish dependency treebank, and present the first comprehensive Turkish semantic role labeling (SRL) resource: Turkish Proposition Bank (PropBank). We present our annotation workflow that harnesses crowd intelligence, and discuss the procedures for ensuring annotation consistency and quality control. Our discussion focuses on syntactic variations in realization of predicate-argument structures, and the large lexicon problem caused by complex derivational morphology. We describe our approach that exploits framesets of root verbs to abstract away from syntax and increase self-consistency of the Turkish PropBank. The issues that arise in the annotation of verbs derived via valency changing morphemes, verbal nominals, and nominal verbs are explored, and evaluation results for inter-annotator agreement are provided. Furthermore, semantic layer described here is aligned with universal dependency (UD) compliant treebank and released to enable more researchers to work on the problem. Finally, we use PropBank to establish a baseline score of 79.10 F1 for Turkish SRL using the mate-tool (an open-source SRL tool based on supervised machine learning) enhanced with basic morphological features. Turkish PropBank and the extended SRL system are made publicly available.  相似文献   

19.
基于ANN和HMM的联机手写体汉字识别系统   总被引:1,自引:0,他引:1  
为了解决联机手写体汉字笔划顺序、笔划数目及笔划形状变化问题,提出了一种新的联机手写体汉字识别方法:人工神经网络(ANN)和隐马尔可夫模型(HMM)相结合的汉字识别方法,首先通过BP神经网络进行笔划识别,再通过笔划类型和笔划间位置关系的隐马尔可夫模型进行整字识别。实验证明,该联机手写体汉字识别系统具有较高地识别准确率。  相似文献   

20.
语义角色标注中特征优化组合研究   总被引:2,自引:0,他引:2  
特征决定着语义角色标注的性能,但并非特征越多性能越高.因此,如何优化组合这些特征就显得非常重要.选取了当前语义角色标注系统中常用的56个特征,按其贡献进行了优化组合实验.在正确的句法分析上取得了91.22%的语义角色分类精确率,在自动句法分析上语义角色标注F1值达到了78.07%.实验表明提高性能并不需要很多特征,关键在于特征的优化组合;同时在句法分析中起重要作用的谓词和中心词特征在语义角色标中也发挥了重要作用.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号