首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 72 毫秒
1.
与实体指代不同,事件指代其先行词候选是一个事件,与名词性的指代词具有完全不同的语义分类体系,因此适用于实体指代消歧的大多数特征都不能用于事件指代消歧。给出了一个基于机器学习方法的事件指代消歧平台,详细介绍了平台的实例生成和特征选择过程,给出了平台在OntoNotes3.0语料上的事件指代消歧的结果,并对结果进行了分析。从实验结果可以看到,给出的平台获得了较好的召回率,但系统准确率需要进一步提升。  相似文献   

2.
随着篇章理解、信息融合要求的日益迫切,提高事件指代消解系统的性能逐渐成为一个研究热点。事件指代的指代词指代的是事件、事实或者命题等实践性、抽象性对象。该文对名词短语的事件指代消解进行研究,使用平面特征、结构化句法特征和语义特征等,根据SVM机器学习的方法进行英文事件的指代消解,通过在计算事件语义相似度的元组(语义角色)中加入时间和地点元素改进语义特征来提高事件指代消解系统的性能;并且单独使用每种特征对语料进行实验,分析每种特征单独使用时对系统的影响;OntoNotes 4.0语料库上的实验结果显示,引入改进的语义特征后,与基准系统相比,系统的准确率和F值均有所提高。由此来看,在语义特征中加入时间和地点元素对事件指代消解具有的正向作用。  相似文献   

3.
以基于机器学习的指代(Anaphora)消解平台为基础,研究代词待消解项识别问题.挖掘能区分代词是否为待消解项的特征集,总结归纳具有规律的代词待消解项的句法结构,使用机器学习的方法将二者结合生成代词待消解项过滤器并将其加入到代词指代消解平台.在ACE2003基准语料上测试过滤器自身性能及对代词指代消解的贡献.实验表明过滤器具有较高的准确率,能明显地提高代词指代消解系统的性能.  相似文献   

4.
指代消解是文本理解和信息抽取的一项重要任务。针对这一任务,提出了基于混合策略的藏文人称代词指代消解方法,通过对藏文人名、人称代词的形态特征和构词规律的研究,制定了三类消解规则和有效统计特征,采用基于规则、最大熵模型以及规则与最大熵模型相结合的三种方法实现了藏文人称代词的指代消解系统。在包含2?306个待消解对的藏文句子集上,经测试分别获得76.02%、86.21%和88.16%的F值。  相似文献   

5.
汉语中人称代词的消解研究   总被引:15,自引:0,他引:15  
人称代词的消解是自然语言处理中十分重要的问题,人称代词消解,就是确定人称代词与先行语之间的相互关系,从而明确人称代词究竟指代什么对象,现有的许多应用系统,如文本摘要、信息抽取等采取了从文本中直接抽取句子的做法,而结果可能会含有某些无先行语的人称代词,使理解变得非常困难,人称代词消解无疑可以解决类似的问题。该文主要结合句类基本知识,根据人称代词所在语义块中的语义角色和人称代词对应的先行语可能的语义角色,给出了消解人称代词的基本规则。同时,作者也从句法的角度,结合局部焦点法给出了优选性规则。  相似文献   

6.
指代消解是文本信息处理中的一项重要任务,针对这一任务过于复杂,本文分析了中文突发事件语料中人称代词的特点, 提出一种基于语料库,运用规则预处理与最大熵模型相结合的人称代词消解方法。在ACE05 bnews中文测试语料上,分别与仅用基于规则和仅用统计方法进行了对比实验,结果表明该方法分别在召回率、准确率和F值上有一定的提高,本方法是中文人称代词指代消解的较好平台。  相似文献   

7.
基于树核函数的英文代词消解研究   总被引:1,自引:1,他引:0  
该文提出了一种基于树核的英文代词消解方法。针对结构化信息在指代消解中的重要作用,该文使用SVM提供的卷积树核函数自动获取句法结构信息,将句法树作为一个特征,和其他基本特征相结合。该文系统的分析了训练用例的过滤及不同的剪枝策略对模型性能的影响,同时还分析了树核函数对于几句之内的代词消解有比较好的结果。在ACE2004 NWIRE基准数据上进行实验的结果说明树核能显著地提高代词消解系统的性能,并且对一句之内的代词消解有较好的效果。  相似文献   

8.
采用优先选择策略的中文人称代词的指代消解   总被引:9,自引:4,他引:9  
指代是自然语言中常见的语言现象,指代消解是文本信息处理中的一个重要任务。随着篇章处理相关应用日益广泛,指代消解也显示出前所未有的重要性。本文针对中文人称代词的指代特点,提出了一种基于语料库的,运用决策树机器学习算法并结合优先选择策略,进行指代消解的方法。该方法充分考虑了与指代相关的若干属性,及相互之间的影响。实验表明,对中文人称代词的消解特别是第三人称的消解获得了一定的效果。  相似文献   

9.
指代消解是一种为了确定文章中出现的指代词与前文中出现的内容是否为同一事物的技术,在海量信息文本智能处理中具有重要的作用,而人称代词在各种指代词集合中占有相当一部分比例。本文采用规则与语义相结合的方法对中文人称代词进行指代消解,在基础的语法过滤规则之上新增同位语规则过滤指代词的候选消解项;提出更精确的同义词距离计算方法,利用同义词词林和知网对人称代词的关联词与候选先行词的关联词进行语义关系计算,选择关联度最高的候选先行词作为最终的指代结果。通 过不同方法的对比实验和在真实语料数据集上的实验表明,本文所提方法获得了较好的效果。  相似文献   

10.
基于指代消解的中文事件融合方法   总被引:1,自引:0,他引:1  
事件抽取是信息抽取领域的一个重要的研究方向.针对事件抽取获得的信息不完整和语义不明确的特点,在此基础上引入指代消解和信息融合理论,通过事件元素归一化和互指事件的合并,在数据和特征两个层次上对事件信息进行融合,进一步明确和完善事件信息,并在不损失信息的情况下精简整个信息系统的信息量.在裁员事件的融合实验中正确率达到86.9%.  相似文献   

11.
基于树核函数,提出了从使用中心理论、集成竞争者信息和融入语义角色相关信息这3个方面对结构化句法树进行动态扩展来提升中英文代词消解的性能。首先探索了3种基本结构化句法树捕获方案,并使用SVMLight中提供的卷积树核函数直接进行基于结构化句法树的相似度计算,从而完成指代消解任务;其次,在分析3种结构化句法树捕获方案的基础上,从中心理论、竞争者信息和语义角色相关信息等几方面对捕获的结构化句法树进行了扩展;最后,通过ACE 2004 NWIRE英文语料和ACE 2005 NWIRE中文语料上的实验,说明了这些扩展能够提升代词消解的性能。  相似文献   

12.
孔芳  周国栋 《软件学报》2012,23(5):1085-1099
基于树核函数,提出了从使用中心理论、集成竞争者信息和融入语义角色相关信息这3个方面对结构化句法树进行动态扩展来提升中英文代词消解的性能.首先探索了3种基本结构化句法树捕获方案,并使用SVMLight 中提供的卷积树核函数直接进行基于结构化句法树的相似度计算,从而完成指代消解任务;其次,在分析3种结构化句法树捕获方案的基础上,从中心理论、竞争者信息和语义角色相关信息等几方面对捕获的结构化句法树进行了扩 展;最后,通过ACE 2004 NWIRE英文语料和ACE 2005 NWIRE中文语料上的实验,说明了这些扩展能够提升代词消解的性能.  相似文献   

13.
张天伦  陈荣  杨溪  祝宏玉 《软件学报》2019,30(5):1386-1406
在所有的软件系统开发过程中,Bug的存在是不可避免的问题.对于软件系统的开发者来说,修复Bug最有利的工具就是Bug报告.但是人工识别Bug报告会给开发人员带来新的负担,因此,自动对Bug报告进行分类是一项很有必要的工作.基于此,提出用基于极速学习机的方法来对Bug报告进行分类.具体而言,主要解决Bug报告自动分类的3个问题:第1个是Bug报告数据集里不同类别的样本数量不平衡问题;第2个是Bug报告数据集里被标注的样本不充足问题;第3个是Bug报告数据集总体样本量不充足问题.为了解决这3个问题,分别引入了基于代价的有监督分类方法、基于模糊度的半监督学习方法以及样本迁移方法.通过在多个Bug报告数据集上进行实验,验证了这些方法的可行性和有效性.  相似文献   

14.
张毅锋  刘袁  蒋程  程旭 《自动化学报》2020,46(2):274-282
本文针对深度学习在单幅图像超分辨率方面难以恢复高频纹理细节的问题, 提出了一种基于递进学习的超分辨率算法.该算法首先采用灰度共生矩阵提取图像纹理特征, 然后利用基于密度峰值的聚类方法实现对整个训练集的分类, 其中每个训练子集具有相似的纹理复杂度.针对传统的递进学习方法会出现对已掌握知识"遗忘"的问题, 本文根据网络模型在各个训练子集上的拟合情况, 实时调整当前训练样本在各个子集上的概率分布, 从而实现快速收敛, 并获得更好的纹理细节复原效果.将本文提出的递进学习用于DRCN、VDSR、SRCNN等超分辨率网络的训练, 实验结果表明超分辨率网络收敛速度得到提升, 同时网络对复杂纹理等细节较多的图像也获得了较好的视觉恢复效果, 峰值信噪比则平均获得0.158 dB、0.18 dB、0.092 dB的提升.  相似文献   

15.
指代消解是自然语言处理技术的核心问题,该文结合维吾尔语语义特征,提出基于深度学习的维吾尔语人称代词指代消解方法。通过堆叠多层无监督RBM网络和一层有监督BP网络,构建DBN深度神经网络学习模型,RBM网络保证特征向量映射达到最优,BP网络对RBM网络的输出向量进行分类,实现维吾尔语人称代词指代消解。经过维吾尔语指代消解语料库测试, F值达到83.81%,比SVM方法高出2.88%。实验结果表明,同等条件下,该方法能有效提升维吾尔语人称代词消解的精度,有助于维吾尔语指代消解研究。  相似文献   

16.
网页木马程序的加壳和混淆机制使得静态分析遇到困难,而动态分析又有不能穷尽所有执行路径这一问题。文章提出了一种基于机器学习的网马识别方法,提取Url和网马场景的特征,并把Url打上类别标记,对训练数据进行分类模型建构并做了预测实验,取得了比较好的实验效果。  相似文献   

17.
事件同指消解在自然语言理解中是一项复杂的任务,它需要在理解文本信息的基础上,发现其中的同指事件。事件同指消解在信息抽取、问答系统、阅读理解等自然语言任务中均有重要作用。该文提出了一个事件同指消解框架,包括事件抽取(ENS_NN)、真实性识别(ENS_NN)和事件同指消解(AGCNN)三个部分。事件同指消解模型(AGCNN)利用注意力池化机制来捕获事件的全局特征,利用门控卷积抽取复杂语义特征,提高了事件同指消解的性能。在KBP 2015和KBP 2016数据集上的实验结果表明,该文提出的方法优于目前最优的系统。  相似文献   

18.
Tax fraud is one of the substantial issues affecting governments around the world. It is defined as the intentional alteration of information provided on a tax return to reduce someone’s tax liability. This is done by either reducing sales or increasing purchases. According to recent studies, governments lose over $500 billion annually due to tax fraud. A loss of this magnitude motivates tax authorities worldwide to implement efficient fraud detection strategies. Most of the work done in tax fraud using machine learning is centered on supervised models. A significant drawback of this approach is that it requires tax returns that have been previously audited, which constitutes a small percentage of the data. Other strategies focus on using unsupervised models that utilize the whole data when they search for patterns, though ignore whether the tax returns are fraudulent or not. Therefore, unsupervised models are limited in their usefulness if they are used independently to detect tax fraud. The work done in this paper focuses on addressing such limitations by proposing a fraud detection framework that utilizes supervised and unsupervised models to exploit the entire set of tax returns. The framework consists of four modules: A supervised module, which utilizes a tree-based model to extract knowledge from the data; an unsupervised module, which calculates anomaly scores; a behavioral module, which assigns a compliance score for each taxpayer; and a prediction module, which utilizes the output of the previous modules to output a probability of fraud for each tax return. We demonstrate the effectiveness of our framework by testing it on existent tax returns provided by the Saudi tax authority.  相似文献   

19.
基于采样策略的主动学习算法研究进展   总被引:2,自引:0,他引:2  
主动学习算法通过选择信息含量大的未标记样例交由专家进行标记,多次循环使分类器的正确率逐步提高,进而在标记总代价最小的情况下获得分类器的强泛化能力,这一技术引起了国内外研究人员的关注.侧重从采样策略的角度,详细介绍了主动学习中学习引擎和采样引擎的工作过程,总结了主动学习算法的理论研究成果,详细评述了主动学习的研究现状和发展动态.首先,针对采样策略选择样例的不同方式将主动学习算法划分为不同类型,进而,对基于不同采样策略的主动学习算法进行了深入地分析和比较,讨论了各种算法适用的应用领域及其优缺点.最后指出了存在的开放性问题和进一步的研究方向.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号