首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
现有领域本体概念上下位关系抽取方法受到手工标注和特定模式的限制。针对该问题,提出一种基于层叠条件随机场的领域本体概念上下位关系抽取方法。以自由文本为抽取对象,采用两层条件随机场算法,将训练数据处理成条件随机场能识别的线性结构。低层条件随机场模型考虑词之间的长距离依赖,对词进行建模,识别出领域概念并对概念进行顺序组合,结合模板定义特征得到概念对;高层模型对成对概念进行上下位语义标注,识别出领域本体概念之间的上下位关系。采用真实语料进行实验,结果表明,该方法具有较好的识别效果。  相似文献   

2.
当前的电子病历实体关系抽取方法存在两个问题: 忽视了位置向量噪声和语义表示匮乏。该文提出一种基于位置降噪和丰富语义的实体关系抽取模型。模型首先利用位置信息和专业领域语料训练的词向量信息获取每个词的注意力权重,然后将此权重与通用领域语料训练的词向量结合,实现位置向量降噪和丰富语义引入,最后根据加权后的词向量判断实体关系类型。该方法在2010年i2B2/VA语料上进行实验评估,F1值为76.47%,取得了基于该语料的最优结果。  相似文献   

3.
分类体系主要由上下位关系组成,传统的基于模板的上下位关系抽取方法分为两类:第一类方法只使用高质量的模板导致低召回率;第二类方法使用所有可用的模板导致低精度。根据模板的质量将其分为更细粒度的强句法模板和弱句法模板。为了提高弱模板的精度,将弱模板和概念/实体结合构建语义模板。结合强句法模板和语义模板,提出一套新颖的框架从语料中抽取上下位关系,具有高精度和召回率的特点。在中英文语料上进行的实验,实验结果证明了框架的有效性。  相似文献   

4.
针对Skip-gram词向量计算模型在处理多义词时只能计算一个混合多种语义的词向量,不能对多义词不同含义进行区分的问题,文中提出融合词向量和主题模型的领域实体消歧方法.采用词向量的方法从背景文本和知识库中分别获取指称项和候选实体的向量形式,结合上下位关系领域知识库,进行上下文相似度和类别指称相似度计算,利用潜在狄利克雷分布(LDA)主题模型和Skip-gram词向量模型获取多义词不同含义的词向量表示,抽取主题领域关键词,进行领域主题关键词相似度计算.最后融合三类特征,选择相似度最高的候选实体作为最终的目标实体.实验表明,相比现有消歧方法,文中方法消歧结果更优.  相似文献   

5.
针对上下位关系在分类层级结构建立阶段遇到的多义性问题,给出一种概念空间中上下位关系意义识别的方法.单个概念的意义识别问题被转换为概念空间中上下位关系的意义识别.首先利用并列语境解决语境稀疏问题,获取上下位关系意义的语境.然后利用<同义词词林>对每个语境进行词义修正,以三种特征计算特征词权重,构建"关系一词'的高维向量空间,然后通过潜在语义分析降维,获取上下位关系意义的潜在语义,最后组平均聚类后得到关系的意义划分.在实验中,给出了聚类阈值自动调整函数,分析了词林和潜在语义分析的作用,实验结果证实了方法的有效性.  相似文献   

6.
对海量文本语料进行上下位语义关系自动抽取是自然语言处理的重要内容,利用简单模式匹配方法抽取得到候选上下位关系后,对其进行验证过滤是难点问题。为此,分别通过对词汇语境相似度与布朗聚类相似度计算,提出一种结合语境相似度和布朗聚类相似度特征对候选下位词集合进行聚类的上下位关系验证方法。通过对少量已标注训练语料的语境相似度和布朗聚类相似度进行计算,得到验证模型和2种相似度的结合权重系数。该方法无需借助现有的词汇关系词典和知识库,可对上下位关系抽取结果进行有效过滤。在CCF NLP&2012词汇语义关系评测语料上进行实验,结果表明,与模式匹配和上下文比较等方法相比,该方法可使 F 值指标得到明显提升。  相似文献   

7.
本文针对现有方法不能很好结合文本信息和知识库信息的问题, 提出一种基于关系指数和表示学习的领域集成实体链接方法.首先, 本文构建了特定领域知识库; 其次, 运用表示学习从文本信息中得到的向量表示计算实体指称项的上下文、主题关键词、扩展词三个特征的相似度; 然后, 利用知识库中的关系信息计算候选实体的关系指数; 最后, 将这三种相似度及关系指数相融合, 用于实体链接. 实验结果表明, 相较于现有方法, 本文方法能够有效地提高F1值, 并且该方法不需要标注语料, 更加简单高效, 适应于缺少标注语料的特定领域.  相似文献   

8.
中文分词的难点在于处理歧义和识别未登录词,因此对新词的正确识别具有重要作用.文中结合提出的新词词间模式特征以及各种词内部模式特征,对从训练语料中抽取正负样本进行向量化,通过支持向量机的训练得到新词分类支持向量.对测试语料结合绝对折扣法进行新词候选的提取与筛选,并与训练语料中提取的词间模式特征以及各种词内部模式特征进行向量化,得到新词候选向量,最后将训练语料中得到的新词分类支持向量以及对测试语料中得到的新词候选向量结合进行SVM测试,得到最终的新词识别结果  相似文献   

9.
提出一种基于支持向量机和自扩展的实体关系抽取方法,用于解决实体关系抽取研究中测试语料库缺乏的问题.采用自扩展方法自动学习未标注语料库,减少人工标注的时间;从标注语料中构造特征向量;支持向量机对特征向量进行学习,得到分类模型,实现实体关系的自动抽取.  相似文献   

10.
本文提出一种深度学习与关联模式挖掘融合的查询扩展模型.该模型采用基于Copulas函数的支持度-置信度评价框架挖掘初检伪相关反馈文档集中扩展词,构建统计扩展词集,利用深度学习工具对初检文档集进行词向量语义学习训练得到词向量扩展词集,将统计扩展词集和词向量扩展词集融合得到最终扩展词.该模型不仅考虑来自统计分析与挖掘的扩展词与原查询间的关联信息,还考虑扩展词在文档中的上下文语义信息,扩展词质量得到较好地改善.在NTCIR-5 CLIR语料的实验结果表明,本文扩展模型能提高信息检索性能,其MAP和P@5平均增幅高于近年现有同类查询扩展方法.本文扩展模型可用于跨语言检索系统,以提高其性能.  相似文献   

11.
刘磊  曹存根 《计算机工程》2008,34(14):12-13
上下位关系的自动验证是知识获取中的一个关键问题。提出一种基于混合特征的迭代上下位关系验证方法,从语义、语境、空间结构角度,给出一组上下位关系特征,根据抽样数据分析,将所有特征转化为用于验证的产生式规则,利用这些规则对基于模式获取的上下位关系进行循环迭代验证。实验结果说明了该方法的有效性。  相似文献   

12.
远监督学习是适合大数据下关系抽取任务的一种学习算法.它通过对齐知识库中的关系实例和文本集中的自然语句,为学习算法提供大规模样本数据.利用本体进行关系实例的自动扩充,用于解决基于远监督学习的关系抽取任务中部分待抽取关系的实例匮乏问题.该方法首先通过定义关系覆盖率和公理容积率,来寻找与关系抽取任务关联性大的本体;然后,借助本体推理中的实例查询增加待抽取关系下的关系实例;最后,通过对齐新增关系实例和文本集中的自然语句,达到扩充样本的效果.实验结果表明:基于本体的远监督学习样本扩充方法能够有效完成样本匮乏的关系抽取任务,进一步提升远监督学习方法在大数据环境下的关系抽取能力.  相似文献   

13.
针对中文关系抽取中分词时引起的边界切分出错而造成的歧义问题,以及出现实体对重叠不能提取出所涉及的多个关系问题,提出一种基于字词混合的联合抽取方法.首先,对于分词边界问题,嵌入层在词向量的基础上结合字向量,并且增加位置信息来保证字与字之间的正确顺序.其次,模型引入混合扩张卷积网络进行不同粒度、更远距离的特征提取.最后,采用分层标注方法,通过得到的主实体信息标记对应的关系和客实体,每个主实体可对应多个关系和客实体.与其他关系抽取方法在相同中文数据集上进行实验对比,实验结果表明,该方法的抽取效果最佳,并且也表现出更好的稳定性.  相似文献   

14.
该文提出了一种在低资源条件下,只利用无标注文档资源进行电力领域命名实体识别的无监督方法。该方法收集电力领域相关语料,利用串频统计技术更新电力领域词典,同时根据结构化电力数据解析出实体词及其类型,并通过表示学习获得每种实体类型的代表词表示。同时利用BERT全词遮盖技术对文本中的词语进行预测,计算文本词语和实体类型代表词之间的语义相似度,进而完成命名实体识别及类型判断。实验表明,该方法对数据条件要求低,具有很强的实用性,且易于复用到其他领域。  相似文献   

15.
提出了一种发现蕴藏在不同XML文档嵌套结构中的关系信息及其出现模式的新方法.可根据用户兴趣,发现描述不同实体之间联系的关系信息,抽取关系实例及其在文档中的出现模式.具体解决方案是:首先识别和收集包含用户感兴趣的实体的XML文档片段:然后根据文档片段标签的语义和文档片段的结构计算文档片段的相似度,并采用自适应阈值方法按相似度聚类文档片段.使得包含同一种关系的文档片段聚集在同一个片段簇:最后从XML文档片段簇中抽取关系实例及其出现模式.实验结果表明,对于包含有意义标签的各种XML文档,该方法能够准确地识别和抽取出描述指定实体之间联系的各种关系信息.  相似文献   

16.
基于维基百科和模式聚类的实体关系抽取方法   总被引:1,自引:0,他引:1  
该文提出了一种基于维基百科和模式聚类的方法,旨在从开放文本中抽取高准确率的中文关系实体对。首次使用从人工标注知识体系知网到维基百科实体映射的方式获取关系实例,并且充分利用了维基百科的结构化特性,该方法很好地解决了实体识别的问题,生成了准确而显著的句子实例;进一步,提出了显著性假设和关键词假设,在此基础上构建基于关键词的分类及层次聚类算法,显著提升了模式的可信度。实验结果表明该方法有效提升了句子实例及模式的质量,获得了良好的抽取性能。  相似文献   

17.
远程监督是关系抽取领域重要的语料扩充技术,可以在少量已标注语料的基础上快速生成伪标注语料。但是传统的远程监督方法主要应用于单语种文本,维吾尔语等低资源语言并不能使用这类方法得到伪标注语料。针对上述问题,提出一种针对维汉的跨语言远程监督方法,在无语料的情况下利用现有的汉语语料进行维语语料的自动扩充。将远程监督视为文本语义相似度计算问题而不是简单的文本查找,从实体语义和句子语义2个层面判断维语和汉语句子对是否包含同一关系,若为同一关系则将已有的汉语标注转移到维语句子上,实现维语语料从零开始的自动扩充。此外,为有效捕获实体的上下文和隐藏语义信息,提出一种带有门控机制的交互式匹配方法,通过门控单元控制编码层、注意力层之间的信息传递。人工标记3 500条维语句子和600条汉语句子用于模拟远程监督过程并验证模型的性能。实验结果表明,该方法 F1值达到73.05%,并且成功构造了包含97 949条维语句子的关系抽取伪标注数据集。  相似文献   

18.
关系抽取作为信息抽取领域的重要研究课题, 其主要目的是抽取句子中已标记实体对之间的语义关系, 对句子语义理解及知识库构建有着重要作用. 针对现有抽取方法中未能充分利用单词位置信息和实体间的交互信息导致重要特征丢失的问题, 本工作提出一种基于位置编码与实体交互信息的关系抽取方法(BPI-BERT). 首先将新型位置编码融入BERT预训练语言模型生成的词向量中后使用平均池化技术得到实体和句子向量, 再利用哈达玛乘积构造实体交互信息, 最后将实体向量、句子向量及交互信息向量拼接得到关系向量并输入到Softmax分类器进行关系分类. 实验结果表明BPI-BERT在精准率和 F1上较现有方法有提高, 证明了BPI-BERT的有效性.  相似文献   

19.
基于Web数据的特定领域双语词典抽取   总被引:1,自引:1,他引:1  
双语词典是跨语言检索以及机器翻译等自然语言处理应用的基础资源。本文提出了一种从非平行语料中抽取特定领域双语词典的算法。首先给出了算法的基本假设并回顾了相关的研究方法,然后详细给出了利用词间关系矩阵法从特定领域非平行语料中抽取双语词典的过程,最后通过大量实验分析了种子词选择对词典抽取结果的影响,实验结果表明种子词的数量和频率对词典抽取结果有积极作用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号