首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 359 毫秒
1.
于东  刘春花  田悦 《计算机应用》2016,36(2):455-459
针对从非结构化文本中抽取指定人物职衔履历属性问题,提出一种基于远距离监督和模式匹配的属性抽取方法。该方法从字符串模式和依存模式两个层面描述人物职衔履历特征,将问题分为两阶段。首先利用远距离监督知识和人工标注知识,挖掘具有高覆盖度的模式库,用于发现职衔履历属性和抽取候选集;其次利用职衔机构等属性间的文字接续关系,以及特定人物与候选属性的依存关系,设计候选集的过滤规则对候选项进行筛选,实现高准确度的属性抽取。实验结果显示,所提方法在CLP2014-PAE测试集上的F值达到55.37%,显著高于评测最好成绩(F值34.38%)和基于条件随机场(CRF)的有监督序列标注方法(F值43.79%),表明该方法能高覆盖度挖掘并抽取非结构化文档中的职衔履历属性。  相似文献   

2.
蛋白质关系抽取研究对于生命科学各领域的研究具有广泛的应用价值。但是,基于机器学习的蛋白质关系抽取方法普遍停留在二元关系抽取,失去了丰富的关系类型信息,而基于规则的开放式信息抽取方法可以抽取完整的蛋白质关系(“蛋白质1,关系词,蛋白质2”),但是召回率较低。针对以上问题,该文提出了一种混合机器学习和规则方法的蛋白质关系抽取框架。该框架先利用机器学习方法完成命名实体识别和二元关系抽取,然后利用基于句法模板和词典匹配的方法抽取表示当前两个蛋白质间关系类型的关系词。该方法在AImed语料上取得了40.18%的F值,远高于基于规则的Stanford Open IE方法。  相似文献   

3.
第六届中国健康信息处理会议(China conference on Health Information Processing,CHIP 2020)组织了中文医疗信息处理方面的6个评测任务,其中任务2为中文医学文本实体关系抽取任务,该任务的主要目标为自动抽取中文医学文本中的实体关系三元组。共有174支队伍参加了评测任务,最终17支队伍提交了42组结果,该任务以微平均F1值为最终评估标准,提交结果中F1最高值达0.648 6。  相似文献   

4.
提出一种基于SVM和AdaBoost的Web实体信息抽取方法。首先提出一种基于SVM的Web页面主数据区域识别方法,基于Web实体实例在页面中的展示特征,有效地将Web页面进行数据区域分割,识别出Web实体实例所在的主数据区域;然后基于Web实体属性标签的特征,提出一种基于AdaBoost的集成学习方法,从页面的主数据区域自动地抽取Web实体信息。在两个真实数据集上进行实验,并与相关研究工作进行比较,实验结果说明该方法能够取得良好的抽取效果。  相似文献   

5.
药物关系(Drug-Drug Interaction, DDI)抽取是生物医学关系抽取领域的重要分支,现有方法主要强调实体、位置等信息对关系抽取的影响。相关研究表明,依存信息对于关系抽取具有重要作用,如何合理利用依存信息是关系抽取研究中需要解决的问题。该文提出一种融合依存信息 Attention机制的药物关系抽取模型,衡量最短依存路径与句子的相关性,捕捉对实体间关系有用的信息。首先使用双向GRU(BiGRU)网络分别学习原句子和最短依存路径(Shortest Dependency Path,SDP)的语义信息和上下文信息,然后通过Attention机制将SDP信息与原句子信息融合,最后利用融合依存信息之后的句子表示进行分类预测。在DDIExtraction2013语料上进行了实验评估,模型F值为73.72%。  相似文献   

6.
张传岩  洪晓光  彭朝晖  李庆忠 《软件学报》2012,23(10):2612-2627
在传统信息抽取的基础上,研究Web实体活动抽取,基于格语法对实体活动进行了形式化定义,并提出一种基于SVM(supported vector machine)和扩展条件随机场的Web实体活动抽取方法,能够从Web上准确地抽取实体的活动信息.首先,为了避免人工标注训练数据的繁重工作,提出一种基于启发式规则的训练数据生成算法,将语义角色标注的训练数据集转化为适合Web实体活动抽取的训练数据集,分别训练支持向量机分类器和扩展条件随机场.在抽取过程中,通过分类器获得包含实体活动的语句,然后利用扩展条件随机场对传统条件随机场中不能利用的标签频率特征和关系特征建模,标注自然语句中的待抽取信息,提高标注的准确率.通过多领域的实验,其结果表明,所提出的抽取方法能够较好地适用于Web实体活动抽取.  相似文献   

7.
实体属性抽取是信息抽取、知识库构建等任务的重要基础。该文提出了一种利用在线百科获取实体属性的方法,该方法首先通过在线百科的结构特征和领域独立的抽取模式捕获可能的属性短语,然后根据同义扩展获取尽可能多的属性表述形式,并同时得到对应实体类别的同义属性集合。实验表明,该方法在保证属性抽取准确率不变的情况下,获得了比仅使用频率的方法覆盖范围更广的实体属性集合。  相似文献   

8.
实体关系抽取是信息抽取领域的重要研究内容,对知识库的自动构建起着至关重要的作用。针对非结构化文本实体关系抽取存在上下文环境信息难以准确表征,致使现有抽取模型准确率不能满足实际应用需求的问题,该文提出了一种新型的实体关系抽取模型BiGRU-Att-PCNN。该模型是基于混合神经网络,首先,构建双向门控循环单元(BiGRU)以更好地获取文本序列中的上下文语序的相关信息;然后,采用注意力(Attention)机制来达到自动关注对关系影响力高的序列特征的目的;最后,通过采用分段卷积神经网络(PCNN),从调整后的序列中较好地学习到了相关的环境特征信息来进行关系抽取。该模型在公开的英文数据集SemEval 2010 Task 8上取得了86.71%的F1值,实验表明,该方法表现出了较好的性能,为信息抽取领域实体关系的自动获取提供了新的方法支持。  相似文献   

9.
领域知识图谱在各行各业中都发挥着重要作用,领域实体的获取则是构建领域知识图谱的重要基础。数据标注、编写抽取规则等现有的实体抽取方法往往需要较多的人工参与工作。提出一种基于图排序的实体抽取方法和基于最大信息增益的实体扩展方法来构建领域实体集,通过实体识别获得候选实体,基于维基百科的背景信息计算候选实体间的相关度构建实体图,并利用基于置信度传播的图排序算法筛选领域核心实体。在DBpedia中根据最大信息增益来平衡类与领域核心实体相关性及类的抽象程度两个因素以生成实体扩展的共性类。在此基础上,通过SKOS体系中的“Is subject of”关系获得共性类的实例实体,并根据基于字符串相似和结构相关度的方法对扩展实例实体进一步筛选,最终获得全面、准确的领域实体集。以数据结构课程为例构建该课程领域实体集,得到1 115个实体。实验结果表明,在领域数据集上,领域实体抽取F1值达到0.67,能够在较少人工参与的条件下有效获得领域实体,有助于领域知识图谱的构建。  相似文献   

10.
互联网数据的爆炸式增长,使得研究热点更多转向Web内容结构化分析。如果将藏语知识以结构化形式表示,那么将会有利于藏语知识的结构化分析和深度挖掘。该文提出了一种优化词向量的GRU神经网络模型进行藏语实体关系抽取的方法。在模型的训练中,加入了优化的词向量,在传统的词向量模型中结合藏语音节向量、音节位置向量、词性向量等特征对词向量进一步优化,并且选取了藏语词汇特征和藏语句子特征。实验证明,通过使用改进词向量F1值达到了78.43%。  相似文献   

11.
基于结构分析和实体识别的信息集成   总被引:4,自引:0,他引:4  
针对海量的web数据,提出了一种基于文档结构分析和实体识别的web信息提取和集成方法,利用XML强大的数据描述能力,灵活组织集成的web文档信息内容.方法首先将半结构化的HTML文档转化成具有模式结构的XML文档,然后使用实体识别的技术对不同主题区域进一步抽取出格式良好的数据,最后将得到的多数据类型的信息集成到数据库中,以支持进一步的分析和查询.实验结果证明了该方法的实用和有效性.  相似文献   

12.
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deepweb,D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势.  相似文献   

13.
从海量生物医学文献中挖掘变异信息对生物医学复杂疾病研究具有重要意义。在当前的变异实体识别方法中,基于条件随机场模型的方法取得了不错效果并成为主流方法,但存在需要大量特征工程来提升模型性能的缺点。针对此问题,该文提出一种基于字符卷积神经网络的变异实体识别方法CharCNN-CNN-CRF。该方法首先利用一个多窗口大小的卷积神经网络获取字符级别的词表示,然后使用多层卷积神经网络编码上下文信息,最后通过CRF层解码得到整个句子的标签序列。实验结果表明,该方法仅使用随机初始化的字符向量作为输入就能快速、有效地识别变异实体,无需复杂的特征工程。同时也在tmVar和MutationFinder两个数据集上都取得了目前最好的结果(F值分别为88.34%和93.57%)。  相似文献   

14.
实体关系抽取旨在从文本中抽取出实体之间的语义关系,是自然语言处理的一项基本任务。在新闻报道、维基百科等规范文本上,该任务的研究相对丰富且已取得了一定的效果,但面向对话文本的相关研究还处于起始阶段。相较于规范文本,对话是一个交互的过程,大量信息隐藏在交互中,这使得面向对话文本的实体关系抽取更具挑战性。依据对话的特点,该文提出了融入对话交互信息的实体关系抽取方法,通过交叉注意力机制获取对话交互信息,提升性能,并结合多任务学习来解决语料库数据分布不均衡的问题。在DialogRE公开数据集上实验得到,F1值为54.1%,F1c值为50.7%,证明了该方法的有效性。  相似文献   

15.
跨境民族文化领域实体通常由描述民族文化特征的领域词汇组合构成,使用当前主流的基于字符表征的实体识别方法会面临领域实体边界模糊问题,造成实体识别错误。为此,该文提出一种融入词集合信息的跨境民族文化实体识别方法,利用领域词典获取的词集合增强领域实体的词边界和词语义信息。首先,构建跨境民族文化领域词典,用于获取词集合信息;其次,通过词集合注意力机制获取词集合向量之间的权重,并融入位置编码增强词集合位置信息;最后,在特征提取层融入词集合信息,增强领域实体边界信息并缓解仅使用字符特征表示所带来的词语义缺失问题。实验结果表明,在跨境民族文化文本数据集上所提出方法相比于基线方法的F1值提升了2.71%。  相似文献   

16.
姜小波  何昆  阎广瑜 《软件学报》2023,34(12):5649-5669
实体识别是信息抽取的关键任务.随着信息抽取技术的发展,研究人员从简单实体的识别转向复杂实体的识别.然而,复杂实体缺乏明显的特征且在句法结构与词性组成上更加复杂多样,给实体识别带来了巨大挑战.此外,现有模型广泛采用基于跨度的方法来识别嵌套实体,在实体边界检测方面呈现出模糊化,影响识别的性能.针对这些问题和挑战,提出了一种基于语义先验知识与类型嵌入的实体识别模型GIA-2DPE.该模型使用实体类别的关键词序列作为语义先验知识来提升对实体的认知,并通过类型嵌入捕获不同实体类型的潜在特征,然后通过门控交互注意力机制将先验知识与类型特征相融合以辅助复杂实体识别.另外,模型通过2D概率编码来预测实体边界,并利用边界特征和上下文特征来增强对边界的精准检测,从而提升嵌套实体的识别效果.在7个英文数据集和2个中文数据集上进行了广泛实验.结果表明, GIA-2DPE超越了目前最先进的模型;并且在ScienceIE数据集的实体识别任务中,相对基线F1分数取得了最高10.4%的提升.  相似文献   

17.
夏美翠  时鸿涛 《计算机应用》2015,35(10):2915-2919
为了提高Web信息检索的准确率,提出一种基于语义网的高效信息查询方法。首先从本体库中提取目标资源与查询关键字之间的语义路径,通过分析语义路径所包含的属性的权重和识别能力,分别计算每个语义路径的权重;然后,根据资源与查询关键字之间的语义路径的权重、数量和特异性,分别计算每个资源与各关键字之间的语义相关性,并结合关键字的涵盖范围和识别能力综合计算每个资源与关键字集之间的语义相关性;最后,以该相关性为依据对所有资源进行排序和输出。实验结果表明,与OntoLook、tf*idf和TMSubtree三种语义网查询算法相比,基于语义网的高效信息查询方法的平均正确率分别提高了69.0、25.0和21.0个百分点;平均召回率分别提高了77.1、28.3和24.3个百分点;平均F测度值分别提高了72.4、26.4和22.4个百分点。实验结果表明:该方法不仅能够有效提升语义查询的准确率,而且对隐性信息也有很好的查询效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号