期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王朱君王石李雪晴朱俊武《计算机应用》2021,41(5):1247-1255

因果关系抽取是自然语言处理（NLP）中的一种关系抽取任务,它通过构造事件图来挖掘文本中具有因果关系的事件对,已经在金融、安全、生物等领域的应用中发挥重要作用。首先,介绍了事件抽取和因果关系等概念,并介绍了因果关系抽取主流方法的演变和常用数据集;然后,列举了当前主流的因果关系抽取模型,并且在分别对基于流水线的模型和联合抽取模型进行详细分析的基础上,对比了各种方法和模型的优缺点;此外,对各模型的实验性能及相关实验数据进行了归纳分析;最后,给出了当前的因果关系抽取的研究难点和未来的重点研究方向。相似文献

2.

基于页面分类的Web信息抽取方法研究

成卫青于静杨晶杨龙《微机发展》2013,(1):54-58

通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通过对页面进行分类和对页面主体的提取,分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题。文中设计了一个完整的Web信息抽取模型,并给出了各功能模块的实现方法。该模型包含页面主体提取、页面分类和信息抽取等模块,并利用正则表达式自动生成抽取规则,提高了抽取方法的通用性和准确性。最后用实验证实了文中方法的有效性与正确性。相似文献

3.

基于条件随机域CRF模型的文本信息抽取 总被引：1，自引：0，他引：1

周晶吴军华陈佳陈沈焰《计算机工程与设计》2008,29(23)

为了抽取文本中的信息,在分析对比了4种统计建模原型后,选用条件随机域CRF建立抽取模型,提出了一种文本信息抽取的方法.该方法对文本分析后加标注,确定文本特征集,采用有限内存拟牛顿迭代方法L-BFGS算法估计CRF模型参数,根据训练学习得出的模型,实现科研论文数据集头部文本信息的抽取.实验结果表明,使用CRF模型的抽取准确率达到90%以上,远远高于使用HMM模型的抽取准确率. 相似文献

4.

机器阅读理解式中文事件抽取方法

吴旭卞文强颉夏青孙利娟《计算机工程与应用》2023,(16):93-100

事件抽取是信息抽取的重要任务之一,在知识图谱构建、金融行业分析、内容安全分析等领域均有重要应用。现有中文事件抽取方法一般为实体识别、关系抽取、实体分类等任务的级联。将事件抽取转化为阅读理解任务,可为模型引入问题所含的先验信息。提出一种基于预训练模型的机器阅读理解式中文事件抽取方法（Chinese event extraction by machine reading comprehension,CEEMRC）,将中文事件抽取简化为两个问答模型的级联。首先对事件触发词抽取、事件类型判定、属性抽取构建相应的问答任务问题。以RoBERTa为基础构建触发词抽取和事件类型识别联合模型、事件属性抽取两个问答模型,并融入触发词先验特征、分词信息、触发词相对位置等信息来提升模型效果。最后以模型预测回答的起始和结束位置完成所需的抽取。实验使用DuEE中文事件数据集,触发词抽取和属性抽取的F1值均优于同类方法,验证了该方法的有效性。相似文献

5.

基于多任务学习的生物医学实体关系抽取

李青青杨志豪罗凌林鸿飞王健《中文信息学报》2019,33(8):84-92

生物医学实体关系抽取是生物医学文本挖掘领域的一项重要任务,它可以自动从生物医学文本中挖掘实体间的相互关系。目前,生物医学实体关系抽取方法一般只针对某一特定任务(如药物关系,蛋白质交互关系抽取等)训练单任务模型进行抽取,忽略了多个任务之间的相关性。因此,该文使用基于神经网络的多任务学习方法对多个生物医学关系抽取任务间的关联性进行了探索。首先构建了全共享模型和私有共享模型,然后在此基础上提出了一种基于Attention机制的主辅多任务模型。在生物医学领域关系抽取的5个公开数据集上的实验结果表明,该文的多任务学习方法可以有效地在学习任务之间共享信息,使得任务间互相促进,获得了比单任务方法更好的关系抽取结果。相似文献

6.

融合触发词特征的事件抽取

王立才李兴宇黄杨琛罗琪彬《计算机系统应用》2023,32(10):229-234

事件抽取是信息抽取领域的重点研究方向.为了提升事件抽取效果,解决通用事件抽取方法无法充分利用文本特征信息的问题,提出了融合触发词特征的事件抽取方法.通过构建远程触发词库,为事件类型分类模型提供额外特征信息,增强事件触发词的发掘能力,再融合事件类型与触发词距离特征,提升事件要素抽取模型的表示学习能力,最后,将事件类型分类模型与事件要素抽取模型串联,提升事件抽取效果.在DuEE数据集上进行实验,与其他模型相比,本模型提升了准确率、召回率、F1值,证明了本模型的有效性. 相似文献

7.

一种基于依存文法的需求文本策略依赖关系抽取方法 总被引：1，自引：0，他引：1

李天颍刘璘赵德旺曹原《计算机学报》2013,36(1):54-62

从基于自然语言的需求文本中抽取概念模型已有很多相关研究,然而,抽取模型中的关系信息因其复杂性而较少被研究者系统地分析和处理.文中提出了一个通用的关系信息抽取方法,给出抽取规则,从需求文本中确定和抽取关系信息.基于该方法设计并实现了一个系统CREAT3,从中文需求文本自动生成i*框架中的SD(StrategyDependency,策略依赖)模型,侧重抽取策略依赖关系信息.将得到的模型和专家抽取结果进行对比,结果显示该系统可以获得相当高的准确率,同时也保证了很高的召回率,证明了方法的可用性.并且较相关工作具有更好的可扩展性. 相似文献

8.

ETL系统的设计和实现技术研究 总被引：2，自引：0，他引：2

何晨钢《计算机应用与软件》2009,26(4)

ETL系统是构建数据仓库过程中极其重要的部分.以ETL基本原理和标准出发,从实践角度设计ETL系统的模型框架,包括调度和抽取模型,其中抽取模型是采用抽取-传输-缓冲-合并的方法,有效地解决了异构数据源抽取问题.在以保险行业为背景的项目中进行了应用,并取得较好的效果. 相似文献

9.

面向Java语言的设计模式抽取方法的研究 总被引：1，自引：0，他引：1

冯铁李文锦张家晨柴胜《计算机工程与应用》2005,41(25):28-33

从源码中抽取设计模式对于提高软件可理解性和可维护性、软件设计重用以及软件重构具有重要意义。文章面向Java语言提出了一个从源码中抽取设计模式的方法。具体地,研究了一种特定的设计模式描述方法、定义了源码信息模型及其化简方法,以此为基础提出了设计模式模型和源码模型的匹配方法。特别讨论了在抽取设计模式时与container类相关的问题及其解决方案。最后根据抽取结果从模式及其实例的角度对方法进行了评价,并提出了必要的优化技术。相似文献

10.

结合全局特征的命名实体属性值抽取

刘倩伍大勇刘悦程学旗庞琳《计算机研究与发展》2016,(4):941-948

关注非结构化文本中命名实体属性值的抽取问题.当前主流有监督属性值抽取方法仅使用局部特征,抽取效果有限,开展了利用文本全局特征改善属性值抽取的研究.通过适用于中文属性值抽取的全局特征,用局部特征以外的有价值信息提高抽取效果.据此,提出结合全局特征的感知机学习算法,该算法能够方便地融合文本全局特征,并将全局特征和局部特征统一结合到模型学习过程中,使模型具有更好的特征表示能力.实验结果表明,所提出方法的整体抽取效果高于仅使用局部特征的CRF模型和平均感知机模型.该方法适用于开放领域的属性值获取,具有较好的泛化能力. 相似文献

11.

基于主题特征的关键词抽取 总被引：1，自引：1，他引：1

刘俊邹东升邢欣来李英豪《计算机应用研究》2012,29(11):4224-4227

为了使抽取出的关键词更能反映文档主题,提出了一种新的词的主题特征(topic feature,TF)计算方法,该方法利用主题模型中词和主题的分布情况计算词的主题特征。并将该特征与关键词抽取中的常用特征结合,用装袋决策树方法构造一个关键词抽取模型。实验结果表明提出的主题特征可以提升关键词抽取的效果,同时验证了装袋决策树在关键词抽取中的适用性。相似文献

12.

一种联合抽取疾病、药物以及副作用事件的方法

徐楷姬东鸿《计算机应用研究》2017,34(4)

近几年,关于从医药文献中抽取药物副作用事件的研究,得到了广泛的关注。以前的研究多采用先识别疾病和药物实体后判断实体之间关系的流水线模型。本文提出了一种联合抽取疾病、药物及药物副作用事件的方法。该方法利用结构感知机算法训练模型,并采用多波束搜索算法进行解码。相比于流水线模型,联合抽取方法一方面能够减少错误传播,另一方面能够利用实体识别和关系抽取的交互作用进一步提升整体效果。实验结果表明,联合方法的效果优于流水线方法。另外,本文提出的方法可以有效的扩展到其他领域的实体关系抽取系统。相似文献

13.

基于强化学习的实体关系联合抽取模型

陈佳沣滕冲《计算机应用》2019,39(7):1918-1924

针对现有的基于远程监督的实体和关系抽取方法存在着标签噪声问题，提出了一种基于强化学习的实体关系联合抽取方法。该模型有两个模块：句子选择器模块和实体关系联合抽取模块。首先，句子选择器模块选择没有标签噪声的高质量句子，将所选句子输入到实体关系联合抽取模型；然后，实体关系联合抽取模块采用序列标注方法对输入的句子进行预测，并向句子选择器模块提供反馈，指导句子选择器模块挑选高质量的句子；最后，句子选择器模块和实体关系联合抽取模块同时训练，将句子选择与序列标注一起优化。实验结果表明，该模型在实体关系联合抽取中的F1值为47.3%，与CoType为代表的联合抽取模型相比，所提模型的F1值提升了1%；与LINE为代表的串行模型相比，所提模型的F1值提升了14%。结果表明强化学习结合实体关系联合抽取模型能够有效地提高序列标注模型的F1值，其中句子选择器能有效地处理数据的噪声。相似文献

14.

事件抽取技术研究综述

朱艺娜曹阳钟靖越郑泳智《计算机科学》2022,(12):264-273

事件抽取技术主要研究如何从非结构化自然语言文本中抽取用户感兴趣的事件信息。它是信息抽取领域的一个重要分支,近年来被广泛应用于情报分析、智能问答、信息检索和推荐系统等领域。文中从事件抽取技术概念和任务出发,对事件抽取技术的数据集和方法进行了全面综述,分析了事件抽取任务的技术研究进展,归纳总结了基于模式匹配、机器学习和深度学习的事件抽取方法;根据模型学习方式的不同和使用特征范围大小的差异,侧重介绍了基于深度学习的方法,探讨和分析了不同方法的优缺点;最后对现阶段研究面临的挑战和未来研究趋势进行归纳,针对现阶段事件抽取面临的低资源场景、模型可移植性低和篇章级事件抽取建模难度大等问题总结了当前的研究趋势。相似文献

15.

一种文本信息抽取技术的研究

王涛贾媚《计算机与网络》2007,(9):49-51

文章针对特定领域的中文文本建立了一个信息抽取模型，阐述了根据信息模板和领域特点进行概念分类的方法，介绍了采用隐马尔可夫统计模型进行自动概念标注的过程，提出了运用概念过滤、模板匹配方法进行抽取信息的思路。在模型基础上实现了一个信息抽取实验系统，并通过实验证明了此模型针对特定领域文本是有效的。相似文献

16.

SVM+BiHMM:基于统计方法的元数据抽取混合模型 总被引：3，自引：0，他引：3

张铭银平邓志鸿杨冬青《软件学报》2008,19(2):358-368

提出了一种SVM BiHMM的混合元数据自动抽取方法.该方法基于SVM(support vector machine)和二元HMM(bigram HMM(hidden Markov model),简称BiHMM)理论.二元HMM模型BiHMM在保持模型结构不变的前提下,通过区分首发概率和状态内部发射概率,修改了HMM发射概率计算模型.在SVM BiHMM复合模型中,首先根据规则把论文粗分为论文头、正文以及引文部分,然后建立SVM模型把文本块划分为元数据子类,接着采用Sigmoid双弯曲函数把SVM分类结果用于拟合调整BiHMM模型的单词发射概率,最后用复合模型进行元数据抽取.SVM方法有效考虑了块间联系,BiHMM模型充分考虑了单词在状态内部的位置信息,二者的元数据抽取结果得到了很好的互补和修正,实验评测结果表明,SVM BiHMM算法的抽取效果优于其他方法. 相似文献

17.

一种自动抽取Web信息方法的设计与实现

胡国晴李建华《计算机与现代化》2009,(1)

针对目前Web信息抽取技术实现复杂、维护困难以及抽取速度慢的问题,本文根据Web页面的特点,提出一种新的Web抽取策略.此策略在处理Web页面时降低了处理Web页面的结构的复杂性,提高了Web信息抽取的速度.并根据策略建立了该Web信息自动抽取方法的模型,此模型首先分析页面的结构,根据结构快速生成抽取规则,构建规则库;并对页面抽取的内容进行分析,构建资源库.基于此模型的方法能自主学习,实现自动抽取.这在很大程度上减少了人工参与,并能获得比较好的抽取结果. 相似文献

18.

Web数据抽取技术研究初探

李春艳徐保民《数字社区&智能家居》2009,(35)

该文给出了数据抽取过程中需要的基本定义,描述了数据抽取所基于的页面生成模型。同时给出了EXALG+这种数据抽取方法的基本流程,并给出了这种方法的抽取流程图。相似文献

19.

基于元模型的通用数据抽取技术实现

王向辉《电脑编程技巧与维护》2011,(6):44-45

在数据迁移领域中,数据的抽取是至关重要的组成部分,本文从实际出发,提出了一种基于元模型的数据抽取方法,实现了数据抽取与业务模型在操作层面的分离,解决了因模型变化而导致的数据迁移策略的变化,实现了通用性。相似文献

20.

BERT模型结合实体向量的知识图谱实体抽取方法

陈玮张锐尹钟《小型微型计算机系统》2022,(8):1577-1582

实体抽取是构建知识图谱的重要环节,大多数深度学习模型没有注意到上下文的语义信息和忽略了对于知识实体的处理,因此,实体抽取的准确性有待进一步提高.本文提出了一种BERT模型结合实体向量的知识图谱实体抽取方法.该方法采用基于全词Mask的BERT模型生成句子向量和具有上下文语义的词向量,再将词向量取平均值得到实体向量,通过注意力机制将句子向量与实体向量结合,最后,将结合后的新向量放入条件随机场进行序列标注,找到最优的标签以达到实体抽取的目的.实验结果表明,该方法在人民日报语料库进行实体抽取时,其准确率、召回率和F1值分别为93.01%,90.32%和91.65%.同时,该模型在CoNLL-2003语料库中的实体抽取也具有很好的效果. 相似文献