首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 312 毫秒
1.
基于扩展领域模型的有名属性抽取   总被引:1,自引:0,他引:1  
网页信息抽取是互联网挖掘的重要课题.为了自动化抽取过程,最新的研究利用特定领域的特征,通过机器学习方法对信息抽取过程进行统一建模.但是,对领域特征的依赖使得这类方法难以推广到其他领域中去.因此,对信息抽取问题进行了分析,从中分离出一个可以完全自动化的信息抽取子任务,即有名属性抽取任务.在多个领域的数据集上进行的统计表明,这个子任务覆盖了60%以上的待抽取属性,因此它在整个信息抽取中占有重要地位.并给出了一种基于扩展领域模型的有名属性抽取方法,实验结果表明,这种方法的准确率接近或大于80%,召回率大于90%.  相似文献   

2.
王浩畅  郑冠彧  赵铁军 《软件学报》2024,35(7):3377-3391
对于合同文本中要素和条款两类信息的准确提取, 可以有效提升合同的审查效率, 为贸易各方提供便利化服务. 然而当前的合同信息抽取方法一般训练单任务模型对要素和条款分别进行抽取, 并没有深挖合同文本的特征, 忽略了不同任务间的关联性. 因此, 采用深度神经网络结构对要素抽取和条款抽取两个任务间的相关性进行研究, 并提出多任务学习方法. 所提方法首先将上述两种任务进行融合, 构建一种应用于合同信息抽取的基本多任务学习模型; 然后对其进行优化, 利用Attention机制进一步挖掘其相关性, 形成基于Attention机制的动态多任务学习模型; 最后针对篇章级合同文本中复杂的语义环境, 在前两者的基础上提出一种融合词汇知识的动态多任务学习模型. 实验结果表明, 所提方法可以充分捕捉任务间的共享特征, 不仅取得了比单任务模型更好的信息抽取结果, 而且能够有效解决合同文本中要素与条款间实体嵌套的问题, 实现合同要素与条款的信息联合抽取. 此外, 为了验证该方法的鲁棒性, 在多个领域的公开数据集上进行实验, 结果表明该方法的效果均优于基线方法.  相似文献   

3.
在临床文本中,时间关系对于研究患者的病情和治疗方案至关重要。而目前的时间关系抽取基于简单时间比较,仅判断4种时间关系。考虑中文临床文本中还存在大量的复杂时间和关系,现有时间关系抽取任务不能全部表达临床事件的时间关系,参考CTO时间本体将抽取任务扩展为复杂时间关系抽取。同时针对中文临床文本语义的复杂性,提出了融合依存句法和实体信息的模型学习中文句子的整体信息和实体信息。该模型针对句内时间关系和句间时间关系设计依存特征矩阵引导BERT的编码器聚合全局信息和局部信息,然后导出句子表征向量,在此基础上使用内积和哈达玛积提取丰富的实体信息,最终将句子信息和实体信息导入分类器判断时间关系。与基线模型和其他深度学习模型相比,证明了该模型的有效性。  相似文献   

4.
钱忠  李培峰  周国栋  朱巧明 《软件学报》2018,29(8):2427-2447
不确定和否定信息抽取是自然语言处理领域中的重要任务和研究热点.针对不确定和否定作用范围识别任务,本文提出了一种基于两层双向LSTM神经网络的作用范围识别方法.首先,对于从线索词到达词语的句法路径,本文使用第一层双向LSTM神经网络从中学习到有用特征.接着,本文将词法特征与句法路径特征一起组成当前词语的特征表示.最后,本文将作用范围识别问题看作序列标注任务,利用第二层双向LSTM神经网络界定当前线索词的作用范围.实验结果表明,本文提出的模型优于其它神经网络模型,并在BioScope生物医学语料上取得了良好性能.其中,在Abstracts子语料上的不确定和否定作用范围识别精确率分别达到86.20%和80.28%.  相似文献   

5.
现有的信息抽取工作多是针对无层次结构的数据信息,而在实际任务中,文本中的数据常常具有复杂的嵌套层次结构,如文档中包含多个不同类型的信息块序列,每个块中又包含了一个独立的信息序列.针对具有层级结构的信息抽取问题,提出一种基于联合序列标注的层级信息抽取方法.一方面使用BiLSTM-CNN-CRF模型分别对不同层级的数据进行建模,另一方面通过联合学习方法实现层次级的信息抽取,使得不同层次的信息抽取任务能够同时而有效地进行信息交互和独立抽取,提高了信息抽取任务的准确率.  相似文献   

6.
事件抽取旨在把含有事件信息的非结构化文本以结构化的形式予以呈现。现有的基于监督学习的事件抽取方法往往受限于数据稀疏和分布不平衡问题,具有较低的召回率。针对这一问题,该文提出一种利用框架语义优化事件抽取的方法,引入框架类型作为泛化特征,在此基础上进行框架类型和事件类型的映射,然后结合框架类型识别模型和事件类型识别模型进行协作判定,以此优化事件抽取的召回性能。实验结果显示,针对触发词(事件类型)识别任务,相较于仅使用事件类型识别模型,该文提出的框架语义辅助的事件类型识别模型能够提高抽取召回率6.44%(5.74%),提高F值1.45%(0.83%)。  相似文献   

7.
事件抽取技术主要研究如何从非结构化自然语言文本中抽取用户感兴趣的事件信息。它是信息抽取领域的一个重要分支,近年来被广泛应用于情报分析、智能问答、信息检索和推荐系统等领域。文中从事件抽取技术概念和任务出发,对事件抽取技术的数据集和方法进行了全面综述,分析了事件抽取任务的技术研究进展,归纳总结了基于模式匹配、机器学习和深度学习的事件抽取方法;根据模型学习方式的不同和使用特征范围大小的差异,侧重介绍了基于深度学习的方法,探讨和分析了不同方法的优缺点;最后对现阶段研究面临的挑战和未来研究趋势进行归纳,针对现阶段事件抽取面临的低资源场景、模型可移植性低和篇章级事件抽取建模难度大等问题总结了当前的研究趋势。  相似文献   

8.
自然语言中存在大量不确定的表述,针对此类信息的检测任务是信息抽取领域的研究热点之一,然而,面向中文的不确定信息检测研究仍然比较匮乏,利用支持向量机(Support Vector Machine,SVM)能够很好的解决非线性、高维数、局部小样本等实际问题的优势,将中文不确定性信息识别问题转化为分类问题,通过在复旦大学发布的中文不确定性检测数据集语料上的实验,验证了本文提出的基于SVM的中文不确性信息检测方法的有效性,相比于句子评分模型,我们的系统取得了更好的召回率.  相似文献   

9.
基于指代消解的中文事件融合方法   总被引:1,自引:0,他引:1  
事件抽取是信息抽取领域的一个重要的研究方向.针对事件抽取获得的信息不完整和语义不明确的特点,在此基础上引入指代消解和信息融合理论,通过事件元素归一化和互指事件的合并,在数据和特征两个层次上对事件信息进行融合,进一步明确和完善事件信息,并在不损失信息的情况下精简整个信息系统的信息量.在裁员事件的融合实验中正确率达到86.9%.  相似文献   

10.
姜小波  何昆  阎广瑜 《软件学报》2023,34(12):5649-5669
实体识别是信息抽取的关键任务.随着信息抽取技术的发展,研究人员从简单实体的识别转向复杂实体的识别.然而,复杂实体缺乏明显的特征且在句法结构与词性组成上更加复杂多样,给实体识别带来了巨大挑战.此外,现有模型广泛采用基于跨度的方法来识别嵌套实体,在实体边界检测方面呈现出模糊化,影响识别的性能.针对这些问题和挑战,提出了一种基于语义先验知识与类型嵌入的实体识别模型GIA-2DPE.该模型使用实体类别的关键词序列作为语义先验知识来提升对实体的认知,并通过类型嵌入捕获不同实体类型的潜在特征,然后通过门控交互注意力机制将先验知识与类型特征相融合以辅助复杂实体识别.另外,模型通过2D概率编码来预测实体边界,并利用边界特征和上下文特征来增强对边界的精准检测,从而提升嵌套实体的识别效果.在7个英文数据集和2个中文数据集上进行了广泛实验.结果表明, GIA-2DPE超越了目前最先进的模型;并且在ScienceIE数据集的实体识别任务中,相对基线F1分数取得了最高10.4%的提升.  相似文献   

11.
Web页面信息块的自动分割   总被引:8,自引:2,他引:8  
随着Internet的发展,Web页面数量的急剧增加,如何快速有效地获取信息变得越来越重要。一类Web页面往往包含着多个信息单元,它们在展现上排列紧凑、风格相似,在HTML语法上具有类似的模式,例如一个BBS页面上多个发言,每个信息被称为一个信息块。对于信息抽取、信息过滤等应用,需要首先将原始页面中分割为若干合适的信息块以便于后续的处理。本文提出了一种自动将Web页面分割为信息块的方法:首先通过创建Web页面结构化的HMTL分析树,然后根据包含有效文本量等确定包含信息块的子树,最后根据子树深度信息利用2-rank PAT算法进行分割。通过对BBS页面的信息块抽取实验,证明了该方法的有效性。  相似文献   

12.
针对实体关系抽取任务中的三元组重叠问题,基于编码器-解码器结构的联合抽取方法能够通过序列生成的方式加以解决。但现有方法没有充分利用实体类别信息,而实体类别信息对于构建更丰富的语义特征并进一步优化关系模型的效果具有重要意义。在使用编码器-解码器结构的基础上,融合实体类别信息构建实体关系联合抽取模型FETI。编码器采用经典Bi-LSTM结构,解码器采用树状解码替代传统的一维线性解码。同时,在解码阶段增加头尾实体类别的预测,并通过辅助损失函数进行约束,使模型能够更有效地利用实体类别信息。在百度公开的中文数据集DuIE上进行实验,结果表明,FETI的F1值达到0.758,相对于CopyMTL、WDec、MHS、Seq2UMTree模型提升了2.02%~9.86%,验证了融合实体类别信息对于提升实体关系抽取模型性能的有效性。此外,基于不同解码顺序和不同权重损失函数的实验结果表明,解码顺序对模型性能影响较大,而对主要任务的损失函数赋予较高权重,能够保证辅助任务为主要任务提供有效的背景知识,同时限制噪声的影响。  相似文献   

13.
Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础。在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法。在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息。实验证明,这种方法具有很好的准确率及召回率。  相似文献   

14.
目前多数抽取方法主要针对主题信息块的提取,未深入到各单独信息块。为此,设计一种基于DOM树的视频元数据抽取系统。通过改进Heritrix的链接过滤功能和URL队列管理策略,结合网页DOM树节点类型,从各单独信息块中抽取网页元数据。实验结果表明,该系统的网页平均查准率为95.7%,平均抽取准确率为98.4%,高于同类系统。  相似文献   

15.
To solve skeleton extraction problems in the tree point cloud model, branch geometric features and local properties of point cloud are utilized to optimize tree skeleton extraction. First of all, according to the attribute information estimation and normal vector adjustment of point cloud neighbor domain, branch segmentation is made by estimated values and geometric features. Skeleton nodes are extracted in the branch subset in segmentations. Then, a graph is constructed based on skeleton node set and tree skeleton is reconstructed in this weighted directed graph. Finally, according to the tree growth characteristics, cubic Hermite curves are utilized to optimize the skeleton curve. This method is applied in the point cloud model of three-kind trees and it is compared with the skeleton extraction method based on voxel switch and point cloud contraction. The experiment results show that this method displays strong anti-interference and high-precision characteristics at branch bifurcation and crossed ending parts of fine tree branches. Thus, features of tree branches can be described more perfectly, obtaining the skeleton curve closer to the main axis.  相似文献   

16.
基于隐马尔可夫模型的Web信息抽取   总被引:1,自引:1,他引:0       下载免费PDF全文
刘亚清  陈荣 《计算机工程》2009,35(18):25-27
针对Web信息抽取领域中存在的“项缺失”和“项无序”问题,提出一种基于隐马尔可夫模型的Web信息抽取方法。将Web文档解析为一棵扩展的DOM树,映射待抽取的信息项为状态,映射待抽取的信息项在扩展DOM树中的路径为词汇,使用归纳算法构造隐马尔可夫模型。实验结果证明该方法可以获得更好的抽取性能。  相似文献   

17.
面向并行设计的特征识别与模型重构方法   总被引:6,自引:2,他引:6  
在分析现有CAD软件以及产品建模方法不足的基础上,引入广义工程语义特征的概念,应用广义特征对象实现面向并行设计的产品广义信息模型的简化表示;提出一种自动特征识别方法,对识别对象进行分类;以截面复杂的回转体特征为例,着重表述了基于基面的特征识别算法;扼要介绍Pro/E软件中的特征结构树,提出面向Pro/E的特征信息三级提取策略与特征信息模型重构原则,并据此开发了DFX原型系统.  相似文献   

18.
针对基于特征点法的视觉里程计中的特征点提取问题,提出一种基于互信息和语义分割不确定性的特征点选择算法。算法依据特征点的语义信息和几何信息,保留提取于潜在静态物体的特征点。算法根据语义上下文信息对特征点的语义不确定性进行修正,并根据特征点的信息熵变化量对特征点进行筛选。最后,用公开的KITTI视觉里程计数据集评估上述算法,并与其他算法的实验结果对比。结果表明,该算法能够实现更准确的位姿估计,验证了算法的有效性和可行性。  相似文献   

19.
基于DOM的网页主题信息自动提取   总被引:43,自引:0,他引:43  
Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性,信息提取有助于解决这一问题.基于DOM规范,针对HTML的半结构化特征和缺乏语义描述的不足,提出含有语义信息的STU-DOM树模型.将HTML文档转换为STU-DOM树,并对其进行基于结构的过滤和基于语义的剪枝,能够准确地提取出主题信息.方法不依赖于信息源,而且不改变源网页的结构和内容,是一种自动、可靠和通用的方法.具有可观的应用价值,可应用于PAD和手机上的web浏览以及信息检索系统.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号