首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
采用树自动机推理技术的信息抽取方法   总被引:1,自引:1,他引:0       下载免费PDF全文
提出了一种利用改进的k-contextual树自动机推理算法的信息抽取技术。其核心思想是将结构化(半结构化)文档转换成树,然后利用一种改进的k-contextual树(KLH树)来构造出能够接受样本的无秩树自动机,依据该自动机接收和拒绝状态来确定是否抽取网页信息。该方法充分利用了网页文档的树状结构,依托树自动机将传统的以单一结构途径的信息抽取方法与文法推理原则相结合,得到信息抽取规则。实验证明,该方法与同类抽取方法相比,样本学习时间以及抽取所需时间上均有所缩短。  相似文献   

2.
基于无秩树自动机的信息抽取技术研究   总被引:1,自引:0,他引:1  
针对目前基于网页结构的信息抽取方法的缺陷,提出了一种基于无秩树自动机的信息抽取技术,其核心思想是通过将结构化(半结构化)文档转换成无秩树,然后利用(k,l)-contextual树构造样本自动机,依据树自动机接收和拒绝状态来对网页进行数据的抽取.该方法充分利用结构,依托树自动机将传统的以单一结构途径的信息抽取方法与文法推理原则相结合,得到信息抽取规则.实验结果表明,该方法与同类抽取方法相比在准确率、召回率以及抽取所需时间上均有所提高.  相似文献   

3.
李涛  李延增  孙伟  赵钢 《计算机应用研究》2010,27(10):3829-3833
针对当前产品结构树生成和更新中存在的数据重复录入问题,给出了产品结构化信息树的定义,能够表达产品任意零部件的产品结构及其关联文档数据,采取文档版本变化驱动产品结构树的版本变化的方法,建立了产品结构化信息树版本模型,提出了一套基于控制锁的版本控制规则,能够对产品结构化信息树的版本变化进行控制,避免了版本冗余。基于版本控制规则,论述了任意零部件文档签出或修订前后产品结构化信息树版本变化的求解方法。按照版本的不同,将项目所属文档按照产品结构树的版本分文件夹地保存在物理硬盘上,便于物理文档的维护和备份。最后通过企  相似文献   

4.
现有的人员简历信息抽取方法无法针对金融公告中非结构化人员简历进行人员属性以及事件的抽取,无法发现金融公告中跨文档的人员之间关系。针对以上问题,将非结构化的人员简历抽取成结构化的人员信息模板,提出一种金融领域人物关系图谱构建方法。通过对BERT预训练语言模型进行训练,抽取出非结构化人员简历文本中的人员属性实体,利用训练好的BERT预训练模型获取事件实例向量,对事件实例向量进行准确的分类,填充层次化的人员信息模板,准确地关联人员属性。进一步地,通过填充好的人员信息模板,提取人员关系,构建人物关系图谱。通过构建人工标注的数据集,进行实验验证。实验表明所提出的方法可以有效解决非结构化金融人员简历文本信息提取问题,有效地构建金融领域人物关系图谱。  相似文献   

5.
刘彤  倪维健 《计算机科学》2015,42(10):275-280, 286
各种专业领域中的文档往往具有显著的结构化特征,即一篇文档往往是由具有不同表达功能的相对固定的多个文本字段构成,同时这些字段蕴含了相关的领域知识。针对专业文档的结构化和领域化特征,设计了一种面向结构化领域文档的信息检索模型。在该模型中,首先对领域文档集进行挖掘以构建能够反映领域知识的结构化模型,之后以此为基础设计了结构化文档检索算法来为用户查询返回相关的领域文档。选择一类典型的领域文档——农技处方开展了应用研究,利用一份现实的农技处方文档数据集将提出的方法与传统的信息检索方法进行了实验对比分析,并开发了农技处方检索原型系统。  相似文献   

6.
为了获取分散Web页面中隐含信息,设计了Web信息抽取系统。该系统首先使用一种改进的HITS主题精选算法进行信息采集;然后对Web页面的HTML结构进行文档的数据预处理;最后,基于DOM树的XPath绝对路径生成算法来获取被标注结点的XPath表达式,并使用XPath语言结合XSLT技术来编写抽取规则,从而得到结构化的数据库或XML文件,实现了Web信息的定位和抽取。通过一个购物网站的抽取实验证明,该系统的抽取效果良好,可以实现相似Web页面的批量抽取。  相似文献   

7.
基于文档树的XML文件转换   总被引:1,自引:0,他引:1  
随着互联网与XML技术的不断发展,实现XML文件与非结构化的文本文件之间的相互转换的要求日趋提高,针对该问题,文章提出了一种基于文档树的XML文件转换方法。该方法通过文档树的形式描述文本文件的结构与内容,在特定的映射规则下对文档树进行遍历以实现RTF文件为代表的文本文件与XML文件的相互转换,最后介绍了文档树的构造及相关算法.  相似文献   

8.
基于隐马尔可夫模型的Web信息抽取   总被引:1,自引:1,他引:0       下载免费PDF全文
刘亚清  陈荣 《计算机工程》2009,35(18):25-27
针对Web信息抽取领域中存在的“项缺失”和“项无序”问题,提出一种基于隐马尔可夫模型的Web信息抽取方法。将Web文档解析为一棵扩展的DOM树,映射待抽取的信息项为状态,映射待抽取的信息项在扩展DOM树中的路径为词汇,使用归纳算法构造隐马尔可夫模型。实验结果证明该方法可以获得更好的抽取性能。  相似文献   

9.
针对目前文档级别关系抽取主要关注实体间的逻辑推理,未充分利用实体间的层次语义信息问题,提出一种基于实体层次结构的文档级别关系抽取模型。考虑多句文本中实体间的交互,将实体构建为文档图并使用图卷积神经进行信息传播;通过实体间的上下位关联构建实体层次树,使用注意力机制将层次语义信息融入实体;为降低模型对实体表面信息的关注,使用实体类型对实体词进行替换。实验结果表明,在大规模文档级别关系抽取数据集上实体语义信息增强的方案能够有效提高文档级别关系抽取的效果。  相似文献   

10.
基于文档句构建无向图,将主题句的抽取问题转换为无向图中节点的权重计算问题。首先利用滑窗方法抽取主题词,构建空间向量并生成无向图,然后基于向量空间模型计算边权重,最后利用文档句相似度矩阵的权重模型对文档句权重进行建模与计算,依据压缩比得到文档的主题句。实验表明,该方法在不同的压缩比下生成的摘要质量高,主题句抽取结果接近于人工摘要,召回率和准确率综合指数较高。  相似文献   

11.
文档分类是自然语言处理(NLP)领域中的一个基本问题。近年来,尽管针对这一问题的层级注意力网络已经取得了进展,但由于每条句子被独立编码,使得模型中使用的双向编码器仅能考虑到所编码句子的相邻句子,仍然集中于当前所编码的句子,并没有有效地将文档结构知识整合到体系结构中。针对此问题,提出一种上下文感知与层级注意力网络的文档分类方法(CAHAN)。该方法采用分层结构来表示文档的层次结构,使用注意力机制考虑文档中重要的句子和句子中重要的单词因素,在单词级和句子级不仅依赖双向编码器来获取上下文信息,还通过在单词级注意机制中引入上下文向量,使单词级编码器基于上下文信息做出注意决策全面获取文本的上下文信息,从而提取出深度文档特征。此外,还利用门控机制准确地决定应该考虑多少上下文信息。在两个标准数据集上的实验结果表明,提出的CAHAN模型较长短时记忆网络(LSTM)、卷积神经网络(CNN)、分层注意网络(HAN)等模型分类效果更好,能够提高文档分类任务的准确度。  相似文献   

12.
文本摘要旨在实现从海量的文本数据中快速准确地获取关键信息。为探索新颖的摘要句特征因素,该文将文句中的关键词嵌入知识网络进行建模,并将文句映射至知识网络进行表达,进而提出文句的关键词建构渗透度特征模型,在摘要句判别中引入文句中关键词组的宽度和深度的渗透特性。结合最大熵建模分类方法,针对领域语料库进行不同特征的影响系数建模,实现了监督学习下摘要句的有效分类和自动提取。文中实验结果良好,表明了新特征模型的有效性和在领域语料库中的稳定性,且特征计算方法简洁,具有良好的综合实用性。  相似文献   

13.
句子相似度是衡量文档相似度的基础,在自然语言处理领域中有着非常重要的作用。目前的句子相似度计算方法忽略了句子的结构对相似度的影响。本文在分析已有研究工作的基础上,提出了一种改进的句子相似度计算方法。依据知网对"实体概念"的描述,构造出义原的语义层次树,由各个义原在树中的相对位置,计算出义原之间的相似度。对三种义原加权求和得到词语之间的语义相似度。综合句子的表层相似度和句子的词语语义以及词语的相对位置关系,得到句子的整体相似度。实验表明,在同等的测试条件下,本文所提出的句子相似度计算方法在相似度比较上更符合人的直观感觉。  相似文献   

14.
基于句子级别的抽取方法不足以解决中文事件元素分散问题。针对该问题,提出基于上下文融合的文档级事件抽取方法。首先将文档分割为多个段落,利用双向长短期记忆网络提取段落序列特征;其次采用自注意力机制捕获段落上下文的交互信息;然后与文档序列特征融合以更新语义表示;最后采用序列标注方式抽取事件元素并匹配事件类型。与其他事件抽取方法在相同的中文数据集上进行对比,实验结果表明,该方法能有效抽取文档中分散的事件元素,并提升模型的抽取性能。  相似文献   

15.
针对现有多文档抽取方法不能很好地利用句子主题信息和语义信息的问题,提出一种融合多信息句子图模型的多文档摘要抽取方法。首先,以句子为节点,构建句子图模型;然后,将基于句子的贝叶斯主题模型和词向量模型得到的句子主题概率分布和句子语义相似度相融合,得到句子最终的相关性,结合主题信息和语义信息作为句子图模型的边权重;最后,借助句子图最小支配集的摘要方法来描述多文档摘要。该方法通过融合多信息的句子图模型,将句子间的主题信息、语义信息和关系信息相结合。实验结果表明,该方法能够有效地改进抽取摘要的综合性能。  相似文献   

16.
并购重组类公告是上市公司进行信息披露的重要组成,属于具有一定格式规范的自由长文本。针对公告文本特点,借鉴降维思想,提出规则法和序列标注法相结合的联合信息抽取方案。采用规则法,抽取关键句子集合,将“篇章级”抽取缩小为“句子级”抽取;采用序列标注法,构建基于双向门控循环(BiGRU)网络和注意力机制(Attention)的序列标注模型,实现“句子级”到“字段级”的抽取。实验结果表明,该方案在并购重组类公告信息抽取任务中,取得了平均F1值0.92的较好结果,验证其具有一定的可行性和实用性。  相似文献   

17.
考虑到不同句子对判断文档情感倾向的重要程度不同,因而区分文档的关键句和细节句将有助于提高情感分类的性能。同时,考虑到Title和上下文信息,提出了一种基于Title和加权TextRank抽取关键句的情感分析方法SKTT,实现了高效的情感分析。根据文档Title的情感权重计算Title贡献度,考虑到标点和语义规则对情感倾向的影响;根据加权TextRank算法思想,在文档正文中构建了一个情感句有向图来提取关键句;计算所有关键句的情感倾向进行情感分类。在4个领域上进行实验,实验结果表明,该SKTT方法性能明显优于Baseline,具有高效性。  相似文献   

18.
事件抽取是信息抽取领域的一个研究热点。在新冠肺炎疫情常态化下,利用事件抽取技术可以筛选出有价值的信息。然而事件抽取领域缺乏精标注的新冠新闻训练数据集,且因部分事件的复杂性,论元不只存在于一句话中,需要多个句子才能完整描述一个事件。因此,首先构建新冠肺炎新闻数据集,接着提出一种三阶段的管道方法实现从篇章中抽取新冠肺炎事件。该方法对数据集进行事件类型分类;进行事件句的抽取;实现篇章级论元抽取。实验结果表明提出的方法能够减少事件分类时间,抽取两个事件句的条件下,对数据通报类论元识别效果最好,准确率、召回率和F1值达到75.0%、73.0%,和74.0%,证明方法能有效抽取新冠肺炎相关篇章级事件。  相似文献   

19.
目前,基于卷积神经网络和循环神经网络的方面级情感分析研究工作较少同时考虑到句子的句法结构和词语的语法距离,且卷积神经网络和循环神经网络无法有效地处理图结构的数据.针对上述问题,提出了一种基于距离与图卷积网络的方面级情感分类模型.首先,为该模型设计了一个具有残差连接的双层双向长短期记忆网络,用于提取句子的上下文信息;然后,根据句法依赖树得到词语的语法距离权重,并根据词语之间的句法关系构建邻接矩阵;最后,采用图卷积网络结合句子的上下文信息、语法距离权重和邻接矩阵提取方面的情感特征.实验结果表明,模型是有效的且可获得更好的性能.  相似文献   

20.
文本摘要是指对文本信息内容进行概括、提取主要内容进而形成摘要的过程。现有的文本摘要模型通常将内容选择和摘要生成独立分析,虽然能够有效提高句子压缩和融合的性能,但是在抽取过程中会丢失部分文本信息,导致准确率降低。基于预训练模型和Transformer结构的文档级句子编码器,提出一种结合内容抽取与摘要生成的分段式摘要模型。采用BERT模型对大量语料进行自监督学习,获得包含丰富语义信息的词表示。基于Transformer结构,通过全连接网络分类器将每个句子分成3类标签,抽取每句摘要对应的原文句子集合。利用指针生成器网络对原文句子集合进行压缩,将多个句子集合生成单句摘要,缩短输出序列和输入序列的长度。实验结果表明,相比直接生成摘要全文,该模型在生成句子上ROUGE-1、ROUGE-2和ROUGE-L的F1平均值提高了1.69个百分点,能够有效提高生成句子的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号