首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
吕锋  余丽 《微机发展》2007,17(6):53-55
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。  相似文献   

2.
基于XML的Web数据抽取研究   总被引:1,自引:0,他引:1  
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。  相似文献   

3.
针对金融类公告中的结构化数据难以被高效快速提取的问题,提出一种基于文档结构与Bi-LSTM-CRF网络模型的信息抽取方法。自定义一种文档结构树生成算法,利用规则从文档结构树中抽取所需节点信息;构建基于信息句触发词的局部句子规则,抽取包含结构化字段信息的信息句;将字段的结构化信息抽取看作序列标注问题,分词时加入领域知识词典,构建基于Bi-LSTM-CRF的神经网络模型进行字段信息识别。实验结果表明,该信息抽取方法可以满足多类型公告的结构化信息提取,最终的信息句与字段信息抽取的平均F1值均可达到91%以上,验证了该方法在产品业务中的可行性和实用性。  相似文献   

4.
半结构化文档中非标记化表格的抽取   总被引:2,自引:0,他引:2  
宋强  徐鹏  李涓子 《计算机工程》2005,31(18):81-83,171
对非标记化表格进行数据建模,利用非标记化表格在文档中的结构分布特征,给出了非标记化表格的抽取算法.对非标记化表格进行行列划分,然后进行标题归纳和单元格合并.实验结果表明,论文提出的算法的正确性令人满意.  相似文献   

5.
在中国裁判文书网上的开源刑事判决文档中蕴藏着重要的法律信息,但刑事判决书文档通常以自然语言的形式进行记录,而机器难以直接理解文档中的内容。为使由自然语言记录的非结构化刑事判决书文本转化为结构化三元组形式,构建一种面向法律文本的司法三元组抽取模型。将三元组抽取过程看作二阶段流水线结构,利用预训练的基于Transformer的双向编码器表示模型先进行命名实体识别,再将识别结果应用于关系抽取阶段得到相应的三元组表示,从而实现对非结构化刑事判决书文本的信息提取。实验结果表明,在经过人工标注的刑事判决书数据集上,该模型相比基于循环神经网络的组合模型的F1值提高了28.1个百分点,具有更优的三元组抽取性能。  相似文献   

6.
许建潮  胡明 《计算机工程与应用》2003,39(10):108-109,123
格机是一种新颖的有监督学习方法。论文扩展了格机的等标注概念,提出了交集标注的概念,以解决决策系统中的同条件多决策值问题,并将其用于非结构化的文本分类领域。作者用自动抽取的代表文档特征的关键词表示文档,用交集标注缩减数据,对新文本作分类预测。给出了求交集标注的算法。实验表明扩展后的格机是很好的文本分类学习方法。  相似文献   

7.
现有的人员简历信息抽取方法无法针对金融公告中非结构化人员简历进行人员属性以及事件的抽取,无法发现金融公告中跨文档的人员之间关系。针对以上问题,将非结构化的人员简历抽取成结构化的人员信息模板,提出一种金融领域人物关系图谱构建方法。通过对BERT预训练语言模型进行训练,抽取出非结构化人员简历文本中的人员属性实体,利用训练好的BERT预训练模型获取事件实例向量,对事件实例向量进行准确的分类,填充层次化的人员信息模板,准确地关联人员属性。进一步地,通过填充好的人员信息模板,提取人员关系,构建人物关系图谱。通过构建人工标注的数据集,进行实验验证。实验表明所提出的方法可以有效解决非结构化金融人员简历文本信息提取问题,有效地构建金融领域人物关系图谱。  相似文献   

8.
文档表示模型可以将非结构化的文本数据转化为结构化数据,是多种自然语言处理任务的基础,而目前基于词的模型在文档表示任务中有着无法直接表示文档的缺陷。针对此问题,基于生成对抗网络GAN可以使用两个神经网络进行对抗学习,从而很好地学习到原始数据分布的特点,提出了文档表示模型WADM,使用去噪自编码器作为其判别网络,由其隐层直接得到文档的分布表示。实验表明,WADM能够准确抽取文档特征,相比基于词的模型具有更强的文档表示能力。  相似文献   

9.
大数据时代下,爆炸式增长的非结构化数据中蕴含着大量有价值的信息,对其进行识别和提取变得越发重要。表格是典型的高价值密度非结构化数据,为了识别表格的功能结构,并提高模型的通用性和结果的易用性,针对表格单元格分类提出一个端到端不完全监督方法。设计了基于视觉可见的特征选取方案来提高通用性,提出基于规则的自动修正算法用于改善单元格分类的效果,让用户对结果进行再次修正并将结果作为额外的训练数据参与模型训练来提高模型不同场景下的适应性。最后将方法实现为端到端工具,在提高便捷性的同时使得修正后的数据可直接导出用于下游任务。实验结果表明,提出的方法在多个指标上对比基线方法均有提升,同时在一定程度上提高了结果的易用性。  相似文献   

10.
随着Internet技术的发展,万维网上的文档数目成指数级增长。在如此浩瀚的信息库中,用户很难找到自己所需要的信息,如何自动且高效地处理这些海量文档信息成为了目前重要的研究课题。文章通过对抽取到的数据集文档中的标题,超连接和标记等超文本信息,以及文档内容本身分别建立分类模型。然后根据神经网络集成各个分类模型得出判别结果,提出了一种基于元信息的超文本集成分类算法,该算法能更好的综合利用超文本的多元结构化信息。实验结果表明,相对于单独利用某种超文本结构信息进行分类的方法。基于元信息的超文本集成分类算法具有更好的分类性能。  相似文献   

11.
事件抽取旨在从非结构化的文本中抽取出人们感兴趣的事件信息并对其进行结构化表示。事件抽取具有广泛的应用,包括自动问答、机器翻译、推荐系统、信息检索、知识图谱构建等。现有的事件抽取研究综述,主要围绕句子级的事件抽取任务和实现方法展开。但事件的描述、事件元素和元素角色通常分布在整篇文档的多个句子中,更完整的事件抽取应从文档层面进行,即进行文档级事件抽取。近年来,随着深度学习技术的发展和多个文档级事件抽取数据集的公开发布,使文档级事件抽取受到了广泛的关注。该文对文档级事件抽取的相关研究进行了全面的综述:首先介绍了文档级事件抽取任务的定义和常用数据集,然后对典型方法进行了梳理和分析,最后对未来的研究方向进行了展望。  相似文献   

12.
Web的迅速发展,使其日益成为人们查找有用数据的重要来源,但是Web站点主题各异、形式多样、结构不同,其页面组织结构很难用系统的方法来有效抽取目标数据.文中将使用Asp. Net技术开发一种基于Web内容的数据自动抽取方法.首先选择目标数据源并自动调用获取其静态html文档内容,然后根据约定规则生成网页描述文件,分析html文档,设定目标锚,最后利用正则表达式和c#技术自动抽取目标数据并生成所需Web页面.这种数据自动抽取方法可以使Web用户快捷地从结构化、半结构化网页中抽取其所需的数据信息  相似文献   

13.
裴松  武彤 《微型机与应用》2013,32(17):56-59
为从企业生产线上XML半结构化数据中抽取富有意义数据,分析了XML半结构化数据和关系数据库中结构化数据特点,以及XML半结构化数据在关系数据库中的存储方法。针对实际应用,提出采用扩展哈弗曼前缀编码方法,对XML文档树进行唯一编码,实现XML文档与关系数据库映射,同时给出最长前缀匹配策略,支持数据查询,以提高查询效率。  相似文献   

14.
传统的信息集成虚拟方法通常采用Wrapper技术实现结构化异构数据的抽取。针对Wrapper与结构化异构数据源间一对一关系的非灵活性,提出了一种基于公共仓库元模型CWM(Common Warehouse Metamodel)的信息集成架构,利用CWM独立于任何具体实现的优势,在其基础上生成的Wrapper程序可以很好地适用于与之相关的所有结构化异构数据源的抽取。CWM元模型所提供的统一文档类型定义(DTD),使结构化异构数据源拥有了统一的XML表达方式,从而使抽取后的信息可以进行更有效的共享和转换。  相似文献   

15.
用XML在Word文档表格中转换非结构化数据   总被引:1,自引:0,他引:1  
非结构化数据广泛存在于各种应用系统中,对非结构化数据进行管理以及通过转换成为结构化数据是非常重要的.XML语言非常适合用于数据存储与数据交换.本文使用Microsoft visual Studio 2005开发了基于XML的非结构化数据转换工具.该工具可以把Microsoft word表格中的文本数据转换成可以导入到数据库中的纯文本数据文件.使用该工具,可以完成类似的非结构化数据的转换工作.  相似文献   

16.
《软件工程师》2019,(10):1-6
互联网中的HTML表格蕴含着丰富的结构化或半结构化知识,是知识库构建与扩充的重要数据资源。然而如何对HTML表格进行正确解析并获得三元组知识用于扩充知识库,则是一个很有挑战的问题。首先,HTML表格的结构各有不同。其次,表格与知识库中的实体和属性的表示不同,需要统一,即实体链接与属性对齐。本文首先提出了一个基于知识库的在线百科表格解析与知识融合框架,该框架可针对不同类别的表格进行知识抽取;并提出了基于知识库的表格实体链接和属性对齐方法,用以将表格中的知识与知识库进行匹配与融合。实验使用了126万在线百科表格数据为CN-DBpedia扩充约1000万三元组。  相似文献   

17.
基于无秩树自动机的信息抽取技术研究   总被引:1,自引:0,他引:1  
针对目前基于网页结构的信息抽取方法的缺陷,提出了一种基于无秩树自动机的信息抽取技术,其核心思想是通过将结构化(半结构化)文档转换成无秩树,然后利用(k,l)-contextual树构造样本自动机,依据树自动机接收和拒绝状态来对网页进行数据的抽取.该方法充分利用结构,依托树自动机将传统的以单一结构途径的信息抽取方法与文法推理原则相结合,得到信息抽取规则.实验结果表明,该方法与同类抽取方法相比在准确率、召回率以及抽取所需时间上均有所提高.  相似文献   

18.
提出一种比较XML文档这种半结构化数据流的模糊技术,并在此基础之上进行分类,主要包括基于结构的文档分类以及基于内容的文档分类。该方法建立在XML文档片段的平面编码基础之上,将XML文档表示成模糊包的形式,使用比较函数,计算出它们结构的相似性。在对XML文档进行基于结构的分类以后,可以进一步考虑其内容,以获得更细的分类。  相似文献   

19.
Lotus Notes是基于文档的非结构化数据,关系数据库采用结构化数据,Lotus Notes使用ODBC标准存取关系数据库信息。本文以SYBASE数据库为例,介绍了在Lotus Notes中访问外部关系型数据库的具体实现方法。  相似文献   

20.
刘云峰 《计算机工程》2010,36(12):83-84
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径聚类的文本信息抽取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号