首页 | 本学科首页   官方微博 | 高级检索  
     

文本元数据自动抽取算法的研究
引用本文:商杰,陈德华,薛莉芳.文本元数据自动抽取算法的研究[J].计算机应用与软件,2011,28(12).
作者姓名:商杰  陈德华  薛莉芳
作者单位:1. 东华大学计算机科学与技术学院 上海200051
2. 上海万达信息股份有限公司 上海201112
摘    要:提出一种从科技文献等文档中自动抽取元数据的方法,将自动归纳法和相似特征度算法结合起来,基于特征相似的归纳学习算法自动生成抽取规则,并对文档进行元数据的自动抽取。这种方法利用文档自身某些特有属性,对文档的内容进行分块,利用归纳法自动生成抽取规则,并结合特征相似度对生成规则进行匹配,然后对文档元数据信息进行自动抽取,提高了自动生成规则的效率和抽取元数据信息的准确率。

关 键 词:元数据  归纳学习  机器学习  信息抽取  

ON AUTOMATIC TEXTUAL METADATA EXTRACTION ALGORITHM
Shang Jie,Chen Dehua,Xue Lifang.ON AUTOMATIC TEXTUAL METADATA EXTRACTION ALGORITHM[J].Computer Applications and Software,2011,28(12).
Authors:Shang Jie  Chen Dehua  Xue Lifang
Affiliation:Shang Jie1 Chen Dehua1 Xue Lifang2 1(School of Computer Science and Technology,Donghua University,Shanghai 200051,China) 2(Wonders Information Co.,Ltd.,Shanghai 201112,China)
Abstract:This paper presents a new approach for extracting metadata from textual documents of scientific literatures.The approach combines automatic induction method with feature-similarity degree algorithm and automatically generates extraction rules according to feature-similar induction learning algorithm and extracts automatically the metadata from documents.This algorithm utilises some features of the documents of their own to divide the content of document into blocks,and uses induction method to automatically...
Keywords:Metadata Induction learning Machine learning Information extraction  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号