首页 | 本学科首页   官方微博 | 高级检索  
     

论文元数据信息的自动抽取
引用本文:李朝光,张铭,邓志鸿,杨冬青,唐世渭.论文元数据信息的自动抽取[J].计算机工程与应用,2002,38(21):189-191.
作者姓名:李朝光  张铭  邓志鸿  杨冬青  唐世渭
作者单位:1. 北京大学视觉与听觉处理国家重点实验室,北京,100871
2. 北京大学视觉与听觉处理国家重点实验室,北京,100871;北京大学计算机科学与技术系,北京,100871
3. 北京大学计算机科学与技术系,北京,100871
基金项目:国家重点基础研究发展规划“973项目”(编号:G1999032705),北京大学“创建世界一流大学计划”学科建设项目“985项目
摘    要:为了实现在Web上电子版论文结构的查询,必须提取这些论文的标题、作者、摘要和关键字等元数据信息。在北京大学数字图书馆科技文献检索系统中利用正则表达式规则对论文元数据信息进行自动抽取。该文介绍的这种方法充分利用了论文所特有的结构,在不采用语法分析等复杂的自然语言处理手段的情况下取得了很好的效果,为面向特定领域的元信息抽取作了有益的研究和探索。

关 键 词:元数据信息抽取正则表达式规则
文章编号:1002-8331-(2002)21-0189-03
修稿时间:2002年6月1日

Automatic Metadata Extraction for Scientific Documents
Li Chaoguang Zhang Ming , Deng Zhihong Yang Dongqing Tang Shiwei.Automatic Metadata Extraction for Scientific Documents[J].Computer Engineering and Applications,2002,38(21):189-191.
Authors:Li Chaoguang Zhang Ming  Deng Zhihong Yang Dongqing Tang Shiwei
Affiliation:Li Chaoguang 1 Zhang Ming 1,2 Deng Zhihong 1 Yang Dongqing 1 Tang Shiwei 21
Abstract:In order to query structured information of Web documents,it's vital to extract title,author,abstract and
Keywords:metadata from these documents  This paper introduces a metadata extractor based on regular expression rules  which is used in the knowledge navigation system at Peking University Digital Library  By  taking full advantage of the nature structure o
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号