首页 | 本学科首页   官方微博 | 高级检索  
     

基于多种规则的课程元数据自动抽取
引用本文:杨字,张铭,周宝曜.基于多种规则的课程元数据自动抽取[J].计算机科学,2008,35(3):94-96.
作者姓名:杨字  张铭  周宝曜
作者单位:1. 北京大学信息科学技术学院计算机科学与技术系,北京,100871
2. 惠普中国实验室,北京,100871
基金项目:国家自然科学基金 , 惠普大学合作基金 , 在线课程的组织与管理项目 , 国家自然科学基金 , 广东省网络重点实验室基金
摘    要:在线课程组织和管理系统就是为了使学习更加便利而提供的一个教育资源的集成平台.作为系统中重要环节的元数据抽取模块,需要对半结构化网页能够达到较好的抽取精确性,并具有处理结构松散文档的能力.本文设计并实现了一种按照指定规则自动抽取的元数据方法.该方法能够按照多优先级规则匹配网页元数据.并按照两步抽取的方法进行精细化处理.针对不同的问题域使用不同规则抽取,不需对程序进行特定修改.实验证明,这种方法能够很好地处理半结构化网页,F测度达到85%以上,具有较好的实用价值.

关 键 词:元数据抽取  正则表达式  信息精化

A Rule-based Metadata Extractor for Learning Materials
YANG Yu,ZHANG Ming,ZHOU Bao-Yao.A Rule-based Metadata Extractor for Learning Materials[J].Computer Science,2008,35(3):94-96.
Authors:YANG Yu  ZHANG Ming  ZHOU Bao-Yao
Affiliation:YANG Yu1 ZHANG Ming1 ZHOU Bao-Yao2(School of Electronics Engineering , Computer Science,Peking University,Beijing 100871)1 (HP Labs China,Beijing 100871)2
Abstract:Integrating all kinds of learning material is becoming more and more significant for the teachers and students to take advantage of the online E-learning courses. As the key part of the whole Online Course Organization System,Metadata Extraction function needs to be accurate enough when dealing with semi-structured documents,even those incompact ones.We design and implement a Metadata Extractor to compare between several rules ordered by priority,and there is another step of information refinement to help i...
Keywords:Metadata extraction  Regular expression  Information refinement  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号