基于Ontology的Web内容二阶段半自动提取方法 Ontology-Based Two-Phase Semi-Automatic Web Extracting期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于Ontology的Web内容二阶段半自动提取方法

引用本文：	高军,王腾蛟,杨冬青,唐世渭.基于Ontology的Web内容二阶段半自动提取方法[J].计算机学报,2004,27(3):310-318.

作者姓名：	高军王腾蛟杨冬青唐世渭

作者单位：	北京大学视觉与听觉处理国家重点实验室,北京,100871;北京大学信息科学技术学院,北京,100871

基金项目：	国家“九七三”重点基础研究发展规划项目基金 (G1 9990 32 70 5 )，国家“八六三”高技术研究发展计划项目基金 ( 2 0 0 2AA4Z34 40 )资助

摘要：	目前Web中的海量信息已经成为人们重要的信息来源，如何从大量半结构化或无结构的HTML网页中提取信息已成为目前的研究热点．但是Web页面的初始设计目的是为了方便用户浏览，而不是便于应用程序自动处理，如何实现一个精确的、应用广泛的提取系统面临很多困难．传统的方法可以粗略划分为基于交互产生的包装程序和自动生成的包装程序，但是基于交互产生的包装程序不具备普遍的应用性，基于自动生成的包装程序准确性不高．该文提出了一种新的二阶段基于语义的半自动提取方法，在保证提取准确性的前提下，尽可能减少交互操作，同时随着参与网站的增加，逐步提高包装程序生成的自动化．相对于目前的方法，该文方法同时考虑了包装程序提取结果的准确性和提取过程的应用普遍性．其有效性在原型系统中得到验证．应用该方法，已经成功提取了120万HTML页面．
关键词：	Internet 搜索引擎系统信息获取 Web Ontology 网页分类半自动提取法
Ontology-Based Two-Phase Semi-Automatic Web Extracting

GAO Jun,WANG Teng,Jiao,YANG Dong,Qing,TANG Shi,Wei.Ontology-Based Two-Phase Semi-Automatic Web Extracting[J].Chinese Journal of Computers,2004,27(3):310-318.

Authors:	GAO Jun WANG Teng Jiao YANG Dong Qing TANG Shi Wei

Abstract:

Keywords:	Web extraction domain ontology application ontology XML
本文献已被 CNKI 维普万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏