Web文档清洗系统中HTML解析器的开发 A HTML Parser for Web Cleaning期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

Web文档清洗系统中HTML解析器的开发

引用本文：	王强,王继成,武港山,张福炎.Web文档清洗系统中HTML解析器的开发[J].计算机应用研究,2002,19(2):54-57.

作者姓名：	王强王继成武港山张福炎

作者单位：	南京大学计算机科学与技术系,江苏,南京,210093;南京大学计算机软件新技术国家重点实验室,江苏,南京,210093

基金项目：	国家自然科学基金资助项目 (60 0 73 0 3 0 )，国家教育部“现代远程教育关键技术研究重点项目”，日本富士通研究所“Web文档清洗技术研究”资助项目

摘要：	对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无论是脱机的规则学习还是联机的文档清洗 ,都需要建立在对Web文档的结构和内容进行分析的基础之上。从HTML解析的一般概念入手 ,结合Web文档清洗系统的需求 ,描述了一个自主开发的HTML解析器的结构 ,并对其组成部分 :词典、词法分析器和语法分析器的设计作了详细的讨论
关键词：	HTML解析器词法器递归下降文档清洗
文章编号：	1001-3695(2002)02-0054-04
修稿时间：	2001年5月26日
A HTML Parser for Web Cleaning

WANG Qiang,WANG Ji cheng,WU Gang shan,ZHANG Fu yan.A HTML Parser for Web Cleaning[J].Application Research of Computers,2002,19(2):54-57.

Authors:	WANG Qiang WANG Ji cheng WU Gang shan ZHANG Fu yan

Abstract:

Keywords:	HTML Parser Lexicon Recursive Descendant Web Cleaning
本文献已被 CNKI 维普万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏