首页 | 本学科首页   官方微博 | 高级检索  
     

Web文档清洗系统中HTML解析器的开发
引用本文:王强,王继成,武港山,张福炎.Web文档清洗系统中HTML解析器的开发[J].计算机应用研究,2002,19(2):54-57.
作者姓名:王强  王继成  武港山  张福炎
作者单位:南京大学计算机科学与技术系,江苏,南京,210093;南京大学计算机软件新技术国家重点实验室,江苏,南京,210093
基金项目:国家自然科学基金资助项目 (60 0 73 0 3 0 ),国家教育部“现代远程教育关键技术研究重点项目”,日本富士通研究所“Web文档清洗技术研究”资助项目
摘    要:对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无论是脱机的规则学习还是联机的文档清洗 ,都需要建立在对Web文档的结构和内容进行分析的基础之上。从HTML解析的一般概念入手 ,结合Web文档清洗系统的需求 ,描述了一个自主开发的HTML解析器的结构 ,并对其组成部分 :词典、词法分析器和语法分析器的设计作了详细的讨论

关 键 词:HTML解析器  词法器  递归下降  文档清洗
文章编号:1001-3695(2002)02-0054-04
修稿时间:2001年5月26日

A HTML Parser for Web Cleaning
WANG Qiang,WANG Ji cheng,WU Gang shan,ZHANG Fu yan.A HTML Parser for Web Cleaning[J].Application Research of Computers,2002,19(2):54-57.
Authors:WANG Qiang  WANG Ji cheng  WU Gang shan  ZHANG Fu yan
Abstract:
Keywords:HTML Parser  Lexicon  Recursive  Descendant  Web Cleaning  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号