模式发现在Web抽取中的应用及设计 |
| |
引用本文: | 蔡霞,张森,周宇. 模式发现在Web抽取中的应用及设计[J]. 控制工程, 2003, 10(3): 227-229,269 |
| |
作者姓名: | 蔡霞 张森 周宇 |
| |
作者单位: | 1. 浙江工业大学,软件开发环境重点实验室,浙江,杭州,310014 2. 浙江大学,计算机系,浙江,杭州,310028 |
| |
摘 要: | WWW的迅速发展,使其日益成为人们查找有用数据的重要来源。但因每个Web站点的主题各异、形式多样、结构不同,人们往往要花大量精力在人工定位和抽取有用数据上。提出了一个基于模式发现的数据抽取框架,分析了将PAT树用于模式发现的自动数据抽取技术。初步实验结果表明所得的抽取规则能从多数搜索引擎上获得较高的抽取率。该方法对于从搜索引擎的搜索结果等结构化、半结构化网页中自动抽取重复模式具有较好的效果。
|
关 键 词: | Web 数据抽取 模式发现 搜索引擎 WWW 计算机网络 |
文章编号: | 1671-7848(2003)03-0227-04 |
修稿时间: | 2002-10-10 |
Application and Design of Web Information Extraction System Based on Pattern Discovery |
| |
Abstract: | |
| |
Keywords: | Web extraction wrappers semi-structured data pattern discovery |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
|