基于标签的信息抽取预处理算法 |
| |
作者姓名: | 范春晓, 和晓军, 李淑云 |
| |
作者单位: | [1]沈阳理工人学信息科学与工程学院,辽宁沈阳110168; [2]沈阳理工大学信息科学与工程学院,辽宁沈阳110168; [3]烟台南山学院软件工程学院,山东烟舟265713 |
| |
摘 要: | 针对现有现有HTML网页的特点,提出了一种基于标签的Web网页的清洗技术,该方法基于HTML各种标签的特点,对修饰性等与内容无关的标签进行清洗,首先界定清洗的规则,对呵清洗的标签进行定义;然后根据清洗规则对HTML网页进行处理。本论文所提方法没有改变文档的半结构特点,使后续信息的抽取较之未改进有明显的优势。
|
关 键 词: | 标签 规则 网页清洗 |
本文献已被 维普 等数据库收录! |
|