基于DOM树的网页去噪技术 |
| |
引用本文: | 朱逢春.基于DOM树的网页去噪技术[J].电子制作.电脑维护与应用,2015(8). |
| |
作者姓名: | 朱逢春 |
| |
作者单位: | 上海交通大学电子信息与电气工程学院 上海 201208 |
| |
摘 要: | 在网页文本信息自动采集的实际应用中,网页检索采集到的资源存在着大量与网页主题内容无关的"噪音"信息,本文主要内容是研究基于DOM树的网页去噪技术,通过对网页结构的转化,将网页转化成DOM树,在此基础上过滤掉网页噪音信息,提取网页文本的正文内容。
|
关 键 词: | DOM树 噪音 网页去噪技术 |
本文献已被 CNKI 万方数据 等数据库收录! |
|