基于文档特征的Web主题文本提取 |
| |
引用本文: | 黄振晗.基于文档特征的Web主题文本提取[J].现代计算机,2009(8):26-30. |
| |
作者姓名: | 黄振晗 |
| |
作者单位: | 福建广播电视大学莆田分校,福建351100 |
| |
摘 要: | Web主题文本提取是从Web页面中找出文本型主题内容,对Web信息过滤具有重大作用。针对目前Web主题文本提取算法复杂而且响应速度较慢的不足,提出一种新的Web主题文本提取方法。该方法直接从HTML文档结构本身的特征出发,提取文档中文本的多个特征.并设计了一个有效的公式综合利用提取特征来定位主题文本。实验表明该算法简单、快速、有效,能很好地运用于Web信息过滤。
|
关 键 词: | 主题文本 文本特征 结构树 |
Web Topic Text Extraction Based on Document Features |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 维普 万方数据 等数据库收录! |
|