首页 | 本学科首页   官方微博 | 高级检索  
     

基于文档特征的Web主题文本提取
引用本文:黄振晗.基于文档特征的Web主题文本提取[J].现代计算机,2009(8):26-30.
作者姓名:黄振晗
作者单位:福建广播电视大学莆田分校,福建351100
摘    要:Web主题文本提取是从Web页面中找出文本型主题内容,对Web信息过滤具有重大作用。针对目前Web主题文本提取算法复杂而且响应速度较慢的不足,提出一种新的Web主题文本提取方法。该方法直接从HTML文档结构本身的特征出发,提取文档中文本的多个特征.并设计了一个有效的公式综合利用提取特征来定位主题文本。实验表明该算法简单、快速、有效,能很好地运用于Web信息过滤。

关 键 词:主题文本  文本特征  结构树

Web Topic Text Extraction Based on Document Features
Abstract:
Keywords:
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号