面向Web的新闻网页正文信息抽取策略研究 The Strategy of the Information Extraction for Text from News Web Pages期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

面向Web的新闻网页正文信息抽取策略研究

作者单位：	南京师范大学教育技术系

摘要：	本文介绍了一种结合STU-DOM树和文本字数统计的新闻网页正文信息抽取方法,它赋予节点语义属性后,过滤主题无关节点,最终利用相关标记包含的中文字符数从中选择包含正文信息的节点。这种策略能够准确地提取正文内容外,还无损地保留了正文中与主题相关的链接。
关键词：	统计 STU树信息抽取
The Strategy of the Information Extraction for Text from News Web Pages

Authors:	Chen Leilei Zhang Rujing

Affiliation:	Chen Leilei1 Zhang Rujing2

Abstract:

Keywords:	statistical STU-DOM tree information extraction
本文献已被 CNKI 等数据库收录！