首页 | 本学科首页   官方微博 | 高级检索  
     

面向Web的新闻网页正文信息抽取策略研究
作者单位:南京师范大学教育技术系
摘    要:本文介绍了一种结合STU-DOM树和文本字数统计的新闻网页正文信息抽取方法,它赋予节点语义属性后,过滤主题无关节点,最终利用相关标记包含的中文字符数从中选择包含正文信息的节点。这种策略能够准确地提取正文内容外,还无损地保留了正文中与主题相关的链接。

关 键 词:统计  STU树  信息抽取

The Strategy of the Information Extraction for Text from News Web Pages
Authors:Chen Leilei Zhang Rujing
Affiliation:Chen Leilei1 Zhang Rujing2
Abstract:
Keywords:statistical  STU-DOM tree  information extraction
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号