首页 | 本学科首页   官方微博 | 高级检索  
     

基于Web的新闻信息抽取
引用本文:朱永盛,武港山.基于Web的新闻信息抽取[J].计算机工程,2006,32(10):74-76.
作者姓名:朱永盛  武港山
作者单位:1. 南京大学计算机软件新技术国家重点实验室,南京,210093
2. 南京大学计算机科学与技术系,南京,210093
基金项目:高比容电子铝箔的研究开发与应用项目
摘    要:随着互联网的普及,信息技术的发展,形成了大量的新闻信息资源。从海量的新闻信息中抽取出有用的资源,是当前迫切需要解决的问题。该文在分析新闻网页结构的基础上,结合了基于DOM的结构抽取和基于文本特征模式抽取两种处理技术的优点,提出了基于Web新闻网页的半自动化抽取技术,自动下载了有用的Web页面,抽取了所需的新闻信息。最后,该文描述了一个面向奥运新闻的信息抽取系统,并给出了该系统的实验结果。

关 键 词:信息抽取  包装器  抽取规则
文章编号:1000-3428(2006)10-0074-03
收稿时间:08 12 2005 12:00AM
修稿时间:2005-08-12

News Information Extraction for Web Resource
Zhu Yongsheng,WU Gangshan.News Information Extraction for Web Resource[J].Computer Engineering,2006,32(10):74-76.
Authors:Zhu Yongsheng  WU Gangshan
Abstract:With the widespread use of Internet and the development of information technology, there are a tremendous amount of news information resource. The ability to quickly obtain useful resource from the huge news information is a crucial problem at present, Based on the analysis of news information, this paper introduces an approach of semi automatically extracting from Web resource. Moreover, it gives the system which extracts useful Olympic news information and experiment results of it.
Keywords:DOM
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号