首页 | 本学科首页   官方微博 | 高级检索  
     

新闻网页主题内容提取方法研究
引用本文:罗永莲,秦振吉.新闻网页主题内容提取方法研究[J].微计算机应用,2007,28(5):556-560.
作者姓名:罗永莲  秦振吉
作者单位:晋中学院 晋中,030600
摘    要:网页的半结构化特点与新闻的自身特征为选择性抽取网页内容创造了条件。我们在前人的研究基础上,挖掘Web页面结构特征、充分利用Html标记与新闻特征,重点从Web页面编者对文本修饰角度出发,提出了基于网页内容分割的主题内容抽取方法。实验结果表明该方法能有效地抽取新闻各要素,测试的抽取准确率在96%以上。

关 键 词:新闻网页  主题内容抽取  网页分割
修稿时间:2005-12-212006-08-11

Research on Extracting Topic Content from News Webpages
LUO Yonglian,QIN Zhenji.Research on Extracting Topic Content from News Webpages[J].Microcomputer Applications,2007,28(5):556-560.
Authors:LUO Yonglian  QIN Zhenji
Affiliation:Jinzhong University, Jinzhong, 030600, China
Abstract:The web page's semi-structured features and news own identity created the conditions for selective extraction of information content of the web page.We mine web page structure,fully utilize HTML mark and news feature on the basis of forefather's research,propose the thematic content extraction method based on division webpage.Experiment shows that the method is effective.The precision rate of thematic content extraction reaches 96%.
Keywords:news webpages  theme's extraction  webpage partition
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号