首页 | 本学科首页   官方微博 | 高级检索  
     

一种高效的新闻网页噪声过滤方法
引用本文:邹永强,钟志农.一种高效的新闻网页噪声过滤方法[J].微型机与应用,2011,30(16):64-67,71.
作者姓名:邹永强  钟志农
作者单位:国防科技大学电子科学与工程学院,湖南长沙,410073
摘    要:网页噪声过滤是网页预处理中关键的一步,其处理结果对后续处理的效率和准确性都有很大的影响。本文基于文本块字符数的统计规律,在总结了新闻网页特点的基础上设计了一种高效的新闻网页噪声过滤算法。该算法不仅完成了新闻正文的提取,也实现了新闻标题和报道时间的提取。试验证明,该算法有很高的处理速度,同时其提取的准确率也有了进一步的提高。

关 键 词:统计规律  网页噪声过滤  正文提取

An efficient approach to reduce noise in news webpages
Zou Yongqiang,Zhong Zhinong.An efficient approach to reduce noise in news webpages[J].Microcomputer & its Applications,2011,30(16):64-67,71.
Authors:Zou Yongqiang  Zhong Zhinong
Affiliation:Zou Yongqiang,Zhong Zhinong(College of Electronic Science and Engineering,National University of Defense Technology,Changsha 410073,China)
Abstract:Noise reduction is an essential part of webpage pretreatment. It's processing result has a great effect on efficiency and accuracy of the later process.Depending on the news webpage features and the statistical regularity of the text blocks, an efficient
Keywords:statistical regularity  reduce noise in webpage  main text extraction
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号