首页 | 本学科首页   官方微博 | 高级检索  
     

基于分块的新闻网页信息抽取算法
引用本文:姬鑫,钟诚.基于分块的新闻网页信息抽取算法[J].计算机应用与软件,2015(4).
作者姓名:姬鑫  钟诚
作者单位:广西大学计算机与电子信息学院 广西 南宁530004
基金项目:广西科学研究与技术开发计划项目(桂科能1140008-3B);广西研究生教育创新计划。
摘    要:为了更彻底地清洗网页噪音,减少网页噪音对新闻内容抽取准确率的影响,提出基于模板页的相同噪音块清洗方法和基于class属性的同类噪音块和特殊噪音块清洗方法;在此基础上,利用新闻网页在内容布局结构上的特征,提出基于起始块和终止块的新闻内容抽取方法。实验结果表明,与已有的算法相比,提出的方法抽取准确率更高,能够同时适应正文内容存放在单块和多块的情形,并且有效地解决了正文内容较短时的抽取问题。

关 键 词:网页信息抽取  模板页  分块  相同噪音块  同类噪音块  特殊噪音块

BLOCKING-BASED INFORMATION EXTRACTION ALGORITHM FOR WEBPAGE OF NEWS
Ji Xin,Zhong Cheng.BLOCKING-BASED INFORMATION EXTRACTION ALGORITHM FOR WEBPAGE OF NEWS[J].Computer Applications and Software,2015(4).
Authors:Ji Xin  Zhong Cheng
Abstract:
Keywords:Webpage information extraction  Template page  Blocking  Same noise block  Similar noise blocks  Special noise block
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号