首页 | 本学科首页   官方微博 | 高级检索  
     

基于块分布的新闻网页内容提取
引用本文:邱江涛,唐常杰,李川,朱军. 基于块分布的新闻网页内容提取[J]. 吉林大学学报(工学版), 2009, 39(5): 1326-1330
作者姓名:邱江涛  唐常杰  李川  朱军
作者单位:西南财经大学经济信息工程学院,成都,610075;四川大学计算机学院,成都,610065;四川大学计算机学院,成都,610065;国家出生缺陷检测中心,成都,610041
基金项目:国家科技支撑计划,国家自然科学基金,四川大学青年基金 
摘    要:提出一种新的新闻网页内容提取方法。与已有的研究相比,它自动判别网页是否含有主内容,并且回避了模板和DOM-Tree方法所带来的局限。主要工作包括:①提出了一种网页分块方法,通过一趟遍历将网页主内容和噪声划分到不同的块中;②提出网页块分布的概念并研究了块分布的属性,根据块分布可以有效地使用分类方法来判别网页是否有主内容,采用孤立点分析的方法从网页块分布中提取主内容。本文通过理论和实验证明了该方法的有效性。

关 键 词:计算机应用  网页内容提取  块分布  Web挖掘

News content extraction based on block distribution
QIU Jiang-tao,TANG Chang-jie,LI Chuan,ZHU Jun. News content extraction based on block distribution[J]. Journal of Jilin University:Eng and Technol Ed, 2009, 39(5): 1326-1330
Authors:QIU Jiang-tao  TANG Chang-jie  LI Chuan  ZHU Jun
Abstract:An approach to extract news contents automatically from news web pages is proposed.Compared with existing methods,this approach can determine whether a web page contains news content first,then extract the news contents without using DOM-Tree or template.A new concept of Block is introduced and by one traversal the approach partitions web page into main content block and noise block.Further more,the concept of Web Page Block Distribution is introduced and the features of Block Distribution are investigated.The use of Block Distribution can effectively determine whether a web page contains news contents.Experiments show the approach is effective in extraction of news contents.
Keywords:computer application  Web contents extracting  block distribution  Web mining
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号