首页 | 本学科首页   官方微博 | 高级检索  
     

网页去噪:研究综述
引用本文:毛先领,何靖,闫宏飞.网页去噪:研究综述[J].计算机研究与发展,2010,47(12).
作者姓名:毛先领  何靖  闫宏飞
作者单位:北京大学计算机科学与技术系;
基金项目:国家自然科学基金,国家"八六三"高技术研究发展计划基金,CNCI搜索引擎项目
摘    要:互联网的快速发展已经使得网页数据成为目前各种应用与研究的重要数据源之一.网页数据包含各种内容,如广告、导航条、相关链接、正文等,然而对于不同的研究和应用来说,并非所有内容都是必需的,相反地,不相关的内容反而会影响研究和应用的效果和效率,所以网页去噪是一个基础问题,且是目前热点研究的问题.因此很有必要对网页去噪领域进行总结,以便更好地进行深入研究.首先说明了网页去噪的必要性,并对网页去噪进行了定义和分类,概述了多种网页去噪的方法和框架,然后对评估网页去噪算法所使用的数据集和方法进行了总结,最后讨论了该领域存在的问题和今后的研究方向.

关 键 词:网页去噪  数据挖掘  网络挖掘  信息检索  万维网

A Survey of Web Page Cleaning Research
Mao Xianling,He Jing,Yan Hongfei.A Survey of Web Page Cleaning Research[J].Journal of Computer Research and Development,2010,47(12).
Authors:Mao Xianling  He Jing  Yan Hongfei
Affiliation:Mao Xianling,He Jing,and Yan Hongfei(Department of Computer Science and Technology,Peking University,Beijing 100871)
Abstract:The rapid development of the Internet has made a variety of Web applications and Web data, which become the major source of data for lots of research. Web page includes a variety of content, such as advertising, navigation bar, related links, text, etc. However, for different studies and applications, not all content is necessary; oppositely, the unrelated content will affect the effectiveness and efficiency of the research and applications. So Web page cleaning is a highlighted topic of information retriev...
Keywords:Web page cleaning  data mining  Web mining  information retrieval  WWW  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号