首页 | 本学科首页   官方微博 | 高级检索  
     

基于扩展主题特征库的领域主题爬虫
引用本文:吴岳廷,李石君.基于扩展主题特征库的领域主题爬虫[J].计算机工程与设计,2015(5).
作者姓名:吴岳廷  李石君
作者单位:武汉大学 计算机学院,湖北 武汉,430072
摘    要:在领域主题爬虫中,为提高网页爬取的效率和准确性,将扩展主题特征库(extended topic feature library,ETFL)引入进爬虫的网页过滤算法中。将网页抽象为标签块节点集,通过主题特征库扩展算法对静态特征项进行扩充生成扩展主题特征库,利用网页主题特征项提取算法从页面中抽取出特征项,在爬虫抓取网页的过程中,通过基于扩展主题特征库的网页相关性判断方法对页面进行过滤。该算法弥补了传统的基于静态关键词项的网页过滤算法对页面语义层次处理的缺失。实际项目运行结果表明,在领域主题爬虫中引入扩展主题库能够有效提高网页抓取精度,具有较高可用性。

关 键 词:主题特征库  网页过滤  标签块  相关性  语义

Focused crawler based on extended topic feature library
WU Yue-ting,LI Shi-j un.Focused crawler based on extended topic feature library[J].Computer Engineering and Design,2015(5).
Authors:WU Yue-ting  LI Shi-j un
Abstract:
Keywords:topic feature library  Web filtering  tag block  relevance  semantic
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号