首页 | 本学科首页   官方微博 | 高级检索  
     

基于Heritrix的主题爬虫在互联网舆情系统中应用
引用本文:肖江,季节.基于Heritrix的主题爬虫在互联网舆情系统中应用[J].电子设计工程,2015(6):30-32.
作者姓名:肖江  季节
作者单位:江苏科技大学 计算机科学与工程学院,江苏 镇江,212003
基金项目:镇江市社会发展项目(SH2013015)
摘    要:在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题爬虫作为垂直搜索引擎的核心部分一直是搜索方向的研究热点。本文以开源的网络爬虫Heritrix为基础,分析其结构特征与工作原理并引入了多线程处理的改进办法,设计出一个主题爬虫,在单机环境下进行该爬虫性能的测试。实验结果表明该主题爬虫的查全率达到较高水准,为进一步研究开发搜索效率高的垂直搜索引擎打下坚实的基础。

关 键 词:舆情系统  主题爬虫  Heritrix  多线程

The application of focused crawler based on Heritrix in internet public opinion system
XIAO Jiang , JI Jie.The application of focused crawler based on Heritrix in internet public opinion system[J].Electronic Design Engineering,2015(6):30-32.
Authors:XIAO Jiang  JI Jie
Affiliation:XIAO Jiang;JI Jie;School of Computer Science and Engineering, Jiangsu University of Science and Technology;
Abstract:
Keywords:public opinion system  focused crawler  Heritrix  multithreading
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号