分布式主题爬虫的研究与设计 |
| |
作者姓名: | 任昱凤 |
| |
作者单位: | 陕西师范大学 计算机科学学院,西安,710000 |
| |
摘 要: | 本文通过对分布式技术和主题网络爬虫的研究,设计了一个能处理海量数据的分布式主题爬虫。设计内容主要包括分布式主题网络爬虫的各个功能模块及其实现方法。如页面的主题相关度判定方法、URL去重过滤方法等。主要使用了Hadoop技术和向量空间模型。该分布式主题爬虫的研究与设计为后面分布式主题爬虫的实现奠定了基础。
|
关 键 词: | 主题爬虫 Hadoop 主题相关度 |
本文献已被 CNKI 万方数据 等数据库收录! |
|