首页 | 本学科首页   官方微博 | 高级检索  
     

用户定制主题聚焦爬虫的设计与实现
引用本文:闵钰麟,黄永峰.用户定制主题聚焦爬虫的设计与实现[J].计算机工程与设计,2015,36(1):17-21.
作者姓名:闵钰麟  黄永峰
作者单位:清华大学电子工程系信息认知与智能系统研究所,北京100084;清华大学信息科学与技术国家实验室,北京100084
基金项目:国家863高技术研究发展计划基金项目,清华大学自主科研基金项目,国家基金委前瞻计划基金项目
摘    要:传统的聚焦爬虫在主题未知或者缺少相应训练集的情况下无法完成主题爬行。为让聚焦爬虫具有更好的主题适应性,提出基于聚类算法的自适应主题模型,指导聚焦爬虫在只有少量相同主题(主题未知)初始url的情况下完成主题爬行。通过对初始页面聚类得到主题中心向量,寻找相关网页更新主题中心位置;基于best-first策略实现url排序;基于该模型实现用户定制主题聚焦爬虫。通过对比实验验证了使用该模型的爬虫具有较高的收获比(havest rate)。

关 键 词:聚焦爬虫  k-means  best-first策略  自适应主题模型  用户定制主题爬虫

Design and implementation of user customized topic focused crawler
MIN Yu-lin,HUANG Yong-feng.Design and implementation of user customized topic focused crawler[J].Computer Engineering and Design,2015,36(1):17-21.
Authors:MIN Yu-lin  HUANG Yong-feng
Affiliation:MIN Yu-lin;HUANG Yong-feng;Institute of Information Cognition and Intelligence System,Department of Electronic Engineering,Tsinghua University;Tsinghua National Laboratory for Information Science and Technology,Tsinghua University;
Abstract:
Keywords:focused crawler  k-means  best-first strategy  adaptive topic model  user customized topic focused crawler
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号