首页 | 本学科首页   官方微博 | 高级检索  
     

基于在线增量学习的自适应聚焦爬虫研究
引用本文:朱婷,滕桂法,陆浩,张长利,曾大军. 基于在线增量学习的自适应聚焦爬虫研究[J]. 计算机应用与软件, 2009, 26(5)
作者姓名:朱婷  滕桂法  陆浩  张长利  曾大军
作者单位:1. 河北农业大学信息科学与技术学院,河北,保定,071001;中科院自动化所复杂系统与智能科学实验室,北京,100190
2. 河北农业大学信息科学与技术学院,河北,保定,071001
3. 中科院自动化所复杂系统与智能科学实验室,北京,100190
基金项目:国家自然科学基金,中国科学院海外合作伙伴计划项目 
摘    要:在原始分类器聚焦爬虫的基础上设计并实现在线增量学习的自适应聚焦爬虫.该聚焦爬虫包括一个基础网页分类器和一个在线增量学习自适应链接分类器.基础页面分类器根据领域知识对抓取到的页面内容主题相关性进行分类.在线增量学习自适应链接分类器能即时根据爬虫爬得网页和网页链接信息作出分类模型调整以更合理方式计算链接的主题相关度.系统中链接排序模块采用TopicalRank主题相关度计算方法分析链接优先抓取顺序.把基于增量学习的自适应聚焦爬虫应用到农业领域,实验结果和分析证明在线增量学习的自适应聚焦爬虫在农业领域爬行性能比仅基于网页相关性和链接重要度的原始分类器聚焦爬虫具有更好的性能.

关 键 词:在线增量学习  聚焦爬虫  农业领域

ON ADAPTIVE FOCUSED CRAWLER BASED ON ONLINE-INCREMENTAL LEARNING
Zhu Ting,Teng Guifa,Lu Hao,Zhang Changli,Zeng Dajun. ON ADAPTIVE FOCUSED CRAWLER BASED ON ONLINE-INCREMENTAL LEARNING[J]. Computer Applications and Software, 2009, 26(5)
Authors:Zhu Ting  Teng Guifa  Lu Hao  Zhang Changli  Zeng Dajun
Affiliation:College of Information Science and Technology;Agricultural University of Hebei;Baoding 071001;Hebei;China;Laboratory of Complex Systems and Intelligence Science;Institute of Automation;Chinese Academy of Sciences;Beijing 100190;China
Abstract:An adaptive focused crawler of online-incremental learning based on primitive classification focused crawler is designed and realized in this article.The crawler's architecture includes a basic webpage classifier and an online-incremental learning adaptive link classifier.The basic webpage classifier is used to classify the correlation of fetched content's topics of pages according to domain knowledge.The online-incremental learning adaptive link classifier is able to adjust the classifying model instantly ...
Keywords:TopicalRank
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号