首页 | 本学科首页   官方微博 | 高级检索  
     

一种主题知识自增长的聚焦网络爬虫
引用本文:李东晖 廖晓兰 范辅桥等. 一种主题知识自增长的聚焦网络爬虫[J]. 计算机应用与软件, 2014, 0(5): 29-33,88
作者姓名:李东晖 廖晓兰 范辅桥等
作者单位:;1.湖南农业大学信息科学与技术学院;2.湖南农业大学植物保护学院;3.厦门通融软件科技有限公司;4.解放军73111部队博士后工作站
摘    要:聚焦网络爬虫是各类因特网文本挖掘和信息检索应用必需的处理步骤。现有聚焦网络爬虫面临着知识描述困难、误差易被放大等挑战。发现网页中主题知识存在的若干性质,提出一种主题知识自增长的聚焦网络爬虫KAG-Crawler,在网页爬取过程中采用一种无监督的学习技术不断扩展主题知识,从而使爬虫在一个简单的初始主题描述条件下,能够以较高正确率爬取大量网页。同时为便于主题知识的扩展,还提出一种新的主题表示模型,并基于该模型构建了新的网页主题和URL主题相关度方法。最后在真实环境下的实验表明,KAG-Crawler的性能显著高于传统基于文本相似度的聚焦网络爬虫。

关 键 词:聚焦网络爬虫  无监督学习  知识扩展  主题相关度

A FOCUSED NETWORK CRAWLER WITH TOPIC KNOWLEDGE AUTOMATICALLY GROWING
Abstract:
Keywords:
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号