首页 | 本学科首页   官方微博 | 高级检索  
     

改进空间向量模型主题网络爬虫系统
引用本文:徐明子,吕立,李喜旺.改进空间向量模型主题网络爬虫系统[J].计算机系统应用,2013,22(7):36-39,52.
作者姓名:徐明子  吕立  李喜旺
作者单位:中国科学院研究生院, 北京 100049;中国科学院 沈阳计算技术研究所, 沈阳 110168;中国科学院 沈阳计算技术研究所, 沈阳 110168;中国科学院 沈阳计算技术研究所, 沈阳 110168
摘    要:详细阐述了主题网络爬虫实现的关键技术, 将传统的空间向量模型进行改进形成自适应的空间向量模型, 结合网页内容和链接两个方面进行网页相关度计算, 设计并实现了一个面向主题的网络爬虫系统. 针对主题网络爬虫爬行中出现的页面捕捉不全问题还提出了一种改进的手动与遗传因子相结合的网页搜索策略. 最后给出实验结果, 证明该系统的可行性及优越性.

关 键 词:主题爬虫  相关度计算  搜索策略  遗传因子
收稿时间:2012/12/15 0:00:00
修稿时间:2013/1/24 0:00:00

Topic-Focused Web Crawler System
XU Ming-Zi,LV Li and LI Xi-Wang.Topic-Focused Web Crawler System[J].Computer Systems& Applications,2013,22(7):36-39,52.
Authors:XU Ming-Zi  LV Li and LI Xi-Wang
Affiliation:Graduate University, Chinese Academy of Sciences, Beijing 100049, China;Shenyang Institute of Computing Technology, Chinese Academy of Sciences, Shenyang 110168, China;Shenyang Institute of Computing Technology, Chinese Academy of Sciences, Shenyang 110168, China;Shenyang Institute of Computing Technology, Chinese Academy of Sciences, Shenyang 110168, China
Abstract:This paper researched key techniques of topic-focused web crawler at first, then designed and implemented a crawler system by using improved slef-adapted vector space model. It analysised documents both in text and links. As the same time, this paper also comed up with a web search stategy based on gene factor combined with manully control. This strategy can solve the problem of searching path blocked. In the end, we provide some experiment results to prove the feasibility and advantages of our system from recall ratio and precision ratio.
Keywords:topic-focused web crawler  relevance calculation  search strategy  gene factor
点击此处可从《计算机系统应用》浏览原始摘要信息
点击此处可从《计算机系统应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号