首页 | 本学科首页   官方微博 | 高级检索  
     

一种主题自适应聚焦爬虫方法
引用本文:林椹尠,袁柱,李小平.一种主题自适应聚焦爬虫方法[J].计算机应用与软件,2019,36(5):316-321.
作者姓名:林椹尠  袁柱  李小平
作者单位:西安邮电大学理学院 陕西西安710121;西安邮电大学通信与信息工程学院 陕西西安710121
摘    要:针对聚焦爬虫主题描述精确度和主题相似度计算准确度偏低造成的主题覆盖率不足和爬取准确度偏低的问题,提出一种主题自适应聚焦爬虫方法。对每次迭代爬取的主题相关文档集建立LDA模型,提取模型热点词,更新主题关键词集及其权重。引入基于Word2vec的主题相似度计算模型,结合文档内容以及锚文本内容词项的语义相似度和TF-IDF值计算链接优先级,引导爬虫抓取主题相关的网页。与基于语义检索的聚焦爬虫和基于向量空间的聚焦爬虫相比,主题自适应聚焦爬虫在主题覆盖率和爬取准确度方面性能更优。

关 键 词:聚焦爬虫  主题覆盖率  爬取准确度  LDA  Word2vec

A TOPIC ADAPTIVE FOCUSING CRAWLER METHOD
Lin Zhenxian,Yuan Zhu,Li Xiaoping.A TOPIC ADAPTIVE FOCUSING CRAWLER METHOD[J].Computer Applications and Software,2019,36(5):316-321.
Authors:Lin Zhenxian  Yuan Zhu  Li Xiaoping
Affiliation:(School of Science, Xi'an University of Post and Telecommunications, Xi’an 710121,Shaanxi, China;School of Communication and Information Engineering, Xi'an University of Post and Telecommunications, Xi'an 710121, Shaanxi, China)
Abstract:
Keywords:Focused crawler  Topic coverage  Crawl accuracy  LDA  Word2vec
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号