首页 | 本学科首页   官方微博 | 高级检索  
     

基于T-Graph算法的主题爬虫研究
引用本文:张环,刘乃文,段会川.基于T-Graph算法的主题爬虫研究[J].计算机工程与设计,2014,35(9).
作者姓名:张环  刘乃文  段会川
作者单位:山东师范大学信息科学与工程学院,山东济南,250014
基金项目:山东省教育科学规划攻关课题基金项目
摘    要:为解决传统主题爬虫抓取特定领域的网页信息效率低下问题,在分析主题爬虫算法T-Graph的基础上,提出一种改进的T-Graph主题爬虫算法.利用维基百科的相关知识,采用语义分析的特征项提取算法提取特征项,在词的语义层次上对文本进行相似度计算,且综合考虑了网页中不同位置文本的权重问题.将改进前后的算法进行实验对比,实验结果表明,在提高主题爬行质量方面,改进后的算法效果更好.

关 键 词:主题爬虫  T-Graph  维基百科  相似度计算  权重

Research on topical crawler of T-Graph algorithm
ZHANG Huan,LIU Nai-wen,DUAN Hui-chuan.Research on topical crawler of T-Graph algorithm[J].Computer Engineering and Design,2014,35(9).
Authors:ZHANG Huan  LIU Nai-wen  DUAN Hui-chuan
Abstract:
Keywords:focused crawler  T-Graph  Wikipedia  similarity computing  weight value
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号