首页 | 本学科首页   官方微博 | 高级检索  
     

基于语义分析的主题信息采集系统的设计与实现
引用本文:赵佳鹤,王秀坤,刘亚欣. 基于语义分析的主题信息采集系统的设计与实现[J]. 计算机应用, 2007, 27(2): 406-408
作者姓名:赵佳鹤  王秀坤  刘亚欣
作者单位:大连理工大学,计算机科学与工程系,辽宁,大连,116023;大连理工大学,计算机科学与工程系,辽宁,大连,116023;大连理工大学,计算机科学与工程系,辽宁,大连,116023
摘    要:设计并实现了一个基于语义分析的主题信息采集系统(SAFWC),提出一种链接价值预测算法(SPageRank)。该算法从语义的角度出发,结合“知网”,通过对扩展元数据进行主题相关性判定来选择、预测与主题相关的URL。实验结果表明,该系统具有较高的采集效率及精度。

关 键 词:主题信息采集  知网  扩展元数据  搜索策略
文章编号:1001-9081(2007)02-0406-03
收稿时间:2006-08-04
修稿时间:2006-08-08

Design and implementation of focused Web crawler based on semantic analysis
ZHAO Jia-he,WANG Xiu-kun,LIU Ya-xin. Design and implementation of focused Web crawler based on semantic analysis[J]. Journal of Computer Applications, 2007, 27(2): 406-408
Authors:ZHAO Jia-he  WANG Xiu-kun  LIU Ya-xin
Affiliation:Department of Computer Science and Engineering, Dalian University of Technology, Liaoning Dalian 116023, China
Abstract:The design and implementation of a Semantic Analysis Focused Web Crawler (SAFWC) was introduced. In combination with HowNet,extended metadata semantic relevance algorithm for predicting the relativity between URL and top ic was applied. The result of experiments has shown that SAFC has higher efficiency and accuracy for Web pages relevant to a predefined set of topics.
Keywords:focused Web crawler  howNet  extended metadata  crawling strategy
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机应用》浏览原始摘要信息
点击此处可从《计算机应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号