首页 | 本学科首页   官方微博 | 高级检索  
     

面向主题的垂直搜索引擎系统的研究与实现
引用本文:施俭,王恒山,肖仰华,丁卫平.面向主题的垂直搜索引擎系统的研究与实现[J].微电子学与计算机,2011,28(7):1-4,8.
作者姓名:施俭  王恒山  肖仰华  丁卫平
作者单位:1. 上海理工大学,管理学院,上海,200093;南通大学,计算机科学与技术学院,江苏,南通,226019
2. 上海理工大学,管理学院,上海,200093
3. 复旦大学,计算机科学技术学院,上海,200433
4. 南通大学,计算机科学与技术学院,江苏,南通,226019
基金项目:国家自然科学基金项目(61003001,71071098); 江苏省自然科学基金项目(BK2010280); 南通市科技计划项目(K2008018,K2008031)
摘    要:针对通用搜索引擎的信息量大、查询不准确、深度不够等问题,给出了面向主题的垂直搜索引擎的体系结构,设计了垂直搜索引擎系统的爬行策略,对系统核心信息采集模块运用了多线程技术及基于VSM的主题相关度判断算法进行主题网页爬行,并通过Lucene.Net的索引与检索技术建立系统的检索算法,实现了一个面向特定主题的垂直搜索引擎应用系统.实验测试结果表明,该系统具有较高的提取效率,其检索的准确率、召回率均大大高于通用搜索引擎,具有较好的实用价值和商业应用前景.

关 键 词:垂直搜索  网络爬虫  Lucene  .Net  正则表达式

Research and Implementation of Subject-Oriented Vertical Search Engine System
SHI Quan,WANG Heng-shan,XIAO Yang-hua,DING Wei-ping.Research and Implementation of Subject-Oriented Vertical Search Engine System[J].Microelectronics & Computer,2011,28(7):1-4,8.
Authors:SHI Quan  WANG Heng-shan  XIAO Yang-hua  DING Wei-ping
Affiliation:SHI Quan1,2,WANG Heng-shan1,XIAO Yang-hua3,DING Wei-ping2(1 College of Management,University of Shanghai for Science and Technology,Shanghai 200093,China,2 College of Computer Science and Technology,Nantong University,Nantong 226019,3 School of Computer Science,Fudan University,Shanghai 200433,China)
Abstract:A general search engine usually suffers from returning to users too much unrelated information.To avoid these problems of general search engine,a subject-oriented vertical search engine is proposed in this paper followed by the introduction of the crawling strategy and the architecture of this vertical search engine.Some distinctive characteristics of this search engine include: the system runs its core modules on multiples threads;a topic-related determination algorithm based on VSM is implemented in the s...
Keywords:vertical search  web crawler  lucene  net  regular expression  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号