首页 | 本学科首页   官方微博 | 高级检索  
     

Geeking:基于胜者表的体育新闻搜索引擎系统
引用本文:林裕杰,陈新荃,高 妍,肖卡飞,胡红祥,花 强. Geeking:基于胜者表的体育新闻搜索引擎系统[J]. 集成技术, 2016, 5(2): 97-108
作者姓名:林裕杰  陈新荃  高 妍  肖卡飞  胡红祥  花 强
作者单位:中国科学院深圳先进技术研究院 深圳 518055;中国科学院大学深圳先进技术学院,中国科学院上海高等研究院 上海 201210,中国科学院计算技术研究所 北京 100190,中国科学院沈阳计算技术研究所 沈阳 110168,中国科学院深圳先进技术研究院 深圳 518055,河北大学数学与信息科学学院 保定 071002
基金项目:国家自然科学基金(61433012, U1435215, 11171086);河北省自然科学基金(F2013201064)
摘    要:文章介绍了体育新闻搜索引擎系统 Geeking 的框架结构和各项功能,其结构分为网页爬取、胜者表构建、检索处理、用户界面 4 个部分,其主要功能包含查询词校正、自动补全、检索结果排序、相似新闻聚类以及显示页面中关键词高亮并提供网页快照。输入查询请求时,系统根据搜索日志和新闻热词自动补全查询词,搜索不到相关结果时校正查询,给出推荐的查询词。检索新闻文档时,使用胜者表快速查找查询词项的相关文档,综合 tf-idf 权重和新闻标题、发布时间等因素计算文档的相关性并按得分排序。在相似新闻聚类中,结合最长公共子序列和编辑距离衡量新闻标题之间的相似度,以新闻标题相似度代表新闻文档的相似度。测试结果表明,基于胜者表的 Geeking 搜索引擎系统各项功能协调效果好,检索响应速度快。

关 键 词:搜索引擎;体育新闻;胜者表;编辑距离;聚类;查询词校正

Geeking: a Sports News Search Engine System Based on Champion List
LIN Yujie,CHEN Xinquan,GAO Yan,XIAO Kafei,HU Hongxiang and HUA Qiang. Geeking: a Sports News Search Engine System Based on Champion List[J]. , 2016, 5(2): 97-108
Authors:LIN Yujie  CHEN Xinquan  GAO Yan  XIAO Kafei  HU Hongxiang  HUA Qiang
Abstract:
Keywords:search engine   sports news   champion list   levenshtein distance   clustering   query term correction
点击此处可从《集成技术》浏览原始摘要信息
点击此处可从《集成技术》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号