首页 | 本学科首页   官方微博 | 高级检索  
     

高效的数据源选择方式
引用本文:黄维篁,李国良,冯建华.高效的数据源选择方式[J].计算机科学与探索,2010,4(10):890-898.
作者姓名:黄维篁  李国良  冯建华
作者单位:清华大学,计算机科学与技术系,北京,100084
基金项目:The National Natural Science Foundation of China under Grant No.60873065,the National High-Tech Research and Development Plan of China under Grant No.2009AA011906(国家高技术研究发展计划,Reserch Program of Sciences at Universities of Inner Mongolia Autonomous Region under Grant No.NJzy08152 
摘    要:随着关键词查询技术的飞速发展和互联网数据的迅猛增长,高效、准确的数据源选择变得十分有意义。提出了一种基于倒排列表的数据源选择方式,通过这种方式,能够在短时间内选择出相关度高的数据源,在这些数据源中执行检索,从而减少查询时间,给用户带来了更好的查询体验。从实验结果可以看出,这种方法在实际系统(例如机票查询系统)中可以得到很好的效果。为了在大规模的数据集上高效地实现相关算法,将min-hash算法应用到相似度估计中来,减少了查询空间和时间的消耗。与传统算法的比较结果表明:min-hash算法能够得到较高的精确度,并且极大地节省了算法的运行时间。

关 键 词:数据源选择  关键词查询  概要  min-hash算法
修稿时间: 

Efficient Method for Database Selection
HUANG Weihuang,LI Guoliang,FENG Jianhua.Efficient Method for Database Selection[J].Journal of Frontier of Computer Science and Technology,2010,4(10):890-898.
Authors:HUANG Weihuang  LI Guoliang  FENG Jianhua
Affiliation:Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China
Abstract:With the rapid growth and deployment of the distributed databases over the Internet, it calls for new efficient search method over multiple structured data sources. This paper proposes a new keyword-search method for effective database selection using inverted lists. The method can achieve a high interactive speed and thus can improve user experiences. This method has been implemented on airticket-search systems, and experimental results show that it achieves high search performance. For large scale data, a min-hash based algorithm is adopted to select highly relevant data sources, which can improve the performance and achieve high precision
Keywords:database selection  keyword search  database summary  min-hash based algorithm
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机科学与探索》浏览原始摘要信息
点击此处可从《计算机科学与探索》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号