首页 | 本学科首页   官方微博 | 高级检索  
     

基于Spark SQL的分布式全文检索框架的设计与实现
引用本文:崔光范,许利杰,刘杰,叶丹,钟华.基于Spark SQL的分布式全文检索框架的设计与实现[J].计算机科学,2018,45(9):104-112, 145.
作者姓名:崔光范  许利杰  刘杰  叶丹  钟华
作者单位:中国科学院大学 北京100049;中国科学院软件研究所 北京100049,中国科学院软件研究所 北京100049,中国科学院软件研究所 北京100049,中国科学院软件研究所 北京100049,中国科学院软件研究所 北京100049
基金项目:本文受北京市科技重大项目(D171100003417002)资助
摘    要:随着信息化的深入,大数据在各个领域产生了巨大的价值,海量数据的存储和快速分析成为新的挑战。传统的关系型数据库由于性能、扩展性的不足以及价格昂贵等方面的缺点,难以满足大数据的存储和分析需求。Spark SQL是基于大数据处理框架Spark的数据分析工具,目前已支持TPC-DS基准,成为大数据背景下传统数据仓库的替代解决方案。全文检索作为一种文本搜索的有效方式,能够与一般的查询操作结合使用,提供更加丰富的查询和分析操作。目前,Spark SQL仅支持简单的查询操作,不支持全文检索。为了满足传统业务迁移和现有业务的使用需求,提出了分布式全文检索框架,涵盖了SQL文法、SQL翻译转换框架、全文检索并行化、检索优化4个模块,并在Spark SQL上进行了实现。实验结果表明相比于传统的数据库,在两种检索优化策略下,该框架的索引构建时间、查询时间分别减少到传统数据库的0.6%/0.5%和1%/10%,索引存储量减少为传统数据库的55.0%。

关 键 词:Spark  SQL  全文检索  翻译转换框架  检索并行化  检索优化
收稿时间:2017/10/11 0:00:00
修稿时间:2018/1/10 0:00:00

Design and Implementation of Distributed Full-text Search Framework Based on Spark SQL
CUI Guang-fan,XU Li-jie,LIU Jie,YE Dan and ZHONG Hua.Design and Implementation of Distributed Full-text Search Framework Based on Spark SQL[J].Computer Science,2018,45(9):104-112, 145.
Authors:CUI Guang-fan  XU Li-jie  LIU Jie  YE Dan and ZHONG Hua
Affiliation:University of Chinese Academy of Sciences,Beijing 100049,China;Institute of Software,Chinese Academy of Sciences,Beijing 100049,China,Institute of Software,Chinese Academy of Sciences,Beijing 100049,China,Institute of Software,Chinese Academy of Sciences,Beijing 100049,China,Institute of Software,Chinese Academy of Sciences,Beijing 100049,China and Institute of Software,Chinese Academy of Sciences,Beijing 100049,China
Abstract:
Keywords:Spark SQL  Full-text search  Translation framework  Search parallelism  Search optimization
点击此处可从《计算机科学》浏览原始摘要信息
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号