基于Spark SQL的分布式全文检索框架的设计与实现 Design and Implementation of Distributed Full-text Search Framework Based on Spark SQL期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于Spark SQL的分布式全文检索框架的设计与实现

引用本文：	崔光范,许利杰,刘杰,叶丹,钟华.基于Spark SQL的分布式全文检索框架的设计与实现[J].计算机科学,2018,45(9):104-112, 145.

作者姓名：	崔光范许利杰刘杰叶丹钟华

作者单位：	中国科学院大学北京100049;中国科学院软件研究所北京100049,中国科学院软件研究所北京100049,中国科学院软件研究所北京100049,中国科学院软件研究所北京100049,中国科学院软件研究所北京100049

基金项目：	本文受北京市科技重大项目(D171100003417002)资助

摘要：	随着信息化的深入,大数据在各个领域产生了巨大的价值,海量数据的存储和快速分析成为新的挑战。传统的关系型数据库由于性能、扩展性的不足以及价格昂贵等方面的缺点,难以满足大数据的存储和分析需求。Spark SQL是基于大数据处理框架Spark的数据分析工具,目前已支持TPC-DS基准,成为大数据背景下传统数据仓库的替代解决方案。全文检索作为一种文本搜索的有效方式,能够与一般的查询操作结合使用,提供更加丰富的查询和分析操作。目前,Spark SQL仅支持简单的查询操作,不支持全文检索。为了满足传统业务迁移和现有业务的使用需求,提出了分布式全文检索框架,涵盖了SQL文法、SQL翻译转换框架、全文检索并行化、检索优化4个模块,并在Spark SQL上进行了实现。实验结果表明相比于传统的数据库,在两种检索优化策略下,该框架的索引构建时间、查询时间分别减少到传统数据库的0.6%/0.5%和1%/10%,索引存储量减少为传统数据库的55.0%。
关键词：	Spark SQL 全文检索翻译转换框架检索并行化检索优化
收稿时间：	2017/10/11 0:00:00
修稿时间：	2018/1/10 0:00:00
Design and Implementation of Distributed Full-text Search Framework Based on Spark SQL

CUI Guang-fan,XU Li-jie,LIU Jie,YE Dan and ZHONG Hua.Design and Implementation of Distributed Full-text Search Framework Based on Spark SQL[J].Computer Science,2018,45(9):104-112, 145.

Authors:	CUI Guang-fan XU Li-jie LIU Jie YE Dan and ZHONG Hua

Affiliation:	University of Chinese Academy of Sciences,Beijing 100049,China;Institute of Software,Chinese Academy of Sciences,Beijing 100049,China,Institute of Software,Chinese Academy of Sciences,Beijing 100049,China,Institute of Software,Chinese Academy of Sciences,Beijing 100049,China,Institute of Software,Chinese Academy of Sciences,Beijing 100049,China and Institute of Software,Chinese Academy of Sciences,Beijing 100049,China

Abstract:

Keywords:	Spark SQL Full-text search Translation framework Search parallelism Search optimization

	点击此处可从《计算机科学》浏览原始摘要信息
	点击此处可从《计算机科学》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏