一种面向HDFS的多层索引技术 |
| |
作者姓名: | 何龙 陈晋川 杜小勇 |
| |
作者单位: | 中国人民大学信息学院, 北京 100872,中国人民大学信息学院, 北京 100872;教育部数据工程与知识工程重点实验室(中国人民大学), 北京 100872,中国人民大学信息学院, 北京 100872;教育部数据工程与知识工程重点实验室(中国人民大学), 北京 100872 |
| |
基金项目: | 国家自然科学基金青年项目“基于用户反馈的不确定性数据清洗技术研究”(61003086);国家重点研发计划“高端制造大数据管理系统标准规范、评测基准和测试工具研制”(2016YFB1000702);中国人民大学预研委托(团队基金)项目“面向社会化服务的大数据管理关键技术研究”(14XNLQ06) |
| |
摘 要: | SOH(SQL over HDFS)系统通常将数据存储于分布式文件系统HDFS中,采用Map/Reduce或分布式查询引擎来处理查询任务。得益于HDFS以及Map/Reduce的容错能力和可扩展性,SOH系统可以很好地应对数据规模的飞速增长,完成分析型查询处理。然而,在处理选择型查询或交互式查询时,这类系统暴露出性能上的缺陷。本文提出一个通用的索引技术,可以应用于SOH系统中,以提高其查询处理的效率。分析了SOH系统访问HDFS文件的过程,指出了其中影响数据加载时间的关键因素;提出了split层和split内部双层索引机制;设计并实现了聚集索引和非聚集索引。最后,在标准数据集上进行了大量实验,并与现有基于HDFS的索引技术进行了比较。实验结果表明,所提出的索引技术可以有效地提高查询处理的效率。
|
关 键 词: | 查询 索引 HDFS SOH 大数据 |
收稿时间: | 2016-07-29 |
修稿时间: | 2016-09-14 |
|
| 点击此处可从《软件学报》浏览原始摘要信息 |
|
点击此处可从《软件学报》下载全文 |
|