Learned Index和B-Tree在不同分布数据上的性能对比及优化 |
| |
引用本文: | 沈怡琪,蔡鹏,刘松灵.Learned Index和B-Tree在不同分布数据上的性能对比及优化[J].计算机应用,2023(S1):100-106. |
| |
作者姓名: | 沈怡琪 蔡鹏 刘松灵 |
| |
作者单位: | 1. 华东师范大学数据科学与工程学院;2. 华为技术有限公司 |
| |
基金项目: | 国家自然科学基金资助项目(61972149); |
| |
摘 要: | Learned Index是一种通过训练模型来建立输入数据和存储位置之间映射关系的索引,它能学习到数据间分布的信息,而不同的数据分布将影响模型训练准确率和模型复杂度之间的平衡。为了探索Learned Index适用的场景,使用不同分布、不同数据量的数据对它和加以优化的可更新的自适应学习索引(ALEX)进行性能测试,并与B-Tree进行对比,最终发现Learned Index构建大批量数据的索引时间比B-Tree短,读操作性能、存储空间大小有明显的优势,但写操作性能较差,因此得出Learned Index更适用于大数据情景下的在线分析处理(OLAP)数据库,用于静态数据的存储和查询操作的结论。基于B-Tree的索引结构,对初版Learned Index的结构进行了优化和调整,最终使优化后Learned Index在大批量数据的读写操作性能上有明显提高,其中读操作最高达到原版Learned Index的2倍,写操作最高达到原版的3倍。
|
关 键 词: | Learned Index B-Tree 可更新的自适应学习索引 在线分析处理数据库 静态数据 优化调整 |
|