基于HBase的工业时序大数据分布式存储性能优化策略 |
| |
引用本文: | 杨力,陈建廷,向阳.基于HBase的工业时序大数据分布式存储性能优化策略[J].计算机应用,2023(3):759-766. |
| |
作者姓名: | 杨力 陈建廷 向阳 |
| |
作者单位: | 同济大学电子与信息工程学院 |
| |
基金项目: | 国家重点研发计划项目(2019YFB1704402)~~; |
| |
摘 要: | 在自动化的工业场景中,大量工业设备产生的时序性日志数据量呈爆炸式增长,业务场景对时序数据的访问需求进一步提升。虽然目前基于分布式列族的数据库HBase能够存储工业时序大数据,但由于未考虑特定业务场景中数据与访问行为特征的关联,现有策略无法较好地满足工业时序数据的特定访问需求。针对上述问题,基于分布式存储系统HBase,利用工业场景中数据与访问行为特征的关联性,提出面向海量工业时序数据的分布式存储性能优化策略。针对工业时序数据特点引发的负载倾斜问题,提出基于冷热数据分区及访问行为分类的负载均衡优化策略。使用逻辑回归模型(LR)对数据进行冷热分类,并将热数据分散存储在不同节点;同时,为进一步降低存储集群中跨节点的通信开销,以提升工业时序数据高维索引的查询效率,提出索引主数据同Region化策略,设计索引RowKey字段及拼接规则,将索引存放到与它对应的主数据相同的Region中。在真实工业时序数据上的实验结果表明,引入优化策略后的数据负载分布倾斜度降低28.5%,查询效率提升27.7%,验证了所提优化策略能够有效地挖掘特定时序数据的访问模式,合理地分配负载,降低数据访问开销,有能力满足对特...
|
关 键 词: | 分布式存储 时序大数据 工业大数据 负载均衡 HBase |
|