首页 | 本学科首页   官方微博 | 高级检索  
     

面向时间序列大数据海量并行贝叶斯因子化分析方法
引用本文:高腾飞, 刘勇琰, 汤云波, 张垒, 陈丹. 面向时间序列大数据海量并行贝叶斯因子化分析方法[J]. 计算机研究与发展, 2019, 56(7): 1567-1577. DOI: 10.7544/issn1000-1239.2019.20180792
作者姓名:高腾飞  刘勇琰  汤云波  张垒  陈丹
作者单位:1.(武汉大学计算机学院 武汉 430072) (gaotengfei@whu.edu.cn)
基金项目:国家自然科学基金;湖北省自然科学基金创新群体项目
摘    要:时间序列大数据记录着复杂系统在时间和空间上大尺度的演化过程,详细描述了系统不同部分之间的相互作用和相互联系.提取时间序列大数据中潜在的低维因子对研究复杂系统的整体机制有着至关重要的作用.大数据的超高维和大尺度导致许多传统因子分析方法难以适应,先验知识缺乏更增加了研究难度.针对这一巨大挑战,提出了一种面向时间序列大数据的海量并行贝叶斯因子化分析方法(the massively parallel Bayesian factorization approach, G-BF).在缺失先验知识的情况下,通过贝叶斯算法导出因子矩阵,将算法映射至CUDA(compute unified device architecture)模型,以大规模并行的方式更新因子矩阵.该方法支持对任意维度张量的因子分解.实验结果表明:1)与通过GPU加速化的因子分解算法G-HALS(GPU-hierarchical alternative least square)相比,G-BF具有更好的运行性能,且随着数据规模的增加,其性能优越性更加明显;2)G-BF在数据处理规模、秩及维度方面都具有良好的可扩展性;3)将G-BF应用于现有子因子融合框架(hierarchical-parallel factor analysis, H-PARAFAC),可将“巨型”张量作为一个整体进行因子化分解(在2个节点上处理10+{11}个数据元素),其能力较常规方法高出2个数量级.

关 键 词:贝叶斯模型  时间序列大数据  张量分解  海量并行计算  统一计算设备架构

A Massively Parallel Bayesian Approach to Factorization-Based Analysis of Big Time Series Data
Gao Tengfei, Liu Yongyan, Tang Yunbo, Zhang Lei, Chen Dan. A Massively Parallel Bayesian Approach to Factorization-Based Analysis of Big Time Series Data[J]. Journal of Computer Research and Development, 2019, 56(7): 1567-1577. DOI: 10.7544/issn1000-1239.2019.20180792
Authors:Gao Tengfei  Liu Yongyan  Tang Yunbo  Zhang Lei  Chen Dan
Affiliation:1.(School of Computer Science, Wuhan University, Wuhan 430072)
Abstract:Gao Tengfei;Liu Yongyan;Tang Yunbo;Zhang Lei;Chen Dan(School of Computer Science,Wuhan University,Wuhan 430072)
Keywords:Bayesian model  big time series data  tensor factorization  massively parallel computing  compute unified device architecture (CUDA)
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《计算机研究与发展》浏览原始摘要信息
点击此处可从《计算机研究与发展》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号