面向时间序列大数据海量并行贝叶斯因子化分析方法 A Massively Parallel Bayesian Approach to Factorization-Based Analysis of Big Time Series Data期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

面向时间序列大数据海量并行贝叶斯因子化分析方法

引用本文：	高腾飞,刘勇琰,汤云波,张垒,陈丹.面向时间序列大数据海量并行贝叶斯因子化分析方法[J].计算机研究与发展,2019,56(7):1567-1577.

作者姓名：	高腾飞刘勇琰汤云波张垒陈丹

作者单位：	武汉大学计算机学院武汉430072;武汉大学计算机学院武汉430072;武汉大学计算机学院武汉430072;武汉大学计算机学院武汉430072;武汉大学计算机学院武汉430072

基金项目：	国家自然科学基金;湖北省自然科学基金创新群体项目

摘要：	时间序列大数据记录着复杂系统在时间和空间上大尺度的演化过程,详细描述了系统不同部分之间的相互作用和相互联系.提取时间序列大数据中潜在的低维因子对研究复杂系统的整体机制有着至关重要的作用.大数据的超高维和大尺度导致许多传统因子分析方法难以适应,先验知识缺乏更增加了研究难度.针对这一巨大挑战,提出了一种面向时间序列大数据的海量并行贝叶斯因子化分析方法(the massively parallel Bayesian factorization approach, G -BF).在缺失先验知识的情况下,通过贝叶斯算法导出因子矩阵,将算法映射至CUDA(compute unified device architecture)模型,以大规模并行的方式更新因子矩阵.该方法支持对任意维度张量的因子分解.实验结果表明:1)与通过GPU加速化的因子分解算法G -HALS(GPU-hierarchical alternative least square)相比,G -BF具有更好的运行性能,且随着数据规模的增加,其性能优越性更加明显;2)G -BF在数据处理规模、秩及维度方面都具有良好的可扩展性;3)将G -BF应用于现有子因子融合框架(hierarchical-parallel factor analysis, H-PARAFAC),可将“巨型”张量作为一个整体进行因子化分解(在2个节点上处理10 11 个数据元素),其能力较常规方法高出2个数量级.
关键词：	贝叶斯模型时间序列大数据张量分解海量并行计算统一计算设备架构
A Massively Parallel Bayesian Approach to Factorization-Based Analysis of Big Time Series Data

Gao Tengfei,Liu Yongyan,Tang Yunbo,Zhang Lei,Chen Dan.A Massively Parallel Bayesian Approach to Factorization-Based Analysis of Big Time Series Data[J].Journal of Computer Research and Development,2019,56(7):1567-1577.

Authors:	Gao Tengfei Liu Yongyan Tang Yunbo Zhang Lei Chen Dan

Affiliation:	(School of Computer Science,Wuhan University,Wuhan 430072)

Abstract:	Gao Tengfei;Liu Yongyan;Tang Yunbo;Zhang Lei;Chen Dan(School of Computer Science,Wuhan University,Wuhan 430072)

Keywords:	Bayesian model big time series data tensor factorization massively parallel computing compute unified device architecture (CUDA)
本文献已被维普万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏