大数据随机样本划分模型及相关分析计算技术期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

大数据随机样本划分模型及相关分析计算技术

作者姓名：	黄哲学何玉林魏丞昊张晓亮

作者单位：	1.深圳大学计算机与软件学院大数据技术与应用研究所,深圳,518060;2.深圳大学大数据系统计算技术国家工程实验室,深圳,518060

基金项目：	国家重点研发计划2017YFC0822604-2;中国博士后科学基金2016T90799;深圳大学2018年度新引进教师科研启动基金2018060;广东省普通高校国家级重大培育基金2014GKXM054国家重点研发计划（2017YFC0822604-2）资助项目;中国博士后科学基金（2016T90799）资助项目;深圳大学2018年度新引进教师科研启动基金（2018060）资助项目;广东省普通高校国家级重大培育基金（2014GKXM054）资助项目。

摘要：	设计了一种新的适用于大数据的管理和分析模型——大数据随机样本划分（Random sample partition,RSP）模型,它是将大数据文件表达成一系列RSP数据块文件的集合,分布存储在集群节点上。RSP的生成操作使每个RSP数据块的分布与大数据的分布保持统计意义上的一致,因此,每个RSP数据块是大数据的一个随机样本数据,可以用来估计大数据的统计特征,或建立大数据的分类和回归模型。基于RSP模型,大数据的分析任务可以通过对RSP数据块的分析来完成,不需要对整个大数据进行计算,极大地减少了计算量,降低了对计算资源的要求,提高了集群系统的计算能力和扩展能力。本文首先给出RSP模型的定义、理论基础和生成方法;然后介绍基于RSP数据块的渐近式集成学习Alpha计算框架;之后讨论基于RSP模型和Alpha框架的大数据分析相关计算技术,包括：数据探索与清洗、概率密度函数估计、有监督子空间学习、半监督集成学习、聚类集成和异常点检测;最后讨论RSP模型在分而治之大数据分析和抽样方法上的创新,以及RSP模型和Alpha计算框架实现大规模数据分析的优势。
关键词：	大数据随机样本划分渐近式集成学习人工智能
收稿时间：	2018-08-23
修稿时间：	2019-03-01

	点击此处可从《数据采集与处理》浏览原始摘要信息
	点击此处可从《数据采集与处理》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏