Spark平台下类别数据互信息计算的并行化期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

Spark平台下类别数据互信息计算的并行化

作者姓名：	李俊丽

作者单位：	晋中学院信息技术与工程学院,山西晋中 030619

基金项目：	国家自然科学基金青年科学基金项目;晋中学院1331工程创新团队项目;国家自然科学基金

摘要：	针对大规模类别数据的互信息计算量非常大的问题,利用Spark内存计算平台,提出了类别数据的并行互信息计算方法,该算法首先采用列变换将数据集转换成多个数据子集;然后采用两个变长数组缓存中间结果,解决了类别数据特征对间互信息计算量大、重复性强的问题;最后在配备了24个计算节点的Spark集群中,使用人工合成和真实数据集验证...
关键词：	列变换并行互信息计算分类数据 Spark平台
本文献已被万方数据等数据库收录！
	点击此处可从《计算机工程与应用》浏览原始摘要信息
	点击此处可从《计算机工程与应用》下载全文