Spark平台下类别数据互信息计算的并行化 |
| |
作者姓名: | 李俊丽 |
| |
作者单位: | 晋中学院 信息技术与工程学院,山西 晋中 030619 |
| |
基金项目: | 国家自然科学基金青年科学基金项目;晋中学院1331工程创新团队项目;国家自然科学基金 |
| |
摘 要: | 针对大规模类别数据的互信息计算量非常大的问题,利用Spark内存计算平台,提出了类别数据的并行互信息计算方法,该算法首先采用列变换将数据集转换成多个数据子集;然后采用两个变长数组缓存中间结果,解决了类别数据特征对间互信息计算量大、重复性强的问题;最后在配备了24个计算节点的Spark集群中,使用人工合成和真实数据集验证...
|
关 键 词: | 列变换 并行互信息计算 分类数据 Spark平台 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《计算机工程与应用》浏览原始摘要信息 |
|
点击此处可从《计算机工程与应用》下载全文 |
|