首页 | 本学科首页   官方微博 | 高级检索  
     

Spark平台下类别数据互信息计算的并行化
作者姓名:李俊丽
作者单位:晋中学院 信息技术与工程学院,山西 晋中 030619
基金项目:国家自然科学基金青年科学基金项目;晋中学院1331工程创新团队项目;国家自然科学基金
摘    要:针对大规模类别数据的互信息计算量非常大的问题,利用Spark内存计算平台,提出了类别数据的并行互信息计算方法,该算法首先采用列变换将数据集转换成多个数据子集;然后采用两个变长数组缓存中间结果,解决了类别数据特征对间互信息计算量大、重复性强的问题;最后在配备了24个计算节点的Spark集群中,使用人工合成和真实数据集验证...

关 键 词:列变换  并行互信息计算  分类数据  Spark平台
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号