首页 | 本学科首页   官方微博 | 高级检索  
     

MSOLA:基于多维分层采样的大数据在线聚集技术*
引用本文:史英杰,杜方,尤亚东.MSOLA:基于多维分层采样的大数据在线聚集技术*[J].计算机应用研究,2018,35(2).
作者姓名:史英杰  杜方  尤亚东
作者单位:北京服装学院 信息工程学院,宁夏大学 信息工程学院,北京服装学院 信息工程学院
基金项目:国家自然科学基金资助项目(课题号:61502279, 61363018);山东省自然科学基金资助项目(课题号:ZR2015FM013);北京市教委科技计划项目(课题号:KM201710012008)
摘    要:在线聚集通过统计计算估计查询结果,能够在查询完成前给用户反馈,在大数据分析领域具有重要意义。现有研究工作采用统一随机采样策略,当查询出现小分组或低选择率时,导致估计结果不准确及收敛速度缓慢。针对这一问题,提出了结合负载特征和数据分布进行多维分层采样的有偏采样策略,并结合大数据处理平台Storm设计了结果估计和置信区间计算方法。实验证明所提出的方案有效提高了在线聚集估计结果的准确度,并且具有良好的扩展性。

关 键 词:在线聚集    大数据  多维分层采样  负载分析
收稿时间:2016/10/19 0:00:00
修稿时间:2017/12/27 0:00:00
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号