首页 | 本学科首页   官方微博 | 高级检索  
     

基于MapRed uce的增量式数据集的相似性连接
引用本文:徐媛媛,陈华辉.基于MapRed uce的增量式数据集的相似性连接[J].计算机应用研究,2014(11).
作者姓名:徐媛媛  陈华辉
作者单位:宁波大学 信息科学与工程学院,浙江 宁波,315211
基金项目:浙江省公益性技术应用研究计划资助项目
摘    要:相似性连接,即利用相似函数度量数据之间的相似程度,满足条件后进行连接操作。MapReduce框架下已存在很多相似性连接算法,但仍然存在一些不足,如大量的索引加大时间、空间的开销;现有算法不能有效地完成增量式数据集的相似性连接等。针对海量增量式数据集进行了研究,采用抽样技术得到有效中枢,形成更为合理的分区,建立分区索引和分配原则,完成新增数据的相似性连接操作。实验证明,该算法能够有效地解决海量增量式数据集的相似性连接问题,验证了分区索引的建立,可以提高新增数据的相似性连接操作的效率。

关 键 词:海量增量式数据集  划分  相似性连接  MapReduce

MapReduce-based similarity join for incremental data set
XU Yuan-yuan,CHEN Hua-hui.MapReduce-based similarity join for incremental data set[J].Application Research of Computers,2014(11).
Authors:XU Yuan-yuan  CHEN Hua-hui
Abstract:
Keywords:massive incremental data set  partition  similarity join  MapReduce
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号