首页 | 本学科首页   官方微博 | 高级检索  
     

基于GPU加速的并行WMD算法
引用本文:胡蓉,阳王东,王昊天,罗辉章,李肯立. 基于GPU加速的并行WMD算法[J]. 计算机科学, 2021, 48(12): 24-28. DOI: 10.11896/jsjkx.210600213
作者姓名:胡蓉  阳王东  王昊天  罗辉章  李肯立
作者单位:湖南大学信息科学与工程学院 长沙410082
摘    要:Word Mover's Distance(WMD)是一种度量文本相似度的方法,它将两个文本之间的差异定义为文本的词嵌入向量之间的最小距离.WMD利用词汇表,将文本表示为归一化的词袋向量.文本的单词在语料中所占的比例很小,因此用词袋模型生成的文本向量很稀疏.多个文本可以组成一个高维的稀疏矩阵,这样的稀疏矩阵会生成大量不必要的运算.通过一次性对多个目标文本计算单个源文本的WMD,可以使计算过程高度并行化.针对文本向量的稀疏性,文中提出了一种基于GPU的并行Sinkhorn-WMD算法,采取压缩格式存储目标文本的方式来提高内存利用率,根据稀疏结构减少中间过程的计算.利用预训练词嵌入向量计算单词距离矩阵,对WMD算法进行改进,在两个公开的新闻数据集上进行优化算法的验证.实验结果表明,在NVIDIA TITAN RTX上并行算法与CPU串行相比最高可以达到67.43倍的加速.

关 键 词:文本相似度  WMD  并行计算  GPU  稀疏矩阵乘法

Parallel WMD Algorithm Based on GPU Acceleration
HU Rong,YANG Wang-dong,WANG Hao-tian,LUO Hui-zhang,LI Ken-li. Parallel WMD Algorithm Based on GPU Acceleration[J]. Computer Science, 2021, 48(12): 24-28. DOI: 10.11896/jsjkx.210600213
Authors:HU Rong  YANG Wang-dong  WANG Hao-tian  LUO Hui-zhang  LI Ken-li
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号