摘 要: | 隐私问题受到越来越多的关注,基于计算的私有信息检索(CPIR)的隐私保护技术允许用户从服务提供商检索数据并且不会泄露查询信息。但是,对于大规模应用,隐私保护技术与可用性之间存在较大差距。针对CPIR算法计算量大、计算时间长而不适合应用于大规模数据隐私保护的问题,提出了基于Spark和Huffman编码的CPIR最近邻查询隐私保护算法(H-PCPIR-V)。H-PCPIR-V算法主要是在数据预处理阶段将最近邻矩阵使用Huffman编码进行压缩减少计算位数,然后通过压缩后矩阵中元素的最大位数对其他元素进行补位,在服务端使用Spark并行框架对查询网格进行并行计算。通过对比实验及实验结果分析发现,相比PCPIR-V算法,H-PCPIR-V算法在服务端的计算代价下降30%左右,客户端的计算代价下降10%左右,通信代价下降40%左右。
|