排序方式: 共有80条查询结果,搜索用时 0 毫秒
1.
相似性连接技术在数据清洗、数据集成等领域中具有重要意义, 近年来引起了学术界的广泛关注.随着数据量的不断增大、数据处理实时性的要求逐渐提高以及处理器性能提升瓶颈的出现, 传统的串行相似性连接方法已经不能满足当前大数据处理的需求.近些年, GPU作为协处理器在机器学习等领域取得了良好的加速效果, 因此基于GPU的并行算法开始成为解决各类性能问题的有效解决方案.为此, 提出了基于CPU-GPU异构体系的并行相似性连接方法.首先, 方法使用GPU构建倒排索引, 索引采用SoA(struct of arrays)结构, 从而解决了传统索引结构在并行模式下读写效率低的问题.其次, 针对串行算法的性能问题, 提出基于过滤验证框架的并行双重长度过滤算法, 其中利用前缀过滤和构建好的倒排索引提升过滤效果.方法中相似度精确计算验证过程使用CPU计算执行, 从而充分利用CPU-GPU的异构计算资源.最后, 在多个数据集上进行实验验证性能.通过与串行相似性连接算法进行对比, 实验结果表明所提出方法相对于已有方法具有更好的过滤效果和更低的索引生成代价, 并在相似性连接上具有更好的性能和良好的加速比. 相似文献
2.
链接跨组织数据库中表示同一实体的记录,同时保护存储在这些数据库中实体的隐私,是安全有效地整合多源数据资源的核心技术之一。然而,已有隐私保护记录链接(privacy-preserving record linkage,PPRL)技术中的分块方法不能同时保证高查全率和高查准率,强隐私性的匹配方法存在时间代价过大的不足,且对多于两个数据库间的匹配研究很少。针对上述问题,提出了一种多方强隐私保护记录链接方法(multi-partystrong-privacy-preserving record linkage,MP-SPPRL)。首先,提出了一种局部敏感哈希(locality sensitiveHashing,LSH)结合后缀分块的二次分块方法,并引入分块分散度调节两次分块,在保证MP-SPPRL高查全率的前提下有效地提高了查准率;接着,利用滑动窗口合并分块生成候选记录组,保证MP-SPPRL的容错率;然后,采用基于同态加密的Hamming距离计算方法,设计了一种适用于大型数据的基于安全多方计算(securemulti-party computation,SMC)的可伸缩多方记录匹配算法,通过缩减加密记录数量和提前终止不可能匹配的候选记录组的距离计算,显著降低了匹配的时间代价,提高了MP-SPPRL的效率;最后,通过大量实验验证了MP-SPPRL的高查全率、高查准率和高效性。 相似文献
4.
随着移动设备的日益普及,积累了大量的用户签到兴趣点数据,用户签到的信息使下一兴趣点推荐成为近年来研究的热点问题.下一兴趣点推荐的准确性主要受到两方面的制约:一方面,签到数据稀疏性问题.当前研究者通过引入兴趣点的地理相关性或社交网络中的朋友评价信息来改善数据稀疏问题,但并不是所有兴趣点之间都存在强地理相关性,且社交网络中只存在少量用户对签到的兴趣点发表评论.另一方面,基于深度学习训练兴趣点签到序列存在梯度消失的问题.针对这些问题,提出融合区域与朋友影响的用户下一兴趣点推荐模型.首先,将兴趣点区域信息融入用户签到兴趣点序列中;其次,使用带有残差连接的神经网络模型对序列进行嵌入,避免梯度消失,提高模型收敛性;最后,融合朋友访问的兴趣点信息进行下一兴趣点推荐,进一步提高兴趣点推荐的准确性.实验数据表明,与其他推荐模型相比,提出的模型具有较高准确性. 相似文献
5.
6.
随着物联网系统的迅速发展,越来越多设备和参与方加入到系统中.但是,大多数现有系统采用中心化的管理方式,在可扩展性、数据安全与隐私性、多方协作、数据共享方面面临诸多挑战.区块链技术是一种结合数字加密、分布式计算的点对点分布式记账技术,具有去中心化、不可篡改、可验证、可追溯等特性,为物联网系统面临的安全、协作和信任问题提供了解决方案.论文阐述了物联网系统前存在的挑战,分析了区块链在这些应用场景下的优势特性,并对区块链在物联网领域的应用解决方案做了对比和归纳,对区块链+物联网应用具有一定的借鉴意义. 相似文献
7.
8.
多人在线战术竞技(MOBA)游戏是当前世界最流行的电子游戏类型之一,该类游戏涉及的知识领域相当复杂.随着电子竞技产业的飞速发展,数据分析对MOBA游戏的影响也越来越大,在对该类游戏的实时局势进行评价时,一般是选择过程变量作为指标,例如经济差、经验差,但目前缺少趋势预测的相关研究.针对该问题,提出一种基于序列到序列结构的MOBA游戏趋势预测模型(MOBA-Trend).在预处理阶段,针对该类游戏数据的特点,设计一种数据缩放算法体现数据间的重要度,并使用低通滤波器消除数据噪声;之后将双方阵容与历史战斗信息作为输入特征,构建带有注意力机制的序列模型,同时预测经济差、经验差;最后将模型应用于Dota 2,构建并发布相关数据集.实验结果表明,所提出的模型能够有效地预测序列的变化趋势. 相似文献
9.
10.
随着信息化社会的发展,数据的规模越发庞大,数据的种类也越发丰富.时至今日,数据已经成为国家和企业的重要战略资源,是科学化管理的重要保障.然而,随着社会生活产生的数据日益丰富,大量的脏数据也随之而来,数据质量问题油然而生.如何准确而全面地检测出数据集中所包含的错误数据,一直是数据科学中的痛点问题.尽管已有许多传统方法被广泛用于各行各业,如基于约束与统计的检测方法,但这些方法通常需要丰富的先验知识与昂贵的人力和时间成本.受限于此,这些方法往往难以准确而全面地检测数据.近年来,许多新型错误检测方法利用深度学习技术,通过时序推断、文本解析等方式取得了更好检测效果,但它们通常只适用于特定的领域或特定的错误类型,面对现实生活中的复杂情况,泛用性不足.基于上述情况,结合传统方法与深度学习技术的优点,提出了一个基于多视角的多类型错误全面检测模型CEDM.首先,从模式的角度,结合现有约束条件,在属性、单元和元组层面进行多维度的统计分析,构建出基础检测规则;然后,通过词嵌入捕获数据语义,从语义的角度分析属性相关性、单元关联性与元组相似性,进而基于语义关系,从多个维度上更新、扩展基础规则;最终,联合多个视角... 相似文献