排序方式: 共有74条查询结果,搜索用时 475 毫秒
1.
图被广泛用来建模在社交网络、语义网、计算生物学和软件分析中的应用.可达性查询是图数据上的一种基础查询.当前,针对图上的可达性查询已经提出了一些索引算法,但是它们不能灵活地扩展到大的图数据.因此,提出了一种索引方法RIAIL(reachability index augmented by interval labeling).RIAIL将结点的标记信息表示成四元组.前两个元素是区间标记,编码生成树的可达性信息,后两个元素编码非树边的可达性信息.RIAIL查询时只需索引且索引创建代价小.最后,通过大量真实和人工生成数据集上的实验说明,RIAIL能够高效地处理可达性查询,并且可以简单地扩展到大的图数据. 相似文献
2.
相似性连接技术在数据清洗、数据集成等领域中具有重要意义,近年来引起了学术界的广泛关注.随着数据量的不断增大、数据处理实时性的要求逐渐提高以及处理器性能提升瓶颈的出现,传统的串行相似性连接方法已经不能满足当前大数据处理的需求.近些年,GPU作为协处理器在机器学习等领域取得了良好的加速效果,因此基于GPU的并行算法开始成为解决各类性能问题的有效解决方案.为此,提出了基于CPU-GPU异构体系的并行相似性连接方法.首先,方法使用GPU构建倒排索引,索引采用SoA(struct of arrays)结构,从而解决了传统索引结构在并行模式下读写效率低的问题.其次,针对串行算法的性能问题,提出基于过滤验证框架的并行双重长度过滤算法,其中利用前缀过滤和构建好的倒排索引提升过滤效果.方法中相似度精确计算验证过程使用CPU计算执行,从而充分利用CPU-GPU的异构计算资源.最后,在多个数据集上进行实验验证性能.通过与串行相似性连接算法进行对比,实验结果表明所提出方法相对于已有方法具有更好的过滤效果和更低的索引生成代价,并在相似性连接上具有更好的性能和良好的加速比. 相似文献
3.
随着物联网系统的迅速发展,越来越多设备和参与方加入到系统中.但是,大多数现有系统采用中心化的管理方式,在可扩展性、数据安全与隐私性、多方协作、数据共享方面面临诸多挑战.区块链技术是一种结合数字加密、分布式计算的点对点分布式记账技术,具有去中心化、不可篡改、可验证、可追溯等特性,为物联网系统面临的安全、协作和信任问题提供了解决方案.论文阐述了物联网系统前存在的挑战,分析了区块链在这些应用场景下的优势特性,并对区块链在物联网领域的应用解决方案做了对比和归纳,对区块链+物联网应用具有一定的借鉴意义. 相似文献
4.
随着移动设备的日益普及,积累了大量的用户签到兴趣点数据,用户签到的信息使下一兴趣点推荐成为近年来研究的热点问题.下一兴趣点推荐的准确性主要受到两方面的制约:一方面,签到数据稀疏性问题.当前研究者通过引入兴趣点的地理相关性或社交网络中的朋友评价信息来改善数据稀疏问题,但并不是所有兴趣点之间都存在强地理相关性,且社交网络中只存在少量用户对签到的兴趣点发表评论.另一方面,基于深度学习训练兴趣点签到序列存在梯度消失的问题.针对这些问题,提出融合区域与朋友影响的用户下一兴趣点推荐模型.首先,将兴趣点区域信息融入用户签到兴趣点序列中;其次,使用带有残差连接的神经网络模型对序列进行嵌入,避免梯度消失,提高模型收敛性;最后,融合朋友访问的兴趣点信息进行下一兴趣点推荐,进一步提高兴趣点推荐的准确性.实验数据表明,与其他推荐模型相比,提出的模型具有较高准确性. 相似文献
5.
一种基于语义及统计分析的Deep Web实体识别机制 总被引:1,自引:0,他引:1
分析了常见的实体识别方法,提出了一种基于语义及统计分析的实体识别机制(deep Web entity identification mechanism based on semantics and statistical analysis,简称SS-EIM),能够有效解决Deep Web数据集成中数据纠错、消重及整合等问题.SS-EIM主要由文本匹配模型、语义分析模型和分组统计模型组成,采用文本粗略匹配、表象关联关系获取以及分组统计分析的三段式逐步求精策略,基于文本特征、语义信息及约束规则来不断精化识别结果;根据可获取的有限的实例信息,采用静态分析、动态协调相结合的自适应知识维护策略,构建和完善表象关联知识库,以适应Web数据的动态性并保证表象关联知识的完备性.通过实验验证了SS-EIM中所采用的关键技术的可行性和有效性. 相似文献
6.
随着信息化社会的发展,数据的规模越发庞大,数据的种类也越发丰富.时至今日,数据已经成为国家和企业的重要战略资源,是科学化管理的重要保障.然而,随着社会生活产生的数据日益丰富,大量的脏数据也随之而来,数据质量问题油然而生.如何准确而全面地检测出数据集中所包含的错误数据,一直是数据科学中的痛点问题.尽管已有许多传统方法被广泛用于各行各业,如基于约束与统计的检测方法,但这些方法通常需要丰富的先验知识与昂贵的人力和时间成本.受限于此,这些方法往往难以准确而全面地检测数据.近年来,许多新型错误检测方法利用深度学习技术,通过时序推断、文本解析等方式取得了更好检测效果,但它们通常只适用于特定的领域或特定的错误类型,面对现实生活中的复杂情况,泛用性不足.基于上述情况,结合传统方法与深度学习技术的优点,提出了一个基于多视角的多类型错误全面检测模型CEDM.首先,从模式的角度,结合现有约束条件,在属性、单元和元组层面进行多维度的统计分析,构建出基础检测规则;然后,通过词嵌入捕获数据语义,从语义的角度分析属性相关性、单元关联性与元组相似性,进而基于语义关系,从多个维度上更新、扩展基础规则;最终,联合多个视角... 相似文献
7.
多人在线战术竞技(MOBA)游戏是当前世界最流行的电子游戏类型之一,该类游戏涉及的知识领域相当复杂.随着电子竞技产业的飞速发展,数据分析对MOBA游戏的影响也越来越大,在对该类游戏的实时局势进行评价时,一般是选择过程变量作为指标,例如经济差、经验差,但目前缺少趋势预测的相关研究.针对该问题,提出一种基于序列到序列结构的MOBA游戏趋势预测模型(MOBA-Trend).在预处理阶段,针对该类游戏数据的特点,设计一种数据缩放算法体现数据间的重要度,并使用低通滤波器消除数据噪声;之后将双方阵容与历史战斗信息作为输入特征,构建带有注意力机制的序列模型,同时预测经济差、经验差;最后将模型应用于Dota 2,构建并发布相关数据集.实验结果表明,所提出的模型能够有效地预测序列的变化趋势. 相似文献
8.
Deep Web中蕴含着大量高质量的数据,然而只有通过Web查询接口对Web数据库提交查询才能获取这些数据,因此,自动获取Web查询接口模式是实现Web数据库集成的关键.将Web查询接口模式的抽取过程看作一个词法分析的过程,通过构建EGLM-FA(元素分组及标签匹配有限状态自动机)来完成对Web查询接口模式的抽取.首先应用Html呈现引擎将Web查询接口所在页面进行解析,利用查询接口Form中的DOM节点及其坐标信息构建相应的NSS(节点空间结构),之后再将所有的NSS组成NSS列表,将NSS列表作为EGLM-FA的输入,进而抽取出Web查询接口的模式. 相似文献
9.
随着Web数据库数量和其蕴含数据量飞速的增长,对Deep Web数据的集成越来越成为研究领域关注的问题.然而由于Web上的信息以半结构化及无结构化的数据信息居多,导致了抽取的结果中包含诸多的不确定性.如有噪音数据、重复字符、简写与全称混合等问题.这给识别重复记录带来了很大不便,导致传统的去重算法无法达到很好的效果.为此,提出了一种面向deep Web结果整合的重复记录识别模型.在该模型中,提出了一种基于编辑距离的改进算法,基于该算法实现字符串匹配;通过构建属性匹配图,并采用二次确认机制实现识别重复记录.应用该模型,既提高了识别效率又保证了识别精确度,并通过实验证明了提出的算法和模型的可行性. 相似文献
10.