排序方式: 共有73条查询结果,搜索用时 15 毫秒
51.
SimRank算法是一种常用的相似性度量模型,它基于图的拓扑结构信息来衡量任意两个对象之间的相似程度。随着数据规模的不断增大,集中式SimRank算法已不适用,而已有的分布式SimRank算法在运行效率和扩展性等方面存在缺陷。针对上述问题,提出了一种两阶段的基于随机游走路径的分布式SimRank算法。第一阶段基于BSP(bulk synchronous parallel)模型建立随机游走路径索引信息,支持新路径的动态添加,并通过阈值过滤尽可能减少生成路径的数量;第二阶段利用第一阶段生成的索引信息,提出了基于MapReduce的分布式SimRank算法。最后,通过实验验证了算法的可行性和有效性。 相似文献
52.
Yue Kou 《计算机科学技术学报》2009,24(4):626-637
With the rapid growth of Web databases,it is necessary to extract and integrate large-scale data available in Deep Web automatically.But current Web search engines conduct page-level ranking,which are becoming inadequate for entity-oriented vertical search.In this paper,we present an entity-level ranking mechanism called LG-ERM for Deep Web queries based on local scoring and global aggregation.Unlike traditional approaches,LG-ERM considers more rank influencing factors including the uncertainty of entity... 相似文献
53.
随着互联网的普及和不断发展,用户通过多个社交网络进行社交活动,使用社交网络带来的丰富内容和服务.通过识别出不同社网上的同一用户,可以有助于进行用户推荐、行为分析、影响力最大化,因而显得尤为重要.已有方法主要基于用户的结构特征和属性特征来识别匹配用户,大多仅考虑局部结构,并且受已知匹配用户数量的限制.基于此,本文提出了一种基于全视角特征结合众包的跨社交网络用户识别方法(OCSA).首先,利用众包来提高已知匹配用户的数量,接着,应用全视角特征评价用户的相似度,以提升用户匹配的准确性,最后,利用两阶段的迭代式匹配方法完成用户识别工作.实验结果表明该文提出的算法可显著提高用户识别的召回率和准确率,并解决了已知匹配用户数量不足时的识别问题. 相似文献
54.
随着比特币、以太币等一系列加密货币的兴起,其底层的区块链技术受到越来越广泛的关注.区块链有防篡改、去中心化的特性.以太坊利用区块链技术来构建新一代去中心化的应用平台.BigchainDB将区块链技术与传统的分布式数据库相结合,利用基于联盟投票的共识机制改进传统Pow机制中的节点全复制问题,提高了系统的扩展性与吞吐率.但是现有的区块链系统存储的信息大都是固定格式的交易信息,虽然在每个交易里有数据字段,但是现有的区块链系统并不能经由链上对交易内的数据字段的具体细节进行直接查询.如果想要查询数据字段的具体细节,只能先根据交易的哈希值进行查询,得到该交易的完整信息,然后再检索该交易内的数据信息.数据可操作性低,不具备传统数据库的查询功能.首先提出一种区块链数据库系统框架,将区块链技术应用于分布式数据管理;其次提出一种基于哈希指针的不可篡改索引,根据该索引快速检索区块内数据,以此实现区块链的查询;最后,通过实验测试数据库的读写性能,实验结果表明,所提出的不可篡改索引在保证不可篡改的同时具有较好的读写性能. 相似文献
55.
由于云服务具有灵活性、通用性和低成本等特性,将数据交由云服务器管理变得日益普遍。然而,云服务器不是完全可信的,因此将加密数据交由云服务器管理并支持加密搜索成为了当前研究的热点问题之一。加密虽然能够很好地保护数据隐私安全,但是会掩盖数据本身的语义信息,加大搜索难度。文中面向加密云数据提出了一种支持多关键字的安全语义搜索解决方案,其核心思想是基于主题模型获取文档的主题向量和主题的词分布向量,通过计算查询关键字与各个主题的语义相似度生成查询向量,支持在同一向量空间内评价查询向量与文档主题向量的相似度;提出了基于EMD并结合词嵌入计算查询向量与主题相似度的方法,提升了查询关键词与主题之间语义相似度的准确性;为支持高效语义搜索,构建了主题向量索引树,并采用"贪婪搜索"算法优化关键字搜索。理论分析和实验结果表明:所提解决方案可实现安全的多关键字语义排序搜索,并且大大提高了搜索效率。 相似文献
56.
丰富的实体关联关系是在异构信息空间中进行数据分析、数据挖掘、知识发现和语义查询等许多应用的前提条件和关键所在.然而不同于同构信息网络,由于异构信息空间中实体关联关系的复杂性、多样性和异构性使得实体关联关系挖掘并不是一件简单的任务,更具有挑战性.以作者文献网络为例,提出了一个通用的,由聚类、过滤、推理和量化4步骤组成的异构信息空间中基于聚类的实体关联关系挖掘算法CFRQ4A(clustering,filtering,reasoning and qualifying for associations).CFRQ4A算法不仅利用了异构实体自身的属性值,还利用了异构信息网络的结构(路径)信息;在挖掘过程中引入关联关系约束来保证关联关系的语义和逻辑正确性,并且针对实体关联关系的特点提出了关联强度量化模型.在真实数据集DBLP上的实验结果表明所提出算法是可行和有效的. 相似文献
57.
目前,基于图神经网络的社交推荐方法主要对社交信息和交互信息的显式关系和隐式关系进行联合建模,以缓解冷启动问题.尽管这些方法较好地聚合了社交关系和交互关系,但忽略了高阶隐式关系并非对每个用户都有相同的影响,并且监督学习的方法容易受到流行度偏差的影响.此外,这些方法主要聚焦用户和项目之间的协作关系,没有充分利用项目之间的相似关系.因此,文中提出了一种融入多影响力与偏好的图对比学习社交推荐算法(SocGCL).一方面,引入节点间(用户和项目)融合机制和图间融合机制,并考虑了项目之间的相似关系.节点间融合机制区分图内不同节点对目标节点的不同影响;图间融合机制聚合多种图的节点嵌入表示.另一方面,通过添加随机噪声进行跨层图对比学习,有效缓解了社交推荐的冷启动问题和流行度偏差.在两个真实数据集上进行实验,结果表明,SocGCL优于其他基线方法,有效提高了社交推荐的性能. 相似文献
58.
针对大数据管理的新需求,呈现出了许多面向特定应用的NoSQL数据库系统。针对基于key-value数据模型的 NoSQL 数据库的相关研究进行综述。首先,介绍了大数据的特点以及支持大数据管理系统面临的关键技术问题;然后,介绍了相关前沿研究和研究挑战,其中典型的包括系统体系结构、数据模型、访问方式、索引技术、事务特性、系统弹性、动态负载均衡、副本策略、数据一致性策略、基于flash的多级缓存机制、基于MapReduce的数据处理策略和新一代数据管理系统等;最后给出了研究展望。 相似文献
59.
60.
数据空间是一个异构的环境,并且数据及模式具有随时间演化的特性。已有的实体识别技术很少考虑时间信息在识别中所起的作用,并且没有考虑实体随时间演化的特性。针对数据空间中具有时间信息的实体识别,提出了一个四阶段的时间为中心的集合实体识别策略(time-centered collective entity resolution,T-CER)。T-CER在实体识别过程的不同阶段都考虑了时间信息所起的作用,在识别阶段提出了基于时间的聚类算法(time-based clustering,T-Clustering),并使用基于时间的约束对识别结果进行检查,以获得更精确的识别结果。在真实数据集上的大量实验结果表明了T-CER的可行性和有效性。 相似文献