排序方式: 共有66条查询结果,搜索用时 359 毫秒
11.
链接跨组织数据库中表示同一实体的记录,同时保护存储在这些数据库中实体的隐私,是安全有效地整合多源数据资源的核心技术之一。然而,已有隐私保护记录链接(privacy-preserving record linkage,PPRL)技术中的分块方法不能同时保证高查全率和高查准率,强隐私性的匹配方法存在时间代价过大的不足,且对多于两个数据库间的匹配研究很少。针对上述问题,提出了一种多方强隐私保护记录链接方法(multi-partystrong-privacy-preserving record linkage,MP-SPPRL)。首先,提出了一种局部敏感哈希(locality sensitiveHashing,LSH)结合后缀分块的二次分块方法,并引入分块分散度调节两次分块,在保证MP-SPPRL高查全率的前提下有效地提高了查准率;接着,利用滑动窗口合并分块生成候选记录组,保证MP-SPPRL的容错率;然后,采用基于同态加密的Hamming距离计算方法,设计了一种适用于大型数据的基于安全多方计算(securemulti-party computation,SMC)的可伸缩多方记录匹配算法,通过缩减加密记录数量和提前终止不可能匹配的候选记录组的距离计算,显著降低了匹配的时间代价,提高了MP-SPPRL的效率;最后,通过大量实验验证了MP-SPPRL的高查全率、高查准率和高效性。 相似文献
12.
实体识别是将一个或多个数据源中描述同一现实世界实体的数据对象分到同一组的过程,它
在数据清洗、数据集成、数据挖掘中起着至关重要的作用。然而,实体的特征具有随时间演化的特性,这使得实体识别面临巨大的挑战。传统的实体识别方法解决了特征随着时间规律性的改变问题,但没有考虑到数据的不规律变化。该文提出了基于分类的方法解决特征不规律演化的实体识别问题。该方法首先利用机器学习中改进的随机森林的方法计算记录的相似性,接着提出了一个新型的两阶段
聚类算法完成记录聚类过程,最后通过在真实数据集上的对比试验证明了该算法的有效性。通过在真实数据集上的实验,证明了该方法能够有效提高演化实体的识别准确性。 相似文献
13.
14.
随着社交网络的蓬勃发展,信息传播问题由于具有广泛的应用前景而受到广泛关注,影响力最大化问题是信息传播中的一个研究热点.它致力于在信息传播过程开始之前选取能够使预期影响力达到最大的节点作为信息传播的初始节点,并且多采用基于概率的模型,如独立级联模型等.然而,现有的影响力最大化解决方案大多认为信息传播过程是自动的,忽略了社交网站平台在信息传播过程中可以起到的作用.此外,基于概率的模型存在一些问题,如无法保障信息的有效传播、无法适应动态变化的网络结构等等.因此,本文提出了一种基于重叠社区搜索的传播热点选择方法,该方法通过迭代式推广模型根据用户行为反馈逐步选择影响力最大化节点,使社交网站平台在信息传播过程中充分发挥控制作用,并提出一种新型的基于重叠社区结构的方法来衡量节点影响力,根据这种衡量方式来选择传播热点.本文提出了解决该问题的两种精确算法,包括一种基本方法和一种优化方法,以及该问题的近似算法.并通过大量实验验证了精确及近似算法的效率和近似算法的准确率以及迭代式传播热点选择方法的有效性. 相似文献
15.
互联网上每天都会产生大量的带地理位置标签和时间标签的信息,比如微博、新闻、团购等等,如何在众多的信息中找到在时间和空间地理位置上都满足用户查询需求的信息十分重要.针对这一需求,提出了一种对地理位置和时间信息的k近邻查询(ST-kNN查询)处理方法.首先,利用时空相似度对数据对象的地理位置变量和时间变量进行映射变换,将数据对象映射到新的三维空间中,用三维空间中两点之间的距离相似度来近似代替两个对象之间实际的时空相似度;然后,针对这个三维空间设计了一种ST-Rtree(spatial temporal rtree)索引,该索引综合了空间因素和时间因素,保证在查询时每个对象至多遍历1次;最后,在该索引的基础上提出了一种精确的k近邻查询算法,并通过一次计算确定查询结果范围,从而找到前k个结果,保证了查询的高效性.基于大量数据集的实验,证明了该查询处理方法的高效性. 相似文献
16.
数据空间中一种灵活的集合式实体识别框架 总被引:1,自引:0,他引:1
数据空间是一个异构、动态的环境,具有随时间演化的特性.针对数据空间中随时间演化的、彼此间具有相互关联关系的大量异构实体,提出一个灵活的、基于演化的集合式实体识别框架TE-CER.TE-CER在实体识别过程中考虑时间信息和演化的影响,提出基于时间的blocking算法T-blocking和基于时间演化的聚类算法TE-Clustering.TE-Clustering聚类算法考虑了演化对实体相似度的影响,在相似度度量中引入属性演化系数和关联关系演化系数;在聚类过程中引入簇的时间约束.并且TE-CER提出基于识别顺序依赖图来确定集合式实体识别的识别顺序的策略,这样一种实体的识别结果可以用来后续另一种相关联实体的识别证据,以提高识别的准确率.在真实数据集上的大量实验结果表明所提出方法的有效性. 相似文献
17.
带有关联关系的数据在社网平台、电子商务平台、科学数据库等环境中普遍存在,对其进行相似性查询是在各种应用中常见的操作。随着社网、电子商务、云计算等技术的发展和普及,具有关联关系的数据飞速增长,对这种类型的数据进行相似性查询成为数据库领域的一个研究热点。在此应用背景下,提出了一种基于决策树的面向关联关系型数据的分布式相似性查询方法。该方法依据属性的重要度计算相似性,计算过程中达到一定的准确度时可以结束计算,从而在保证准确性的情况下减少了计算量。同时提出了两种分布式环境下面向大数据量的决策树计算方法,该方法具有较少的通信代价,并且有概率理论保证其准确度。最后通过大量的实验证明了方法的有效性。 相似文献
18.
19.
随着海量移动数据的积累,下一个兴趣点推荐已成为基于位置的社交网络中的一项重要任务.目前,主流方法倾向于从用户近期的签到序列中捕捉局部动态偏好,但忽略了历史移动数据蕴含的全局静态信息,从而阻碍了对用户偏好的进一步挖掘,影响了推荐的准确性.为此,提出一种基于全局和局部特征融合的下一个兴趣点推荐方法.该方法利用签到序列中的顺序依赖和全局静态信息中用户与兴趣点之间、连续签到之间隐藏的关联关系建模用户移动行为.首先,引入两类全局静态信息,即User-POI关联路径和POI-POI关联路径,学习用户的全局静态偏好和连续签到之间的全局依赖关系.具体地,利用交互数据以及地理信息构建异构信息网络,设计关联关系表示学习方法,利用相关度引导的路径采样策略以及层级注意力机制获取全局静态特征.然后,基于两类全局静态特征更新签到序列中的兴趣点表示,并采用位置与时间间隔感知的自注意力机制来捕捉用户签到序列中签到之间的局部顺序依赖,进而评估用户访问兴趣点概率,实现下一个兴趣点推荐.最后,在两个真实数据集上进行了实验比较与分析,验证了所提方法能够有效提升下一个兴趣点推荐的准确性.此外,案例分析表明,建模显式路径有助于提... 相似文献
20.
数据空间中数据模型及实体关联关系挖掘的研究 总被引:2,自引:0,他引:2
数据模型的研究是目前数据空间中研究的主要问题之一,是数据空间管理系统提供其它服务的基础.由于数据空间中多种异构性数据资源的共存和松散连接的特点,有必要提出一个有效、简单而且通用的数据模型来描述和管理这些数据.本文提出了分层的图数据模型lgDM来描述数据空间中的各种数据并捕捉实体间和实体类间的语义关联信息;并给出了实体关联关系挖掘的不同策略和对图加权重的方法.lgDM具有较好地通用性和扩展性,实验结果表明所提出模型的可行性和有效性. 相似文献