首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 78 毫秒
1.
朱灿  曹健 《计算机科学》2015,42(3):8-12, 18
实体解析是数据清理、数据集成、数据挖掘等技术中关键的一步,是数据质量的保障。介绍了实体解析含义、背景起源以及算法基础。列举并解释了实体解析发展过程中的经典算法,包括成对实体解析、集合实体解析、大数据的实体解析、复杂数据上的实体解析等,以及它们的特点和局限性,分享了在新的应用环境下衍生出来的针对不同需求的新的实体解析算法。最后展望了实体解析领域当前的研究热点以及发展方向。  相似文献   

2.
实体解析用于判断两个数据记录是否描述的是同一实体对象,记录聚合则把所有属于同一实体对象的数据记录进行聚集,建立关联,方便交叉索引.本文基于MapReduce编程模型,提出一种迭代的并行处理框架,采用面向学习的分类方法进行实体解析,根据属性相似的传递性,并结合函数式语言的本身特性,对记录进行高效聚合.相关算法和框架应用于建立医院之间患者标识交叉索引平台,为患者主索引的建立以及信息共享提供依据.实验结果表明,MapReduce编程模型非常适合于实体解析与记录聚合的一体化处理,其编程快捷,运行高效,而且数据分区和并行处理技术避免了大量连接引发的内存溢出问题.  相似文献   

3.
现有的实体分辨方法在准确性和效率上各有所长,将易分辨和难分辨的记录对分开,为下一步分别应用不同分辨方法提供基础。对待划分的记录对,利用变精度邻域粗糙集分别计算相似记录对和不相似记录对的上下近似集,得到全体记录对的上下近似集及对应的边界,处于边界域的记录对即为难分辨的记录对,其余为易分辨的记录对。分析了变精度邻域粗糙集中的包含度阈值和距离阈值对于记录对划分的影响。利用实验比较难分辨、易分辨和原始记录对在利用相似度阈值分类和利用KNN分类时的准确性,说明了划分的有效性。  相似文献   

4.
长记录数据的映射链接排序算法研究   总被引:4,自引:1,他引:4  
本文针对现有排序方法处理大规模长记录数据的应用局限性,提出了一种谓之映射链接的新排序方法,给出了该排序算法的描述、时间复杂度分析及用C语言编写程序进行算法比较的实验结果。  相似文献   

5.
针对相关实体发现中基于Wikipedia的实体排序存在的问题: 半自动的目标类型获取、粗粒度的目标类型、实体类型相关度二值判断、实体关系相关度计算未考虑停止词作用.设计了一个实体排序框架,从实体相关度、实体类型相关度和实体关系相关度3方面的组合计算来对实体进行排序,通过对比多种组合方法获取了最优的方法.提出了一种新的实体类型相关度计算方法,该方法可以自动获取细粒度的目标实体类型,并通过归纳学习获取其下义Wikipedia类别判别规则集合,通过统计候选实体类别信息中符合目标类型下义类别判别规则的类别数来计算实体类型相关度.提出了一种”去停止词重构关系”方法计算候选实体和源实体的关系相关度.实验表明提出的方法可以有效地提高实体排序效果并且降低计算时间耗费.  相似文献   

6.
提出一种基于马尔可夫链的主题和时间敏感的合作关系网络实体排序算法TTS-Rank,将节点排序过程解释为随机投票过程.算法首先将合作关系网络按照合作主题进行投影,然后在马尔可夫链随机游走模型中扩展了合作时间敏感的状态转移函数,最后根据迭代计算出的各节点得票数对实体进行排序.基于互联网开源社区合作关系网络数据的实验表明,TTS -Rank算法较传统算法更为精确,能有效支持面向不同技术主题、不同时间区间的实体排序.  相似文献   

7.
本文介绍一种数据库记录按任一字段值大小进行排序的实现方法。  相似文献   

8.
实体解析是数据集成的关键方面,也是大数据分析与挖掘的必要预处理步骤.大数据时代,随着查询驱动的数据应用需求的不断增长,查询式实体解析成为热点问题.为了提升查询-解析效率,研究了面向实体缓存的多属性数据索引技术.涉及两个核心问题:(1)如何设计多属性数据索引?设计了基于R-树的多属性索引结构.为了满足实体缓存在线生成需求,提出了基于空间聚类的在线索引构建方法.提出了基于“过滤-验证”的多维查询方法,利用多属性索引有效地过滤掉不可能命中的记录,然后采用相似性函数或距离函数逐一验证候选记录.(2)如何将不同的字符串属性插入到树形索引中?解决思路是,将字符串映射到数值空间.针对Jaccard相似性和编辑相似性,提出了基于q-gram的映射方法,并提出了基于向量降维的优化和基于z-order的优化,实现高质量的“字符串→数值”映射.最后,在两个数据集上进行实验评估,验证多属性索引的有效性,并测试其各个方面.  相似文献   

9.
杨丹  陈默  申德荣 《计算机科学》2017,44(2):112-116
异构信息空间中的实体和关联关系普遍具有时间信息、多种时间版本的实体数据共存,而传统的实体集成忽略了时间信息,不支持时间维度上的集成。提出一种异构信息空间中时间感知的实体集成框架T-EI,从大量异构实体数据中聚集事实形成干净的、完整的、具有时间信息的实体概貌,进而支持时间感知的实体搜索。T-EI利用实体及关联关系所具有的时间信息提出时间感知的实体识别算法,并通过考虑数据时效性提出时间感知的数据融合算法。在真实数据集上的实验结果表明了T-EI的可行性和有效性。  相似文献   

10.
实体解析(entity resolution, ER)是数据集成和清洗系统的关键基础问题.尽管有大量实体解析方法提出,但这些方法依赖隐式或显式的假设或采用不同的解析策略.对相同的实体解析任务进行处理后,它们的结论存在冲突,产生了大量的不一致记录对.在没有给定标记数据的情况下,进行这类记录对的消歧处理具有很大的挑战:一方面当标签数据缺失时,评估现存方法的解析效果并选出最优的不可行,另一方面尽管可选的方法是协调这些冲突结果以得到一致的标记方案,但有效且融合所有提示信息的消歧策略还有待研究.为此,提出了一种基于因子图的不一致记录对消歧方法.该方法首先对某给定的实体解析任务使用现存的实体解析技术进行实体解析,得到一致或不一致的记录对;接着,用核密度估计、匹配信息传递等方法输出与不一致记录对是否匹配相关的特征,并把这些建模为因子图的因子函数,该因子图是一个带因子权重的联合概率分布;最后基于最大似然估计方法估计出各因子的权重,并基于该分布对不一致记录对进行消歧处理.实验结果表明:在真实的数据集合,该方法有效且优于现存最好的方法.  相似文献   

11.
在数据库研究领域,模式匹配和实体统一是被广泛关注的两个方向。随着对Web数据集成需求的增长,无论是在模式和实体层次,研究这两方面问题是很有实际意义的。当前的研究大多针对两项任务的其中之一。在文章中,基于模式匹配促进实体统一的新思路,提出了一种同时解决这两项任务的方法,实现了它们之间的相互促进机制。在现实的Web异构数据源场景中应用该方法,得到的查准率和查全率都很高,证明了该方法的正确性和有效性。  相似文献   

12.
实体识别是将一个或多个数据源中描述同一现实世界实体的数据对象分到同一组的过程,它 在数据清洗、数据集成、数据挖掘中起着至关重要的作用。然而,实体的特征具有随时间演化的特性,这使得实体识别面临巨大的挑战。传统的实体识别方法解决了特征随着时间规律性的改变问题,但没有考虑到数据的不规律变化。该文提出了基于分类的方法解决特征不规律演化的实体识别问题。该方法首先利用机器学习中改进的随机森林的方法计算记录的相似性,接着提出了一个新型的两阶段 聚类算法完成记录聚类过程,最后通过在真实数据集上的对比试验证明了该算法的有效性。通过在真实数据集上的实验,证明了该方法能够有效提高演化实体的识别准确性。  相似文献   

13.
数据量大、数据更新速度快、数据源多样和数据存在噪声是大数据的四大特点,这为数据集成提出了新的挑战.实体解析是数据集成的一个重要步骤,在大数据环境下,传统的实体解析算法在效率、质量,特别是抗噪声能力方面的表现并不理想.为了解决大数据环境中因为数据噪声所导致的解析结果冲突,将公共邻居引入相关性聚类问题.上层预分块算法基于邻居关系设计,因而能够快速有效地完成初步分块;核概念的引入更精确地定义了节点与类之间的关联程度,以便下层调整算法准确地判断节点的归属,进而提高相关性聚类的准确度.两层算法采用较为粗糙的相似度距离函数,使得算法不仅简单而且高效.同时,由于引入邻居关系,算法的抗噪声能力明显提高.大量实验表明,两层相关性聚类算法无论在解析质量、抗噪声能力还是在扩展性方面均优于传统算法.  相似文献   

14.
实体分辨广泛地存在于数据质量控制、信息检索、数据集成等数据任务中.传统的实体分辨主要面向关系型数据,而随着大数据技术的发展,文本、图像等模态不同的数据大量涌现催生了跨模态数据应用需求,将跨模态数据实体分辨提升为大数据处理和分析的基础问题之一.对跨模态实体分辨问题的研究进展进行回顾,首先介绍问题的定义、评价指标;然后,以模态内关系的保持和模态间关系的建立为主线,对现有研究进行总结和梳理;并且,通过在多个公开数据集上对常用方法进行测试,对出现差异的原因和进行分析;最后,总结当前研究仍然存在的问题,并依据这些问题给出未来可能的研究方向.  相似文献   

15.
Li  Bo-Han  Liu  Yi  Zhang  An-Man  Wang  Wen-Huan  Wan  Shuo 《计算机科学技术学报》2020,35(4):769-793
Journal of Computer Science and Technology - Entity resolution (ER) is a significant task in data integration, which aims to detect all entity profiles that correspond to the same real-world...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号