排序方式: 共有3条查询结果,搜索用时 15 毫秒
1
1.
实体解析(entity resolution, ER)是数据集成和清洗系统的关键基础问题.尽管有大量实体解析方法提出,但这些方法依赖隐式或显式的假设或采用不同的解析策略.对相同的实体解析任务进行处理后,它们的结论存在冲突,产生了大量的不一致记录对.在没有给定标记数据的情况下,进行这类记录对的消歧处理具有很大的挑战:一方面当标签数据缺失时,评估现存方法的解析效果并选出最优的不可行,另一方面尽管可选的方法是协调这些冲突结果以得到一致的标记方案,但有效且融合所有提示信息的消歧策略还有待研究.为此,提出了一种基于因子图的不一致记录对消歧方法.该方法首先对某给定的实体解析任务使用现存的实体解析技术进行实体解析,得到一致或不一致的记录对;接着,用核密度估计、匹配信息传递等方法输出与不一致记录对是否匹配相关的特征,并把这些建模为因子图的因子函数,该因子图是一个带因子权重的联合概率分布;最后基于最大似然估计方法估计出各因子的权重,并基于该分布对不一致记录对进行消歧处理.实验结果表明:在真实的数据集合,该方法有效且优于现存最好的方法. 相似文献
2.
3.
针对关系数据的不一致性虽然已有各种修复方法被提出,但这些修复策略在构建最终修复方案过程中只分析函数依赖包含属性的信息(即数据集的部分信息),且偏向于修复代价最小的方案,而忽略了数据集的其它属性以及这些属性与函数依赖包含属性之间的相关性。为此,本文提出一种基于可能世界模型的不一致性修复方法。它首先构造可能的修复方案,然后从修复代价和属性值相关性二个方面量化各个候选修复方案的可信性程度,并最后找出最优的修复方案。实验结果验证了本文提出的修复方法取得了比现有基于代价的修复方法更好的修复效果。我们同时也分析了错误率和不同类型概率量化对本文提出的修复方法的影响。 相似文献
1