首页 | 本学科首页   官方微博 | 高级检索  
     

基于真值发现的冲突数据源质量评价算法
作者姓名:王继奎  李少波
作者单位:中国科学院成都计算机应用研究所;贵州大学现代制造技术教育部重点实验室
摘    要:针对目前冲突数据源的质量评价模型仅考虑了准确度与精确度2个方面,没有考虑数据源提供错误描述与提供空值对数据源质量会产生不同影响的情况,通过将数据源提供的错误描述定义为主动错误,并将数据源没有为实体提供描述定义为被动错误,从主动错误、被动错误2个方面建立数据源质量模型.该模型以敏感度、明确度代替了准确度与精确度;为了处理多真值问题,预先合并数据源对实体的描述,定义合并描述的包含关系及包含度计算模型;在包含度计算模型的基础上,提出基于描述包含度的冲突数据源质量评价算法(TFDQ).在通用数据集Books-Authors上的实验表明,与Vote算法、TruthFinder算法相比,TFDQ算法实验结果更接近真实情况.

关 键 词:数据集成  数据源质量  真值发现
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号