首页 | 本学科首页   官方微博 | 高级检索  
     

基于多特征融合的无监督真值发现方法
引用本文:陈华凤,董永权,杨昊霖,张国玺. 基于多特征融合的无监督真值发现方法[J]. 数据采集与处理, 2023, 38(3): 629-642
作者姓名:陈华凤  董永权  杨昊霖  张国玺
作者单位:1.江苏师范大学信息化建设与管理处, 徐州 221116;2.江苏师范大学计算机科学与技术学院, 徐州 221116
基金项目:国家自然科学基金(61872168);江苏省研究生科研与实践创新项目(KYCX20_2382)。
摘    要:真值发现是数据集成领域具有挑战性的研究热点之一。传统的方法利用数据源与观测值之间的交互关系推断真值,缺乏足够的特征信息;基于深度学习的方法可以有效地进行特征抽取,但其性能依赖于大量手工标注,而在实际应用中很难获取到大量高质量的真值标签。为克服以上问题,本文提出一种基于多特征融合的无监督真值发现方法(Unsupervised truth discovery method based on multi-feature fusion, MFOTD)。首先,利用集成学习无监督标注“真值”标签;然后,分别使用预训练模型 Bert和独热编码获取观测值的语义特征和交互特征;最后,融合观测值多种特征并使用其“真值”标签构建初始训练集,通过自训练方式训练真值预测模型。在两个真实数据集上的实验结果表明,与已有方法相比,本文所提出的方法具有更高的真值发现准确性。

关 键 词:Web数据集成  半监督学习  数据清洗  真值发现  数据源质量
收稿时间:2022-06-24
修稿时间:2022-07-19

Unsupervised Truth Discovery Method Based on Multi-feature Fusion
Chen Huafeng,Dong Yongquan,Yang Haolin,Zhang Guoxi. Unsupervised Truth Discovery Method Based on Multi-feature Fusion[J]. Journal of Data Acquisition & Processing, 2023, 38(3): 629-642
Authors:Chen Huafeng  Dong Yongquan  Yang Haolin  Zhang Guoxi
Affiliation:1.Department of Information Construction and Management, Jiangsu Normal University, Xuzhou 221116, China;2.College of Computer Science and Technology, Jiangsu Normal University, Xuzhou 221116, China
Abstract:
Keywords:Web data integration  semi-supervised learning  data cleaning  truth discovery  data source quality
点击此处可从《数据采集与处理》浏览原始摘要信息
点击此处可从《数据采集与处理》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号