首页 | 本学科首页   官方微博 | 高级检索  
     

多源Web对象与关系数据的集成
引用本文:黄健斌,姬红兵,孙鹤立. 多源Web对象与关系数据的集成[J]. 西安电子科技大学学报(自然科学版), 2007, 34(1): 126-130
作者姓名:黄健斌  姬红兵  孙鹤立
作者单位:西安电子科技大学电子工程学院,西安电子科技大学电子工程学院,西安交通大学计算机科学与技术系 陕西西安710071,西安电子科技大学计算机学院,陕西西安710071,陕西西安710071,陕西西安710049
基金项目:国家部委预研项目;西安电子科技大学博士生创新基金
摘    要:利用序列数据语义标注学习方法来解决异构数据源的模式匹配问题,将从多个网站抽取的异构Web对象集成到关系数据库中.在线性链条件随机场的基础上提出了一种可叠加多阶链的组合条件随机场模型.该模型可以在由手工标注数据和关系数据库记录组成的联合样本集上进行训练,因此减少了对繁琐手工标注样本的依赖;此外,通过在线性链条件随机场模型上叠加高阶链,使得该模型能够有效地处理状态变量间的长距离依赖.在多个领域的真实数据集上的实验和分析结果表明,所提出的方法能显著提高异构Web数据的字段标注性能.

关 键 词:Web数据集成  模式匹配  组合条件随机场
文章编号:1001-2400(2007)01-0126-05
修稿时间:2006-09-11

Integrating Web objects extracted from multiple sites into relational database
HUANG Jian-bin,JI Hong-bing,SUN He-li. Integrating Web objects extracted from multiple sites into relational database[J]. Journal of Xidian University, 2007, 34(1): 126-130
Authors:HUANG Jian-bin  JI Hong-bing  SUN He-li
Affiliation:(1. School of Electronic Engineering, Xidian Univ., Xi′an 710071, China;2. School of Computer Science and Technology, Xidian Univ., Xi′an 710071, China;3. Dept. of Computer Science and Technology, Xi′an Jiaotong Univ., Xi′an 710049, China) ;
Abstract:This paper studies the problem of integrating heterogeneous semi-structured Web objects into relational database. A generalized sequential learning model named the Combined Conditional Random Fields is presented for solving the problem of schema matching between pairs of heterogeneous Web data sources.The proposed model is able to learn on the manually labeled training data and unlabeled database records,thereby reducing the dependence on tediously labeled samples.It also provides a novel way to incorporate the two-dimensional neighborhood dependencies between Web data elements.Moreover,a constrained Viterbi algorithm is implemented to resolve the imposed labels inference for optimal data integration.Experimental results using a large number of Web pages from diverse domains show that the proposed method can improve the matching accuracy significantly.
Keywords:Web data integration  schema matching  conditional random fields
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《西安电子科技大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《西安电子科技大学学报(自然科学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号