首页 | 本学科首页   官方微博 | 高级检索  
     

基于层次关联边条件随机场的Web对象抽取
引用本文:胡丽娟,梁久祯.基于层次关联边条件随机场的Web对象抽取[J].计算机工程,2012,38(20):45-48.
作者姓名:胡丽娟  梁久祯
作者单位:江南大学物联网工程学院,江苏无锡,214122
基金项目:国家自然科学基金资助项目(61170121)
摘    要:提出一种基于层次关联边条件随机场(HCC-CRFs)模型的Web对象抽取方法.将数据块检测和属性标注合并为标签分配问题,避免误差传播现象.通过在数据块之间增加条件依赖关系,使HCC-CRFs模型能充分利用Web页面的内容层次结构.实验结果表明,该方法具有较好的抽取效果.

关 键 词:Web对象  信息抽取  数据块检测  属性标注  条件随机场  层次关联边
收稿时间:2011-12-22
修稿时间:2012-01-31

Web Object Extraction Based on Hierarchical Correlative-chain Conditional Random Fields
HU Li-juan , LIANG Jiu-zhen.Web Object Extraction Based on Hierarchical Correlative-chain Conditional Random Fields[J].Computer Engineering,2012,38(20):45-48.
Authors:HU Li-juan  LIANG Jiu-zhen
Affiliation:(School of Internet of Things Engineering,Jiangnan University,Wuxi 214122,China)
Abstract:This paper presents a Web object extraction method based on Hierarchical Correlative-chain Conditional Random Fields(HCC-CRFs) model.This method performs data record detection and attributes labeling simultaneously to avoid error propagation.It can get the most out of the content hierarchy of Web page by adding more conditional dependencies between data record.Experimental results show this method has good extraction effect.
Keywords:Web object  information extraction  data block detection  attribute labeling  Conditional Random Fields(CRFs)  hierarchical correlative-chain
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号