首页 | 本学科首页   官方微博 | 高级检索  
     

基于二维混合条件随机场的Web记录抽取模型
引用本文:卓林,杨舟,赵朋朋,崔志明.基于二维混合条件随机场的Web记录抽取模型[J].计算机工程,2011,37(5):59-61,64.
作者姓名:卓林  杨舟  赵朋朋  崔志明
作者单位:1. 苏州大学智能信息处理及应用研究所,江苏苏州,215006
2. 苏州大学智能信息处理及应用研究所,江苏苏州,215006;江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏苏州,215006
基金项目:国家自然科学基金,2008年江苏省重大科技支撑与自主创新基金,江苏省基础研究计划企业博士创新基金
摘    要:提出一种基于混合二维条件随机场的Web记录抽取模型,以克服线性链条件随机场不能充分利用Web实体间二维依赖关系的缺点,且训练条件随机场模型时无需大量手工标注的样本数据。对当当网上的742个数据记录进行抽取,对比同等情况下的其他模型。实验结果表明,混合二维条件随机场模型在抽取TDS数据集时展现了更优越的性能。

关 键 词:条件随机场  混合条件随机场  信息抽取  Web记录

Web Records Extraction Model Based on 2D Mixed Conditional Random Fields
ZHUO Lin,YANG Zhou,ZHAO Peng-peng,CUI Zhi-ming.Web Records Extraction Model Based on 2D Mixed Conditional Random Fields[J].Computer Engineering,2011,37(5):59-61,64.
Authors:ZHUO Lin  YANG Zhou  ZHAO Peng-peng  CUI Zhi-ming
Affiliation:1,2(1.Institute of Intelligent Information Processing and Application,Soochow University,Suzhou 215006,China;2.Jiangsu Province Support Software Engineering R & D Center for Modern Information Technology Application in Enterprise,Suzhou 215006,China)
Abstract:This paper presents a model of two-dimensional Mix Conditional Random Fields(MCRF) which are used for the extraction of Web records.It overcomes the shortcomings of linear-chain conditional random that it can not take full advantage of dependencies between the various elements of Web entities.Meanwhile,it solves the problem that training CRF model often requires large number of hand-labeling sample data.In the experiment,it tries to extract 742 data records from Dangdang online,and compared with other models under the same conditions.Experimental results show a more superior performance during extracting TDS.
Keywords:Conditional Random Fields(CRF)  Mixed CRF(MCRF)  information extraction  Web records
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号