首页 | 本学科首页   官方微博 | 高级检索  
     

基于Web的表格信息抽取研究
引用本文:秦振海,谭守标,徐超.基于Web的表格信息抽取研究[J].计算机技术与发展,2010,20(2):217-220.
作者姓名:秦振海  谭守标  徐超
作者单位:安徽大学,电子科学与技术学院,安徽,合肥,230039
基金项目:安徽省自然科学研究重点项目 
摘    要:如今,Web成为了网络信息的主要平台。根据研究发现,表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析。在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格的信息抽取。

关 键 词:HTML表格  信息抽取  Web  XML

Study on Tables Information Extraction Based on Web
QIN Zhen-hai,TAN Shou-biao,XU Chao.Study on Tables Information Extraction Based on Web[J].Computer Technology and Development,2010,20(2):217-220.
Authors:QIN Zhen-hai  TAN Shou-biao  XU Chao
Abstract:
Keywords:Web  XML
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号