基于Web的表格信息抽取研究 Study on Tables Information Extraction Based on Web期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于Web的表格信息抽取研究

引用本文：	秦振海,谭守标,徐超.基于Web的表格信息抽取研究[J].计算机技术与发展,2010,20(2):217-220.

作者姓名：	秦振海谭守标徐超

作者单位：	安徽大学,电子科学与技术学院,安徽,合肥,230039

基金项目：	安徽省自然科学研究重点项目

摘要：	如今，Web成为了网络信息的主要平台。根据研究发现，表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息，自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途，所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示，由于HTML不描述数据的内容，机器不能理解和查询。论文首先将HTML文档转换为XML文档，结合本体形成启发式规则，对表格定位、表格结构识别两个关键技术进行了分析。在此基础上，利用HTML表格属性，将HTML表格标准化，从而适用于复杂表格的信息抽取。
关键词：	HTML表格信息抽取 Web XML
Study on Tables Information Extraction Based on Web

QIN Zhen-hai,TAN Shou-biao,XU Chao.Study on Tables Information Extraction Based on Web[J].Computer Technology and Development,2010,20(2):217-220.

Authors:	QIN Zhen-hai TAN Shou-biao XU Chao

Abstract:

Keywords:	Web XML
本文献已被维普万方数据等数据库收录！