共查询到18条相似文献,搜索用时 125 毫秒
1.
Web表格信息抽取是信息抽取在Web表格上的一种应用,是当今的一个研究热点。本文首先分析了Web表格信息抽取的过程,包括表格识别、结构识别以及“属性-值”对的提取;然后对当前国内外在基于特定域和独立城两种表格信息抽取研究方法上的动态及成果追行了比较和分析。在此基础上,提出了表格抽取的关键技术——表格结构识别上的一些想法;最后展望了Web表格信息抽取技术的发展趋势。 相似文献
2.
Web表格信息抽取模型的设计与实现 总被引:1,自引:0,他引:1
Web表格作为一种简洁有效的数据信息表达方式,已广泛应用于Web页面中.现提出一种基于表格结构的Web表格信息抽取模型,该模型主要有表格定位模块、表格结构预处理模块和表格信息抽取与重构模块三个模块组成,根据Web表格的结构标记和自定义的启发式规则来抽取表格信息.实验结果表明该模型能够很好地应用于Web表格信息的抽取. 相似文献
3.
基于Web的表格信息抽取研究 总被引:1,自引:0,他引:1
如今,Web成为了网络信息的主要平台。根据研究发现,表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析。在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格的信息抽取。 相似文献
4.
如今,Web成为了网络信息的主要平台。根据研究发现,表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析。在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格的信息抽取。 相似文献
5.
YU Cheng-Jian 《数字社区&智能家居》2008,(12)
在Web页面常用到表格这种元素。本文提出一种根据表格语义来进行信息抽取方法。首先提出了一种短语语义相似度的度量方法,然后利用短语语义的相似度确定表格标题行(列),并对表格行(列)与抽取字段的对应关系进行计算,最后计算表格的整体语义,度量该表格与所要抽取的内容有多大相关度。 相似文献
6.
Web表格定位技术的研究与实现 总被引:3,自引:0,他引:3
Web表格的定位作为Web表格抽取的一个重要研究内容,现在越来越得到更多人的重视.根据Web表格的结构标记和自定义的启发式规则,通过对嵌套问题的解决、数据表格完整性的判断、树的遍历来完成表格的定位. 相似文献
设为首页 | 免责声明 | 关于勤云 | 加入收藏 |
Copyright©北京勤云科技发展有限公司 京ICP备09084417号 |