基于本体的网页数据抽取技术的研究 |
| |
作者姓名: | 常丽君 |
| |
作者单位: | 南京财经大学信息工程学院; |
| |
摘 要: | 随着网络上信息的飞速增长,网络已发展成为一个巨大的数据库,人们对快速准确地获取网页数据提出了更多的需求。目前,自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识,在此基础上提出并实现了一种基于领域本体的网页数据抽取方法。在该文中,利用领域本体的关键词、概念及关系来生成抽取规则,采用语法分析模块对输入的文档进行预处理,最后根据语法分析的机构和生成的抽取规则来对文档实现数据抽取。实验证明,该方法具有良好的性能。
|
关 键 词: | 本体 网页数据抽取 包装器 |
本文献已被 CNKI 等数据库收录! |
|