首页 | 本学科首页   官方微博 | 高级检索  
     

D-EEM:一种基于DOM树的Deep Web实体抽取机制
引用本文:寇月,李冬,申德荣,于戈,聂铁铮.D-EEM:一种基于DOM树的Deep Web实体抽取机制[J].计算机研究与发展,2010,47(5).
作者姓名:寇月  李冬  申德荣  于戈  聂铁铮
作者单位:1. 东北大学信息科学与工程学院,沈阳,110004
2. 东软集团商用软件事业部,沈阳,110179
基金项目:国家自然科学基金项目(60673139,60973021);;国家“八六三”高技术研究发展计划基金项目(2008AA01Z146);;中央高校基本科研业务费专项基金项目(NO90304005)~~
摘    要:随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deepweb,D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势.

关 键 词:实体抽取  DOM树  DeepWeb  数据区域定位  实体区域定位  

D-EEM: A DOM-Tree Based Entity Extraction Mechanism for Deep Web
Kou Yue,Li Dong,Shen Derong,Yu Ge,Nie Tiezheng.D-EEM: A DOM-Tree Based Entity Extraction Mechanism for Deep Web[J].Journal of Computer Research and Development,2010,47(5).
Authors:Kou Yue  Li Dong  Shen Derong  Yu Ge  Nie Tiezheng
Affiliation:College of Information Science and Engineering;Northeastern University;Shenyang 110004;Business Software Division;Neusoft Group Ltd.;Shenyang 110179
Abstract:With the increase of Web databases,accessing Deep Web is becoming the main method to acquire information.Because of the large-scale unstructured content,heterogeneous result and dynamic data in Deep Web,there are some new challenges for entity extraction.Thus it is important to solve the problem of extracting the entities from Deep Web result pages effectively.By analyzing the characteristics of result pages,a DOM-tree based entity extraction mechanism for Deep Web(called D-EEM) is presented to solve the pr...
Keywords:entity extraction  DOM-tree  Deep Web  data region location  entity region location  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号