首页 | 本学科首页   官方微博 | 高级检索  
     

一种用于Web信息抽取的页面信息本体自动学习方法
引用本文:柳佳刚,龙军,李泽军.一种用于Web信息抽取的页面信息本体自动学习方法[J].计算技术与自动化,2011,30(1):119-123.
作者姓名:柳佳刚  龙军  李泽军
作者单位:1. 湖南工学院,计算机与信息科学系,湖南,衡阳,421002
2. 中南大学,信息科学与工程学院,湖南,长沙,410083
基金项目:国家自然科学基金,湖南省教育厅科研项目
摘    要:针对基于Web页面信息本体的信息抽取中,需人工根据待抽信息项的概念和对应的实例值来建立本体的缺点,设计一个页面信息本体的自动学习方法。论文利用前期在基于DOM的页面相似路径归纳学习算法和基于PAT-tree的自动关键词识别算法上的研究成果,使用改进的TF.IDF统计方法和复合事件的关联规则算法完成概念和概念间关系的学习,建立页面信息本体,减少建立本体的人工工作量。

关 键 词:本体学习  信息抽取  PAT-tree  关联规则

An Automatic Ontology Learning Approach Based on Web Information Items for Web Information Extraction
LIU Jia gang,LONG Jun,LI Ze jun.An Automatic Ontology Learning Approach Based on Web Information Items for Web Information Extraction[J].Computing Technology and Automation,2011,30(1):119-123.
Authors:LIU Jia gang  LONG Jun  LI Ze jun
Affiliation:1(1.Department of Computer Science,Hunan Institute of Technology,Hengyang 421002,China;2.College of Information Science and Engineering,Central South University,Changsha 410075,China)
Abstract:According to the weakness of building ontology needs manually designated concepts and instances from the basic information of web,an automatic ontology learning approach based on web information items is designed.Utilizing pre-research that an arithmetic of an inductive learning based on DOM for the similar path of information items and an approach for identifying automatic Key words based on PAT-tree,the learning for the concepts and the relation between concepts is implemented by using an approved TFIDF statistic method and an algorithm of composite event association rule,the information item ontology is built,the manual workload for building ontology is reduce
Keywords:PAT-tree
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算技术与自动化》浏览原始摘要信息
点击此处可从《计算技术与自动化》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号