首页 | 本学科首页   官方微博 | 高级检索  
     

信息抽取模式自动生成方法的研究
引用本文:郑家恒,王兴义,李飞.信息抽取模式自动生成方法的研究[J].中文信息学报,2004,18(1):49-55.
作者姓名:郑家恒  王兴义  李飞
作者单位:山西大学计算机科学系
基金项目:国家高技术研究发展计划(863计划)
摘    要:模式匹配是信息抽取系统通常使用的方法,如何生成信息抽取模式就成为信息抽取的关键问题。由于手工编写模式的代价太大,本文尝试采用聚类方法自动生成针对中文文本的信息抽取模式。通过计算模式实例间的相似度,采用单链法聚类,将模式实例划分为不同的类别,每个类别对应一个模式,将同一类别中的模式实例进行合并就可以得到最终的信息抽取模式。以农作物信息文本为实验语料,进行了聚类测试,错分率与漏分率分别为0.21%和1.07%,合并后的模式覆盖了人工分析提出的25类中的24类。

关 键 词:人工智能  自然语言处理  信息抽取  模式匹配  信息抽取模式  
文章编号:1003-0077(2004)07-0048-07
修稿时间:2003年8月6日

Research on Automatic Generation of Extraction Patterns
ZHENG Jia heng,WANG Xing yi,LI Fei.Research on Automatic Generation of Extraction Patterns[J].Journal of Chinese Information Processing,2004,18(1):49-55.
Authors:ZHENG Jia heng  WANG Xing yi  LI Fei
Affiliation:Computer Science of Shanxi University
Abstract:Most information extraction (IE) systems adopt a pattern matching approach. As a result, how to generate extraction patterns has become an essential step. As the cost of man made patterns is very high, we propose a method to generate extraction patterns automatically by clustering. Calculating the similarity between pattern examples and Using single link clustering, examples of patterns can be clustered into various categories, each of which represents a pattern. We applied the method to Chinese agricultural texts. After clustering, the rate of wrong classification and rate of miss classification are 0 21% and 1 07%, respectively. The patterns obtained from merging include 24 types of the information that belong to the 25 types proposed by manual analysis.
Keywords:artificial intelligence  natural language processing  information extraction  pattern matching  extraction patterns  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号