首页 | 本学科首页   官方微博 | 高级检索  
     

基于隐马尔可夫模型的中文科研论文信息抽取
引用本文:于江德,樊孝忠,尹继豪,顾益军.基于隐马尔可夫模型的中文科研论文信息抽取[J].计算机工程,2007,33(19):190-192.
作者姓名:于江德  樊孝忠  尹继豪  顾益军
作者单位:北京理工大学计算机科学技术学院,北京理工大学计算机科学技术学院,北京理工大学计算机科学技术学院,北京理工大学计算机科学技术学院 北京100081,安阳师范学院计算机科学系,安阳455000,北京100081,北京100081,北京100081
基金项目:高等学校博士学科点专项科研项目
摘    要:随着大量的科研论文出现在互联网上,从中精确地抽取论文头部信息和引文信息显得十分重要。该文提出了一种基于隐马尔可夫模型的中文科研论文头部信息和引文信息抽取算法,分析了模型结构的学习和参数估计方法。在进行信息抽取时,利用分隔符、特定标识符等格式信息对文本进行分块,利用隐马尔可夫模型进行指定域的抽取。实验结果表明,该算法具有良好的准确率和召回率。

关 键 词:隐马尔可夫模型  信息抽取  论文头部信息
文章编号:1000-3428(2007)19-0190-03
修稿时间:2006-11-20

Information Extraction from Chinese Research Papers Based on Hidden Markov Model
YU Jiang-de,FAN Xiao-zhong,YIN Ji-hao,GU Yi-jun.Information Extraction from Chinese Research Papers Based on Hidden Markov Model[J].Computer Engineering,2007,33(19):190-192.
Authors:YU Jiang-de  FAN Xiao-zhong  YIN Ji-hao  GU Yi-jun
Affiliation:1.School of Computer Science and Technology,Beijing Institute of Technology,Beijing 100081;2.Department of Computer Science,Anyang Normal College,Anyang 455000
Abstract:As many research papers appear on the Internet,it is very important to accurately extract paper header information and citation from these papers.Thispaper proposes an algorithm based on hidden Markov model for extracting paper header information and citation from Chinese research papers,analyzes the key to the learning of the module structure and method of parameter estimation.In the processing,the algorithm makes full use of the format information of list separators and special-labels to segment text,and gains extraction information of special-fields,based on hidden Morkov model.Experimental results show that the algorithm has good performance in precision and recall.
Keywords:hidden Markov model  information extraction  paper header information
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号