首页 | 本学科首页   官方微博 | 高级检索  
     

基于特征相似度的科技论文元数据提取算法研究
引用本文:钱建立,吴广茂,蒋路.基于特征相似度的科技论文元数据提取算法研究[J].微电子学与计算机,2008,25(8).
作者姓名:钱建立  吴广茂  蒋路
作者单位:1. 西北工业大学,机电学院,陕西,西安,710072
2. 西安交通大学,陕西,西安,710077
基金项目:陕西省科学技术研究发展计划项目
摘    要:通过对论文元数据网页的分析发现论文摘要页面的各种元数据在长度、前置引导词、分隔符等方面都具有特定的规律,并据此提出了基于元数据特征的元数据抽取算法,归纳出了论文元数据的7个形式特征和2个语义特征,定义了确定特征和排除特征,描述了特征相似度算法的6个步骤,给出了分别采用正则表达式方法和特征相似度方法的试验结果,测试表明,采用特征相似度方法的提取成功率从68%提高到了95%,达到了实用水平.

关 键 词:元数据抽取  特征相似度  形式特征  语义特征  确定特征  排除特征  最大相似度原则

Research on Paper Metadata Extraction Algorithm Based on Feature Similarity
QIAN Jian-li,WU Guang-mao,JIANG Lu.Research on Paper Metadata Extraction Algorithm Based on Feature Similarity[J].Microelectronics & Computer,2008,25(8).
Authors:QIAN Jian-li  WU Guang-mao  JIANG Lu
Affiliation:QIAN Jian-li1,WU Guang-mao1,JIANG Lu2
Abstract:Based on the fact that various metadata have its particular feature in length,font size,separator and so on,Paper Metadata Extraction Algorithm bases on Feature Similarity is issued,7 formal feature functions,2 semantic feature functions,Yes-Feature and No-Feature are defined,describe the 6 step of Feature Similarity Algorithm.Test results show that the extraction success rate by Feature similarity algorithm reach 95% while the extraction success rate by pure DOM method is 68% only in Paperopen.com experiment.
Keywords:metadata extraction  feature similarity  formal feature  semantic feature  yes-feature  no-feature  maximum feature similarity principle
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号