首页 | 本学科首页   官方微博 | 高级检索  
     

基于网页信息和分词的中文机构名全称和简称提取方法
引用本文:张俊玲,耿光刚,延志伟,李晓东. 基于网页信息和分词的中文机构名全称和简称提取方法[J]. 计算机应用研究, 2017, 34(4)
作者姓名:张俊玲  耿光刚  延志伟  李晓东
作者单位:中国科学院大学,中国互联网络信息中心,中国互联网络信息中心,中国互联网络信息中心
基金项目:国家自然科学基金资助项目(61375039);国家自然科学基金资助项目(61272433)
摘    要:搜索引擎在处理全称和简称的对应关系时,以往只能通过人工添加,造成简称遗漏、搜索结果召回率低等问题。为此,本文提出了一种自动获取机构全称和简称的方法。根据域名地址获取机构网站首页源代码,从中提取相应机构全称,再结合机构名上下文特征词集合从中提取候选简称,最后计算候选简称与全称的相似度确定最终简称。通过对1287个组织机构网站的实验,全称提取正确率达93.9%,简称召回率和正确率分别达85.3%和90.8%,实验表明,该方法效果良好。

关 键 词:机构名简称提取  机构名全称提取  网页分析  简称相似度计算
收稿时间:2016-03-29
修稿时间:2017-02-14

An extraction method of organization full names and abbreviations based on web page and word segmentation
Zhang Junling,Geng Guanggang,Yan Zhiwei and Li Xiaodong. An extraction method of organization full names and abbreviations based on web page and word segmentation[J]. Application Research of Computers, 2017, 34(4)
Authors:Zhang Junling  Geng Guanggang  Yan Zhiwei  Li Xiaodong
Affiliation:The University of Chinese Academy of Science,China Internet Network Information Center,China Internet Network Information Center,China Internet Network Information Center
Abstract:
Keywords:extraction of organization abbreviations   extraction of organization full name   web page analysis   abbreviation similarity calculation
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号