基于网页信息和分词的中文机构名全称和简称提取方法 An extraction method of organization full names and abbreviations based on web page and word segmentation期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于网页信息和分词的中文机构名全称和简称提取方法

引用本文：	张俊玲,耿光刚,延志伟,李晓东. 基于网页信息和分词的中文机构名全称和简称提取方法[J]. 计算机应用研究, 2017, 34(4)

作者姓名：	张俊玲耿光刚延志伟李晓东

作者单位：	中国科学院大学,中国互联网络信息中心,中国互联网络信息中心,中国互联网络信息中心

基金项目：	国家自然科学基金资助项目(61375039)；国家自然科学基金资助项目(61272433)

摘要：	搜索引擎在处理全称和简称的对应关系时，以往只能通过人工添加，造成简称遗漏、搜索结果召回率低等问题。为此，本文提出了一种自动获取机构全称和简称的方法。根据域名地址获取机构网站首页源代码，从中提取相应机构全称，再结合机构名上下文特征词集合从中提取候选简称，最后计算候选简称与全称的相似度确定最终简称。通过对1287个组织机构网站的实验，全称提取正确率达93.9%，简称召回率和正确率分别达85.3%和90.8%，实验表明，该方法效果良好。
关键词：	机构名简称提取机构名全称提取网页分析简称相似度计算
收稿时间：	2016-03-29
修稿时间：	2017-02-14
An extraction method of organization full names and abbreviations based on web page and word segmentation

Zhang Junling,Geng Guanggang,Yan Zhiwei and Li Xiaodong. An extraction method of organization full names and abbreviations based on web page and word segmentation[J]. Application Research of Computers, 2017, 34(4)

Authors:	Zhang Junling Geng Guanggang Yan Zhiwei Li Xiaodong

Affiliation:	The University of Chinese Academy of Science,China Internet Network Information Center,China Internet Network Information Center,China Internet Network Information Center

Abstract:

Keywords:	extraction of organization abbreviations extraction of organization full name web page analysis abbreviation similarity calculation

	点击此处可从《计算机应用研究》浏览原始摘要信息
	点击此处可从《计算机应用研究》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏