基于图的同义词集自动获取方法 Graph-Based Automatic Acquisition of Semantic Classes期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于图的同义词集自动获取方法

引用本文：	吴云芳,石静,金澎.基于图的同义词集自动获取方法[J].计算机研究与发展,2011,48(4).

作者姓名：	吴云芳石静金澎

作者单位：	1. 计算语言学教育部重点实验室(北京大学),北京,100871;北京大学计算语言学研究所,北京,100871 2. 乐山师范学院智能信息处理及应用实验室,四川乐山,614000

基金项目：	国家自然科学基金，九十八年度蒋经国国际学术交流基金会奖助项目

摘要：	同义词集是重要的语言基础知识,基于大规模语料库的同义词集自动获取是自然语言处理领域的一项基础性研究课题.从大规模语料中自动获取有并列结构关联的词语对,据此形成图,采用Newman算法对图进行划分而自动聚类相似词语.着重研究在Newman算法的基础上,充分挖掘和利用并列结构的特性和汉语的构词特点,采用6种方法对图中边的权值加以改进从而提升效果:分割语料、去除低频边、加重双向边、加重团、加重相同后字、惩罚音节不等.同义词集自动获取的准确率从初始的23.28%提升至53.12%,准确率提高了约30个百分点.
关键词：	相似词同义词集图模型并列结构 Newman算法边权值
Graph-Based Automatic Acquisition of Semantic Classes

Wu Yunfang,Shi Jing,Jin Peng.Graph-Based Automatic Acquisition of Semantic Classes[J].Journal of Computer Research and Development,2011,48(4).

Authors:	Wu Yunfang Shi Jing Jin Peng

Abstract:

Keywords:
本文献已被万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏