首页 | 本学科首页   官方微博 | 高级检索  
     

基于图的同义词集自动获取方法
引用本文:吴云芳,石静,金澎.基于图的同义词集自动获取方法[J].计算机研究与发展,2011,48(4).
作者姓名:吴云芳  石静  金澎
作者单位:1. 计算语言学教育部重点实验室(北京大学),北京,100871;北京大学计算语言学研究所,北京,100871
2. 乐山师范学院智能信息处理及应用实验室,四川乐山,614000
基金项目:国家自然科学基金,九十八年度蒋经国国际学术交流基金会奖助项目
摘    要:同义词集是重要的语言基础知识,基于大规模语料库的同义词集自动获取是自然语言处理领域的一项基础性研究课题.从大规模语料中自动获取有并列结构关联的词语对,据此形成图,采用Newman算法对图进行划分而自动聚类相似词语.着重研究在Newman算法的基础上,充分挖掘和利用并列结构的特性和汉语的构词特点,采用6种方法对图中边的权值加以改进从而提升效果:分割语料、去除低频边、加重双向边、加重团、加重相同后字、惩罚音节不等.同义词集自动获取的准确率从初始的23.28%提升至53.12%,准确率提高了约30个百分点.

关 键 词:相似词  同义词集  图模型  并列结构  Newman算法  边权值

Graph-Based Automatic Acquisition of Semantic Classes
Wu Yunfang,Shi Jing,Jin Peng.Graph-Based Automatic Acquisition of Semantic Classes[J].Journal of Computer Research and Development,2011,48(4).
Authors:Wu Yunfang  Shi Jing  Jin Peng
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号