首页 | 本学科首页   官方微博 | 高级检索  
     

基于义原同现频率的汉语词义排歧方法
引用本文:杨尔弘,张国清,张永奎.基于义原同现频率的汉语词义排歧方法[J].计算机研究与发展,2001,38(7):833-838.
作者姓名:杨尔弘  张国清  张永奎
作者单位:1. 山西大学计算机科学系
2. 上海师范大学计算中心
基金项目:山西省青年基金项目 (2 0 0 0 10 17),山西省自然科学基金项目 (9910 35 )资助
摘    要:词义排岐是自然语言处理的重点和难点问题之一。基于语料库的统计方法已被广泛地应用于词义排岐,大多数的统计方法都受到数据稀疏的困扰,对于词义排岐而言,由于有大量同义词的存在,数据稀疏问题变得更为严重。充分利用“知网”这个知识源的特性,提出了一种基于义原同现频率的同义排岐方法,在很大程度上克服了数据稀疏问题。此外,该方法还避免了繁重的人工标注语料的过程,通过在一个约10万字的语料库上获得义原同现频率矩阵,并以此作为词义排岐的依据,实验表明,该方法对词义排岐具有较高的正确率。

关 键 词:自然语言处理  知网  义原同现频率  汉语词义排歧  语料库

A CHINESE WORD SENSE DISAMBIGUATION METHOD BASED ON PRIMITIVE CO-OCCURRENCE DATA
Abstract:Word sense disambiguation is one of the difficult problems and a key point in natural language processing. Corpus based sense disambiguation methods, like most other statistical NLP approaches, suffer from the problem of data sparseness. Especially, because there are a great number of synonyms in a text, this problem in word sense disambiguation becomes worse. In this paper, an approach is described, which overcomes this problem using the property of the Hownet. Using the word definition in the Hownet, the primitive co occurrence data matrix is obtained, which are collected from a corpus of about 100000 characters without any manual tagging. Finally, this method is tested and the result shows that it has higher accuracy.
Keywords:natural language processing  word sense disambiguation  Hownet  primitive co  occurrence data
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号