首页 | 本学科首页   官方微博 | 高级检索  
     

一种新的基于统计的词典扩展方法
引用本文:周正宇,李宗葛. 一种新的基于统计的词典扩展方法[J]. 中文信息学报, 2001, 15(5): 47-52
作者姓名:周正宇  李宗葛
作者单位:复旦大学计算机科学系
摘    要:在建立统计语言模型时,往往会遇到词典的词汇量不够的问题。对于医学等专业领域的语料,这一问题尤为严重。针对这一问题,本文提出了一种新的基于统计的识别新词方法——右边缘扩展法。该方法对分词后的语料中产生的连续单字词进行关联范数估计,利用右边缘扩展的方法判断词的边界。在实验中,我们将右边缘扩展法与基于Witten-Bell back off方法的两两合并法相结合,循环地调整词典,优化语言模型。实验结果表明,该算法具有很高的识别正确率与检出率,可以有效地识别出语料中出现的新词汇,尤其是专业术语。

关 键 词:词典  关联范数估计  右边缘扩展法  语言模型  
修稿时间:2001-04-19

A New Statistical Method of Automatic Lexicon Augmentation
ZHOU Zheng yu LI Zong ge. A New Statistical Method of Automatic Lexicon Augmentation[J]. Journal of Chinese Information Processing, 2001, 15(5): 47-52
Authors:ZHOU Zheng yu LI Zong ge
Affiliation:Department of Computer Science,Fudan University
Abstract:The out of vocabulary problem is one of the bottlenecks in Chinese Language Modeling.The problem is especially serious for domain specific training data set.This paper presents a new statistical method to extract new words from the training data.This new method is based on association norm estimation,and searches for the word boundaries by right boundary expanding.Combining the new method with another word merging method,we can iteratively optimize the lexicon,segmentation and language model.And very encouraging results are reported in our experiments.
Keywords:lexicon  association norm estimation  right boundary expanding  language model
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号