首页 | 本学科首页   官方微博 | 高级检索  
     

汉语统计语言模型的N值分析
引用本文:张树武 黄泰翼. 汉语统计语言模型的N值分析[J]. 中文信息学报, 1998, 12(1): 36-42
作者姓名:张树武 黄泰翼
作者单位:中科院自动化所模式识别实验室,北京2728 信箱100080
摘    要:N 元语言模型(n - gram) 作为统计语言处理的主要方法,目前在汉语语言处理(词性标注、字符识别、语音识别等) 中已得到广泛的应用。但是,具体N 取何值为较优,目前尚没有明确的定论。本文从对汉语短语语法模式的近似表示、对未登录语词的自动检测与重构能力、和实际的音文转换应用系统性能测试三个方面出发,综合比较和分析了基于汉语词的N 元语言模型中N 值的选择。并得出结论:对于基于真实词的汉语N 元语言模型,N 的取值范围应介于3 至6 之间,且N = 4 为较优。这一结论将有助于汉语统计语言处理的发展。

关 键 词:计算语言学  语言模型  语音识别  

A Study of The Value of Parameter N in ngram Statistical Model in Chinese Language
ZHANG Shuwu,HUANG Taiyi. A Study of The Value of Parameter N in ngram Statistical Model in Chinese Language[J]. Journal of Chinese Information Processing, 1998, 12(1): 36-42
Authors:ZHANG Shuwu  HUANG Taiyi
Affiliation:National Lab. of Pattern Recognition  Institute of Automation ,Chinese Academy of Sciences ,Beijing 100080 ,China
Abstract:
Keywords:
本文献已被 CNKI 维普 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号