汉语统计语言模型的N值分析 A Study of The Value of Parameter N in ngram Statistical Model in Chinese Language期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

汉语统计语言模型的N值分析

引用本文：	张树武黄泰翼. 汉语统计语言模型的N值分析[J]. 中文信息学报, 1998, 12(1): 36-42

作者姓名：	张树武黄泰翼

作者单位：	中科院自动化所模式识别实验室,北京2728 信箱100080

摘要：	N 元语言模型(n - gram) 作为统计语言处理的主要方法,目前在汉语语言处理(词性标注、字符识别、语音识别等) 中已得到广泛的应用。但是,具体N 取何值为较优,目前尚没有明确的定论。本文从对汉语短语语法模式的近似表示、对未登录语词的自动检测与重构能力、和实际的音文转换应用系统性能测试三个方面出发,综合比较和分析了基于汉语词的N 元语言模型中N 值的选择。并得出结论:对于基于真实词的汉语N 元语言模型,N 的取值范围应介于3 至6 之间,且N = 4 为较优。这一结论将有助于汉语统计语言处理的发展。
关键词：	计算语言学语言模型语音识别
A Study of The Value of Parameter N in ngram Statistical Model in Chinese Language

ZHANG Shuwu,HUANG Taiyi. A Study of The Value of Parameter N in ngram Statistical Model in Chinese Language[J]. Journal of Chinese Information Processing, 1998, 12(1): 36-42

Authors:	ZHANG Shuwu HUANG Taiyi

Affiliation:	National Lab. of Pattern Recognition 　Institute of Automation ,Chinese Academy of Sciences ,Beijing 100080 ,China

Abstract:

Keywords:
本文献已被 CNKI 维普等数据库收录！
	点击此处可从《中文信息学报》浏览原始摘要信息
	点击此处可从《中文信息学报》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏