首页 | 本学科首页   官方微博 | 高级检索  
     

汉语统计语言模型训练样本容量的定量化度量
引用本文:张仰森.汉语统计语言模型训练样本容量的定量化度量[J].计算机科学,2009,36(10):222-224.
作者姓名:张仰森
作者单位:北京信息科技大学智能信患处理研究所,北京,100192
基金项目:国家自然科学基金(60873013);;北京市自然科学基金B类重点项目(KZ200811232019);;中国科学院自动化研究所模式识别国家重点实验室开放基金;;北京市属市管高校人才强教计划项目资助
摘    要:统计语言模型的参数训练是语言建模的关键,选择多大的训练样本就能够达到建模的参数估计误差要求,是语言建模理论关心的问题之一。应用数理统计理论对汉语统计语言模型的训练语料样本容量进行了定量化描述,给出了汉语n-gram模型训练样本容量下界的估算方法及量化估算公式,可根据模型参数估计的误差要求计算出模型训练所需的样本容量。

关 键 词:汉语统计语言模型  训练语料样本  样本容量  相对误差  
收稿时间:2008/11/14 0:00:00
修稿时间:2/5/2009 12:00:00 AM

Statistical Language Model
ZHANG Yang-sen.Statistical Language Model[J].Computer Science,2009,36(10):222-224.
Authors:ZHANG Yang-sen
Affiliation:Institute of Intelligent Information Management;Beijing Information Science & Technology University;Beijing 100192;China
Abstract:The training of statistical language model parameter is the key of language modeling.Chooseing how many training samples to meet the demand of the model parameter estimation error is one of concern problems of language modeling theory.We applied mathematical statistics theory to give the estimating method for training samples lower bound capability for chinese model,the quantification estimation formula was suggested.By using this formula,the corpus sample capability needed to train model parameters can be ...
Keywords:Chinese statistical language model  Training corpus sample  Sample capacity  Relative error  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机科学》浏览原始摘要信息
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号