排序方式: 共有20条查询结果,搜索用时 15 毫秒
11.
统计语言模型在语音识别中具有重要作用.对于特定领域的识别系统来说,主题相关的语言模型效果远远优于领域无关的语言模型.传统方法在建立领域相关的语言模型时通常会遇到两个问题,一个是领域相关的语料不像普通语料那样充分,另一个是一篇特定的文章往往与好几个主题相关,而在模型的训练过程中,这种现象没有得到充分的考虑.为解决这两个问题,提出了一种新的领域相关训练语料的组织方法——基于模糊训练集的组织方法,领域相关的语言模型就建立在模糊训练集的基础上.同时,为了增强模型的预测能力,将自组织学习引入到模型的训练过程中,取得了良好的效果. 相似文献
12.
13.
14.
问答篇章生成系统中的用户模型和文本规划 总被引:1,自引:0,他引:1
在问答生成系统中,如果系统首先了解用户对问题所涉及的领域知识的掌握程度,系统则能根据这些知识组织文本,生成符合用户需要的内容,更好地进行人机交互。本文以花卉知识查询系统为基础,探索了用户知识对生成结果的影响,以及用户模型与文本规划之间的相互作用。实验结果表明:用户知识模型不但影响生成的内容,而且影响生成内容的风格。在此系统中,我们采取两种基本生成策略:Schema方法和Process方法,并探讨这两种生成方法的相互结合过程。 相似文献
15.
16.
汉语统计语言模型的N值分析 总被引:10,自引:0,他引:10
N 元语言模型(n - gram) 作为统计语言处理的主要方法,目前在汉语语言处理(词性标注、字符识别、语音识别等) 中已得到广泛的应用。但是,具体N 取何值为较优,目前尚没有明确的定论。本文从对汉语短语语法模式的近似表示、对未登录语词的自动检测与重构能力、和实际的音文转换应用系统性能测试三个方面出发,综合比较和分析了基于汉语词的N 元语言模型中N 值的选择。并得出结论:对于基于真实词的汉语N 元语言模型,N 的取值范围应介于3 至6 之间,且N = 4 为较优。这一结论将有助于汉语统计语言处理的发展。 相似文献
17.
18.
19.