首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
运用信息论理论,从信息熵的角度对统计语言模型的复杂度度量方法进行了定量化的推理与描述,得出了语言模型对语言熵的估算值越小,说明该模型对语言的描述越精确以及两个n-1元文法模型插值形成的新模型,其性能好于n-1元文法模型,但不及n元文法模型的结论.并对应用语言模型估算汉语信息熵的方法进行了探讨.  相似文献   

2.
基于扩展N元文法模型的快速语言模型预测算法   总被引:1,自引:1,他引:0  
单煜翔  陈谐  史永哲  刘加 《自动化学报》2012,38(10):1618-1626
针对基于动态解码网络的大词汇量连续语音识别器,本文提出了一种采用扩展N元文法模 型进行快速语言模型(Language model, LM)预测的方法.扩展N元文法模型统一了语言模型和语言模型预测树的 表示与分数计算方法,从而大大简化了解码器的实现,极大地提升了语言模型预测的速度,使得高阶语言模型预测成为可能.扩展N元文法模型在解码之前离线生成,生成过程利 用了N元文法的稀疏性加速计算过程,并采用了词尾节点前推和分数量化的方法压缩模 型存储空间大小.实验表明,相比于采用动态规划在解码过程中实时计算语言模型预测分 数的传统方法,本文提出的方法在相同的字错误率下使得整个识别系统识别速率提升了5~ 9 倍,并且采用高阶语言模型预测可获得比低阶预测更优的解码速度与精度.  相似文献   

3.
本文提出了一种基于词和词义混合的统计语言模型,研究了这个模型在词义标注和汉语普通话语音识别中的性能,并且与传统的词义模型和基于词的语言模型进行了对比。这个模型比传统词义模型更准确地描述了词义和词的关系,在词义标注中具有较小的混淆度;在汉语普通话连续音识别中,这个词义模型的性能优于基于词的三元文法模型,并且需要较小的存储空间。  相似文献   

4.
循环神经网络语言模型能解决传统N-gram模型中存在的数据稀疏和维数灾难问题,但仍缺乏对长距离信息的描述能力。为此文中提出一种基于词向量特征的循环神经网络语言模型改进方法。该方法在输入层中增加特征层,改进模型结构。在模型训练时,通过特征层加入上下文词向量,增强网络对长距离信息约束的学习能力。实验表明,文中方法能有效提高语言模型的性能。  相似文献   

5.
基于N元语言模型的文本分类方法   总被引:6,自引:0,他引:6  
分类是近年来自然语言处理领域的一个研究热点。在分析了传统的分类模型后,文中提出了用N元语言模型作为中文文本分类模型。该模型不以传统的"词袋"(bagofwords)方法表示文档,而将文档视为词的随机观察序列。根据该方法,设计并实现一个基于词的2元语言模型分类器。通过N元语言模型与传统分类模型(向量空间模型和NaiveBayes模型)的实验对比,结果表明:N元模型分类器具有更好的分类性能。  相似文献   

6.
为实现AADL(体系结构分析与设计语言)对航天器控制系统等运行模式相对复杂的嵌入式系统的详细描述,针对AADL核心标准及其行为附件在描述能力上的不足,在行为附件原有文法定义的基础上进行改进,使之能够对多条件合集下的模式转换以及模式转换的优先级进行描述。提出了抽象状态的概念以简化原行为附件文法在描述组合式状态转换关系方面的繁杂程度,提高设计模型的可读性。通过对实际控制系统运行模式进行设计,结果表明了改进后的行为附件文法很好地满足了设计描述上的需求。  相似文献   

7.
可视化语言文法形式化描述综述   总被引:3,自引:1,他引:3  
许红霞  张莉 《计算机科学》2005,32(4):201-204
可视化是人机交互的主要形式,可视化语言是计算机科学中一个重要研究领域,文法为可视化语言提供了一种有价值的形式化描述方法。本文基于可视化语言的特征,介绍了可视化语言文法形式化描述体系的基本理论,分析了几种典型形式模型,并探讨了当前的主要研究内容和面临的挑战。  相似文献   

8.
介绍了一种基于HMM的汉语整句拼音输入转换为整句汉字的输入法,提出了引入语言知识后的一种音字选择方法.并给出了采用N元拼音文法时的选择模型.实验表明,该方法取得了较好的效果.  相似文献   

9.
实体关系识别是信息抽取中的关键步骤,传统的词袋模型受到长距离依赖问题的影响,在处理实体关系识别过程中的性能不佳.条件随机场具有灵活的特征表达能力,因此非常适合表示复杂的语言现象.但传统的Linear-Chain CRF仍然不能表示长距离依赖问题,而Skip-Chain CRF仅考虑了相同词的长距离依赖问题,并且由于计算过于复杂,因此很难进行扩展.本文提出了一种新型的全连通随机场模型,使用词的相似度来建立依赖关系和使用词的互信息来删除依赖关系,同时改进了词的相似度计算公式,使其能够表示距离依赖关系,从而在解决长距离语言约束问题上克服了以往统计学习模型的缺陷,并在计算强度上与Linear-Chain CRF大致相当,在实体关系识别中的性能超过了目前的Linear-Chain CRF和Skip-Chain CRF.  相似文献   

10.
徐建礼  周龙骧 《软件学报》1995,6(Z1):170-181
面向对象的并发系统与传统的并发系统(如用CSP或CCS所描述的系统)的不同之处在于其进程结构的动态性,系统中的进程以及进程之间的通信链路随着对象的变化而动态地建立或撤消.图文法模型比其他形式化工具更适合描述这种并发和动态的特性.这里我们介绍一个新的用于描述面向对象并发系统的图文法模型,在该模型中为系统的设计开发者提供了一个用来描述系统的静态和动态结构的语言工具——CSDL语言.在面向对象并发系统开发支持环境 的支持下,用CSDL语言描述的面向对象并发系统的结构可以转换成对系统运行期进程互联结构的控制机制,  相似文献   

11.
为了压缩基于词的统计语言模型的参数空间,以便构造模型空间更加紧密的ClassN-gram模型,该文研究了汉语词的自动聚类技术,提出了一种基于评价函数的汉语词的聚类算法,该算法采用词的相似度理论,并通过构造词的启发式候选词类链表,极大提高了聚类算法的工作效率。  相似文献   

12.
为了实现维吾尔语文本的相似性检测,提出一种基于N-gram和语义分析的相似性检测方法。根据维吾尔语单词特征,采用了N-gram统计模型来获得词语,并根据词语在文本中的出现频率来构建词语—文本关系矩阵,并作为文本模型。采用了潜在语义分析(LSA)来获得词语及其文本之间的隐藏关联,以此解决维吾尔语词义模糊的问题,并获得准确的相似度。在包含重组和同义词替换的剽窃文本集上进行实验,结果表明该方法能够准确有效地检测出相似性。  相似文献   

13.
维吾尔语是形态变化复杂的黏着性语言,维吾尔语词干词缀切分对维吾尔语信息处理具有非常重要的意义,但到目前为止,维吾尔语词干提取的性能仍存在较大的改进空间。该文以N-gram模型为基本框架,根据维吾尔语的构词约束条件,提出了融合词性特征和上下文词干信息的维吾尔语词干提取模型。实验结果表明,词性特征和上下文词干信息可以显著提高维吾尔语词干提取的准确率,与基准系统比较,融入了词性特征和上下文词干信息的实验准确率分别达到了95.19%和96.60%。
  相似文献   

14.
一种改善的基于语言模型的中文检索系统研究   总被引:2,自引:1,他引:2  
最近几年提出的语言模型检索系统将语音识别领域的语言模型技术引入信息检索领域并改善了检索系统的性能,但是其隐含的词汇间相互独立的假设并不符合实际情况。尽管统计翻译模型考虑了词汇间的同义词因素,但是由于它没有考虑词汇上下文信息,所以对于解决多义词词义的区分并无帮助。我们提出了触发语言模型检索方法来改善这一状况,通过训练语料得到词汇在一定上下文中的相关比率,同时利用查询条件所含词汇计算触发词汇集合来区别查询条件词汇的具体含义并将相关参数引入文档语言模型形成触发语言模型。实验结果表明我们提出的这个方法显著改善了检索系统的性能,与经典语言模型方法相比,触发语言模型方法的平均查准率提高了约12%,召回率提高了10.8%。  相似文献   

15.
传统事件触发词抽取方法在特征提取过程中对自然语言处理工具产生过度依赖的方法,耗费大量人力,容易出现错误传播和数据稀疏性等问题。为此,提出采用CNN-BiGRU模型进行事件触发词抽取的方法。将词向量和位置向量进行拼接作为输入,提取词级别特征和句子全局特征,提高触发词抽取效果,并通过CNN提取词汇级别特征,利用BiGRU获取文本上下文语义信息。在ACE2005英文语料库和中文突发事件语料库CEC上的实验结果表明,该模型事件触发词识别F1值分别达到74.9%和79.29%,有效提升事件触发词的抽取性能。  相似文献   

16.
语料资源缺乏的连续语音识别方法的研究   总被引:2,自引:0,他引:2  
由于少数民族语言有其本身的特点, 不能简单地套用现有的连续语音识别的方法. 本文以蒙古语为例, 研讨了声学和语言模型的建立, 并在日本国际电气通信基础技术研究所的连续语音识别器上实现了蒙古语的语音识别系统. 本文侧重于语言模型的建立, 基于蒙古语黏着性语言特点, 提出用相似词聚类方法建立多类N-gram模型. 实验结果显示, 应用我们提出的语言模型, 识别精度比用传统的词的N-gram识别法提高了5.5%.  相似文献   

17.
西里尔蒙古文与传统蒙古文分别是蒙古国与中国使用的蒙古文,西里尔蒙古文到传统蒙古文的转换工作不仅给两国同胞的交流带来更多的便利,而且对蒙古族的科学、文化和教育发展具有重要意义。本文结合规则与统计模型的优点,研究了西里尔蒙古文到传统蒙古文的转换方法。本文首先采用基于规则的方法对西里尔蒙古文集内词进行转换,其次对集外词的转换采用了基于联合序列模型的方法,并采用N-gram语言模型解决了一个西里尔蒙古文单词对应多个传统蒙古文单词的问题。实验结果表明,该系统单词转换错误率低至4.12%,基本达到了实用要求。  相似文献   

18.
韦向峰  张全  熊亮 《计算机科学》2006,33(10):152-155
汉语语音识别的研究越来越重视与语言处理的结合,语音识别已经不是单纯的语音信号处理。N-gram语言模型应用到语音识别系统中,大大增强了系统的正确率和稳定性,但它也有其自身的局限性,使得语音识别出现许多语法和语义的错误结果。本文分析了语音识别产生语音和文字方面的错误的原因和类型,在概念层次网络语言模型的基础上提出了一种基于语句语义分析和混淆音矩阵的语音识别纠错方法。通过三个发音人、5万字的声音语料和216句实验语句的纠错测试,本文的纠错系统在纠正语义搭配型错误方面有比较好的表现,可克服N-gram语言模型带来的一些缺陷。本文提出的纠错方法还可以融合到语音识别系统中,以便更好地为语音识别的纠错处理服务。  相似文献   

19.
事件抽取是自然语言处理中信息抽取的关键任务之一。事件检测是事件抽取的第一步,事件检测的目标是识别事件中的触发词并为其分类。现有的中文事件检测存在由于分词造成的误差传递,导致触发词提取不准确。将中文事件检测看作序列标注任务,提出一种基于预训练模型与条件随机场相结合的事件检测模型,采用BIO标注方法对数据进行标注,将训练数据通过预训练模型BERT得到基于远距离的动态字向量的触发词特征,通过条件随机场CRF对触发词进行分类。在ACE2005中文数据集上的实验表明,提出的中文事件检测模型与现有模型相比,准确率、召回率与F1值都有提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号