首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 55 毫秒
1.
统计语言模型及汉语音字转换的一些新结果   总被引:10,自引:3,他引:10  
汉语音字转换是一个重要而困难的问题。语料库语言学为我们提供了新思路。作者们通过建立统计语言模型, 将基于语料库的方法与传统的基于规则的方法结合, 研制了THED新一代音字转换系统。该系统对随机抽取的祈华社新闻语料有不低于95%的带调音节和国标汉字的转换正确率。本文侧重报道该系统在汉语音字转换方面及与此相关的汉语切词和词性标注方面的一些实验结果, 也简要介绍该系统在语料库应用方面的一些思路。  相似文献   

2.
汉语音字转换中同音字(词)的概率后处理   总被引:2,自引:1,他引:1  
本文论述了一种新的汉语音字转换的概率后处理算法, 该算法用字( 词) 相对于前后向拼音的条件概率代替常见的字( 词) 相对于前后向汉字的条件概率, 极大地压缩了数据空间, 提高了查找效率, 使概率后处理的实付应用史趋于现实。该方法也可应用于汉字印刷体和手写体的图形识别的启处理过程。  相似文献   

3.
李鑫鑫  王轩  姚霖  关键 《自动化学报》2014,40(4):624-634
N元语言模型是解决汉字音字转换问题最常用的方法. 但在解析过程中,每一个新词的确定只依赖于前面的邻近词,缺乏长距离词之间的句法和语法约束. 我们引入词性标注和依存句法等子模型等来加强这种约束关系,并采用两个重排序方法来利用这些子模型提供的信息:1)线性重排序方法,采用最小错误学习方法来得到各个子模型的权重,然后产生候选词序列的概率;2)采用平均感知器方法对候选词序列进行重排序,能够利用词性、依存关系等复杂特征. 实验结果显示,两种方法都能有效地提高词N元语言模型的性能. 而将这两种方法进行级联,即首先采用线性重排序方法,然后把产生的概率作为感知器重排序方法的初始概率时性能取得最优.  相似文献   

4.
大规模文本计算机音字相互转换技术的研究   总被引:2,自引:1,他引:2  
文中介绍了一种利用马尔可夫统计文法和自然语言理解技术相结合的计算语言模型进行汉语音节到汉字的机器自动相互转换技术.该技术集成了统计文法和句法分析方法各自的优点,可以实用于计算机大规模真实文本的音字相互转换,并且具有处理语言深度递归现象和远距离约束关系的能力.其音字转换算法已被应用到大词表非特定人孤立词语音识别系统和中文WIN-DOWS95、WINDOWSNT4.0的智能语句输入法上.  相似文献   

5.
本文提出一种集成声学和语言学特别是词间近郁关联和远部语法规则知识的组合概率模型, 以及将这一模型用于音字转换过程的时间同步的动态规划搜索算法,并实验验证了所提模型和搜索算法的有效性  相似文献   

6.
基于转移的音字转换纠错规则获取技术   总被引:4,自引:1,他引:3  
文中描述了一种在音字转换系统中从规模不限的在线文本中自动获取纠错规则的机器学习技术。该技术从音字转换结果中自动获取误转换结果及其相应的上下文信息,从而生成转移规则集。该转移规则集应用于音字转换的后处理模块,使音字转换系统率进一步提高,并使系统具备了很强的灵活性和可扩展性。  相似文献   

7.
针对N-gram在音字转换中不易融合更多特征,本文提出了一种基于支持向量机(SVM)的音字转换模型,有效提供可以融合多种知识源的音字转换框架。同时,SVM优越的泛化能力减轻了传统模型易于过度拟合的问题,而通过软间隔分类又在一定程度上克服小样本中噪声问题。此外,本文利用粗糙集理论提取复杂特征以及长距离特征,并将其融合于SVM模型中,克服了传统模型难于实现远距离约束的问题。实验结果表明,基于SVM音字转换模型比传统采用绝对平滑算法的Trigram模型精度提高了1.2%;增加远距离特征的SVM模型精度提高1.6%。  相似文献   

8.
音字转换中分层解码模型的研究与改进   总被引:1,自引:0,他引:1  
音字转换是中文信息处理领域的一个重要研究方向,在语音识别、中文拼音输入中都有广泛应用。该文对音字转换中的拼音流切分歧义问题做了分析与研究,发现传统的分层隐马尔可夫解码模型在解决这个问题时存在缺陷,提出了利用语言模型知识辅助拼音流切分来改进已有的分层模型的思想。实验表明,与传统方法相比,该文的方法可以将首字准确率提高3%。  相似文献   

9.
基于字统计语言模型的汉语语音识别研究   总被引:1,自引:0,他引:1  
隐马尔可夫模型(HMM)由于较好地描述了语音的特性,在语音识别的研究中占主导地位,基于HMM的识别算法也因取得了较好的识别效果而得到广泛应用.但其仅仅依靠语音信号的声学模型来进行识别处理,因此存在着不能利用语言的非声学知识进行识别的固有缺陷.该文提出的新方法将基于N元文法(N-gram)的统计语言模型应用于汉语语音识别,推导了模型多数的估值公式,并给出了模型的训练和识别算法.初步实验表明:引入统计语言模型有利于降低识别难度和改善语音识别性能.  相似文献   

10.
一种多知识源汉语语言模型的研究与实现   总被引:7,自引:0,他引:7  
针对汉语语言模型中知识获取不足的问题,提出了一种统计与多种形式规则信息结合的机制,将规则的表示量化,提出语法语义规则的概念,通过扩充词网络,对其于最大可能性的n元概率值合理调整,将短语构成规则,二元语法语义规则,最少分词原则等融入统计模型框架,构成多知识源语言模型,模型应用于智能拼音汉字转换系统,明显提高了音字转换正确率,并适于处理长距离和递归语言现象。  相似文献   

11.
wordlattice是与词图(wordgraph)结构类似但是结构没有词图致密的在小任务语音识别的情况下较为常见的一种中间输出结构,给出了在wordlattice结构上的语音识别置信度估计的一种算法。以lattice结构中的连接弧作为计算单元,给出了利用前后向算法高效计算lattice中每个弧的词后验概率及以其为基础计算每个词的置信度的算法。  相似文献   

12.
一种基于语境的中文分词方法研究   总被引:4,自引:0,他引:4  
汉语不同于英语,词之间没有间隔标记.而汉语分词是文本分析的第一步,且存在歧义切分,因此分词问题成为汉语分析的首要难题,通过中文切分过程的本质分析,推导并提出基于马尔可夫链的语境中文切分理论.进而提出一种语境中文分词方法.该方法建立在词法和句法基础上,从语境角度分析歧义字段,提高分词准确率.  相似文献   

13.
本文提出了一种基于词和词义混合的统计语言模型,研究了这个模型在词义标注和汉语普通话语音识别中的性能,并且与传统的词义模型和基于词的语言模型进行了对比。这个模型比传统词义模型更准确地描述了词义和词的关系,在词义标注中具有较小的混淆度;在汉语普通话连续音识别中,这个词义模型的性能优于基于词的三元文法模型,并且需要较小的存储空间。  相似文献   

14.
全词消歧(All-Words Word Sense Disambiguation)可以看作一个序列标注问题,该文提出了两种基于序列标注的全词消歧方法,它们分别基于隐马尔可夫模型(Hidden Markov Model, HMM)和最大熵马尔可夫模型(Maximum Entropy Markov Model, MEMM)。首先,我们用HMM对全词消歧进行建模。然后,针对HMM只能利用词形观察值的缺点,我们将上述HMM模型推广为MEMM模型,将大量上下文特征集成到模型中。对于全词消歧这类超大状态问题,在HMM和MEMM模型中均存在数据稀疏和时间复杂度过高的问题,我们通过柱状搜索Viterbi算法和平滑策略来解决。最后,我们在Senseval-2和Senseval-3的数据集上进行了评测,该文提出的MEMM方法的F1值为0.654,超过了该评测上所有的基于序列标注的方法。  相似文献   

15.
词向量能够以向量的形式表示词的意义,近来许多自然语言处理应用中已经融入词向量,将其作为额外特征或者直接输入以提升系统性能。然而,目前的词向量训练模型大多基于浅层的文本信息,没有充分挖掘深层的依存关系。词的词义体现在该词与其他词产生的关系中,而词语关系包含关联单位、关系类型和关系方向三个属性,因此,该文提出了一种新的基于神经网络的词向量训练模型,它具有三个顶层,分别对应关系的三个属性,更合理地利用词语关系对词向量进行训练,借助大规模未标记文本,利用依存关系和上下文关系来训练词向量。将训练得到的词向量在类比任务和蛋白质关系抽取任务上进行评价,以验证关系模型的有效性。实验表明,与skip-gram模型和CBOW模型相比,由关系模型训练得到的词向量能够更准确地表达词语的语义信息。  相似文献   

16.
提出一种基于查询词邻近度的专家搜索算法。根据查询词在窗口中的共现关系构建概率语言模型的查询词邻近度,利用经典概率模型作为背景平滑,通过对多个查询词在文档中的距离关系建模,结合候选人与查询词之间的距离对候选专家排序。实验结果表明,在该算法中引入查询词邻近度可以提高搜索准确率,应用候选人与查询词2种邻近度可以取得更好的专家搜索效果。  相似文献   

17.
分词是中文自然语言处理中的一个关键基础技术。通过基于字的统计机器学习方法学习判断词边界是当前中文分词的主流做法。然而,传统机器学习方法严重依赖人工设计的特征,而验证特征的有效性需要不断的尝试和修改,是一项费时费力的工作。随着基于神经网络的表示学习方法的兴起,使得自动学习特征成为可能。该文探索了一种基于表示学习的中文分词方法。首先从大规模语料中无监督地学习中文字的语义向量,然后将字的语义向量应用于基于神经网络的有监督中文分词。实验表明,表示学习算法是一种有效的中文分词方法,但是我们仍然发现,由于语料规模等的限制,表示学习方法尚不能完全取代传统基于人工设计特征的有监督机器学习方法。  相似文献   

18.
中文分词技术是把没有分割标志的汉字串转换为符合语言应用特点的词串的过程,是构建石油领域本体的第一步。石油领域的文档有其独有的特点,分词更加困难,目前仍然没有有效的分词算法。通过引入术语集,在隐马尔可夫分词模型的基础上,提出了一种基于自适应隐马尔可夫模型的分词算法。该算法以自适应隐马尔可夫模型为基础,结合领域词典和互信息,以语义约束和词义约束校准分词,实现对石油领域专业术语和组合词的精确识别。通过与中科院的NLPIR汉语分词系统进行对比,证明了所提算法进行分词时的准确率和召回率有显著提高。  相似文献   

19.
词向量是词的低维稠密实数向量表示,在自然语言处理的各项任务中都扮演了重要角色。目前词向量大多都是通过构造神经网络模型,在大规模语料库上以无监督学习的方式训练得到,这样的模型存在着两个问题: 一是低频词词向量的语义表示质量较差;二是忽视了知识库可以对该模型提供的帮助。该文提出了利用知网相关概念场来提升词向量语义表示质量的模型。实验结果表明,在词语相似度任务、词语相关度任务和词语类比任务上,该模型使得斯皮尔曼相关性系数和准确率都得到了显著的提升。  相似文献   

20.
一种基于字词联合解码的中文分词方法   总被引:9,自引:1,他引:8  
宋彦  蔡东风  张桂平  赵海 《软件学报》2009,20(9):2366-2375
近年来基于字的方法极大地提高了中文分词的性能,借助于优秀的学习算法,由字构词逐渐成为中文分词的主要技术路线.然而,基于字的方法虽然在发现未登录词方面有其优势,却往往在针对表内词的切分效果方面不及基于词的方法,而且还损失了一些词与词之间的信息以及词本身的信息.在此基础上,提出了一种结合基于字的条件随机场模型与基于词的Bi-gram语言模型的切分策略,实现了字词联合解码的中文分词方法,较好地发挥了两个模型的长处,能够有效地改善单一模型的性能,并在SIGHAN Bakeoff3的评测集上得到了验证,充分说明了合理的字词结合方法将有效地提高分词系统的性能,可以更好地应用于中文信息处理的各个方面.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号