首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
给出了一种基于快速排序和归并排序的高阶汉语大标记集Markov统计语言模型的统计算法,并对算法的时间复杂性和空间复杂性进行了分析,依据这种统计算法,设计实现了一个汉语字(词)统计统计系统,通过对上千万字的汉语语料的统计,建立起了汉了(词)一元,二元和三元Markov模型,并对统计结果进行了分析。  相似文献   

2.
运用混合线性模型定位复杂数量性状基因的方法   总被引:69,自引:0,他引:69  
运用混合线性模型分析原理,提出了复杂数量性状基因定位的方法,可以分析QTL复杂的遗传效应及QTL×环境互作效应.采用混合线性模型随机效应的无偏预测方法,可以预测基因型值和基因型×环境互作效应值,再运用区间作图法或复合区间作图法间接分析QTL的加性、显性遗传主效应及其与环境的互作效应,还能定位在特定发育阶段表达的QTL.基于混合模型的复合区间作图法(MCIM法)可以分析多环境的遗传实验资料,直接分析包括上位性效应的遗传主效应及其与环境的互作效应.Markov链蒙特卡罗(MCMC)分析方法可用于推断QTL的统计特征.  相似文献   

3.
汉语里有许多由反义语素并行构成的合成词和四字格短语,反义语素在意义上矛盾、对立,在语言习惯上却能共同构词,这不能不算是汉语中一个复杂而又有趣的语言现象。本文着重分析了这类词在结构和意义上的特点,并探讨了影响词内并列的反义语素排序的因素,最后从汉民族的文化心理出发论证了这类词存在的必然性。  相似文献   

4.
对于广义Gauss-Markov模型M={Y,Xβ,σ^2Σ}和经过线性变换的模型M^ ̄={FY,FXβ,σFΣF‘},其中X不必列满秩,Σ可以奇异,F是任意给定的矩阵,给出了变换前后σ^2的最小范数二次无偏估计在模型M下相等的充要条件。  相似文献   

5.
矿山经营状况评价的偏好排序   总被引:1,自引:0,他引:1  
对矿山经营状况的综合评价排序问题进行了研究,引入了高斯偏好函数和PROMETHEE排序模型。该模型适合于采矿中各类多属性决策(MADM)问题。  相似文献   

6.
隐Markov模型是在语音识别中得到了成功应用的一种统计建模工具。该研究首次将HMM技术引入数字的离散信号滤噪研究并提出了HMM综合平均法,经对加噪谐信号,方波信号、斜小信号的计算机重建仿真实验后,表明利用HMM进行此项工作有着比较好的效果。  相似文献   

7.
近年来基于字的词位标注方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为汉语分词的主要技术路线。该方法中特征模板选择至关重要,采用四词位标注集,使用条件随机场模型进一步研究基于字的词位标注汉语分词技术,在第三届和第四届国际汉语分词评测Bakeoff语料上进行封闭测试,并对比了不同特征模板集对分词性能的影响。实验表明采用的特征模板集:TMPT-10′较传统的特征模板集分词性能更好。  相似文献   

8.
计算机判阅文字录入的一种统计算法   总被引:1,自引:0,他引:1  
本文提出了一种计算机判阅文字录入错字的统计算法。该算法通过对录入文字的频度进行统计,并与范文的文字频度进行比较从而确定文字录入中的错字数;对算法的误差作了详细的分析,有效地解决了判阅错,漏,多字的问题。  相似文献   

9.
在地震动平稳过滤有色噪声模型基础上,基于“二态Markov,,跨越假定完善了模型参数的确定方法,建立了地震动随机模型与抗震设计规范GBJ11-89的联系。具体确定了模型参数(平稳持时Td,谱强度因子S0和非平稳强度函数f(t)与三水准烈度(小震、中震和大震)、场地类别、近远震的定量关系,为工程结构的概率抗震设计提供了初步可用的输入地震动模型与荷载标准。  相似文献   

10.
研究了时变结构的自振性和动力反应,建立了随机时变结构的自振和动力反应方程。考虑荷载为Markov随机过程模型,提出了基于该模型的随机时变动力分析方法。  相似文献   

11.
词语义项标注在自然语言处理领域占有重要地位.词义排歧知识的获取、基于排歧知识构建词义标注的语言模型,以及对所构建模型性能的评价就成为词语义项标注系统的三个核心问题,尤其是前两个问题非常重要,难度也很大.为更好地研究这些问题,设计并实现了一个面向词语义项标注研究的试验软件平台,应用该软件平台,很容易实现对不同语言模型、知识获取算法的试验与比较,且在模型确定之后,稍作改进,该实验系统就能成为一个功能完善的自动标注软件系统.试验表明,该平台对汉语词义标注的研究是有用的.  相似文献   

12.
为准确抽取语料库中的高频词串,使其能更好地应用于语言模型中,提出了一种基于字串切分度的中文高频词串(CFS)抽取算法,并用该算法抽取出的CFS分别建立一元和二元语言模型. 实验表明,基于CFS的语言模型能有效克服现有基于字和词的n元语法模型长距离相依性能较差的缺陷;同时,在模型困惑度、音字转换正确率上均优于已有基于净频次的CFS语言模型.  相似文献   

13.
本文介绍一种利用马尔克夫统计文法和自然语言理解技术相结合的计算语言模型进行汉语音节到汉字的机器自动相互转换技术。该技术集成了统计文法和句法分析方法各自的优点,可以实用于计算机大规模真实文本的音字相互转换,并且具有处理语言深度递归现象和远距离约束关系的能力。  相似文献   

14.
In order to construct a good language model used in the postprocessing phase of a recognition system.A smoothing technique must be used to solve the data sparseness problem. In the past,many smoothing techniques have been proposed. Among them, Katz‘ s smoothing technique is well known.However,we found that a weakness with the Katz‘ s smoothing technique. We improved this approach by incorporating one kind of special Chinese language information and Chinese word class information into the language model.We tested the new smoothing technique with a Chinese character recognition system.The experimental result showed that a better performance can be achieved.  相似文献   

15.
Category-based statistic language model is an important method to solve the problem of sparse data. But there are two bottlenecks: 1) The problem of word clustering. It is hard to find a suitable clustering method with good performance and less computation. 2) Class-based method always loses the prediction ability to adapt the text in different domains. In order to solve above problems, a definition of word similarity by utilizing mutual information was presented. Based on word similarity, the definition of word set similarity was given. Experiments show that word clustering algorithm based on similarity is better than conventional greedy clustering method in speed and performance, and the perplexity is reduced from 283 to 218. At the same time, an absolute weighted difference method was presented and was used to construct vari-gram language model which has good prediction ability. The perplexity of vari-gram model is reduced from 234.65 to 219.14 on Chinese corpora, and is reduced from 195.56 to 184.25 on English corpora compared with category-based model.  相似文献   

16.
对已有的N-gram平滑算法进行了系统地分析,分别实现了Absolute、W-B和Katz平滑算法.为解决传统Katz平滑算法在处理某些汉语固定搭配时无法进行概率折扣的问题,利用词性信息构造了新的折扣系数.新的折扣系数使词频越大,折扣越小,后接词越多,折扣越大,满足平滑算法对折扣系数的期望.试验结果表明:新的Katz平滑算法降低了N-gram模型的交叉熵,在汉语分词中应用改进的平滑算法也提高了分词结果的F量度.  相似文献   

17.
Statistical language modeling techniques are investigated so as to construct a language model for Chinese text proofreading. After the defects of n-gram model are analyzed, a novel statistical language model for Chinese text proofreading is proposed. This model takes full account of the information located before and after the target word wi, and the relationship between un-neighboring words wi and wi in linguistic environment(LE). First,the word association degree between wi and wj is defined by using the distance-weighted factor, wi is l words apart from wi in the LE, then Bayes formula is used to calculate the LE related degree of word wi, and lastly, the LE related degree is taken as criterion to predict the reasonability of word wl that appears in context. Comparing the proposed model with the traditional n-gram in a Chinese text automatic error detection system, the experiments results show that the error detection recall rate and precision rate of the system have been improved.  相似文献   

18.
阐述了中文信息处理技术在几何作图等动态几何领域内的应用现状。鉴于几何语言其本身相较于一般自然语言的特点,介绍了利用中文分词技术及其他自然语言处理技术来实现基于自然语言输入的动态几何作图的方法,主要包括GMMM算法和基于“分词词典”的分词方法及建立同义词库、使用语模匹配和语模词典等方法来形式化和规则化几何命题等内容,并提出在该领域的研究展望。  相似文献   

19.
分析了中文智能输入技术的研究现状和存在的问题,提出了基于混合n-gram的中文智能输入技术,给出了系统实现的架构,研究了混合2-gram模型的有关问题以及字词网格的求解算法,讨论了自动预测与系统学习功能的实现.测试结果表明拼音到汉字自动转换正确率达到了92.1%,基本实现了预期目标.  相似文献   

20.
中文分词是自然语言处理的基础。交叉型歧义是提高中文分词精度的瓶颈之一。文章提出一种基于正向、负向最大匹配算法和passive aggressive(PA)算法结合的交叉型歧义消解算法。基于PA算法训练分词模型;利用正向、负向最大匹配算法检测交叉型歧义的位置;把可能出现交叉型歧义的句子或者句子的部分传递给分词模型,解码得到分词结果;最后,把正向、负向最大匹配结果和分词模型解码结果拼接成最终的分词结果。利用PA算法基于2014年2—12月份人民日报数据训练分词模型、2014年1月份人民日报数据作为测试语料进行实验,得到交叉型歧义的准确率、召回率和F-score分别为98.32%、98.14%和98.23%,说明该方法有效可行。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号