首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
哈萨克语的词性标注在自然语言信息处理领域中扮演着重要角色,是句法分析、信息抽取、机器翻译等自然语言处理的基础。在传统的HMM的基础上改进了HMM模型参数的计算、数据平滑以及未登录词的处理方法,使之更好地体现词语的上下文依赖关系。利用基于统计的方法对哈萨克语熟语料进行训练,然后用Viterbi算法实现词性标注。实验结果表明利用改进的HMM进行词性标注的效果比传统的HMM好。  相似文献   

2.
《计算机工程》2017,(7):211-216
针对传统隐马尔可夫模型(HMM)的词性标注存在捕获上下文信息有限的问题,提出一种改进的二阶隐马尔可夫模型。该模型考虑上下文联系,精确标注中医诊断文本。对训练过程中出现数组下溢的问题,采用生词处理及增加比例因子的方法对其加以修正。实验结果表明,改进后的二阶HMM比传统HMM模型具有更高的词性标注正确率。  相似文献   

3.
基于隐马尔可夫模型(HMM)的词性标注的应用研究   总被引:3,自引:0,他引:3  
利用隐马尔可夫模型(HMM)对英语文本进行词性标注,首先介绍了对Viterbi算法的改进和基于HMM模型方法训练机器的步骤,然后通过一系列对比实验,得出两个结论:二元文法模型的“性能价格比”较三元文法模型更令人满意;词性标注集的个数对词性标注的准确率有影响。最后利用上述结论进行了封闭式测试和开放式测试。  相似文献   

4.
为了保留蒙古语词缀中大量的语法、语义信息和缩小蒙古语词典的规模,蒙古语词性标注需要对词干和词缀都进行词性标注。针对这一问题提出了一种基于条件随机场(CRF)的蒙古语词性标注方法。该方法利用CRF模型能够添加任意特征的特点,充分使用蒙文上下文信息,针对词素之间的相互影响添加了新的统计特征,并在3.8万句的蒙古语词性标注语料上进行了封闭测试,该方法的标注准确率达到了96.65%,优于使用隐马尔可夫模型(HMM)的词性标注模型。  相似文献   

5.
基于改进的隐马尔科夫模型的汉语词性标注   总被引:1,自引:0,他引:1  
王敏  郑家恒 《计算机应用》2006,26(Z2):197-198
基于传统隐马尔科夫(HMM)模型的基础上,对词语的词汇发射概率做出了新的假设,从而更好地体现了该词语与上下文依赖关系.还利用指数线性插值平滑算法对参数进行了有效平滑,并且给出了未登录词词汇发射概率估计模型.实验结果证明,改进后的模型明显优于传统HMM词性标注模型的效果.  相似文献   

6.
词性标注是自然语言理解中很长期的问题,但对于大词性标注集的词性标注,它的标注精度还很低.为此我们应用隐含马尔可夫方法(HMM)和最大熵方法对大词性标注集的词性标注问题进行了研究,并在此基础上提出了关于词性标注的最新方法--对数线性模型,以此来提高词性标注精度.此次实验分别在运用HMM模型时,提出了新的光滑算法;在运用最大熵模型上,集成了详细的局部和远距离的上下文特征信息;在对数线性模型中,集成了HMM模型和最大熵模型,并进行了对比.结果表明综合了多源信息的对数线性模型标注精度迭81.52%,取得了比传统的HMM模型更好的结果.  相似文献   

7.
哈萨克语词性自动标注研究初探   总被引:1,自引:0,他引:1       下载免费PDF全文
词性标注在很多信息处理环节中都扮演着关键角色。哈萨克语作为新疆地区通用的少数民族语言之一,自然语言处理中的一些基础性的课题同样成为迫切需要解决的问题。分析了哈萨克语的构形语素特征,基于词典的一级标注基础上,采用统计方法,训练得到二元语法的HMM模型参数,运用Viterbi算法完成了基于统计方法的词性标注,最后运用哈语规则库对词性标注进行了修正。对单纯使用统计方法和以统计为主辅以规则修正的方法进行了比对测试,结果表明后者排岐正确率有所提高。  相似文献   

8.
全词消歧(All-Words Word Sense Disambiguation)可以看作一个序列标注问题,该文提出了两种基于序列标注的全词消歧方法,它们分别基于隐马尔可夫模型(Hidden Markov Model, HMM)和最大熵马尔可夫模型(Maximum Entropy Markov Model, MEMM)。首先,我们用HMM对全词消歧进行建模。然后,针对HMM只能利用词形观察值的缺点,我们将上述HMM模型推广为MEMM模型,将大量上下文特征集成到模型中。对于全词消歧这类超大状态问题,在HMM和MEMM模型中均存在数据稀疏和时间复杂度过高的问题,我们通过柱状搜索Viterbi算法和平滑策略来解决。最后,我们在Senseval-2和Senseval-3的数据集上进行了评测,该文提出的MEMM方法的F1值为0.654,超过了该评测上所有的基于序列标注的方法。  相似文献   

9.
词性标注在自然语言信息处理领域中扮演着重要角色,是句法分析、信息抽取、机器翻译等自然语言处理的基础,对于哈萨克语同样如此。在基于词典静态标注的基础上分析了隐马尔科夫模型HMM(H idden M arkovModel)模型参数的选取、数据平滑以及未登录词的处理方法,利用基于统计的方法对哈萨克语熟语料进行训练,然后用V iterb i算法实现词性标注。实验结果表明利用HMM进行词性标注的准确率有所提高。  相似文献   

10.
濒危语言典藏以抢救和长久保存濒危语言口语中所包含的声学、语言学以及文学、历史、传统文化等内涵的全部信息为目的,吕苏语作为一种无文字文献记录的濒危语言,对其口语语料典藏意义重大。吕苏语口语的汉语标注语料自动分词是后续建立高质量的吕苏语口语语料库和吕苏语典藏系统的基础性工作。目前对于吕苏语标注语料分词的研究几乎为零,本文首先对吕苏语特点进行了分析,同时将中文自动分词结巴方法应用到吕苏语汉语标注语料中,并针对结巴分词算法对吕苏语标注语料分词存在的误分词问题,提出了改进结巴算法。经过实验对比,改进结巴的分词方法准确率更高,提高了吕苏语汉语标注语料的分词效果。  相似文献   

11.
针对多数语音识别系统在噪音环境下性能急剧下降的问题,提出了一种新的语音识别特征提取方法。该方法是建立在听觉模型的基础上,通过组合语音信号和其差分信号的上升过零率获得频率信息,通过峰值检测和非线性幅度加权来获取强度信息,二者组合在一起,得到输出语音特征,再分别用BP神经网络和HMM进行训练和识别。仿真实现了不同信噪比下不依赖人的50词的语音识别,给出了识别的结果,证明了组合差分信息的过零与峰值幅度特征具有较强的抗噪声性能。  相似文献   

12.
在传统的一阶隐马尔可夫模型(HMM1)中,状态序列中的每一个状态被假设只与前一个状态有关,这样虽然可以简单、有效地推导出模型的学习和识别算法,但也丢失了许多从上文传递下来的信息.因此,在传统一阶隐马尔可夫模型的基础上,为了解决手语识别困难、正确率低的问题,提出了一种基于二阶隐马尔可夫模型(HMM2)的连续手语识别方法....  相似文献   

13.
基于人工智能技术,陆汝钤院士提出了全过程计算机辅助动画自动生成技术。该技术需要对能在动画中具体表现的特殊类型命名实体进行识别,如学校名称、餐馆名称、商场名称等。提出了一种基于隐马尔科夫模型(HMM)和规则相结合的特殊类型命名实体识别方法,利用词性、特征词和词义等信息对HMM模型进行训练,并用自动提取的规则对统计模型的识别结果进行补充和修正。开放性测试实验的最高准确率、召回率和F值分别达到了79.89%、86.6%、83.11%。  相似文献   

14.
三角形约束下的词袋模型图像分类方法   总被引:1,自引:0,他引:1  
汪荣贵  丁凯  杨娟  薛丽霞  张清杨 《软件学报》2017,28(7):1847-1861
视觉词袋模型广泛地应用于图像分类与图像检索等领域.在传统词袋模型中,视觉单词统计方法忽略了视觉词之间的空间信息以及分类对象形状信息,导致图像特征表示区分能力不足.本文提出了一种改进的视觉词袋方法,结合显著区域提取和视觉单词拓扑结构,不仅能够产生更具代表性的视觉单词,而且能够在一定程度上避免复杂背景信息和位置变化带来的干扰.首先,通过对训练图像进行显著区域提取,在得到的显著区域上构建视觉词袋模型.其次,为了更精确的描述图像的特征,抵抗多变的位置和背景信息的影响,该方法采用视觉单词拓扑结构策略和三角剖分方法,融入全局信息和局部信息.通过仿真实验,并与传统的词袋模型及其他模型进行比较,结果表明本文提出的方法获得了更高的分类准确率.  相似文献   

15.
针对目前汉语兼类词标注的准确率不高的问题,提出了规则与统计模型相结合的兼类词标注方法。首先,利用隐马尔可夫、最大熵和条件随机场3种统计模型进行兼类词标注;然后,将改进的互信息算法应用到词性(POS)标注规则的获取上,通过计算目标词前后词单元与目标词的相关性获得词性标注规则;最后,将获取的规则与基于统计模型的词性标注算法结合起来进行兼类词标注。实验结果表明加入规则算法之后,平均词性标注准确率提升了5%左右。  相似文献   

16.
针对传统隐马尔可夫模型(HMM)在识别对象时没有有效利用所识别对象的结构信息,提出了一种基于原图像分块的HMM。这种模型利用原图像的各个分块作为状态,因此具有相应的拓扑结构,可以为所识别对象的结构信息建模。为了增强模型的描述能力与精确性,采用二阶HMM,引入了终止状态,将其应用在手写数字识别中。考虑到手写数字的结构特点与模型的拓扑结构,提出了一种提取手写数字笔画特征的方法,即根据叉点提取各个笔段的特征向量。对MNIST字库进行测试,平均识别率为95.7%。  相似文献   

17.
中文分词是中文信息处理的基础。基于二元统计的HMM中文分词算法表现良好,但也存在易将包含常用介、副词的词进行误拆分的问题。改进的分词算法运用逆向最大匹配的思想,在计算粗分集权重的过程中,考虑了分词的词长及词序对正确切分的有利影响。该算法首先计算出二元统计粗分模型有向边的权值,然后根据词长修定权值,最后运用最短路径法求出分词结果。实验结果表明,该算法有效的解决了过分拆分的问题,分词效果良好。  相似文献   

18.
针对多传感异步信息融合分类问题,提出了一种新颖的基于耦合隐马尔可夫模型(CHMM)结构的中期 融合分类策略,该策略既考虑到了多传感信息在时间上的相关性,又解决了信息流之间的异步问题;其次,通过 限制信息流的状态数量和限制信息流之间的异步程度,简化了模型结构;此外,为解决CHMM的算法实现问题, 提出了一种CHMM与双流HMM的等效变换方法,从而利用经典的HMM算法解决了CHMM的模型实现。最后 在唇读语音双模态数据库上的实验证明,该异步信息融合策略实现了比早期同步融合更理想的识别结果,证明 了该  相似文献   

19.
在传统的隐马尔可夫模型中,模型在某状态停留一定时间的概率随着时间的增长呈指数下降的趋势。文中使用依赖于时间的状态转移概率对状态停留时间予以刻画。首先,在采用相同特征矢量下进行了修改后的隐马尔可夫模型和传统隐马尔可夫模型的比较和分析。其次,对不同特征矢量的组合进行了对比实验。另外,在进行不同参数的组合时,文中考虑了不同特征参数及其维数对观察矢量概率输出的影响。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号