首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
为解决识别哈萨克语基本短语的问题,提出一种基于条件随机场模型的哈萨克语基本短语自动识别方法。利用基于贪心策略的特征模板自动选择算法,结合哈萨克语基本短语的特点,从众多上下文特征中选取出合适的特征;每次从备选特征模板中挑选出局部最优的特征模板项,加入到最终的特征模板中,进一步提高识别准确率。实验结果表明,该方法的识别准确率和召回率分别达到了89.01%和84.07%。  相似文献   

2.
兼类词歧义直接影响词性标注的准确率。本文针对越南语兼类词歧义问题提出一种融合语言特性的越南语兼类词消歧方法。通过构建越南语兼类词词典和兼类词语料库,分析越南语的语言特征和兼类词特点,选取有效的特征集;然后利用条件随机场能添加任意特征等优点,在使用词和词性上下文信息的同时,引入句法成分和指示词特征,得到消歧模型。最后在兼类词语料上实验,准确率达到了87.23%。实验表明本文所提出的越南语兼类词消歧方法有效可行,可以提高词性标注正确率。  相似文献   

3.
汉语口语对话系统中语义分析的消歧策略   总被引:1,自引:0,他引:1  
框架语义分析是目前汉语口语对话系统中常用的语义解析方法,本文分析了语义分析过程中容易产生的两种典型歧义现象- 结构歧义和语义关系歧义。并针对这两种歧义结构,分别提出基于语义PCFG模型的结构歧义消歧策略以及基于语义期待模型EM的语义关系歧义消歧策略,并给出了有效的消歧算法。实验结果表明综合运用本文提出的消歧策略后,基线系统理解模块的句子语义分析正确率大大提高,从原来的7517 %上升到9115 % ,而且标志语义单元理解率的三项指标,准确率,召回率和精度也平均提高了10 %。  相似文献   

4.
车玲  张仰森 《计算机工程》2012,38(20):152-155
以条件随机场(CRF)作为构建词义消歧模型库的概率模型,利用CRF分别训练高频义项和低频义项标点句语料,应用生成的模型文件进行消歧实验.通过分析标注结果中的概率值确定阈值,以区分标注正确项和错误项.使用表现较好的模型文件和相应阈值构建面向词义消歧的条件随机场模型库.实验结果证明,对低频义项建模的词义消歧效果优于对高频义项进行建模,可以达到80%以上的正确率,并且可以获得较高的召回率.  相似文献   

5.
为了提高词义消歧的质量, 对歧义词汇的上下文进行结构分析, 提出了一种利用句法知识来指导消歧过程的方法。在歧义词汇上下文的句法树中, 提取句法信息和词性信息作为消歧特征; 同时, 使用朴素贝叶斯模型作为消歧分类器。利用词义标注语料对分类器的参数进行优化, 然后对测试数据中的歧义词汇进行消歧。实验结果表明, 消歧的准确率有所提升, 达到了66. 7%。  相似文献   

6.
句法分析是自然语言处理中的一个难点和重点.基于搜狗日志语料,提出一种用层叠条件随机场模型实现搜索引擎日志中“N+V”型短语分析的方法.将短语分析分为两个阶段:“N+V”型短语内部结构分析和外部功能分析.这为“N+N+V”型短语和“N+V+V”型短语等外显型歧义结构的消歧提供了解决方法,从而为搜索引擎用短语词典构建提供基础研究服务.  相似文献   

7.
该文针对中文实体消歧中的特征项部分匹配和协同消歧问题,提出基于特征加权重叠度的中文实体协同消歧方法。该方法利用实体指称上下文中多种特征的加权重叠度计算实体指称相似度,针对实体链接与消歧聚类约束,分类定义实体指称相似度计算方法,构建待消歧实体相似度矩阵,采用近邻传播聚类算法实现中文实体协同链接与消歧。基于CLP-2012评测数据的实验表明,提出的方法取得了较好的消歧效果,准确率、召回率和F值分别达到了84.01%、87.75%和85.65%。  相似文献   

8.
短语情感倾向性分析是文本情感分析的重要研究内容。该文将短语情感倾向性分析问题视作序列标注问题,利用条件随机场模型实现短语的情感倾向性判断。条件随机场模型是利用序列特征处理序列标注问题的经典方法,然而现有条件随机场模型无法将词语的情感倾向性分析与短语的情感倾向性分析相结合,从而造成准确率不高。因此,该文提出一种扩展式条件随机场模型YACRFs。该模型在链式条件随机场模型的基础上进行扩充,将词语情感倾向性分析与短语情感倾向性分析有效地结合起来,引入了情感词汇、短语规则模板以及词性等特征。与传统的规则方法和统计分类方法进行对比实验,该文提出方法取得了最高准确率81.07%。进一步地,在应用于句子情感倾向性分析的实验中得到了94.30%的准确率。实验结果表明,该文所提出的YACRFs模型能够显著提高短语情感倾向性判断结果的准确率。  相似文献   

9.
汉语基本短语的自动识别   总被引:20,自引:10,他引:20  
本文应用基于实例的MBL(Memory-Based Learning)学习方法,对汉语中较常见的9种基本短语的边界及类别进行识别,并利用短语内部构成结构和词汇信息对预测中出现的边界歧义和短语类型歧义进行了排歧处理。实验中还比较了在特征向量中加入词汇信息与否对实验结果的影响。实验取得了比较令人满意的结果:对这9种基本短语的识别正确率达到95.2%;召回率达到93.7%。  相似文献   

10.
本文依据《现代汉语语法信息词典》中对词语多义的属性特征描述,对《人民日报》语料中155 个词语共 4 996 个同形实例进行了粗粒度词义自动消歧实验,同时用贝叶斯算法进行了比较测试。基于词典属性特征的消歧方法在同形层面上准确率达到 90%, 但召回率偏低。其优点在于两个方面: 1) 不受词义标注语料库规模的影响;2) 对特定词语意义的消歧准确率可达到100%。本文也讨论了适用于不同词类的消歧特征。  相似文献   

11.
提出融合领域特征向量与词向量的识别方法,将基于武器装备名特征库与维基语料训练得到的领域特征向量引入Bi-LSTM+CRF模型,并对武器装备名进行自动识别实验。引入领域特征向量后模型的识别准确率由78.30%提升到82.10%,召回率由65.25%提升到67.30%,对未登录武器装备名识别的召回率从45.08%提升到50.16%。此外,将领域特征融入条件随机场(conditional random field,CRF)模型,实验表明,在小规模语料库与领域特征支持的情况下,CRF模型的效果要优于Bi-LSTM+CRF模型且对稀疏特征的利用效率更优。  相似文献   

12.
针对线性条件随机场模型不能清楚表达语义角色内部结构关系的问题,提出一种基于树状条件随机场模型的语义角色标注方法。对句法依存树上的层次依赖关系和兄弟依赖关系进行标注,处理状态变量之间的长距离依赖,利用CRFs模型能添加任意特征的优点,在系统中添加新的组合特征和介词短语角色。在CoNNL 2008 Shared Task语料库上进行实验,结果证明该方法能有效提高系统的准确率和召回率。  相似文献   

13.
词义消歧是自然语言处理中的难点问题,为提高消歧效果,提出一种基于多节点组合特征的词义消歧方法.根据依存语法理论,选择歧义词的祖父+父亲+孩子节点组合,并将其作为消歧特征.利用模糊C均值聚类算法,建立消歧模型,最终确定歧义词词义类别.采用哈工大信息检索研究中心语言技术平台的词义语料进行实验.实验结果表明,相比现有的两种方法,该方法不仅使特征维度平均值分别降低了5和25,且F1值分别提高了1.56个百分点和0.84个百分点,在一定程度上提升了词义消歧效果.  相似文献   

14.
正确识别搜索引擎日志中的短语,对搜索引擎用短语词典构建和提高搜索引擎性能具有重要的作用。该文提出一种应用条件随机场实现对搜狗日志语料中“N+V”和“N1+N2+V”型短语自动识别的方法。模型的特征集包含词、词性和词语长度。由人工设计候选特征集,从中选择有效的特征构成特征模板,训练生成用于短语自动识别的条件随机场模型。封闭测试和开放测试的实验结果表明,模型能够实现对这两种短语的有效识别。  相似文献   

15.
哈萨克语动词短语自动识别研究与实现   总被引:1,自引:0,他引:1  
由于哈萨克语基本动词短语Kz Base VP的组成结构比较复杂,并且存在歧义情况和训练语料规模不够大等问题,所以既不能直接使用基于规则的方法,又不能直接使用基于统计的方法来进行处理。所以提出了一种规则与最大熵相结合的方法对哈萨克语基本动词短语(Kz Base VP)进行识别。在该混合策略系统中,根据专属Kz Base VP的特点构建了Kz Base VP搭配规则集,通过规则集对无歧义的Kz Base VP进行标注,其正确率为85.43%;运用基于统计的最大熵模型对存在歧义的Kz Base VP进行识别,根据哈萨克语的单词、词性、词缀和上下文信息等来设计最大熵模型的特征模板,并对模型进行了改进,在解码中选取概率最大的前n个上下文信息分别加入到下一个VP的特征向量中,以此类推直至文本结束,最终选出一条概率最优的VP标注。实验证明,在封闭和开发测试条件下对基本动词短语的识别准确率分别为97.23%和93.22%。  相似文献   

16.
为将稀疏分布式表征理论应用到著者姓名消歧,了解其在解决姓名消歧问题时的效果,提出了基于稀疏分布式表征的英文文献著者姓名消歧方法。该方法选择论文摘要文本信息作为消歧特征,将其生成二进制表示的SDR码。根据待消歧论文的SDR与同名作者的论文SDR相似度对比来实现著者姓名消歧。最终得到的结果为准确率98.21%,召回率76.75%,◢F◣值86.17%,证明提出的消歧方法具有较好的效果。通过将该方法与利用合著者特征进行消歧的方法进行对比,说明该方法能够较好地解决文献著者姓名歧义问题。此外,该方法还可将作者未收录在作者库中的论文识别出来并将其指派给新作者,无须重新学习和更新模型。  相似文献   

17.
词义消歧要解决如何让计算机理解多义词在上下文中的具体含义,对信息检索、机器翻译、文本分类和自动文摘等自然语言处理问题有着十分重要的作用。通过引入句法信息,提出了一种新的词义消歧方法。构造歧义词汇上下文的句法树,提取句法信息、词性信息和词形信息作为消歧特征。利用贝叶斯模型来建立词义消歧分类器,并将其应用到测试数据集上。实验结果表明:消歧的准确率有所提升,达到了65%。  相似文献   

18.
基于标记的规则统计模型与未登录词识别算法   总被引:8,自引:0,他引:8  
该文针对小型词库,提出了基于规则统计模型的消歧方法和识别未登录词的词加权算法。通过大量语料库学习获取歧义高频字,作为歧义标记,利用规则统计模型对标记的上下文信息分类处理,剩下的部分进行正向或逆向动态最大匹配,对连续单字串使用词加权算法来判断其是否为未登录多字词。经过实验测试,该系统的准确率为98.88%,召回率为98.32%。  相似文献   

19.
汉语里动名词组合常使句法分析产生歧义。该文使用Adaboost算法组合多个贝叶斯分类器,对汉语中常见的动名词组合进行自动标注,分别识别出其中的定中结构和动宾结构。在进行特征选择时,参考词义消歧的方法,利用上下文词语、动词名词本身及其音节数等构造了特征向量。实验结果表明,在不参照其他资源的情况下,该方法识别效果较好,平均精确率和召回率分别达到90.5%和88.2%。  相似文献   

20.
自动分词是自然语言处理的关键基础技术。针对传统泰语统计分词方法特征模板复杂、搜索空间大的问题,提出融合上下文字符信息的泰语神经网络分词模型。该模型借助词分布表示方法,训练泰语字符表示向量,利用多层神经网络分类器实现泰语分词。基于InterBEST 2009泰语分词评测语料的实验结果表明,所提方法相较于条件随机场分词模型、Character-Cluster Hybrid 分词模型以及 GLR and N-gram 分词模型取得了更好的分词效果,分词准确率、召回率和F值分别达到了97.27%、99.26 %及98.26 %,相比条件随机场分词速度提高了112.78%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号