共查询到20条相似文献,搜索用时 31 毫秒
1.
维吾尔语自动标注是维吾尔语信息处理后续句法分析、语义分析及篇章分析必不可少的基础工作。词性是词的重要的语法信息,假如一个词的词性无法确定或一个词给予错误的词性,对后续句法分析造成直接的影响。本文使用感知器训练算法和viterbi算法对维吾尔语进行词性标注,并在词性标注时利用词的上下文信息作为特征。实验结果表明,该方法对维吾尔语词性标注有良好的效果。 相似文献
2.
词性标注有很多不同的研究方法,目前的维吾尔语词性标注方法都以基于规则的方法为主,其准确程度尚不能完全令人满意。在大规模人工标注的语料库的基础之上,研究了基于N元语言模型的维吾尔语词性自动标注的方法,分析了N元语言模型参数的选取以及数据平滑,比较了二元、三元文法模型对维吾尔语词性标注的效率;研究了标注集和训练语料规模对词性标注正确率的影响。实验结果表明,用该方法对维吾尔语进行词性标注有良好的效果。 相似文献
3.
基于搭配模式的汉语词性标注规则的获取方法 总被引:2,自引:0,他引:2
文章介绍了一种基于搭配模式的汉语词性标注规则的获取方法。该方法从已标注了词性的语料库中自动获取候选搭配模式规则,然后根据可信度从候选规则中选择出大于某阈值的规则,再通过不断测试新语料来完善规则。将获取的规则用于汉语的词性标注,使标注的正确率得到了明显提高。 相似文献
4.
5.
提出了一种从正确标注的训练语料中自动获取兼类词词性较对规则的方法 ,并设计和实现了相应的词性自动校对系统。通过对中文文本进行自动校对 ,进一步提高其词性标注质量 相似文献
6.
任务中,带有直观主谓宾结构的摘要句语义完整性较强,但词性组合对该结构具有约束作用.为此文中提出基于词性软模板注意力机制的短文本自动摘要方法.首先对文本进行词性标记,将标记的词性序列视为文本的词性软模板,指导方法构造摘要句的结构规范,在编码端实现词性软模板的表征.再引入词性软模板注意力机制,增强对文中核心词性(如名词、动词等)的关注.最后在解码端联合词性软模板注意力与传统注意力,产生摘要句.在短文本摘要数据集上的实验验证文中方法的有效性. 相似文献
7.
羊毛卓玛 《计算机工程与应用》2013,(24):135-137,148
藏文词性自动标注是藏文信息处理后续句法分析、语义分析及篇章分析必不可少的基础工作。词性歧义问题的处理是藏文词性自动标注的关键所在,也是藏文信息处理的难点问题。对藏文词性标注中词性歧义问题进行了分析研究,提出了符合藏丈语法规则实用于藏文词性标注的解决词性排岐方法。实验证明:该处理方法在藏文词性自动标注中对词性排岐方面有较好的效果,使藏文词性标注正确率有了一定的提高。 相似文献
8.
9.
10.
汉语词性标注方法的研究 总被引:4,自引:0,他引:4
1 引言自然语言中,表达意义的符号(词)往往在各个层面上有歧义。在句法层面上,一个词可以兼好几种词性;在语义层面上,一个词可能有多个义项。词性歧义是由语言中的兼类词,即具有不止一个词性特征的词所引起的,只有在一定的上下文语境关系中,词所表现 相似文献
11.
针对用户未来行为意图快速识别的问题,探讨融合词性特征的Fasttext模型的有效性以及采用不同特征融合的识别准确率,为以后的研究提供一定的借鉴。利用词性特征标记具有时间含义的词。在此基础上,利用伪标签数据集,采用监督学习的方法,分别对词、词性以及对应的n-gram特征进行融合,探究不同特征组合的有效性和准确率。结果表明:融合词性的Fasttext模型可以提高时态意图识别准确率。通过分别对这几类特征融合,使用词、词的n-gram和词性特征的Fasttext模型分类的准确率最高,平均识别的准确率为81.2%。 相似文献
12.
事件探测主要研究触发词探测以及事件类型识别。现阶段基于深度学习的模型大部分集中在利用语义角色信息、句法依存树信息以及预训练模型方面,忽略了词性的重要性。针对这个问题,提出基于块提取网络融入词性注意力机制的中文事件探测方法,首先基于NLP词性标注工具获得词性序列,然后使用CBOW算法获得词性嵌入,最后在模型中使用词性嵌入计算词性注意力用于事件探测。在ACE2005数据集上进行实验,融入词性注意力后模型在事件探测任务上的F1分数分别提升了3.8%和2.4%,表明了该方法的有效性。 相似文献
13.
14.
一种启发式的汉语词性标注算法 总被引:1,自引:0,他引:1
描述了一种启发式的汉语词性标注算法,并采用该算法实现了一个基于统计模型的汉语词性标注系统。该算法将反向动态规划和正向A^*解码算法相结合。初步的开放测试表明,该系统的词性标注正确率为95.88%(小标记集)和97.95%(大标记集),性能优于Viterbi算法。 相似文献
15.
分词及词性标注一致性校对系统的设计与实现 总被引:9,自引:0,他引:9
针对真实语料中分词、词性标注结果前后不一致的现象提出了基于规则库的校对方法与策略 ,设计了一致性校对系统 ,进一步提高分词、词性标注的正确率。 相似文献
16.
传统词嵌入通常将词项的不同上下文编码至同一参数空间,造成词向量未能有效辨别多义词的语义;CNN网络极易关注文本局部特征而忽略文本时序语义,BiGRU网络善于学习文本时序整体语义,造成关键局部特征提取不足.针对上述问题,提出一种基于词性特征的CNN_BiGRU文本分类模型.引入词性特征构建具有词性属性的词性向量;将词性向量与词向量交叉组合形成增强词向量,以改善文本表示;采用CNN网络获取增强词向量的局部表示,利用BiGRU网络捕获增强词向量的全局上下文表示;融合两模型学习的表示形成深度语义特征;将该深度语义特征连接至Softmax分类器完成分类预测.实验结果表明,该模型提高了分类准确率,具有良好的文本语义建模和识别能力. 相似文献
17.
用数据采掘方法获取汉语词性标注规则 总被引:8,自引:0,他引:8
从数据采掘的角度对汉语文本词性标注规则的获取进行研究,在满足用户规定的支持度向量的前提下,先从侯选集模式中挑选出常用模式;然后采掘出具有高可信度的产生式规则。该过程完全是自动的,而获取的规则有表达上是明确的,同时又是隐含在数据中的、用户不易发现的,实验表明:在原有统计方法的基础上,利用自动获得的标注规则作为补充,可以提高词性标注的正确率。 相似文献
18.
19.
基于实例的中文分词-词性标注方法的应用研究 总被引:1,自引:0,他引:1
通过实验证明基于实例的中文分词-词性标注(下文简称为EBST,Example-Based Chinese word Segment and Tagging)系统对训练语料相关的文本具有非常好的标注性能.实验结果显示了EBST系统的分词-词性标注不仅具有非常高的准确率,而且和训练语料的标注保持了很好的一致性.这使得EBST系统非常适合于在基于实例的机器翻译(Example-Based Machine Translation,EBMT)系统中的应用.本文给出了EBST在EBMT系统中的应用实例及相应的实验结果. 相似文献
20.
词性兼类是自动词性标注过程的关键所在,特别是确定未登录词词性的正确率对整个标注效果有很大的影响.对兼类词排歧方法进行了研究,针对统计和规则两种方法各自的优点和局限,提出运用隐马尔科夫模型和错误驱动学习方法相结合自动标注方法,最后介绍了如何通过这种方法在只有一个词库的有限条件下进行词性标注和未登录词的词性猜测.实验结果表明,该方法能有效提高未登录词词性标注的正确率. 相似文献