首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
维吾尔语自动标注是维吾尔语信息处理后续句法分析、语义分析及篇章分析必不可少的基础工作。词性是词的重要的语法信息,假如一个词的词性无法确定或一个词给予错误的词性,对后续句法分析造成直接的影响。本文使用感知器训练算法和viterbi算法对维吾尔语进行词性标注,并在词性标注时利用词的上下文信息作为特征。实验结果表明,该方法对维吾尔语词性标注有良好的效果。  相似文献   

2.
词性标注有很多不同的研究方法,目前的维吾尔语词性标注方法都以基于规则的方法为主,其准确程度尚不能完全令人满意。在大规模人工标注的语料库的基础之上,研究了基于N元语言模型的维吾尔语词性自动标注的方法,分析了N元语言模型参数的选取以及数据平滑,比较了二元、三元文法模型对维吾尔语词性标注的效率;研究了标注集和训练语料规模对词性标注正确率的影响。实验结果表明,用该方法对维吾尔语进行词性标注有良好的效果。  相似文献   

3.
基于搭配模式的汉语词性标注规则的获取方法   总被引:2,自引:0,他引:2  
文章介绍了一种基于搭配模式的汉语词性标注规则的获取方法。该方法从已标注了词性的语料库中自动获取候选搭配模式规则,然后根据可信度从候选规则中选择出大于某阈值的规则,再通过不断测试新语料来完善规则。将获取的规则用于汉语的词性标注,使标注的正确率得到了明显提高。  相似文献   

4.
制约语料库加工质量的一个重要方面是多标记词语的词性标注一致性问题。该文通过对大规模语料库兼类词的词性标注结果的分析,提出一种语料库词性标注一致性检查的方法,分析词性标记序列的特征并建立兼类词语境向量模型,运用k最近邻法,对兼类词语境进行向量分类,判定兼类词词性标注是否一致,得出每篇文章的词性标注的一致性情况,并测试了北京大学的150万语料。  相似文献   

5.
提出了一种从正确标注的训练语料中自动获取兼类词词性较对规则的方法 ,并设计和实现了相应的词性自动校对系统。通过对中文文本进行自动校对 ,进一步提高其词性标注质量  相似文献   

6.
任务中,带有直观主谓宾结构的摘要句语义完整性较强,但词性组合对该结构具有约束作用.为此文中提出基于词性软模板注意力机制的短文本自动摘要方法.首先对文本进行词性标记,将标记的词性序列视为文本的词性软模板,指导方法构造摘要句的结构规范,在编码端实现词性软模板的表征.再引入词性软模板注意力机制,增强对文中核心词性(如名词、动词等)的关注.最后在解码端联合词性软模板注意力与传统注意力,产生摘要句.在短文本摘要数据集上的实验验证文中方法的有效性.  相似文献   

7.
藏文词性自动标注是藏文信息处理后续句法分析、语义分析及篇章分析必不可少的基础工作。词性歧义问题的处理是藏文词性自动标注的关键所在,也是藏文信息处理的难点问题。对藏文词性标注中词性歧义问题进行了分析研究,提出了符合藏丈语法规则实用于藏文词性标注的解决词性排岐方法。实验证明:该处理方法在藏文词性自动标注中对词性排岐方面有较好的效果,使藏文词性标注正确率有了一定的提高。  相似文献   

8.
该文在分析了现有藏文词性标注方法的基础上,提出感知机训练模型的判别式藏语词性标注方法,重点研究了符合藏语词法特性的模型训练特征模板、模型训练和词性标注方法。并且在人工标注的测试集上获得了98.26%的词性标注精确率,可以实际应用到藏语自然语言处理中。  相似文献   

9.
近些年来语料库语言学的发展较为迅速,语料库的建设成为一项重要的工作。在对语料加工的过程中,保证词性标注的一致性也成为建设高质量语料库的首要问题.本文首先概要介绍了一种维吾尔语的标注方法,并受一些文献的启发,根据维吾尔语的特点对其进行词性标注自动校对的研究,进而提高维语词性标注的正确率。  相似文献   

10.
汉语词性标注方法的研究   总被引:4,自引:0,他引:4  
1 引言自然语言中,表达意义的符号(词)往往在各个层面上有歧义。在句法层面上,一个词可以兼好几种词性;在语义层面上,一个词可能有多个义项。词性歧义是由语言中的兼类词,即具有不止一个词性特征的词所引起的,只有在一定的上下文语境关系中,词所表现  相似文献   

11.
针对用户未来行为意图快速识别的问题,探讨融合词性特征的Fasttext模型的有效性以及采用不同特征融合的识别准确率,为以后的研究提供一定的借鉴。利用词性特征标记具有时间含义的词。在此基础上,利用伪标签数据集,采用监督学习的方法,分别对词、词性以及对应的n-gram特征进行融合,探究不同特征组合的有效性和准确率。结果表明:融合词性的Fasttext模型可以提高时态意图识别准确率。通过分别对这几类特征融合,使用词、词的n-gram和词性特征的Fasttext模型分类的准确率最高,平均识别的准确率为81.2%。  相似文献   

12.
事件探测主要研究触发词探测以及事件类型识别。现阶段基于深度学习的模型大部分集中在利用语义角色信息、句法依存树信息以及预训练模型方面,忽略了词性的重要性。针对这个问题,提出基于块提取网络融入词性注意力机制的中文事件探测方法,首先基于NLP词性标注工具获得词性序列,然后使用CBOW算法获得词性嵌入,最后在模型中使用词性嵌入计算词性注意力用于事件探测。在ACE2005数据集上进行实验,融入词性注意力后模型在事件探测任务上的F1分数分别提升了3.8%和2.4%,表明了该方法的有效性。  相似文献   

13.
中文信息处理是一个未来具有广阔前景的科研领域。从中文信息处理的研究内容、主流技术等几个方面浅谈了对计算机中文信息处理的认识。  相似文献   

14.
一种启发式的汉语词性标注算法   总被引:1,自引:0,他引:1  
描述了一种启发式的汉语词性标注算法,并采用该算法实现了一个基于统计模型的汉语词性标注系统。该算法将反向动态规划和正向A^*解码算法相结合。初步的开放测试表明,该系统的词性标注正确率为95.88%(小标记集)和97.95%(大标记集),性能优于Viterbi算法。  相似文献   

15.
分词及词性标注一致性校对系统的设计与实现   总被引:9,自引:0,他引:9  
针对真实语料中分词、词性标注结果前后不一致的现象提出了基于规则库的校对方法与策略 ,设计了一致性校对系统 ,进一步提高分词、词性标注的正确率。  相似文献   

16.
传统词嵌入通常将词项的不同上下文编码至同一参数空间,造成词向量未能有效辨别多义词的语义;CNN网络极易关注文本局部特征而忽略文本时序语义,BiGRU网络善于学习文本时序整体语义,造成关键局部特征提取不足.针对上述问题,提出一种基于词性特征的CNN_BiGRU文本分类模型.引入词性特征构建具有词性属性的词性向量;将词性向量与词向量交叉组合形成增强词向量,以改善文本表示;采用CNN网络获取增强词向量的局部表示,利用BiGRU网络捕获增强词向量的全局上下文表示;融合两模型学习的表示形成深度语义特征;将该深度语义特征连接至Softmax分类器完成分类预测.实验结果表明,该模型提高了分类准确率,具有良好的文本语义建模和识别能力.  相似文献   

17.
用数据采掘方法获取汉语词性标注规则   总被引:8,自引:0,他引:8  
从数据采掘的角度对汉语文本词性标注规则的获取进行研究,在满足用户规定的支持度向量的前提下,先从侯选集模式中挑选出常用模式;然后采掘出具有高可信度的产生式规则。该过程完全是自动的,而获取的规则有表达上是明确的,同时又是隐含在数据中的、用户不易发现的,实验表明:在原有统计方法的基础上,利用自动获得的标注规则作为补充,可以提高词性标注的正确率。  相似文献   

18.
19.
基于实例的中文分词-词性标注方法的应用研究   总被引:1,自引:0,他引:1  
通过实验证明基于实例的中文分词-词性标注(下文简称为EBST,Example-Based Chinese word Segment and Tagging)系统对训练语料相关的文本具有非常好的标注性能.实验结果显示了EBST系统的分词-词性标注不仅具有非常高的准确率,而且和训练语料的标注保持了很好的一致性.这使得EBST系统非常适合于在基于实例的机器翻译(Example-Based Machine Translation,EBMT)系统中的应用.本文给出了EBST在EBMT系统中的应用实例及相应的实验结果.  相似文献   

20.
词性兼类是自动词性标注过程的关键所在,特别是确定未登录词词性的正确率对整个标注效果有很大的影响.对兼类词排歧方法进行了研究,针对统计和规则两种方法各自的优点和局限,提出运用隐马尔科夫模型和错误驱动学习方法相结合自动标注方法,最后介绍了如何通过这种方法在只有一个词库的有限条件下进行词性标注和未登录词的词性猜测.实验结果表明,该方法能有效提高未登录词词性标注的正确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号