首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
汉语词性标注方法的研究   总被引:4,自引:0,他引:4  
1 引言自然语言中,表达意义的符号(词)往往在各个层面上有歧义。在句法层面上,一个词可以兼好几种词性;在语义层面上,一个词可能有多个义项。词性歧义是由语言中的兼类词,即具有不止一个词性特征的词所引起的,只有在一定的上下文语境关系中,词所表现  相似文献   

2.
隐马尔可夫模型(Hidden Markov Model,HMM)在自然语言处理、语音识别、模式识别等领域都得到了广泛的应用,特别是在词性标注中起到了很好的效果.词性标注在信息处理范畴内起着重要的基础性作用,词性标注的好坏直接影响着基于标注结果的各种信息处理的准确度.基于HMM分别实现了中文词性标注与英文词性标注,并对两...  相似文献   

3.
4.
一种启发式的汉语词性标注算法   总被引:1,自引:0,他引:1  
描述了一种启发式的汉语词性标注算法,并采用该算法实现了一个基于统计模型的汉语词性标注系统。该算法将反向动态规划和正向A^*解码算法相结合。初步的开放测试表明,该系统的词性标注正确率为95.88%(小标记集)和97.95%(大标记集),性能优于Viterbi算法。  相似文献   

5.
基于完全二阶隐马尔可夫模型的汉语词性标注   总被引:12,自引:0,他引:12  
梁以敏  黄德根 《计算机工程》2005,31(10):177-179
该文基于隐马尔可夫理论,提出了一种三元词汇概率和词性概率相结合的汉语词性标注模型,并对传统的Viterbi算法进行了扩展。对统计模型中出现的数据稀疏问题,给出了基于线性插值法的平滑算法,实验表明,完全二阶隐马尔可夫模型比标准的二元,三元模型有更高的词性标注正确率和消歧率。  相似文献   

6.
基于改进的隐马尔科夫模型的汉语词性标注   总被引:1,自引:0,他引:1  
王敏  郑家恒 《计算机应用》2006,26(Z2):197-198
基于传统隐马尔科夫(HMM)模型的基础上,对词语的词汇发射概率做出了新的假设,从而更好地体现了该词语与上下文依赖关系.还利用指数线性插值平滑算法对参数进行了有效平滑,并且给出了未登录词词汇发射概率估计模型.实验结果证明,改进后的模型明显优于传统HMM词性标注模型的效果.  相似文献   

7.
用数据采掘方法获取汉语词性标注规则   总被引:8,自引:0,他引:8  
从数据采掘的角度对汉语文本词性标注规则的获取进行研究,在满足用户规定的支持度向量的前提下,先从侯选集模式中挑选出常用模式;然后采掘出具有高可信度的产生式规则。该过程完全是自动的,而获取的规则有表达上是明确的,同时又是隐含在数据中的、用户不易发现的,实验表明:在原有统计方法的基础上,利用自动获得的标注规则作为补充,可以提高词性标注的正确率。  相似文献   

8.
统计与规则并举的汉语词性自动标注算法   总被引:8,自引:0,他引:8  
张民  李生  赵铁军  张艳风 《软件学报》1998,9(2):134-138
本文提出并实现了一种基于定量统计分析优先的统计和规则并举的汉语词性自动标注算法.本算法引入置信区间的概念,优先采用高准确率的定量统计分析技术,然后利用规则标注剩余语料和校正部分统计标注错误.封闭和开放测试表明,在未考虑生词和汉语词错误切分的情况下,本算法的准确率为98.9%和98.1%.  相似文献   

9.
词性标注在自然语言信息处理领域中扮演着重要角色,是句法分析、信息抽取、机器翻译等自然语言处理的基础,对于哈萨克语同样如此。在基于词典静态标注的基础上分析了隐马尔科夫模型HMM(H idden M arkovModel)模型参数的选取、数据平滑以及未登录词的处理方法,利用基于统计的方法对哈萨克语熟语料进行训练,然后用V iterb i算法实现词性标注。实验结果表明利用HMM进行词性标注的准确率有所提高。  相似文献   

10.
孔骏  陈玉泉  陆汝占 《计算机工程》2001,27(2):30-31,98
将带有歧义的切分字段作为词语性标注系统的输入,并在词性标注系统中引入了有限状态自动机进行部分句法分析以排除切分和标注歧义,实现了一个结合部分句法分析的汉语词性标注系统。  相似文献   

11.
该文提出了一套精细化的中文词性标注评测体系。该文的工作重点在于确立其中的评测项目以及每个项目所对应的词例,提出了比对、归类、合取的方法;依此,该文初步建立了规模为5 873句、涵盖了2 326项词例和70个评测项目的评测试题集,并用这套试题集对几个常见的开源词性标注程序进行了评测。最后,该文指出了精细化评测体系将评测项目和评测语料联系起来的好处——在传统体系中,两者是分开的。该文从评测项目的价值和评测语料的组织性两个方面阐述了该文的评测体系相对于传统评测体系的优势,并指出了利用该文提出的评测体系改进被测程序的方法。  相似文献   

12.
SSD模型及其在汉语词性标注中的应用   总被引:1,自引:0,他引:1  
该文提出了一种以符号解码与数值解码并举的SSD(Symbol-and-Statistics Decoding Model)模型,该模型被用于汉语词性标注任务,其标注正确率在封闭测试中达到97.08%,开放测试中达到95.67%,较二阶HMM的95.56%和94.70%都有较为显著提高。SSD模型的正确率虽然不及最大熵模型和CRF模型,但它的训练时间远少于后者,说明SSD模型在处理自然语言中的特定任务时是一种较强的实用模型。  相似文献   

13.
朝鲜语词性标注是朝鲜语信息处理的基础,其结果直接影响后续朝鲜语自然语言处理的效果。首先为了解决朝鲜语词性标注中遇到的形态素实际写法与原形不一致的问题,该文提出了一种在seq2seq模型的基础上融合朝鲜语字母信息的朝鲜语形态素原形恢复方法;其次,在恢复形态素原形的基础上,利用LSTM-CRF模型完成朝鲜语分写及词性标注。实验结果表明,该文提出的方法词性标注F1值为94.75%,优于其他方法。  相似文献   

14.
该文在分析了现有藏文词性标注方法的基础上,提出感知机训练模型的判别式藏语词性标注方法,重点研究了符合藏语词法特性的模型训练特征模板、模型训练和词性标注方法。并且在人工标注的测试集上获得了98.26%的词性标注精确率,可以实际应用到藏语自然语言处理中。  相似文献   

15.
制约语料库加工质量的一个重要方面是多标记词语的词性标注一致性问题。该文通过对大规模语料库兼类词的词性标注结果的分析,提出一种语料库词性标注一致性检查的方法,分析词性标记序列的特征并建立兼类词语境向量模型,运用k最近邻法,对兼类词语境进行向量分类,判定兼类词词性标注是否一致,得出每篇文章的词性标注的一致性情况,并测试了北京大学的150万语料。  相似文献   

16.
基于条件随机域的词性标注模型   总被引:3,自引:0,他引:3  
词性标注主要面临兼类词消歧以及未知词标注的难题,传统隐马尔科夫方法不易融合新特征,而最大熵马尔科夫模型存在标注偏置等问题。本文引入条件随机域建立词性标注模型,易于融合新的特征,并能解决标注偏置的问题。此外,又引入长距离特征有效地标注复杂兼类词,以及应用后缀词与命名实体识别等方法提高未知词的标注精度。在条件随机域模型框架下,本文进一步探讨了融合模型的方法及性能。词性标注开放实验表明,条件随机域模型获得了96.10%的标注精度。  相似文献   

17.
该文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进行的效果好,准确率、召回率和F值分别提高了0.067、0.073和0.07。但词级标注模型难以解决词边界划分的一致性和未登录词的问题。基于此,作者提出可以利用字性和字构词的规律预测合成词的词性,既可以融入语言学知识又可以减少由未登录词导致的标注错误,实验结果证明,作为词性标注的后处理模块,基于字性标注的词性预测准确率提高到了0.916,这个结果已经比分词标注一体化结果好,说明字性标注对纠正词性错误标注有明显的效果。
  相似文献   

18.
该文对三种不同的分词词性标注模型进行了比较。这三种模型分别为一个序列标注串行模型,一个基于字分类的联合模型和一个将这两种模型使用Stacked Learning框架进行集成的融合模型。通过在《人民日报》、CoNLL09、CTB5.0和CTB7.0四个数据集上进行比较分析,最终实验结果表明分类联合模型能取得比较好的速度,融合模型能取得比较好的准确率,而普通串行模型处于速度和准确率的平衡位置。最后该文将准确率最好的融合模型和相关前沿工作在CTB5.0和CTB7.0上进行了对比, 该融合模型均取得了最好的结果。  相似文献   

19.
汉语自动分词和词性标注评测   总被引:6,自引:2,他引:6  
本文介绍了2003年“863中文与接口技术”汉语自动分词与词性标注一体化评测的一些基本情况,主要包括评测的内容、评测方法、测试试题的选择与产生、测试指标以及测试结果,并对参评系统的切分和标注错误进行了总结。文中着重介绍了测试中所采用的一种柔性化的自动测试方法,该方法在一定程度上克服了界定一个具体分词单位的困难。同时,对评测的结果进行了一些分析,对今后的评测提出了一些建议。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号