期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

汉语词性标注方法的研究 总被引：4，自引：0，他引：4

魏欧孙玉芳《计算机科学》2000,27(7):71-75

1 引言自然语言中,表达意义的符号(词)往往在各个层面上有歧义。在句法层面上,一个词可以兼好几种词性;在语义层面上,一个词可能有多个义项。词性歧义是由语言中的兼类词,即具有不止一个词性特征的词所引起的,只有在一定的上下文语境关系中,词所表现相似文献

2.

浅谈HMM在词性标注中的应用

朱颖《电脑开发与应用》2011,24(3):52-55

隐马尔可夫模型(Hidden Markov Model,HMM)在自然语言处理、语音识别、模式识别等领域都得到了广泛的应用,特别是在词性标注中起到了很好的效果.词性标注在信息处理范畴内起着重要的基础性作用,词性标注的好坏直接影响着基于标注结果的各种信息处理的准确度.基于HMM分别实现了中文词性标注与英文词性标注,并对两... 相似文献

3.

基于评价的治主事词性纯概率标注算法

张民《计算机研究与发展》1998,35(4):349-352

相似文献

4.

一种启发式的汉语词性标注算法 总被引：1，自引：0，他引：1

付国宏姜守旭《计算机工程与设计》2000,21(5):61-64

描述了一种启发式的汉语词性标注算法,并采用该算法实现了一个基于统计模型的汉语词性标注系统。该算法将反向动态规划和正向Ａ＾＊解码算法相结合。初步的开放测试表明,该系统的词性标注正确率为９５．８８％（小标记集）和９７．９５％（大标记集）,性能优于Ｖｉｔｅｒｂｉ算法。相似文献

5.

基于完全二阶隐马尔可夫模型的汉语词性标注 总被引：12，自引：0，他引：12

梁以敏黄德根《计算机工程》2005,31(10):177-179

该文基于隐马尔可夫理论,提出了一种三元词汇概率和词性概率相结合的汉语词性标注模型,并对传统的Viterbi算法进行了扩展。对统计模型中出现的数据稀疏问题,给出了基于线性插值法的平滑算法,实验表明,完全二阶隐马尔可夫模型比标准的二元,三元模型有更高的词性标注正确率和消歧率。相似文献

6.

基于改进的隐马尔科夫模型的汉语词性标注 总被引：1，自引：0，他引：1

王敏郑家恒《计算机应用》2006,26(Z2):197-198

基于传统隐马尔科夫(HMM)模型的基础上,对词语的词汇发射概率做出了新的假设,从而更好地体现了该词语与上下文依赖关系.还利用指数线性插值平滑算法对参数进行了有效平滑,并且给出了未登录词词汇发射概率估计模型.实验结果证明,改进后的模型明显优于传统HMM词性标注模型的效果. 相似文献

7.

用数据采掘方法获取汉语词性标注规则 总被引：8，自引：0，他引：8

李晓黎史忠植《计算机研究与发展》2000,37(12):1409-1414

从数据采掘的角度对汉语文本词性标注规则的获取进行研究,在满足用户规定的支持度向量的前提下,先从侯选集模式中挑选出常用模式;然后采掘出具有高可信度的产生式规则。该过程完全是自动的,而获取的规则有表达上是明确的,同时又是隐含在数据中的、用户不易发现的,实验表明：在原有统计方法的基础上,利用自动获得的标注规则作为补充,可以提高词性标注的正确率。相似文献

8.

统计与规则并举的汉语词性自动标注算法 总被引：8，自引：0，他引：8

张民李生赵铁军张艳风《软件学报》1998,9(2):134-138

本文提出并实现了一种基于定量统计分析优先的统计和规则并举的汉语词性自动标注算法.本算法引入置信区间的概念,优先采用高准确率的定量统计分析技术,然后利用规则标注剩余语料和校正部分统计标注错误.封闭和开放测试表明,在未考虑生词和汉语词错误切分的情况下,本算法的准确率为98.9%和98.1%. 相似文献

9.

基于HMM的哈萨克语词性标注研究

侯呈风古丽拉·阿东别克陈景超《计算机应用与软件》2012,(2):31-33

词性标注在自然语言信息处理领域中扮演着重要角色,是句法分析、信息抽取、机器翻译等自然语言处理的基础,对于哈萨克语同样如此。在基于词典静态标注的基础上分析了隐马尔科夫模型HMM(H idden M arkovModel)模型参数的选取、数据平滑以及未登录词的处理方法,利用基于统计的方法对哈萨克语熟语料进行训练,然后用V iterb i算法实现词性标注。实验结果表明利用HMM进行词性标注的准确率有所提高。相似文献

10.

基于多层有限状态自动机的多输入汉语词性标注系统

孔骏陈玉泉陆汝占《计算机工程》2001,27(2):30-31,98

将带有歧义的切分字段作为词语性标注系统的输入,并在词性标注系统中引入了有限状态自动机进行部分句法分析以排除切分和标注歧义,实现了一个结合部分句法分析的汉语词性标注系统。相似文献

11.

精细化的中文词性标注评测集的研制

唐乾桐常宝宝詹卫东《中文信息学报》1986,34(9):9-18

该文提出了一套精细化的中文词性标注评测体系。该文的工作重点在于确立其中的评测项目以及每个项目所对应的词例,提出了比对、归类、合取的方法;依此,该文初步建立了规模为5 873句、涵盖了2 326项词例和70个评测项目的评测试题集,并用这套试题集对几个常见的开源词性标注程序进行了评测。最后,该文指出了精细化评测体系将评测项目和评测语料联系起来的好处——在传统体系中,两者是分开的。该文从评测项目的价值和评测语料的组织性两个方面阐述了该文的评测体系相对于传统评测体系的优势,并指出了利用该文提出的评测体系改进被测程序的方法。相似文献

12.

SSD模型及其在汉语词性标注中的应用 总被引：1，自引：0，他引：1

邢富坤宋柔罗智勇《中文信息学报》2010,24(1):20-25

该文提出了一种以符号解码与数值解码并举的SSD(Symbol-and-Statistics Decoding Model)模型,该模型被用于汉语词性标注任务,其标注正确率在封闭测试中达到97.08%,开放测试中达到95.67%,较二阶HMM的95.56%和94.70%都有较为显著提高。SSD模型的正确率虽然不及最大熵模型和CRF模型,但它的训练时间远少于后者,说明SSD模型在处理自然语言中的特定任务时是一种较强的实用模型。相似文献

13.

一种新的朝鲜语词性标注方法

金国哲崔荣一《中文信息学报》2018,32(10):53

朝鲜语词性标注是朝鲜语信息处理的基础,其结果直接影响后续朝鲜语自然语言处理的效果。首先为了解决朝鲜语词性标注中遇到的形态素实际写法与原形不一致的问题,该文提出了一种在seq2seq模型的基础上融合朝鲜语字母信息的朝鲜语形态素原形恢复方法;其次,在恢复形态素原形的基础上,利用LSTM-CRF模型完成朝鲜语分写及词性标注。实验结果表明,该文提出的方法词性标注F1值为94.75%,优于其他方法。相似文献

14.

判别式藏语文本词性标注研究

华却才让刘群赵海兴《中文信息学报》2014,28(2):56-60

该文在分析了现有藏文词性标注方法的基础上,提出感知机训练模型的判别式藏语词性标注方法,重点研究了符合藏语词法特性的模型训练特征模板、模型训练和词性标注方法。并且在人工标注的测试集上获得了98.26%的词性标注精确率,可以实际应用到藏语自然语言处理中。相似文献

15.

基于分类的汉语语料库词性标注一致性检查

下载免费PDF全文

张虎郑家恒《计算机工程》2008,34(8):90-92

制约语料库加工质量的一个重要方面是多标记词语的词性标注一致性问题。该文通过对大规模语料库兼类词的词性标注结果的分析,提出一种语料库词性标注一致性检查的方法,分析词性标记序列的特征并建立兼类词语境向量模型,运用k最近邻法,对兼类词语境进行向量分类,判定兼类词词性标注是否一致,得出每篇文章的词性标注的一致性情况,并测试了北京大学的150万语料。相似文献

16.

基于条件随机域的词性标注模型 总被引：3，自引：0，他引：3

姜维关毅王晓龙《计算机工程与应用》2006,42(21):13-16,42

词性标注主要面临兼类词消歧以及未知词标注的难题,传统隐马尔科夫方法不易融合新特征,而最大熵马尔科夫模型存在标注偏置等问题。本文引入条件随机域建立词性标注模型,易于融合新的特征,并能解决标注偏置的问题。此外,又引入长距离特征有效地标注复杂兼类词,以及应用后缀词与命名实体识别等方法提高未知词的标注精度。在条件随机域模型框架下,本文进一步探讨了融合模型的方法及性能。词性标注开放实验表明,条件随机域模型获得了96.10%的标注精度。相似文献

17.

基于藏语字性标注的词性预测研究

龙从军刘汇丹诺明花吴健《中文信息学报》2015,29(5):211-216

该文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进行的效果好,准确率、召回率和F值分别提高了0.067、0.073和0.07。但词级标注模型难以解决词边界划分的一致性和未登录词的问题。基于此,作者提出可以利用字性和字构词的规律预测合成词的词性,既可以融入语言学知识又可以减少由未登录词导致的标注错误,实验结果证明,作为词性标注的后处理模块,基于字性标注的词性预测准确率提高到了0.916,这个结果已经比分词标注一体化结果好,说明字性标注对纠正词性错误标注有明显的效果。
相似文献

18.

基于序列标注的中文分词、词性标注模型比较分析

刘一佳车万翔刘挺张梅山《中文信息学报》2013,27(4):30-37

该文对三种不同的分词词性标注模型进行了比较。这三种模型分别为一个序列标注串行模型,一个基于字分类的联合模型和一个将这两种模型使用Stacked Learning框架进行集成的融合模型。通过在《人民日报》、CoNLL09、CTB5.0和CTB7.0四个数据集上进行比较分析,最终实验结果表明分类联合模型能取得比较好的速度,融合模型能取得比较好的准确率,而普通串行模型处于速度和准确率的平衡位置。最后该文将准确率最好的融合模型和相关前沿工作在CTB5.0和CTB7.0上进行了对比, 该融合模型均取得了最好的结果。相似文献

19.

汉语自动分词和词性标注评测 总被引：6，自引：2，他引：6

杨尔弘方莹刘冬明乔羽《中文信息学报》2006,20(1):46-49,97

本文介绍了2003年“863中文与接口技术”汉语自动分词与词性标注一体化评测的一些基本情况,主要包括评测的内容、评测方法、测试试题的选择与产生、测试指标以及测试结果,并对参评系统的切分和标注错误进行了总结。文中着重介绍了测试中所采用的一种柔性化的自动测试方法,该方法在一定程度上克服了界定一个具体分词单位的困难。同时,对评测的结果进行了一些分析,对今后的评测提出了一些建议。相似文献