首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
基于特征的汉语词性标注模型   总被引:5,自引:0,他引:5  
在隐马尔可夫模型的基础上提出了基于词汇特征的汉语词性标注模型.此模型不但考虑系统t时刻的状态(词类)对r l时刻的状态的影响,还把t时刻的观察(词)对t l时刻的状态的影响考虑进去,使模型更加精确.由于观察的数目较大,构造观察-状态转移概率矩阵的方法难以实用,于是给观察标以特征,并训练特征-状态转移概率矩阵,使概率矩阵占用较少的存储空间,实现了模型的精确和实用性的统一.  相似文献   

2.
用数据采掘方法获取汉语词性标注规则   总被引:8,自引:0,他引:8  
从数据采掘的角度对汉语文本词性标注规则的获取进行研究,在满足用户规定的支持度向量的前提下,先从侯选集模式中挑选出常用模式;然后采掘出具有高可信度的产生式规则。该过程完全是自动的,而获取的规则有表达上是明确的,同时又是隐含在数据中的、用户不易发现的,实验表明:在原有统计方法的基础上,利用自动获得的标注规则作为补充,可以提高词性标注的正确率。  相似文献   

3.
4.
文中引入数理统计中“置信区间”的概念,提出并实现了一种基于“置信区间”评价函数的汉语词性纯概率标注算法.测试表明,本算法可以保证在具有一定召回率的同时,具有可界定的高的消歧率.当消歧率为94.8%时,召回率可达81.5%.  相似文献   

5.
隐马尔可夫模型(Hidden Markov Model,HMM)在自然语言处理、语音识别、模式识别等领域都得到了广泛的应用,特别是在词性标注中起到了很好的效果.词性标注在信息处理范畴内起着重要的基础性作用,词性标注的好坏直接影响着基于标注结果的各种信息处理的准确度.基于HMM分别实现了中文词性标注与英文词性标注,并对两...  相似文献   

6.
一种启发式的汉语词性标注算法   总被引:1,自引:0,他引:1  
描述了一种启发式的汉语词性标注算法,并采用该算法实现了一个基于统计模型的汉语词性标注系统。该算法将反向动态规划和正向A^*解码算法相结合。初步的开放测试表明,该系统的词性标注正确率为95.88%(小标记集)和97.95%(大标记集),性能优于Viterbi算法。  相似文献   

7.
一种自适应词性标注方法   总被引:8,自引:0,他引:8  
王挺  陈火旺  杨谊  史晓东 《软件学报》1997,8(12):937-943
本文针对词性标注的问题,修改了经典的隐马尔可夫模型HMM(hiddenMarkovmodel)参数估算方法,使得模型参数能够随着新语料的增加而动态地进行调整.从已标注或未标注的语料中获取知识以提高模型的准确性.  相似文献   

8.
基于搭配模式的汉语词性标注规则的获取方法   总被引:2,自引:0,他引:2  
文章介绍了一种基于搭配模式的汉语词性标注规则的获取方法。该方法从已标注了词性的语料库中自动获取候选搭配模式规则,然后根据可信度从候选规则中选择出大于某阈值的规则,再通过不断测试新语料来完善规则。将获取的规则用于汉语的词性标注,使标注的正确率得到了明显提高。  相似文献   

9.
汉语词性标注方法的研究   总被引:4,自引:0,他引:4  
1 引言自然语言中,表达意义的符号(词)往往在各个层面上有歧义。在句法层面上,一个词可以兼好几种词性;在语义层面上,一个词可能有多个义项。词性歧义是由语言中的兼类词,即具有不止一个词性特征的词所引起的,只有在一定的上下文语境关系中,词所表现  相似文献   

10.
介绍了软件组件结构一般模型及Microsoft公司的组件对 象模型,并在此基础上,探讨如何将汉语自动分词与词性标注软件组件化。  相似文献   

11.
基于最大熵方法的汉语词性标注   总被引:5,自引:0,他引:5  
最大熵模型的应用研究在自然语言处理领域中受到关注,文中利用语料库中词性标注的上下文信息建立基于最大熵方法的汉语词性系统。研究的重点在于其特征的选取,因为汉语不同于其它语言,有其特殊性,所以特征的选取上与英语有差别。实验结果证明该模型是有效的,词性标注正确率达到97.34%。  相似文献   

12.
动词细分类和词性标注有些类似,它是在词性标注基础上对其中的动词进行更细致的类别标注。根据动词细分类自身的特点,提出了一种改进的隐马尔科夫模型的方法进行动词类别的自动划分,再通过与最大熵的方法进行比较,证明这种方法取得了较高的准确率。  相似文献   

13.
语料库词性标注一致性检查方法研究   总被引:4,自引:0,他引:4  
在对大规模语料库进行深加工时,保证词性标注的一致性已成为建设高质量语料库的首要问题。本文提出了基于聚类和分类的语料库词性标注一致性检查的新方法,该方法避开了以前一贯采用的规则或统计的方法,利用聚类和分类的思想,对范例进行聚类并求出阈值,对测试数据分类来确定其标注的正误,进而得出每篇文章的词性标注一致性情况,进一步保证大规模语料库标注的正确性。  相似文献   

14.
针对老挝语语料资源极少而无法直接利用有监督学习的方法实现老挝语词法分析的问题,提出了基于半监督学习的老挝语词性标注方法。首先利用仅有的少量标注词典和未标注语料资源,采用简单概率模型建模,获取较为完整的标注词典;其次利用整数规划获取大量自动标注的语料;最后在训练语 料充足的情况下,利用二阶隐马尔科夫模型建模,实现高质量的老挝语词性标注。提出的方法在老挝语词性标注方面取得了较好的效果,其准确率达到89.8%。  相似文献   

15.
汉语语料的切分标注加工系统   总被引:3,自引:1,他引:3  
徐菁  张辉  陆汝占 《计算机工程》2003,29(9):66-68,165
介绍了一个对汉语语料进行切分标注粗加工的系统WegPos。该系统采用前缀码分词算法,用二元语法模型进行词性标注,并利用概率统计、规则、歧义数据库、部分句法分析等多种方法的结合排除分词和标注中产生的歧义。  相似文献   

16.
传统的条件随机场(Conditional Random Fields,CRF)方法虽然可以容纳任意长度的上下文信息且特征设计灵活,但训练代价大、模型复杂度高,尤其在序列标注任务中由于需要计算整个标注序列的联合概率分布使其缺点更加突出.为此,结合一种结构化方式的支持向量机(Structured Support Vecto...  相似文献   

17.
制约语料库加工质量的一个重要方面是多标记词语的词性标注一致性问题。该文通过对大规模语料库兼类词的词性标注结果的分析,提出一种语料库词性标注一致性检查的方法,分析词性标记序列的特征并建立兼类词语境向量模型,运用k最近邻法,对兼类词语境进行向量分类,判定兼类词词性标注是否一致,得出每篇文章的词性标注的一致性情况,并测试了北京大学的150万语料。  相似文献   

18.
基于完全二阶隐马尔可夫模型的汉语词性标注   总被引:12,自引:0,他引:12  
梁以敏  黄德根 《计算机工程》2005,31(10):177-179
该文基于隐马尔可夫理论,提出了一种三元词汇概率和词性概率相结合的汉语词性标注模型,并对传统的Viterbi算法进行了扩展。对统计模型中出现的数据稀疏问题,给出了基于线性插值法的平滑算法,实验表明,完全二阶隐马尔可夫模型比标准的二元,三元模型有更高的词性标注正确率和消歧率。  相似文献   

19.
目前壮语智能信息处理研究处于起步阶段,缺乏自动词性标注方法.针对壮语标注语料匮乏、人工标注费时费力而机器标注性能较差的现状,提出一种基于强化学习的壮语词性标注方法.依据壮语的文法特点和中文宾州树库符号构建标注词典,通过依存句法分析融合语义特征,并以长短期记忆网络为策略网络,利用循环记忆完善部分观测信息.在此基础上,引入强化学习框架,将目标词性作为环境反馈,通过特征学习不断逼近目标真实值.实验结果表明,该方法可缓解词性标注模型对训练语料库的依赖,能够快速扩大壮语标注词典的规模,实现壮语词性的自动标注.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号