共查询到19条相似文献,搜索用时 93 毫秒
1.
基于特征的汉语词性标注模型 总被引:5,自引:0,他引:5
在隐马尔可夫模型的基础上提出了基于词汇特征的汉语词性标注模型.此模型不但考虑系统t时刻的状态(词类)对r l时刻的状态的影响,还把t时刻的观察(词)对t l时刻的状态的影响考虑进去,使模型更加精确.由于观察的数目较大,构造观察-状态转移概率矩阵的方法难以实用,于是给观察标以特征,并训练特征-状态转移概率矩阵,使概率矩阵占用较少的存储空间,实现了模型的精确和实用性的统一. 相似文献
2.
用数据采掘方法获取汉语词性标注规则 总被引:8,自引:0,他引:8
从数据采掘的角度对汉语文本词性标注规则的获取进行研究,在满足用户规定的支持度向量的前提下,先从侯选集模式中挑选出常用模式;然后采掘出具有高可信度的产生式规则。该过程完全是自动的,而获取的规则有表达上是明确的,同时又是隐含在数据中的、用户不易发现的,实验表明:在原有统计方法的基础上,利用自动获得的标注规则作为补充,可以提高词性标注的正确率。 相似文献
3.
4.
文中引入数理统计中“置信区间”的概念,提出并实现了一种基于“置信区间”评价函数的汉语词性纯概率标注算法.测试表明,本算法可以保证在具有一定召回率的同时,具有可界定的高的消歧率.当消歧率为94.8%时,召回率可达81.5%. 相似文献
5.
隐马尔可夫模型(Hidden Markov Model,HMM)在自然语言处理、语音识别、模式识别等领域都得到了广泛的应用,特别是在词性标注中起到了很好的效果.词性标注在信息处理范畴内起着重要的基础性作用,词性标注的好坏直接影响着基于标注结果的各种信息处理的准确度.基于HMM分别实现了中文词性标注与英文词性标注,并对两... 相似文献
6.
一种启发式的汉语词性标注算法 总被引:1,自引:0,他引:1
描述了一种启发式的汉语词性标注算法,并采用该算法实现了一个基于统计模型的汉语词性标注系统。该算法将反向动态规划和正向A^*解码算法相结合。初步的开放测试表明,该系统的词性标注正确率为95.88%(小标记集)和97.95%(大标记集),性能优于Viterbi算法。 相似文献
7.
8.
基于搭配模式的汉语词性标注规则的获取方法 总被引:2,自引:0,他引:2
文章介绍了一种基于搭配模式的汉语词性标注规则的获取方法。该方法从已标注了词性的语料库中自动获取候选搭配模式规则,然后根据可信度从候选规则中选择出大于某阈值的规则,再通过不断测试新语料来完善规则。将获取的规则用于汉语的词性标注,使标注的正确率得到了明显提高。 相似文献
9.
汉语词性标注方法的研究 总被引:4,自引:0,他引:4
1 引言自然语言中,表达意义的符号(词)往往在各个层面上有歧义。在句法层面上,一个词可以兼好几种词性;在语义层面上,一个词可能有多个义项。词性歧义是由语言中的兼类词,即具有不止一个词性特征的词所引起的,只有在一定的上下文语境关系中,词所表现 相似文献
10.
介绍了软件组件结构一般模型及Microsoft公司的组件对 象模型,并在此基础上,探讨如何将汉语自动分词与词性标注软件组件化。 相似文献
11.
12.
动词细分类和词性标注有些类似,它是在词性标注基础上对其中的动词进行更细致的类别标注。根据动词细分类自身的特点,提出了一种改进的隐马尔科夫模型的方法进行动词类别的自动划分,再通过与最大熵的方法进行比较,证明这种方法取得了较高的准确率。 相似文献
13.
14.
15.
16.
传统的条件随机场(Conditional Random Fields,CRF)方法虽然可以容纳任意长度的上下文信息且特征设计灵活,但训练代价大、模型复杂度高,尤其在序列标注任务中由于需要计算整个标注序列的联合概率分布使其缺点更加突出.为此,结合一种结构化方式的支持向量机(Structured Support Vecto... 相似文献
17.
18.
基于完全二阶隐马尔可夫模型的汉语词性标注 总被引:12,自引:0,他引:12
该文基于隐马尔可夫理论,提出了一种三元词汇概率和词性概率相结合的汉语词性标注模型,并对传统的Viterbi算法进行了扩展。对统计模型中出现的数据稀疏问题,给出了基于线性插值法的平滑算法,实验表明,完全二阶隐马尔可夫模型比标准的二元,三元模型有更高的词性标注正确率和消歧率。 相似文献
19.
目前壮语智能信息处理研究处于起步阶段,缺乏自动词性标注方法.针对壮语标注语料匮乏、人工标注费时费力而机器标注性能较差的现状,提出一种基于强化学习的壮语词性标注方法.依据壮语的文法特点和中文宾州树库符号构建标注词典,通过依存句法分析融合语义特征,并以长短期记忆网络为策略网络,利用循环记忆完善部分观测信息.在此基础上,引入强化学习框架,将目标词性作为环境反馈,通过特征学习不断逼近目标真实值.实验结果表明,该方法可缓解词性标注模型对训练语料库的依赖,能够快速扩大壮语标注词典的规模,实现壮语词性的自动标注. 相似文献