共查询到10条相似文献,搜索用时 31 毫秒
1.
针对中文中歧义字段对中文处理及理解带来的诸多问题提出了一种基于自然语言理解的中文汉字歧义消除算法。对于交集型歧义和组合型歧义,利用《知网》为主要语义资源,以知识图知识表示方法,通过提出的字段消歧算法,对歧义字段以及上下文的语义进行计算,从而选出正确的句子切分方案,达到消除歧义的目的。经过实验数据表明本算法提高了中文歧义字段歧义切分的正确率。 相似文献
2.
3.
一种面向网络答疑的汉语切分歧义消除算法 总被引:3,自引:0,他引:3
针对网络答疑的特点,该文提出了一种汉语歧义消除算法,采用回溯机制及歧义消除评优算法相结合的方法消除汉语切分歧义。首先利用回溯机制发现句子的切分歧义字段,产生含有多种可能切分结果的候选集;然后针对网络答疑特点提出了评优算法,利用该算法计算候选结果的评价值,对其进行排序,选取分词最佳结果,从而消除歧义,提高分词的准确率。该算法已经在基于Web的自然语言答疑系统WebAnswerSystem中实现并得到了实际应用。实验结果表明,算法具有较高的准确率和召回率,对自然语言网络答疑中进行切分歧义消除是行之有效的。 相似文献
4.
一种改进的上下文相关的歧义字段切分算法 总被引:2,自引:0,他引:2
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。歧义字段切分是中文自动分词研究中的一个“拦路虎”。JAAS在网上阅卷系统中的应用研究。在分析基于规则和基于上下文的歧义字段切分策略基础上,提出了一种改进的上下文相关歧义字段切分算法,并根据汉语中特殊的语法现象,给出了切分算法的辅助策略来对待切分字符串进行预处理,不仅提高了分词的精度,还加快了分词的速度。 相似文献
5.
现代汉语通用分词系统中歧义切分的实用技术 总被引:8,自引:0,他引:8
歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则 例外”的实用消歧策略·对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%· 相似文献
6.
7.
8.
组合型歧义切分字段一直是汉语自动分词的难点.用人工校验后的分词语料提供的搭配实例作为组合歧义字段的初始搭配知识,提出使用搭配统计表的多元最大对数似然比进行消歧;继而根据实验确定了歧义字段的上下文窗口、窗口位置区分、权值估计等要素;在此基础上采用自组织方法自动扩充搭配集,使消歧信息趋于稳定;最后,对提出的方法进行了实验,实验表明,该算法能有效提高消歧准确率. 相似文献
9.
一种基于语境的中文分词方法研究 总被引:4,自引:0,他引:4
汉语不同于英语,词之间没有间隔标记.而汉语分词是文本分析的第一步,且存在歧义切分,因此分词问题成为汉语分析的首要难题,通过中文切分过程的本质分析,推导并提出基于马尔可夫链的语境中文切分理论.进而提出一种语境中文分词方法.该方法建立在词法和句法基础上,从语境角度分析歧义字段,提高分词准确率. 相似文献
10.
基于规则挖掘和Naive Bayes方法的组合型歧义字段切分 总被引:1,自引:0,他引:1
组合型歧义字段切分是中文自动分词的难点之一。在对现有方法进行深入分析的基础上,提出了一种新的切分算法。该算法自动从训练语料中挖掘词语搭配规则和语法规则,基于这些规则和Naive Bayes模型综合决策进行组合型歧义字段切分。充分的实验表明,相对于文献中的研究结果,该算法对组合型歧义字段切分的准确率提高了大约8%。 相似文献