首页 | 本学科首页   官方微博 | 高级检索  
     

利用上正文信息解决汉语自动分词中的组合型歧义
引用本文:肖云,邹嘉彦,等.利用上正文信息解决汉语自动分词中的组合型歧义[J].计算机工程与应用,2001,37(19):87-89,106.
作者姓名:肖云  邹嘉彦
作者单位:[1]清华大学智能技术与系统国家重点实验室,北京100084 [2]香港城市大学语言资讯科学研究中心
摘    要:组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与Word Sense Disambiguation(WSD)相等价的问题。文章借鉴了WSD研究了广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验 定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。

关 键 词:自然语言处理  中文计算  汉语自动分词  组合型歧义切分字段  中文信息处理
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号