首页 | 本学科首页   官方微博 | 高级检索  
     

现代汉语通用分词系统中歧义切分的实用技术
引用本文:罗智勇, 宋 柔. 现代汉语通用分词系统中歧义切分的实用技术[J]. 计算机研究与发展, 2006, 43(6): 1122-1128.
作者姓名:罗智勇  宋柔
作者单位:北京工业大学计算机学院,北京,100022;北京语言大学信息科学学院,北京,100083;北京语言大学信息科学学院,北京,100083
基金项目:中国科学院资助项目;国家科技攻关项目;教育部科学技术基金;教育部人文社会科学重点研究基地项目
摘    要:歧义切分技术是中文自动分词系统的关键技术之一.特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求.从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则+例外”的实用消歧策略.对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%.

关 键 词:中文信息处理  通用分词系统  歧义切分
收稿时间:2005-01-11
修稿时间:2005-10-31
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机研究与发展》浏览原始摘要信息
点击此处可从《计算机研究与发展》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号