现代汉语通用分词系统中歧义切分的实用技术 |
| |
引用本文: | 罗智勇, 宋 柔. 现代汉语通用分词系统中歧义切分的实用技术[J]. 计算机研究与发展, 2006, 43(6): 1122-1128. |
| |
作者姓名: | 罗智勇 宋柔 |
| |
作者单位: | 北京工业大学计算机学院,北京,100022;北京语言大学信息科学学院,北京,100083;北京语言大学信息科学学院,北京,100083 |
| |
基金项目: | 中国科学院资助项目;国家科技攻关项目;教育部科学技术基金;教育部人文社会科学重点研究基地项目 |
| |
摘 要: | 歧义切分技术是中文自动分词系统的关键技术之一.特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求.从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则+例外”的实用消歧策略.对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%.
|
关 键 词: | 中文信息处理 通用分词系统 歧义切分 |
收稿时间: | 2005-01-11 |
修稿时间: | 2005-10-31 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
| 点击此处可从《计算机研究与发展》浏览原始摘要信息 |
|
点击此处可从《计算机研究与发展》下载免费的PDF全文 |
|