首页 | 本学科首页   官方微博 | 高级检索  
     

有关“理解和分词孰先孰后”的反思
引用本文:吴安迪.有关“理解和分词孰先孰后”的反思[J].中文信息学报,2007,21(3):20-20.
作者姓名:吴安迪
作者单位:美国葡萄城信息技术有限公司
摘    要:“中文分词十年回顾”一文中有“理解和分词孰先孰后”这一节,专门讨论NLPwin中文系统的分词。作为该系统的开发者之一,我觉得有必要对这个问题作一反省。
作为一门科学,语言学的目标之一是了解人类语言处理的机制。对我而言,计算语言学的最高境界是做出一套能反映人脑语言机制真实状况的, 具有心理学价值的电脑系统。从心理语言学的角度看,“理解和分词孰先孰后”这个问题是不存在的。人脑分析句子的过程显然是一个分词和理解互动的过程,理解依赖于分词,分词也依赖于理解。NLPwin中文系统的设计理念就是要反映人脑的这一分析过程。我们没有做一个专用于分词的系统,因为孤立的分词不是一种自然的人类语言行为。
从工程的角度看,分词和理解是完全可以分开的。对于工程来说,切分一个汉语的字串和切分任何其他字串没有太大的区别。我们可以把最好的、具有通用性的切分技术用于汉语分词。在此过程中我们不需要知道所切汉语字串所表达的意义。这里所要解决的主要是一个数学问题,而不是语言理解问题。把理解插入分词过程会大大增加计算的复杂度,其结果往往是得不偿失。所以如果我们的目的仅仅是分词,理解是没有必要的。

关 键 词:中文分词  中文系统  开发者
文章编号:1003-0077(2007)03-0020-01
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号