基于高斯词长特征的中文分词方法 |
| |
作者姓名: | 张义 李治江 |
| |
作者单位: | 武汉大学 印刷与包装系,湖北 武汉,430079 |
| |
基金项目: | 武汉大学自主科研项目;国家科技支撑计划项目(2012BAH91F03) |
| |
摘 要: | 中文分词是中文信息处理的基础,在语音合成、中外文翻译、中文检索、文本摘要等方面均有重要应用。在中文分词的任务中,存在的主要问题在于可用有效特征较少,分词准确率较低,如何有效的获取和使用分词特征是关键。该文从中文文本生成的过程出发,基于词长噪声的高斯分布特性,提出利用上下文的词长特征作为分词特征。实验表明,在封闭测试中,采用条件随机场模型,使用该特征对现有的实验结果有提高作用。
|
关 键 词: | 高斯词长 条件随机场 中文分词 自然语言处理 |
|
| 点击此处可从《中文信息学报》浏览原始摘要信息 |
|
点击此处可从《中文信息学报》下载全文 |
|