基于高斯词长特征的中文分词方法 Gaussian Distribution of Word Length for Chinese Word Segmentation期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于高斯词长特征的中文分词方法

引用本文：	张义,李治江. 基于高斯词长特征的中文分词方法[J]. 中文信息学报, 2016, 30(5): 89-93

作者姓名：	张义李治江

作者单位：	武汉大学印刷与包装系,湖北武汉,430079

基金项目：	武汉大学自主科研项目;国家科技支撑计划项目(2012BAH91F03)

摘要：	中文分词是中文信息处理的基础,在语音合成、中外文翻译、中文检索、文本摘要等方面均有重要应用。在中文分词的任务中,存在的主要问题在于可用有效特征较少,分词准确率较低,如何有效的获取和使用分词特征是关键。该文从中文文本生成的过程出发,基于词长噪声的高斯分布特性,提出利用上下文的词长特征作为分词特征。实验表明,在封闭测试中,采用条件随机场模型,使用该特征对现有的实验结果有提高作用。
关键词：	高斯词长条件随机场中文分词自然语言处理
Gaussian Distribution of Word Length for Chinese Word Segmentation

ZHANG Yi,LI Zhijiang. Gaussian Distribution of Word Length for Chinese Word Segmentation[J]. Journal of Chinese Information Processing, 2016, 30(5): 89-93

Authors:	ZHANG Yi LI Zhijiang

Affiliation:	School of Printting and Packaging,Wuhan University,Wahan,Hubei 430079,China

Abstract:	Chinese word segmentation (CWS) is the foundation for Chinese information processing. This article proposed a feature of contextual word length based on Gaussian noise. The experiment results indicate that this feature can enhance the performance of the exit result.

Keywords:	contextual word length,conditional random field,Chinese word segmentation natural language process,

	点击此处可从《中文信息学报》浏览原始摘要信息
	点击此处可从《中文信息学报》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏