首页 | 本学科首页   官方微博 | 高级检索  
     

基于高斯词长特征的中文分词方法
引用本文:张 义,李治江. 基于高斯词长特征的中文分词方法[J]. 中文信息学报, 2016, 30(5): 89-93
作者姓名:张 义  李治江
作者单位:武汉大学 印刷与包装系,湖北 武汉,430079
基金项目:武汉大学自主科研项目;国家科技支撑计划项目(2012BAH91F03)
摘    要:中文分词是中文信息处理的基础,在语音合成、中外文翻译、中文检索、文本摘要等方面均有重要应用。在中文分词的任务中,存在的主要问题在于可用有效特征较少,分词准确率较低,如何有效的获取和使用分词特征是关键。该文从中文文本生成的过程出发,基于词长噪声的高斯分布特性,提出利用上下文的词长特征作为分词特征。实验表明,在封闭测试中,采用条件随机场模型,使用该特征对现有的实验结果有提高作用。


关 键 词:高斯词长  条件随机场  中文分词  自然语言处理
  

Gaussian Distribution of Word Length for Chinese Word Segmentation
ZHANG Yi,LI Zhijiang. Gaussian Distribution of Word Length for Chinese Word Segmentation[J]. Journal of Chinese Information Processing, 2016, 30(5): 89-93
Authors:ZHANG Yi  LI Zhijiang
Affiliation:School of Printting and Packaging,Wuhan University,Wahan,Hubei 430079,China
Abstract:Chinese word segmentation (CWS) is the foundation for Chinese information processing. This article proposed a feature of contextual word length based on Gaussian noise. The experiment results indicate that this feature can enhance the performance of the exit result.
Keywords:contextual word length,conditional random field,Chinese word segmentation  natural language process,
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号