首页 | 本学科首页   官方微博 | 高级检索  
     

融合字特征的平滑最大熵模型消解交集型歧义
引用本文:任惠,林鸿飞,杨志豪.融合字特征的平滑最大熵模型消解交集型歧义[J].中文信息学报,2010,24(4):18-25.
作者姓名:任惠  林鸿飞  杨志豪
作者单位:大连理工大学 计算机科学与技术学院,辽宁 大连 116024
基金项目:国家自然科学基金资助项目,国家社科基金资助项目,国家高科技863计划资助项目,教育部博士点基金资助项目 
摘    要:交集型歧义的切分问题是分词阶段需要解决难点之一。该文将交集型歧义的消解问题转化为分类问题,并利用融合丰富字特征的最大熵模型解决该问题,为了克服最大熵建模时的数据稀疏问题,该文引入了不等式平滑技术和高斯平滑技术。我们在第二届国际分词竞赛的四个数据集上比较了高斯平滑技术、不等式平滑技术和频度折扣平滑技术,测试结果表明 不等式平滑技术和高斯平滑技术比频度折扣技术有显著提高,而它们之间不分伯仲,但是不等式平滑技术能使特征选择无缝嵌入到参数估计过程中,显著压缩模型规模。该方法在四个测试集上最终获得了96.27%、96.83%、96.56%、96.52%的消歧正确率,对比实验表明 丰富的特征使消歧性能分别提高了5.87%、5.64%、5.00%、5.00%,平滑技术使消歧性能分别提高了0.99%、0.93%、1.02%、1.37%,不等式平滑使分类模型分别压缩了38.7、19.9、44.6、9.7。

关 键 词:计算机应用  中文信息处理  分词  交集型歧义  融合丰富字特征  最大熵模型  平滑技术  

Resolution of Overlapping Ambiguity Strings Based on Smoothed Maximum Entropy Model with Character Feature
REN Hui,LIN Hongfei,YANG Zhihao.Resolution of Overlapping Ambiguity Strings Based on Smoothed Maximum Entropy Model with Character Feature[J].Journal of Chinese Information Processing,2010,24(4):18-25.
Authors:REN Hui  LIN Hongfei  YANG Zhihao
Affiliation:School of Computer Science and Technology, Dalian University of Technology, Dalian, Liaoning 116024,China
Abstract:The overlapping ambiguity strings(OAS) is one of the difficulties in automatic Chinese word segmentation.This paper treats the resolution of OAS asa classification task,using maximum entropy integrating character features to solve the problem.In order to overcome the data sparseness in maximum entropy modeling,this paper introduces the inequality smoothing techniques and Gaussian smoothing techniques.We compared the Gaussian smoothing,inequality smoothing and frequency discount on the four datasets of the S...
Keywords:computer application  Chinese information processing  word segmentation  overlapping ambiguity strings  character feature  maximum entropy model  smoothing technology  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号