首页 | 本学科首页   官方微博 | 高级检索  
     

基于最大熵模型的越南语交叉歧义消解
引用本文:熊明明,刘艳超,郭剑毅,余正涛,周兰江,陈秀琴.基于最大熵模型的越南语交叉歧义消解[J].中文信息学报,2017,31(4):63-69.
作者姓名:熊明明  刘艳超  郭剑毅  余正涛  周兰江  陈秀琴
作者单位:1. 昆明理工大学 信息工程与自动化学院, 云南 昆明 650500;
2. 昆明理工大学 智能信息处理重点实验室, 云南 昆明 650500;
3. 昆明理工大学 国际教育学院, 云南 昆明 650093
基金项目:国家自然科学基金(61262041,61472168);云南省自然科学基金(2013FA030)
摘    要:越南语中存在大量的交叉歧义片段。为了解决交叉歧义给分词、词性标注、实体识别和机器翻译等带来的影响,该文选取统计特征、上下文特征和歧义字段内部特征,尝试性地构建最大熵模型,对越南语的交叉歧义进行消解。该文通过三种方法整理出包含174 646词条的越南语词典,然后通过正向和逆向最大匹配方法从25 981条人工标注好的越南语分词句子中抽取5 377条歧义字段,分别测试了三类特征对歧义模型的贡献程度,并对歧义字段做五折交叉验证实验,准确率达到了87.86%。同时,与CRFs进行对比实验,结果表明该方法能更有效消解越南语交叉歧义。

关 键 词:交叉歧义  歧义消解  最大熵模型  越南语词典  CRFs  

Vietnamese Cross Ambiguity Resolution Based on Maximum Entropy Model
XIONG Mingming,LIU Yanchao,GUO Jianyi,YU Zhengtao,ZHOU Lanjiang,CHEN Xiuqin.Vietnamese Cross Ambiguity Resolution Based on Maximum Entropy Model[J].Journal of Chinese Information Processing,2017,31(4):63-69.
Authors:XIONG Mingming  LIU Yanchao  GUO Jianyi  YU Zhengtao  ZHOU Lanjiang  CHEN Xiuqin
Affiliation:1. School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming, Yunnan 650500,China;
2. The Key Laboratory of Intelligent Information Processing,Kunming University of Science and Technology, Kunming, Yunnan 650500,China;
3. School of International Education,Kunming University of Science and Technology, Kunming, Yunnan 650093,China
Abstract:To deal with the rich cross ambiguities in Vietnamese, this paper adopts the Maximum Entropy approach using the selected statistical features, contextual features and internal features of the ambiguity segments. It constructs a Vietnamese dictionary of 174 646 entries, which brings about 5 377 segments of cross ambiguities among 25 981 Vietnamese sentences with golden labels. A 5-fold cross validation experiment shows that the accuracy of the proposed method canachieve 87.86% which out performs the CRFs.
Keywords:cross ambiguity  disambiguation  maximum entropy model  Vietnamese dictionary  CRFs  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号