首页 | 本学科首页   官方微博 | 高级检索  
     

基于最大熵模型的汉语词义消歧与标注方法
引用本文:张仰森.基于最大熵模型的汉语词义消歧与标注方法[J].计算机工程,2009,35(18):15-18.
作者姓名:张仰森
作者单位:北京信息科技大学智能信息处理研究所,北京,100192;中国科学院自动化所模式识别国家重点实验室,北京,100080
基金项目:国家自然科学基金资助项目,北京市自然科学基金B类资助重点项目,中科院自动化所模式识别国家重点实验室开放专项经费基金,北京市属市管高校人才强教计划基金资助项目 
摘    要:分析最大熵模型开源代码的原理和各参数的意义,采用频次和平均互信息相结合特征筛选和过滤方法,用Delphi语者编程实现汉语词义消歧的最大熵模型,运用GIS(Generalized Iterative Scaling)算法计算模型的参数。结合一些语占知识规则解决训练语料的数据稀疏问题,所实现的汉语词义消歧与标注系统,对800多个多义词进行词义标注,取得了较好的标注正确率。

关 键 词:词义消歧与标注  最大熵模型  上下文特征  特征筛选
修稿时间: 

Approach to Chinese Word Sense Disambiguation and Tagging Based on Maximum Entropy Models
ZHANG Yang-sen.Approach to Chinese Word Sense Disambiguation and Tagging Based on Maximum Entropy Models[J].Computer Engineering,2009,35(18):15-18.
Authors:ZHANG Yang-sen
Affiliation:1.Institute of Intelligent Information Processing;Beijing Information Science & Technology University;Beijing 100192;2.National Laboratory of Pattern Recognition;Institute of Automation;Chinese Academic of Sciences;Beijing 100080
Abstract:This paper analyzes the principle and every parameter meaning of open-source code of maximum entropy models, uses the method of the combination of feature frequency and average mutual information to select the features from the candidate feature set, realizes the maximum entropy models for Chinese Word Sense Disambiguation(WSD) by Delphi, and computes models parameters by GIS algorithm.It solves the data sparseness problem by combining the linguistic knowledge.The system for Chinese word sense automatic dis...
Keywords:Word Sense Disambiguation(WSD) and tagging  maximum entropy models  contextual features  feature selecting
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号