首页 | 本学科首页   官方微博 | 高级检索  
     

基于矢量空间模型和最大熵模型的词义问题解决策略
引用本文:赵岩,王晓龙,刘秉权,关毅.基于矢量空间模型和最大熵模型的词义问题解决策略[J].高技术通讯,2005,15(1):1-6.
作者姓名:赵岩  王晓龙  刘秉权  关毅
作者单位:哈尔滨工业大学计算机科学与技术学院,哈尔滨,150001;哈尔滨工业大学计算机科学与技术学院,哈尔滨,150001;哈尔滨工业大学计算机科学与技术学院,哈尔滨,150001;哈尔滨工业大学计算机科学与技术学院,哈尔滨,150001
基金项目:国家自然科学基金 ( 60 175 0 2 0 ),863计划 ( 2 0 0 2AA1170 10 0 9)资助项目
摘    要:针对单义词的词义问题构建了融合触发对(trigger pair)的矢量空间模型用来进行词义相似度的计算,并以此为基础进行了词语的聚类;针对多义词的词义问题应用融合远距离上下文信息的最大熵模型进行了有导词义消歧的研究。为克服以往词义消歧评测中通过人工构造带有词义标记的测试例句而带来的覆盖程度小、主观影响大等问题,将模型的评测直接放到了词语聚类和分词歧义这两个实际的应用中。分词歧义的消解正确率达到了92%,词语聚类的结果满足进一步应用的需要。

关 键 词:矢量空间模型  最大熵模型  触发对  词语聚类  词义消歧
修稿时间:2004年6月28日

Solution Strategies for Word Sense Problems Based on Vector Space Model and Maximum Entropy Model
Zhao Yan,Wang Xiaolong,Liu Bingquan,Guan Yi.Solution Strategies for Word Sense Problems Based on Vector Space Model and Maximum Entropy Model[J].High Technology Letters,2005,15(1):1-6.
Authors:Zhao Yan  Wang Xiaolong  Liu Bingquan  Guan Yi
Abstract:Aiming at the monosemantic problem, the vector space model with trigger pair was built to calculate the semantic similarity. Based on this, the word clustering was carried out. For polysemantic words, the maximum entropy model with long distance information was applied to word sense disambiguation. Because manually tagging the test sentences with semantic tag for word sense disambiguation evaluation will bring the problem of small size and uncertainty, the evaluation was put into word clustering and Chinese word segmentation system directly. The precision of Chinese word segmentation disambiguation is 92% and the word clustering can satisfy the further requirements.
Keywords:vector space model  maximum entropy model  trigger pair  word cluster  word sense disambiguation
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号