首页 | 本学科首页   官方微博 | 高级检索  
     

基于选择倾向性的词汇获取方法
引用本文:王大亮,蒋宏潮,涂序彦,郑雪峰,佟子健.基于选择倾向性的词汇获取方法[J].计算机工程,2008,34(12):169-171.
作者姓名:王大亮  蒋宏潮  涂序彦  郑雪峰  佟子健
作者单位:1. 北京科技大学信息工程学院,北京,100083
2. 搜狐研发中心,北京,100084
摘    要:通过分析几种统计评价方法发现,互信息法可用于衡量二元独立性,淘汰机会二元组;χ2检验能更合理地评价词汇组合的选择倾向性,获取频繁二元组发现;对数似然比检验可以有效获取稀疏二元组,弥补其他方法无法克服的稀疏数据问题。将互信息、χ2检验、对数似然比检验组合,并加入词汇子范畴框架的启发式规则,提出一个层次分明的综合多种统计评价方法的词汇获取方法。

关 键 词:自然语言处理  词汇获取  新词发现  选择倾向性  统计评价方法
文章编号:1000-3428(2008)12-0169-03
修稿时间:2007年8月11日

Lexical Acquisition Method Based on Selection Preference
WANG Da-liang,JIANG Hong-chao,TU Xu-yan,ZHENG Xue-feng,TONG Zi-jian.Lexical Acquisition Method Based on Selection Preference[J].Computer Engineering,2008,34(12):169-171.
Authors:WANG Da-liang  JIANG Hong-chao  TU Xu-yan  ZHENG Xue-feng  TONG Zi-jian
Affiliation:(1. School of Information Engineering, University of Science and Technology, Beijing 100083;2. Department of Research & Development, Sohu.Com Inc., Beijing 100084)
Abstract:This paper analyzes some statistical evaluation methods, and finds that mutual information is able to measure the independency of two meta in order to discard irrelevant ones; χ2-test is more reasonable to evaluate lexical selection preference; log likelihood ratio can obtain spare lexical combination and solve spare data problem, which is a bottleneck to other methods. An approach of Lexical Acquisition is presented, which effectively integrates mutual information, χ2-test and log likelihood ratio with heuristic rules of subcategorization frame.
Keywords:nature language processing  lexical acquisition  unknown word detection  selection preference  statistical evaluation method
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号