首页 | 本学科首页   官方微博 | 高级检索  
     

基于众包的词汇联想网络的获取和分析
引用本文:丁宇,车万翔,刘挺,张梅山.基于众包的词汇联想网络的获取和分析[J].中文信息学报,2013,27(3):100-107.
作者姓名:丁宇  车万翔  刘挺  张梅山
作者单位:哈尔滨工业大学 计算机学院社会计算与信息检索研究中心,黑龙江 哈尔滨 150001
基金项目:国家自然科学基金重点资助项目,国家863重大资助项目,国家863先进技术研究资助项目
摘    要:词典是汉语自然语言处理中非常重要的一类资源,它能为汉语词法句法以及语义分析等提供资源支撑。该文采用众包方法构建汉语语义相关性词典,该词典是通过触发词联想的方式间接获取的,因此又称为词汇联想网络。词汇联想网络相比传统词典具有以下特点 (1)获取代价低;(2)面向互联网,易扩展;(3)词语关系从人的认知角度来建立,符合人的直觉。该文详细介绍词汇联想网络的获取方法并对已获取的数据进行分析,另外,将词汇联想网络与《知网》、《同义词词林》以及微博文本ngram进行比较说明其上述特点。

关 键 词:众包  语义相关性词典  词汇联想网络  

Constructing Word Association Network by Crowdsourcing
DING Yu , CHE Wanxiang , LIU Ting , ZHANG Meishan.Constructing Word Association Network by Crowdsourcing[J].Journal of Chinese Information Processing,2013,27(3):100-107.
Authors:DING Yu  CHE Wanxiang  LIU Ting  ZHANG Meishan
Affiliation:Research Center for Social Computing and Information Retrieval,
Harbin Institute of Technology, Heilongjiang, Harbin 150001, China
Abstract:Dictionaries are crucial to the natural language processing. Its a fundamental resource for Chinese word segmentation, POS tagging, parsing and so on. This paper presents a method to build semantic relevance dictionary with crowdsourcing, which is triggered by the word association indirectly. Compared with traditional dictionaries, the so called word association network has following advantages1)Low cost; 2)Internet oriented and easy to expend;3)Word relationship is determined from the perspective of human cognition and is consistent with human intuition. In addition to describing the way of building word association network, we also analyzed the data obtained, comparing it with Hownet, TongYiCi CiLin and word ngrams from Weibo to show its characteristics.
Key wordscrowdsourcing; semantic relevance dictionary; word association network
Keywords:crowdsourcing  semantic relevance dictionary  word association network
 
        
 
        
 
        
本文献已被 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号