首页 | 本学科首页   官方微博 | 高级检索  
     

中文词语语义相似度计算——基于《知网》2000
引用本文:李峰,李芳. 中文词语语义相似度计算——基于《知网》2000[J]. 中文信息学报, 2007, 21(3): 99-105
作者姓名:李峰  李芳
作者单位:上海交通大学 计算机科学与工程系,上海 200240
摘    要:词语语义相似度的计算,一种比较常用的方法是使用分类体系的语义词典(如Wordnet)。本文首先利用Hownet中“义原”的树状层次结构,得到“义原”的相似度,再通过“义原”的相似度得到词语(“概念”)的相似度。本文通过引入事物信息量的思想,提出了自己的观点: 认为知网中的“义原”对“概念”描述的作用大小取决于其本身所含的语义信息量;“义原”对“概念”的描述划分为直接描述和间接描述两类,并据此计算中文词语语义相似度,在一定程度上得到了和人的直观更加符合的结果。

关 键 词:计算机应用  中文信息处理  词语语义相似度  知网  “义原”  语义信息量  
文章编号:1003-0077(2007)03-0099-07
收稿时间:2006-06-03
修稿时间:2006-06-032006-12-13

An New Approach Measuring Semantic Similarity in Hownet 2000
LI Feng,LI Fang. An New Approach Measuring Semantic Similarity in Hownet 2000[J]. Journal of Chinese Information Processing, 2007, 21(3): 99-105
Authors:LI Feng  LI Fang
Affiliation:Department of Computer Science and Technology, Shanghai Jiao Tong university, Shanghai 200240, China
Abstract:A basic approach for measuring semantic similarity/distance between words and concepts is to use lexical taxonomy,such as Wordnet. Hownet is a Chinese semantic dictionary,containing abundant semantic information and ontology knowledge,but has quite different construction and architecture.In this paper,we present a new approach using Hownet by drawing in the idea of information theory.We propose that the more semantic information a "sememe" take,the more powerful it in describing concepts.Then we divide "sememe" which describes a concept into two set: directly describing part and indirectly describing part.In the experiments,we demonstrate our method have improved performance in measuring semantic similarity between Chinese words.
Keywords:computer application,Chinese information processing,semantic similarity,Hownet,"  sememe"  ,semantic information
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号