首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于使用差异的词语领域性分析方法
引用本文:李素建,宋涛,高杰,幺鹏跃,李文捷.一种基于使用差异的词语领域性分析方法[J].中文信息学报,2009,23(6):72-79.
作者姓名:李素建  宋涛  高杰  幺鹏跃  李文捷
作者单位:1. 北京大学 计算语言学教育部重点实验室,北京 100871;
2.山东菏泽学院,山东 菏泽 274000;
3. 香港理工大学计算机系,香港
基金项目:国家自然科学基金资助项目,国家973课题资助项目 
摘    要:领域知识的表达形式最终体现在词汇的领域性上,因此对领域词及其部件的领域度分析是一个关键。该文在分词的基础上,对各个领域语料进行分析,利用词语之间的关系,引入链接分析方法分析词语在各个领域中的使用重要性,并通过词语在各个领域中的使用差异性计算其领域度,从而达到领域分析的目的,获取某个领域的领域部件词。该文采用以上方法在军事、娱乐等领域进行了实验,实验结果表明该方法相对于当前常用的tf×idf方法和Bootstrapping方法,可以更有效地进行领域分析获取领域部件词。

关 键 词:人工智能  自然语言处理  领域性分析  领域词  领域部件词  链接分析  使用差异
  

A Method of Lexical Domain Analysis Based on Usage Discrepancy
LI Sujian,SONG Tao,GAO Jie,YAO Pengyue,LI Wenjie.A Method of Lexical Domain Analysis Based on Usage Discrepancy[J].Journal of Chinese Information Processing,2009,23(6):72-79.
Authors:LI Sujian  SONG Tao  GAO Jie  YAO Pengyue  LI Wenjie
Affiliation:1. Institute of Computational Linguisitics, Peking Universtiy, Beijing 100871, China;
2. Foreign language Department, Heze University, Heze, Shandong 274105, China;
3. Department of Computing, The Hongkong Polytechnic University, Hongkong, China
Abstract:The representation of domain knowledge usually focuses on the domain lexicons, and then domain analysis for terms or term components is a natural task. In this paper, we propose a novel domain analysis method based on the discrepancy of lexical usage. Based on the word segmentation result, we introduce a link analysis method to compute the usage degree of each word for several typical domain corpora. Then through analyzing the discrepancy of the word usage in different domains, we can acquire the domain term component with larger usage discrepancy. This method is experimented on several domains such as military, entertainment and so on, achieving better results than the commonly used tf × idf method and Bootstapping method.
Keywords:artificial intelligence  natural language processing  domain analysis  domain term  domain term component  link analysis  usage discrepancy
本文献已被 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号