首页 | 本学科首页   官方微博 | 高级检索  
     

基于分离模型的中文关键词提取算法研究
引用本文:罗准辰,王挺.基于分离模型的中文关键词提取算法研究[J].中文信息学报,2009,23(1):63.
作者姓名:罗准辰  王挺
作者单位:国防科学技术大学 计算机学院,湖南 长沙 410073
基金项目:国家自然科学基金,教育部跨世纪优秀人才培养计划 
摘    要:关键词提取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用。通常所说的关键词实际上有相当一部分是关键的短语和未登录词,而这部分关键词的抽取是十分困难的问题。该文提出将关键词提取分为两个问题进行处理关键单词提取和关键词串提取,设计了一种基于分离模型的中文关键词提取算法。该算法并针对关键单词提取和关键词串提取这两个问题设计了不同的特征以提高抽取的准确性。实验表明,相对于传统的关键词提取算法,基于分离模型的中文关键词提取算法效果更好。

关 键 词:计算机应用  中文信息处理  关键词提取  关键词串  分离模型  互信息  词串边界参数表
  

Research on the Chinese Keyword Extraction Algorithm Based on Separate Models
LUO Zhun-chen,WANG Ting.Research on the Chinese Keyword Extraction Algorithm Based on Separate Models[J].Journal of Chinese Information Processing,2009,23(1):63.
Authors:LUO Zhun-chen  WANG Ting
Affiliation:School of Computer, National University of Defense Technology, Changsha, Hunan 410073, China
Abstract:Keyword extraction plays an important role in information retrieval,automatic summarizing,text cluste-ring,and text classification,etc.A significant portion of keywords usually extracted are actually key phrases or the words not recorded yet,which makes the keyword extraction more difficult.This paper argues that the keyword ex-traction can be treated as two problems: extracting key words and extracting key phrases.A keyword extraction al-gorithm based on separate models was proposed,with different features...
Keywords:computer application  Chinese information processing  keyword extraction  keyphrases  separate mod-el  mutual information  word-sequence boundary  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号