首页 | 本学科首页   官方微博 | 高级检索  
     

基于信息论的潜在概念获取与文本聚类
引用本文:李晓光,于 戈,王大玲,鲍玉斌.基于信息论的潜在概念获取与文本聚类[J].软件学报,2008,19(9):2276-2284.
作者姓名:李晓光  于 戈  王大玲  鲍玉斌
作者单位:1. 辽宁大学,信息学院,辽宁,沈阳,110036
2. 东北大学,信息科学与工程学院,辽宁,沈阳,110004
摘    要:针对词、潜在概念、文本和主题之间的模糊关系,提出一种基于信息论的潜在概念获取与文本聚类方法.方法引入了潜在概念变量和主题变量。根据信息论中熵压缩编码理论,定义了一个全局目标函数,给出一种类似于确定性退火算法的求解算法,用以获得概念层次树以及在不同层次概念上的文本聚类结果,是一种双向软聚类方法.方法通过基于最短描述长度原则的概念选择方法,最终确定概念个数和对应的文本聚类结果.实验结果表明,所提出的方法优于基于词空间的文本聚类方法以及双向硬聚类方法.

关 键 词:潜在概念  主题  文本聚类  信息论
收稿时间:2006/12/28 0:00:00
修稿时间:8/3/2007 12:00:00 AM

Latent Concept Extraction and Text Clustering Based on Information Theory
LI Xiao-Guang,YU Ge,WANG Da-Ling and BAO Yu-Bin.Latent Concept Extraction and Text Clustering Based on Information Theory[J].Journal of Software,2008,19(9):2276-2284.
Authors:LI Xiao-Guang  YU Ge  WANG Da-Ling and BAO Yu-Bin
Abstract:
Keywords:latent concept  topic  text clustering  Information theory  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《软件学报》浏览原始摘要信息
点击此处可从《软件学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号