首页 | 本学科首页   官方微博 | 高级检索  
     

基于潜在狄利克雷分配模型和互信息的无监督特征选取法
作者姓名:董元元  陈基漓  唐小侠
作者单位:1. 桂林理工大学 信息科学与工程学院,广西 桂林 5410042. 桂林理工大学 理学院,广西 桂林 541004
摘    要:为解决互信息(MI)在特征选取中的类别缺失和倾向低频词问题,提出 LDA-σ方法。该方法使用潜在狄利克雷分配模型(LDA)提取潜在主题,以“词—主题”间互信息的标准差作为特征评估函数。在Reuters-21578语料集上提取特征词并进行分类,LDA-σ方法的微平均F1最高达0.9096;宏平均F1优于其他算法,最高达0.7823。实验表明,LDA-σ方法可用于文本特征选取。

关 键 词:潜在狄利克雷分配模型  互信息  评价函数  
收稿时间:2012-01-09
修稿时间:2012-03-04
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机应用》浏览原始摘要信息
点击此处可从《计算机应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号