基于潜在狄利克雷分配模型和互信息的无监督特征选取法 |
| |
作者姓名: | 董元元 陈基漓 唐小侠 |
| |
作者单位: | 1. 桂林理工大学 信息科学与工程学院,广西 桂林 5410042. 桂林理工大学 理学院,广西 桂林 541004 |
| |
摘 要: | 为解决互信息(MI)在特征选取中的类别缺失和倾向低频词问题,提出 LDA-σ方法。该方法使用潜在狄利克雷分配模型(LDA)提取潜在主题,以“词—主题”间互信息的标准差作为特征评估函数。在Reuters-21578语料集上提取特征词并进行分类,LDA-σ方法的微平均F1最高达0.9096;宏平均F1优于其他算法,最高达0.7823。实验表明,LDA-σ方法可用于文本特征选取。
|
关 键 词: | 潜在狄利克雷分配模型 互信息 评价函数 |
收稿时间: | 2012-01-09 |
修稿时间: | 2012-03-04 |
本文献已被 CNKI 万方数据 等数据库收录! |
| 点击此处可从《计算机应用》浏览原始摘要信息 |
|
点击此处可从《计算机应用》下载全文 |
|