基于LDA模型的主题分析 |
| |
引用本文: | 石晶, 范猛, 李万龙. 基于LDA模型的主题分析. 自动化学报, 2009, 35(12): 1586-1592. doi: 10.3724/SP.J.1004.2009.01586 |
| |
作者姓名: | 石晶 范猛 李万龙 |
| |
作者单位: | 1.长春工业大学计算机科学与工程学院 长春 130012;;2.长春工业大学科研处 长春 130012;;3.吉林大学计算机科学与技术学院 长春 130012 |
| |
摘 要: | 在文本分割的基础上, 确定片段主题, 进而总结全文的中心主题, 使文本的主题脉络呈现出来, 主题以词串的形式表示. 为了分析准确, 利用LDA (Latent dirichlet allocation)为语料库及文本建模, 以Clarity度量块间相似性, 并通过局部最小值识别片段边界. 依据词汇的香农信息提取片段主题词, 采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外, 尝试挖掘隐藏于字词表面之下的文本内涵. 实验表明, 文本分析的结果明显好于其他方法, 可以为下一步文本推理的工作提供有价值的预处理.
|
关 键 词: | 主题分析 LDA模型 文本分割 Gibbs抽样 |
收稿时间: | 2008-07-16 |
修稿时间: | 2009-03-25 |
|
| 点击此处可从《自动化学报》浏览原始摘要信息 |
|
点击此处可从《自动化学报》下载免费的PDF全文 |
|