首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于主题的概率文档相关模型
引用本文:贾西平,彭宏,郑启伦,石时需. 一种基于主题的概率文档相关模型[J]. 计算机科学, 2008, 35(10): 178-180
作者姓名:贾西平  彭宏  郑启伦  石时需
作者单位:1. 华南理工大学计算机科学与工程学院,广州,510640
2. 广东技术师范学院计算机科学学院,广州,510665
基金项目:广东省自然科学基金,广东省科技攻关计划
摘    要:现有文档关系分析模型难以从主题层次上判别文档相关性.为此,提出了一个基于主题的概率文档相关模型(TPDC).TPDC借助Latent Dirichlet Allocation模型学习文档的主题结构;在计算出主题后验概率和主题相似度的基础上推导出文档后验概率;基于文档后验概率构建文档相关性分析模型.实验结果证明,TPDC模型在文档检索精度和文档压缩程度两方面优于向量空间模型,因而更能胜任实际应用中的文档检索任务.

关 键 词:主题  主题相似性  文档相关性  文本挖掘

Topic-based Probabilistic Document Correlation Model
JIAXi-ping,PENG Hong,ZHENG Qi-lun,SHI Shi-xu. Topic-based Probabilistic Document Correlation Model[J]. Computer Science, 2008, 35(10): 178-180
Authors:JIAXi-ping  PENG Hong  ZHENG Qi-lun  SHI Shi-xu
Affiliation:JIA Xi-ping PENG Hong ZHENG Qi-lun SHI Shi-xu(School of Computer Science , Engineering,South China University of Technology,Guangzhou 510640,China)(School of Computer Science,Guangdong Polytechnic Normal University,Guangzhou 510665,China)
Abstract:Existing models on document relationship analysis have a difficulty in learning document correlation from topic level.To overcome this difficulty,a topic-based probabilistic document correlation model(TPDC)was proposed.The model learns the topic structure of a document through the latent dirichlet allocation model,infers the posterior probability of a document by computing the posterior probability of its topics and topic similarity,and then constructs the document correlation model based on the document po...
Keywords:Topic  Topic similarity  Document correlation  Text mining  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机科学》浏览原始摘要信息
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号