首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
近年来国内外有很多学者将广泛用于自然语言处理的LDA模型引入视觉对象识别,对象分割,场景分类等应用中。LDA模型是产生式模型,所以必然存在产生式模型共有的弊端,即假设每个视觉词汇所对应主题的产生是条件独立的。根据图像本身的特征,图像的空间信息对图像物体识别起了很大的作用,一个视觉词汇主题的生成过程是受其相邻视觉词汇主题所影响的,为了提高图像视觉词汇的主题分配正确率,提出融合空间信息LDA模型,即融合条件随机场的LDA模型,从而在图像的局部主题标签上融合二维图像空间信息,既避免空间信息的丢失,同时可以提高其视觉词汇的主题分配正确率。论文主要研究内容:首先对LDA模型进行改进,并在该模型中引入条件随机场,同时推导出使用期望最大化算法确定的模型参数。该论文提出使用条件随机场获得图像的二维空间信息,将产生式模型和判别式模型融合,在增强由图像本身性质所决定的相邻区域主体标签的空间关联性的同时,也提高了视觉对象识别的精确度,完成图像的自动标注。  相似文献   

2.
微博由于其开放、低门槛、终端扩展、内容简洁的特征,已经成为一个信息分享、传播以及获取的大众新闻时事的重要平台,而微博中的海量文本基本都是短文本快节奏的数据,等待我们去分析其中蕴含的大量的信息。这里突出介绍了LDA主题模型和Gibbs Sampling采样算法。通过实验用LDA模型来进行主题挖掘,挖掘出来的每个主题即为该用户的兴趣和爱好。  相似文献   

3.
基于共享背景主题的 Labeled LDA 模型   总被引:2,自引:0,他引:2       下载免费PDF全文
江雨燕  李平  王清 《电子学报》2013,41(9):1794
隐藏狄利克雷分配(Latent Dirichlet Allocation ,LDA )模型被广泛应用于文本分析、图像识别等领域。但由于LDA及其扩展模型多为无监督学习模型,无法将其应用于分类任务中。本文通过研究文档标记与LDA模型中主题的映射关系,提出一种新的Labeled LDA模型(Shared Background Topics Labeled LDA ,SBTL-LDA )。在SBTL-LDA模型中每个标记除了存在若干个独享的局部主题外,还存在若干个共享的背景(Background )主题,这样可以有效分析不同标记所含主题之间的依赖关系,而文档标记被映射为局部主题和共享主题的组合,因此SBTL-LDA模型可以有效提升文档标记判别的准确性。同时SBTL-LDA模型还可以看成是一种半监督聚类模型,在对文档进行聚类分析的过程中模型可以有效的利用文档的标记信息提升文档聚类效果。实验证明SBTL-LDA模型能够有效解决PLDA模型中主题之间的相似性和依赖关系,具有良好的多标记判别能力,并且具有优于LDA、PLDA模型的文档聚类效果。  相似文献   

4.
随着微博的广泛应用,每天会产生海量的微博文本,从这些海量的微博文本中快速准确地发现热点话题已经成为微博研究的重点。文章利用LDA模型进行特征选择,降低了数据处理的维度,提高了微博热点话题算法效率。  相似文献   

5.
刘艳文  魏赟 《电子科技》2020,33(7):12-16
LDA主题模型在提取特征时缺乏对词语关联及相关词对的理解,这会影响情感极性分类的准确率。针对这一问题,文中提出一种在LDA主题模型中引入特征情感词对抽取方法的新模型,以改善特征情感词对的抽取效果。利用依存句法分析设计特征情感词对的识别方法,随后将识别方法作为约束条件引入LDA模型对特征情感词对进行抽取。通过吉布斯采样进行参数计算,给出了模型的生成过程。最后利用随机森林分类方法对文本进行情感极性分类。为验证文中模型的有效性,将其和另外两种模型一起进行实验,当主题个数为20时,文中所提模型分类的准确率、召回率、F值分别为81.54%、83.13%和82.33%,显著高于另外两种模型。  相似文献   

6.
基于概率主题模型的文档聚类   总被引:3,自引:0,他引:3       下载免费PDF全文
王李冬  魏宝刚  袁杰 《电子学报》2012,40(11):2346-2350
 为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allocation)模型和TC_LDA模型的聚类算法.TC_LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法不同,基于主题模型的聚类算法能将具备同一主题的文档聚为一类.实验结果表明从主题分析角度出发实现的聚类算法优于传统的聚类算法.  相似文献   

7.
本文提出senLDA模型,修改LDA的吉布斯采样过程,假设文本窗口内词只由一个主题产生,短文本潜在主题与各个单元上的主题保持一致。以句内共现率较高词作为采样单位,收敛出高频共现词。传统LDA假设单个词的长度为最大窗口,因此senLDA是LDA的一个特殊情况。senLDA通过整合句子来扩展LDA,保持词汇与主题的关联并且没有依据先验知识增加额外超参数的推导,保留了传统LDA的简单性。  相似文献   

8.
传统的协同过滤推荐算法直接根据用户对物品的评分进行推荐,忽略了评论文本中隐含的重要信息,当用户对物品的评论较少时,由于数据的稀疏性会造成推荐效果的不准确和单一。本文提出了一种基于LDA主题模型的协同过滤推荐算法LDA-CF(Latent Dirichlet Allocation model-LDA-Collaborative Filtering),在传统的协同过滤算法基础上,通过LDA模型对评论文本中的主题进行分类,从各个主题层面挖掘用户的情感偏好,计算用户之间的相似度,进而向目标用户推荐商品。对京东平台牙膏的评论数据集的实验结果表明,该算法不仅可以缓解由于评分数据较少造成的稀疏性问题,推荐的精确度也有所提高。  相似文献   

9.
彭杰  石永革  高胜保 《电信科学》2016,32(9):139-145
传统的主题挖掘模型一般仅从交互型文本中挖掘出文档主题,为了能够从中挖掘出会话主题并提高挖掘模型的普适性,提出了一种基于对话内容的交互型文本会话主题生成模型。首先通过分析交互型文本的特征,基于主题树的概念,定义了一个5层结构的对话生成树。以此为基础,再基于LDA构建会话主题生成模型(ST-LDA)。最后采用吉布斯抽样法对ST-LDA进行推导,得到会话主题及其分布概率。使用实际数据进行验证,结果表明,ST-LDA模型可以从交互型文本中有效地挖掘出会话主题。此外,成果可以降低分类算法的复杂度,回溯主题—参与者关联关系,具有较好的普适性。  相似文献   

10.
《现代电子技术》2019,(3):122-126
以英汉维三种大规模文本聚类为目标,针对三种语言的特点实现基于LDA模型的静态文本聚类系统。因为存在博客、微博等网络媒体的文本不太规范及涉及的话题范围广泛等现象,对文本特征的提取及聚类算法的选择带来一定的难度。通过对样本文本的分析,计算出适当的聚类数k,再调用LDA算法将文本聚为k类并给出每类文本的关键词。测试结果表明,该系统能将英汉维三种语言的文本相似度高的聚为一类,可显著提高聚类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号