首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
提出一种基于类别约束的主题模型用于实现场景分类.不同于现有方法,本文将图像场景类别信息引入模型参数推导过程中,采用与其类别相关的类主题集描述图像的语义内容.针对各场景类图像中潜在主题数量变化,提出了一种ATS-LDA(自适应主题数的潜在狄里克雷分布)模型实现中层语义的建模算法.该模型依据各场景类训练样本关于视觉词语表示的变化估计所需主题数,体现了各类场景中间语义的繁简变化.根据各类模型下的图像概率分布,采用最大似然估计实现测试样本的场景语义分类.改变了现有主题模型需要依赖于其它分类器完成场景分类的现状.通过多个图像数据集分类任务证明该模型能够在不需要太多训练的情况下取得较好地性能.  相似文献   

2.
一种基于类主题空间的图像场景分类方法   总被引:2,自引:2,他引:0       下载免费PDF全文
本文在扩展LDA(latent dirichlet allocation)的基础上提出了一种新的生成模型——基于类主题空间的潜在狄里克雷分布(CTS-LDA)用来实现自然图像场景分类。该方法不同于以往方法,它在训练时通过将图像场景类别信息引入模型推导过程中,产生各场景类的独立语义主题空间,使得每个场景类都有各自不同的主题空间,图像的最终语义表示采用与其类别相关的类主题集,是一种符合人类认知习惯的方法。以前所用的场景分类方法通常在得到图像主题表示后还需要依赖于其他分类器来完成场景分类,而CTS-LDA模型可以在分别计算图像在各类模型中的主题分布时,用最大似然法得出图像的类别信息。此外本文通过分析不同主题数对本模型性能的影响,得出了适用于本模型的最佳主题数。本文分别通过13,15等多类场景任务来检验模型的性能,实验证明该模型能够在不需要太多训练的情况下取得较好的性能。  相似文献   

3.
严宇宇  陶煜波  林海 《软件学报》2016,27(5):1114-1126
随着信息技术的快速发展,大量的文本数据产生、被收集和存储.主题模型是文本分析的重要工具之一,被广泛地应用于分析大规模文本集.然而,主题模型通常无法直观而有效地结合用户的领域专业知识对模型结果进行修正.针对这一问题,提出了一个交互式可视分析系统,帮助用户对主题模型进行交互修正.首先对层次狄利克雷过程进行了改进,使其支持单词约束;然后,使用矩阵视图对主题模型进行展示,并使用语义相关的词云布局帮助用户寻找单词约束,用户通过添加单词约束迭代优化主题模型;最后,通过案例分析及用户研究来评价该系统的可用性.  相似文献   

4.
闫蓉  高光来 《计算机应用》2016,36(8):2099-2102
针对传统伪相关反馈(PRF)算法扩展源质量不高使得检索效果不佳的问题,提出一种基于检索结果的排序模型(REM)。首先,该模型从初检结果中选择排名靠前的文档作为伪相关文档集;然后,以用户查询意图与伪相关文档集中各文档的相关度最大化、并且各文档之间相似性最小化作为排序原则,将伪相关文档集中各文档进行重排序;最后,将排序后排名靠前的文档作为扩展源进行二次反馈。实验结果表明,与两种传统伪反馈方法相比,该排序模型能获得与用户查询意图相关的反馈文档,可有效地提高检索效果。  相似文献   

5.
江浩  陈兴蜀杜敏 《计算机应用》2013,33(11):3071-3075
热点话题挖掘是舆情监控的重要技术基础。针对现有的论坛热点话题挖掘方法没有解决数据中词汇噪声较多且热度评价方式单一的问题,提出一种基于主题聚簇评价的热点话题挖掘方法。采用潜在狄里克雷分配主题模型对论坛文本数据建模,对映射到主题空间的文档集去除主题噪声后用优化聚类中心选择的K-means++算法进行聚类,最后从主题突发度、主题纯净度和聚簇关注度三个方面对聚簇进行评价。通过实验分析得出主题噪声阈值设置为0.75,聚类中心数设置为50时,可以使聚类质量与聚类速度达到最优。真实数据集上的测试结果表明该方法可以有效地将聚簇按出现热点话题的可能性排序。最后设计了热点话题的展示方法。  相似文献   

6.
随着互联网和信息技术的发展,大量的多标签文本数据快速产生。在文本分类中如何确定合适的分类数目以及如何更加准确地辨别文档的标签是亟待解决的问题。提出的HL_LDA模型通过层次狄利克雷过程自动确定分类的数目,通过发掘多标签文档的标签之间的层次信息提高分类的质量。实验结果表明在不同类型的数据集中,和经典的LDA,SVM等方法相比,HL_LDA在精度,F1-score等评估指标上明显优于现有的方法。  相似文献   

7.
传统情感模型在分析商品评论中的用户情感时面临两个主要问题:1)缺乏针对产品属性的细粒度情感分析;2)自动提取的产品属性其数量须提前确定。针对上述问题,提出了一种细粒度的面向产品属性的用户情感模型(USM)。首先,利用分层狄利克雷过程(HDP)将名词实体聚类形成产品属性并自动获取其数量;然后,结合产品属性中名词实体的权重和评价短语以及情感词典作为先验,利用潜在狄利克雷分布(LDA)对产品属性进行情感分类。实验结果表明,该模型具有较高的情感分类准确率,情感分类平均准确率达87%。该模型与传统的情感模型相比在抽取产品属性和评价短语的情感分类上具有较高的准确率。  相似文献   

8.
时序摘要是按照时间顺序生成摘要, 对话题的演化发展进行概括. 已有的相关研究忽视或者不能准确发现句子中隐含的子话题信息. 针对该问题, 本文建立了一种新的主题模型, 即词语对狄利克雷过程, 并提出了一种基于该模型的时序摘要生成方法. 首先通过模型推理得到句子的子话题分布; 然后利用该分布计算句子的相关度和新颖度; 最后按时间顺序抽取与话题相关且新颖度高的句子组成时序摘要. 实验结果表明, 本文方法较目前的代表性研究方法生成了更高质量的时序摘要.  相似文献   

9.
话题演化用于自动分析话题变化趋势,具有较高的应用和研究价值。ILDA(Infinite Latent Dirichlet Allocation)模型在LDA(Latent Dirichlet Allocation)模型的基础上增加了狄利克雷过程,除了能获取隐变量,更重要的是能完成超参的动态更新和主题数的变动。而已有的话题演化研究中,话题的主题数需要事先指定且无法变动,基于ILDA模型的方法则可以针对性地解决该问题。构建的话题演化分析系统可实现如下功能:各周期内按不同主题分类、相邻周期间的主题进行关联、按时间顺序计算子话题强度。实验显示,基于ILDA模型的参数动态更新符合实际需求,话题演化分析过程完善可行。  相似文献   

10.
随着互联网的飞速发展,网络舆情引发的问题也越发突出。尤其是近年来发生的新疆暴恐事件,已成为公众关注的焦点。主题演化是网络舆情分析的重要内容之一,为了把握关于新疆的舆情动态,该文从主题热度变化、内容变化及关键词等多方面进行了研究。该文首先抓取了2013年1月到2015年12月互联网中关于新疆暴恐事件的新闻,并以此作为数据集建立了动态主题模型,实现对新闻的主题演化分析。该模型采用两次非负矩阵分解来生成主题,以层级式狄利克雷过程为对比实验,通过可视化分析与比较,总结出新疆暴恐事件的一些规律。  相似文献   

11.
基于多示例学习的异常行为检测方法   总被引:3,自引:0,他引:3  
在基于轨迹分析的异常行为检测方法中,被标记为异常的轨迹往往仅在整条轨迹的某个局部存在异常,轨迹的其余部分都是正常行为。然而,传统的基于整条轨迹建模的方法很难检测轨迹的局部异常。针对上述问题,提出一种在多示例学习框架下基于轨迹分段的异常行为检测方法。该方法首先根据轨迹的曲率,将轨迹分割成若干相互独立的子段。然后采用层次狄利克雷过程-隐马尔科夫模型对每个子段建模。最后在多示例学习框架下,以整条轨迹为包,正常轨迹为负包,异常轨迹为正包,轨迹子段为包的示例进行学习。通过实验验证,该方法在准确率和召回率上都优于传统的基于轨迹建模的方法。  相似文献   

12.
文本分割在文本摘要、信息检索等诸多领域都有重要的应用。主题模型是该领域研究中的重要方法,但目前基于主题模型的方法普遍依赖于主题个数的人工设置。针对此问题,本文提出了一种基于分层狄利克雷过程(Hierarchical Dirichlet process,HDP)模型的文本分割方法。首先使用HDP模型获取文本在主题空间的向量表示,然后将主题向量用于C99分割算法实现文本分割,最后使用两种优化策略对结果进行优化。实验结果表明,基于HDP模型的方法能够摆脱对人工设置主题个数的依赖,有效提高了文本分割的性能。  相似文献   

13.
分层狄利克雷过程是一种贝叶斯无参模型,用以分析海量数据的概率主题模型解决潜在狄利克雷分布无法解决的动态聚类的问题。本文从因子图的角度出发将消息传递算法与吉布斯采样算法结合用以解决贝叶斯无参模型后验概率推断问题,最终将该算法与LDA算法以及HDP算法在混淆度方面进行对比。实验结果表明该算法相比HDP采样算法收敛较快,最终也能收敛到LDA模型最优主题数目下的混淆度。  相似文献   

14.
张健伟  严建峰  刘晓升  杨璐 《计算机科学》2016,43(12):120-124, 134
目前的在线潜在狄利克雷分布模型(LDA)算法大多是基于固定的词汇表,在实际应用中经常会出现词汇表和处理的语料不匹配的情况,影响了模型的实用性。针对这个现象,在置信传播算法(BP)的框架下,使主题单词分布服从狄利克雷过程,重新推导公式,使得词汇表在模型运行之前为空,并且在处理时不断向词汇表中增加发现的新词。实验证明,这种新的基于动态词汇表的算法不仅使得词汇表与语料的贴合度更高,而且使其在混淆度以及互信息指数这两个指标上能够比基于固定词汇表的LDA模型表现得更加优越。  相似文献   

15.
hLDA(层次潜在狄利克雷分配)在层次主题建模中的良好效果已经得到广泛验证。为了实现半监督或无监督,通常采用交叉验证或抽样超参来确定参数。但由于语料特征、建模需求等不确定因素,参数调节方法、建模效果和效率都是实际应用中的难点。该文首先结合贝叶斯线索和范围线索构成的统一分析框架,研究hLDA主题建模中的关键影响因素,然后给出一个切实有效的建模策略及流程,最终结合ACL MultiLing 2013多文档摘要语料进行实际建模效果评估。  相似文献   

16.
针对使用高斯混合模型的图像先验建模中分量数目难以扩展的问题,构建基于狄利克雷过程的可扩展高斯混合模型.通过聚类分量的新增及归并机制,使模型复杂度根据数据规模自适应变化,从而增强先验模型结构的紧密度,以提升其可解释性.此外,对高斯混合模型的推理过程进行优化,给出一种基于批次处理方式的可扩展变分推理算法,求解图像去噪中所有隐变量的变分后验分布,实现先验学习.实验结果表明,该模型在图像去噪任务中较EPLL等传统去噪模型能够取得更高的峰值信噪比,去噪效果更佳,验证了该模型的有效性.  相似文献   

17.
提出一种人体行为识别模型和前景提取方法.针对人体运动过程中产生新的行为问题,该模型用分层Dirichlet过程聚类人体特征数据来判断人体运动过程中是否有未知的人体行为模式:用无限隐Markov模型对含有未知行为模式的特征向量进行行为模式的有监督的学习,由管理者将其添加到规则与知识库中.当知识库的行为模式达到一定规模时,系统便可以无监督地对人体行为进行分析,其分析采用Markov模型中高效的Viterbi解码算法来完成.对于前景的提取,提出了基于背景边缘模型与背景模型相结合的前景检测方法,此方法能够有效避免光照、阴影等外部因素的影响.仿真实验证明,本文提出的方法在实时视频监控中的人体行为识别方面有独特的优势.  相似文献   

18.
基于普适环境下陌生交互实体之间没有先验交互经历,为了该环境的计算安全,必须确保其交互的行为可信,提出一种基于嵌套的狄利克雷过程和无限隐马尔可夫模型的行为分析与态势预测模型。该模型能有效地预防陌生实体交互过程中反常、欺诈等行为,对不可信的行为提前干预,避免产生严重的后果。最后举出模型在智能商场中应用并仿真分析了模型的可行性。  相似文献   

19.
识别虚假评论有着重要的理论意义与现实价值。先前工作集中于启发式策略和传统的全监督学习算法。最近研究表明:人类无法通过先验知识有效识别虚假评论,手工标注的数据集必定存在一定数量的误例,因此简单使用传统的全监督学习算法识别虚假评论并不合理。容易被错误标注的样例称为间谍样例,如何确定这些样例的类别标签将直接影响分类器的性能。基于少量的真实评论和大量的未标注评论,提出一种创新的PU (positive and unlabeled)学习框架来识别虚假评论。首先,从无标注数据集中识别出少量可信度较高的负例。其次,通过整合LDA(latent Dirichlet allocation)和 K‐means ,分别计算出多个代表性的正例和负例。接着,基于狄利克雷过程混合模型(Dirichlet process mixture model , DPM M ),对所有间谍样例进行聚类,混合种群性和个体性策略来确定间谍样例的类别标签。最后,多核学习算法被用来训练最终的分类器。数值实验证实了所提算法的有效性,超过当前的基准。  相似文献   

20.
分层狄利克雷过程(HDP)主题模型从数据中自动学习结构最优的主题集,但往往不满足实际语义要求,而现有的一些带标签的主题模型又需要设定很难界定的参数.因此,文中在已知部分语义标签和标签确定度的基础上,分别提出半监督HDP主题模型(SLHDP)和随机簇的准确度评价指标.该模型为已知的语义标签赋予较高权重,结合狄利克雷过程有限空间无线划分的特性,并通过中国餐馆过程建模生成.在多个中英文数据集中的实验表明,在大规模数据集的文本分类中,SLHDP模型能够使主题集的构成更合理.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号