首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 144 毫秒
1.
针对目前科学技术文献数量激增、难以从总体上分析把握的现状,提出一种从科技文献中获得研究主题特征词并展现其演化趋势的方法.该方法先利用LDA(Latent Dirichlet Allocation)模型对不同时间片内的话题进行自动抽取,得到不同数量的话题.然后,通过话题过滤剔除意义有限的话题,并借助简单启发式规则选择种子话题.最后,再利用语义相关度将相邻时间片内内容相近的种子话题联系起来,以得到研究主题的演化趋势.实验结果表明,在不对话题生成进行人工干预的前提下,本文方法较真实地描述了研究主题强度和内容随时间的演化趋势,避免了无意义话题对研究主题演化的负面影响.  相似文献   

2.
本文提出了一种通过追踪不同时间片内话题的变化趋势进行话题演化分析的方法,该方法首先利用LDA话题模型抽取科技文献的话题,然后对语义意义不明确的话题进行话题过滤,最后通过计算话题的强度和关联度来分析话题的演化趋势。本文对《计算机学报》论文集进行实验,实验结果表明,在不对话题生成进行人工干预的前提下,本文方法较真实地描述了研究主题强度和内容随时间的演化趋势,且具有良好的效果。  相似文献   

3.
基于LDA模型的新闻话题的演化   总被引:1,自引:0,他引:1  
新闻话题及演化的研究可以帮助人们快速了解和获取新闻内容。提出了一种挖掘新闻话题随时间变化的方法,通过话题抽取和话题关联实现话题的演化。首先应用LDA(Latent Dirichlet Allocation Model)对不同时间段的文集进行话题的自动抽取,话题数目在不同时间段是可变的;计算相邻时间段中任意两个话题的分布距离实现话题的关联。实验结果证明该方法不但可以描述同一个话题随时间的演化过程,还可以描述话题内容随时间的变化,反映了话题(或子话题)之间多对多的演化关系。  相似文献   

4.
王振飞  刘凯莉  郑志蕴  王飞 《计算机科学》2017,44(8):270-273, 279
话题演化研究有助于追踪用户的喜好和话题的发展趋势,对于舆情预警具有重要意义。目前,话题演化方法注重运用话题生成模型实现话题演化分析,忽略了话题中时间因素和背景词的存在。以传统话题生成模型LDA为基础,将其扩展为微博话题生成模型MTLDA。MTLDA模型增加了对背景词的考虑,提高了话题生成的效率,同时对微博话题集进行时间片划分,利用KL距离计算相邻时间片话题距离,分析话题演化情况。以新浪微博数据为例进行实验,结果表明,MTLDA模型通过时间片划分完成了微博话题的生成,话题演化结果与实际情况吻合。  相似文献   

5.
传统的话题演化跟踪任务主要使用基于主题模型的方法,但该方法对于文本语义的提取及表征能力较弱.该文在词嵌入方法的基础上结合LDA和注意力增强的孪生BiLSTM网络,提出文本邻近度模型PDRBL来确定话题演化过程中的时态判定.此外,基于PDRBL模型给出了六个话题演化时态及其判定方法,进而提出了话题演化跟踪方法TETP.实...  相似文献   

6.
随着对LDA模型的研究越来越深入,文本表示和挖掘能力进一步提高。话题是LDA模型中一个非常重要的概念,是特征集合的一个多项式概率分布。话题追踪是根据少数已知相关信息在未知报道流中追踪一个话题,找出与该话题相关的所有报道。把LDA模型用于话题追踪,目的有两个:(一)检验LDA话题对追踪话题的表示能力;(二)检验LDA模型在挖掘训练数据中的追踪话题时,LDA话题和追踪话题之间的关系。实验表明:相对于经典的向量空间模型和一元语言模型,以及专门针对追踪话题提出的事件模型,基于LDA模型的追踪性能更好,但由于粒度不同,LDA模型中的话题和追踪话题并没有直接的一一对应的关系,实现可定制话题的LDA模型是下一步工作的目标。  相似文献   

7.
基于LDA模型的BBS话题演化   总被引:1,自引:0,他引:1  
BBS(论坛)作为一种新兴的网络媒体,是网民获取信息和发表评论的主要渠道之一。怎样组织BBS上的话题,发现和跟踪新话题以及话题的演化成为了研究的热点。传统的方法更多的是去检测和跟踪话题,而没有考虑话题的演化。提出了基于LDA模型的话题演化方法,表示话题在时间上的演化情况,发现热门话题和冷门话题,能更好地指导网民了解正在发生的事情。实验证明有很好的效果。  相似文献   

8.
在当今处于信息数量爆炸式增长的互联网时代,如何分析海量文本中的信息并从而提取出所蕴含的有利用价值的部分,是一个值得关注的问题。然而论坛语料作为网络语料,其结构和内容较一般语料相比更为复杂,文本也更加短小。该文提出的方法利用LDA模型对语料集进行建模,将话题从中抽取出来,根据生成的话题空间找到相应的话题支持文档,计算文档支持率作为话题强度;将话题强度反映在时间轴上,得到话题的强度趋势;通过在不同时间段上对语料重新建模,并结合全局话题,得到话题的内容演化路径。实验结果说明,上述方法是合理和有效的。  相似文献   

9.
胡学刚  吴勇 《计算机工程》2009,35(23):212-213,
在话题追踪研究领域,话题随着时间不断发展变化。目前的话题追踪方法无法对话题的发展演化进行全局的把握。针对该问题,提出基于相似度计算的话题演化分析方法。该方法采用时间片划分的思想,通过子话题间的相似度计算得到话题演化的具体过程及细节。实验结果表明,该方法能有效地反映话题的演化历程。  相似文献   

10.
吕楠  罗军勇  刘尧  杨慧洁 《计算机工程》2009,35(23):71-72,7
在话题追踪研究领域,话题随着时间不断发展变化。目前的话题追踪方法无法对话题的发展演化进行全局的把握。针对该问题,提出基于相似度计算的话题演化分析方法。该方法采用时间片划分的思想,通过子话题间的相似度计算得到话题演化的具体过程及细节。实验结果表明,该方法能有效地反映话题的演化历程。  相似文献   

11.
话题演化用于自动分析话题变化趋势,具有较高的应用和研究价值。ILDA(Infinite Latent Dirichlet Allocation)模型在LDA(Latent Dirichlet Allocation)模型的基础上增加了狄利克雷过程,除了能获取隐变量,更重要的是能完成超参的动态更新和主题数的变动。而已有的话题演化研究中,话题的主题数需要事先指定且无法变动,基于ILDA模型的方法则可以针对性地解决该问题。构建的话题演化分析系统可实现如下功能:各周期内按不同主题分类、相邻周期间的主题进行关联、按时间顺序计算子话题强度。实验显示,基于ILDA模型的参数动态更新符合实际需求,话题演化分析过程完善可行。  相似文献   

12.
陈千  桂志国  郭鑫  向阳 《计算机应用》2015,35(2):456-460
针对网络大数据时代文本流的主题演化研究大多基于经典概率主题模型,以词袋假设为前提导致主题的语义缺失问题和批处理问题,提出一种在线增量的基于特征本体的主题演化算法。首先,基于词共现和通用本体库WordNet构建特征本体,用特征本体对文本流主题进行建模;其次,提出一种文本流主题矩阵构建算法,实现在线增量主题演化分析;最后,依据该矩阵提出文本流主题本体演化图构建算法,利用特征本体的子图相似度计算主题相似度,从而获得文本流中主题随时间的演化模式。在科技文献上的实验上,满意度同传统在线潜在狄利克雷分配模型(LDA)不相上下,但时间复杂度降低到O(nK+N)。所提出的方法引入了本体,加入了语义关系标注,可图形化展现主题的语义特征,并在此基础上在线增量地实现了主题演化图的构建,在语义解释性和主题可视化方面更具有优势。  相似文献   

13.
江浩  陈兴蜀杜敏 《计算机应用》2013,33(11):3071-3075
热点话题挖掘是舆情监控的重要技术基础。针对现有的论坛热点话题挖掘方法没有解决数据中词汇噪声较多且热度评价方式单一的问题,提出一种基于主题聚簇评价的热点话题挖掘方法。采用潜在狄里克雷分配主题模型对论坛文本数据建模,对映射到主题空间的文档集去除主题噪声后用优化聚类中心选择的K-means++算法进行聚类,最后从主题突发度、主题纯净度和聚簇关注度三个方面对聚簇进行评价。通过实验分析得出主题噪声阈值设置为0.75,聚类中心数设置为50时,可以使聚类质量与聚类速度达到最优。真实数据集上的测试结果表明该方法可以有效地将聚簇按出现热点话题的可能性排序。最后设计了热点话题的展示方法。  相似文献   

14.
徐啸  金涛  王建民 《软件学报》2018,29(11):3295-3305
在健康领域,诊疗过程对于医疗质量至关重要.临床路径集合了各种医疗知识,是对诊疗过程进行标准化的重要途径.然而,当前大多数临床路径由专家研讨制定,往往静态不变,难以部署和实施.在我们之前的工作中,提出了一种基于主题的临床路径挖掘算法,可以从医疗数据中抽取历史执行路径,客观反映数据中实际存在的医疗模式.算法首先通过主题模型将繁杂的诊疗活动聚合成若干主题,而每个诊疗日就可以表示为一个主题分布,一个病人的诊疗日志也相应的转换为一个主题序列,然后利用过程挖掘方法从这些主题序列中生成基于主题的临床路径模型.但传统主题模型(LDA)的聚类效果往往难以满足医疗数据的特点,导致主题质量不高,影响最终过程模型的可解释性.其中,一个普遍的问题就是LDA无法保证两个相似的诊疗日所得的主题分布也是相似的,这是由于其忽略了诊疗日之间原有的相似性特征.在本文中,我们提出了一种优化的主题模型算法,该算法引入了基于本体生成的诊疗日相似性约束,可以有效提升聚类效果.实验结果表明,我们提出的方法能够发现更符合医疗领域特点的高质量主题,进而为基于主题的临床路径的挖掘奠定基础.  相似文献   

15.
针对短文本上以LDA为主的传统主题模型易受特征稀疏、噪声以及冗余影响的问题,首先梳理了文本特征表示法的变化以及短文本上主题模型的发展现状,并系统地总结了LDA模型和狄利克雷多项混合模型(DMM)各自的生成过程和相应的吉布斯采样参数推导。关于主题模型最优主题数,选取常见的4种优化指标进行了详细的对比说明。最后分析了近2年主题模型的扩展研究和其在网络舆情上的简单应用,并以此指明了未来主题模型的研究方向和侧重点。  相似文献   

16.
基于特定领域的中文微博热点话题挖掘系统BTopicMiner   总被引:1,自引:0,他引:1  
李劲  张华  吴浩雄  向军 《计算机应用》2012,32(8):2346-2349
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上。  相似文献   

17.
Human behavior recognition is one important task of image processing and surveillance system. One main challenge of human behavior recognition is how to effectively model behaviors on condition of unconstrained videos due to tremendous variations from camera motion,background clutter,object appearance and so on. In this paper,we propose two novel Multi-Feature Hierarchical Latent Dirichlet Allocation models for human behavior recognition by extending the bag-of-word topic models such as the Latent Dirichlet Allocation model and the Multi-Modal Latent Dirichlet Allocation model. The two proposed models with three hierarchies including low-level visual features,feature topics,and behavior topics can effectively fuse two different types of features including motion and static visual features,avoid detecting or tracking the motion objects,and improve the recognition performance even if the features are extracted with a great amount of noise. Finally,we adopt the variational EM algorithm to learn the parameters of these models. Experiments on the YouTube dataset demonstrate the effectiveness of our proposed models.  相似文献   

18.
为了解决传统的文本主题模型对微博主题挖掘准确率低及不考虑主题之间关联的问题,针对中文微博语料本身的特点,分析LDA和HMM模型优缺点,提出了微博主题挖掘模型MB-HL(Microblog-Hidden Markov Model Latent Dirichlet Allocation)。该模型用逐条微博作为处理单元,建立分布主题-词语矩阵并进行优化,通过LDA模型对微博用户不同的行为建模并提取特征,利用HMM模型强大的时序状态建模能力弥补LDA在主题相关性上的不足,采用Gibbs采样进行推理求解。在真实的新浪微博数据上对比实验表明MB-HL模型能提高近9%主题关键词的准确度,并能有效地发现主题之间的关联关系。  相似文献   

19.
一种基于LDA的在线主题演化挖掘模型   总被引:3,自引:1,他引:2  
崔凯  周斌  贾焰  梁政 《计算机科学》2010,37(11):156-159
基于文本内容的隐含语义分析建立在线主题演化计算模型,通过追踪不同时间片内主题的变化趋势进行主题演化分析。将Latent Dirichlet Allocation(LDA)模型扩展到在线文本流,建立并实现了在线LDA模型;利用前一时间片的后验概率影响当前时间片的先验概率来维持主题间的连续性;根据改进的增量Gibbs算法进行推理,获取主题一词和文档一主题的概率分布,利用KullbackLeibler(KL)相对嫡来衡量主题之间的相似度,从而发现主题演化中的“主题遗传”和“主题变异”。实验结果表明,该模型能从互联网语料中找出主题的演化趋势,具有良好的效果。  相似文献   

20.
基于隐含狄利克雷分配模型的图像分类算法   总被引:2,自引:0,他引:2       下载免费PDF全文
杨赛  赵春霞 《计算机工程》2012,38(14):181-183
概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对图像进行分类。实验结果表明,与基于概率隐含语义分析模型的分类算法相比,该算法的分类性能较优。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号