首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于LDA话题演化研究方法综述   总被引:6,自引:1,他引:5  
现实生活中不断有新话题的产生和旧话题的衰减,同时话题的内容也会随着时间发生变化。自动探测话题随时间的演化越来越受到人们的关注。Latent Dirichlet Allocation模型是近年提出的概率话题模型,已经在话题演化领域得到较为广泛的应用。该文提出了话题演化的两个方面 内容演化和强度演化,总结了基于LDA话题模型的话题演化方法,根据引入时间的不同方式将目前的研究方法分为三类 将时间信息结合到LDA模型、对文本集合后离散和先离散方法。在详细叙述这三种方法的基础上,针对时间粒度、是否在线等多个特征进行了对比,并且简要描述了目前广泛应用的话题演化评测方法。文章最后分析了目前存在的挑战,并且对该研究方向进行了展望。  相似文献   

2.
一种话题演化建模与分析方法   总被引:1,自引:0,他引:1  
胡艳丽  白亮  张维明 《自动化学报》2012,38(10):1690-1697
根据时序关系将文本流划分为连续时间片中的文本集, 在线抽取各时间片中隐含的子话题, 采用模型选择方法动态确定各时间片包含的子话题数, 以历史时间片的子话题信息作为当前子话题发现的先验知识, 基于 OLDA (Online latent Dirichlet allocation)模型抽取各时间片包含的子话题, 通过 Gibbs 抽样对话题模型参数进行估计; 对子话题进行关联分析, 定义子话题产生、消亡、继承、分裂和合并五种演化类型, 提出基于相对熵的子话题关联分析方法, 根据子话题语义相似度和时序关系建立子话题间的关联, 由具有时序关系和内容关联的子话题组成话题, 通过子话题内容和强度的变化描述话题演化. 基于真实网络新闻的话题演化分析实验表明, 本文提出的话题演化分析方法能够有效检测 网络新闻话题内容和强度的演化.  相似文献   

3.
基于LDA模型的新闻话题的演化   总被引:1,自引:0,他引:1  
新闻话题及演化的研究可以帮助人们快速了解和获取新闻内容。提出了一种挖掘新闻话题随时间变化的方法,通过话题抽取和话题关联实现话题的演化。首先应用LDA(Latent Dirichlet Allocation Model)对不同时间段的文集进行话题的自动抽取,话题数目在不同时间段是可变的;计算相邻时间段中任意两个话题的分布距离实现话题的关联。实验结果证明该方法不但可以描述同一个话题随时间的演化过程,还可以描述话题内容随时间的变化,反映了话题(或子话题)之间多对多的演化关系。  相似文献   

4.
基于LDA模型的BBS话题演化   总被引:1,自引:0,他引:1  
BBS(论坛)作为一种新兴的网络媒体,是网民获取信息和发表评论的主要渠道之一。怎样组织BBS上的话题,发现和跟踪新话题以及话题的演化成为了研究的热点。传统的方法更多的是去检测和跟踪话题,而没有考虑话题的演化。提出了基于LDA模型的话题演化方法,表示话题在时间上的演化情况,发现热门话题和冷门话题,能更好地指导网民了解正在发生的事情。实验证明有很好的效果。  相似文献   

5.
传统的话题演化跟踪任务主要使用基于主题模型的方法,但该方法对于文本语义的提取及表征能力较弱.该文在词嵌入方法的基础上结合LDA和注意力增强的孪生BiLSTM网络,提出文本邻近度模型PDRBL来确定话题演化过程中的时态判定.此外,基于PDRBL模型给出了六个话题演化时态及其判定方法,进而提出了话题演化跟踪方法TETP.实...  相似文献   

6.
针对目前科学技术文献数量激增、难以从总体上分析把握的现状,提出一种从科技文献中获得研究主题特征词并展现其演化趋势的方法.该方法先利用LDA(Latent Dirichlet Allocation)模型对不同时间片内的话题进行自动抽取,得到不同数量的话题.然后,通过话题过滤剔除意义有限的话题,并借助简单启发式规则选择种子话题.最后,再利用语义相关度将相邻时间片内内容相近的种子话题联系起来,以得到研究主题的演化趋势.实验结果表明,在不对话题生成进行人工干预的前提下,本文方法较真实地描述了研究主题强度和内容随时间的演化趋势,避免了无意义话题对研究主题演化的负面影响.  相似文献   

7.
通过对BBS话题模型、话题相似度、话题检测评价标准以及话题趋势的分析和研究,提出了基于内容分析的中文BBS话题检测算法:通过爬虫获取BBS信息;采用基于URL和Xpath的网页模板处理BBS信息;应用ICTLAS实现BBS信息的分词;采用Carrot2对BBS话题进行聚类,基于功率谱的热点话题分析以及基于时间序列的话题预测.最后,通过采用J2EE开发包及Eclipse 集成开发环境,结合Hibernate、GWT等技术实现了中文BBS话题检测系统,并在多个BBS论坛上进行了测试,取得了良好的效果.  相似文献   

8.
话题演化分析是舆情监控的研究热点之一,面向微博热点话题进行演化分析,对于网络用户以及网络监管部门都有很重要的现实意义。针对在线词对主题模型(On-line Biterm Topic Model,OBTM)新旧主题混合、冗余词概率相对较高的问题,对OBTM进行改进,提出基于话题标签和先验参数的OBTM模型(Topic Labels and Prior Parameters OBTM,LPOBTM)。根据微博热点话题的话题标签,将微博文本集区分为含话题标签和不含话题标签的两类数据集,并设置不同的文档-主题先验参数;在前一时间片文档-主题概率分布的基础上,借鉴Sigmod函数对所有主题进行强度排名,从而优化当前时间片上主题-词分布的先验参数计算方法。实验结果表明,LPOBTM能够更准确地描述话题的内容演化情况,并且有更低的模型困惑度。  相似文献   

9.
王振飞  刘凯莉  郑志蕴  王飞 《计算机科学》2017,44(8):270-273, 279
话题演化研究有助于追踪用户的喜好和话题的发展趋势,对于舆情预警具有重要意义。目前,话题演化方法注重运用话题生成模型实现话题演化分析,忽略了话题中时间因素和背景词的存在。以传统话题生成模型LDA为基础,将其扩展为微博话题生成模型MTLDA。MTLDA模型增加了对背景词的考虑,提高了话题生成的效率,同时对微博话题集进行时间片划分,利用KL距离计算相邻时间片话题距离,分析话题演化情况。以新浪微博数据为例进行实验,结果表明,MTLDA模型通过时间片划分完成了微博话题的生成,话题演化结果与实际情况吻合。  相似文献   

10.
针对微博话题检测中需要解决的高维数据、噪声信息以及话题的快速演化等主要问题,提出一个有效的微博在线话题检测模型——可区分语言模型(discriminative language model,DLM).该模型首先选择微博数据的可区分特征子空间,接着利用一元语言模型实现微博话题的在线检测.实验表明,在MACRO_F1和AVG_CDET等指标上,DLM明显优于现有模型,DLM能准确及时发现微博话题.  相似文献   

11.
本文提出了一种通过追踪不同时间片内话题的变化趋势进行话题演化分析的方法,该方法首先利用LDA话题模型抽取科技文献的话题,然后对语义意义不明确的话题进行话题过滤,最后通过计算话题的强度和关联度来分析话题的演化趋势。本文对《计算机学报》论文集进行实验,实验结果表明,在不对话题生成进行人工干预的前提下,本文方法较真实地描述了研究主题强度和内容随时间的演化趋势,且具有良好的效果。  相似文献   

12.
目前,话题的演化跟踪方法大部分基于不同时间片对应数据集的特征关键词之间语义相似度与语义距离的计算,忽略话题的不同动态演变阶段各个特征关键词之间关联关系的作用.为此提出一种基于并行关联规则的话题演化跟踪方法.引入时间窗口的概念,对数据集按照时序进行划分,在每个时间窗口获取大规模频繁关键词集;对每个时间窗口的频繁关键词集,应用并行关联规则算法获取关联规则集;筛选并组合所有关联规则集形成话题的相关关键词信息,发现相邻时间窗口的数据集之间的关联关系并实现话题演化跟踪.实验结果表明,与OLDA算法相比,该方法能够更加完整有效地深入分析话题的动态演化细节.  相似文献   

13.
徐伟  赵斌  吉根林 《计算机科学》2016,43(2):78-82, 100
现有的话题演化研究主要针对长文本。因此研究了微博短文本的话题演化问题,综合考虑微博的文本特征和非文本特征,利用微博的传播特性,提出了基于转发关系的微博话题演化算法MTERR。该算法首先以话题模型为基础,结合微博转发特性和话题的时间特征提取微博话题;然后采用话题的内容相关性指标和转发关联度指标构建话题关联函数,生成话题演化拓扑图;最后,基于真实微博数据集的实验结果表明,MTERR算法生成的话题演化图可以有效地反映热点事件发展演化的过程。  相似文献   

14.
受互联网文本信息话题内容多元性,演化性等特点的影响,传统的话题检测模型对子话题粒度的选取和检测质量很难保证。针对该问题,该文提出一种基于吸收马尔可夫链的子话题划分算法,该算法对基于网页聚类生成的话题关键词进行组合生成子话题,并以吸收马尔可夫链对子话题进行吸收衍化,进行重排序生成结果子话题。实验结果表明,该算法能同时保证生成子话题的重要性和多样性。  相似文献   

15.
针对微博特征空间动态变化、信息噪音大的特点,提出一种基于有意义串动量模型的微博突发话题检测方法.提取时间窗口内微博信息流的有意义串,作为微博信息的动态特征,根据动力学原理对特征进行动量建模,结合特征能量大小、变化趋势以及二阶变化率检测突发特性有意义串,即突发特征,合并突发特征形成突发话题.微博数据实验表明,该方法适用于在线微博突发话题检测,在准确率和召回率上都有明显提升.  相似文献   

16.
话题演化挖掘研究可以准确完整地获取新闻话题动态演化各个阶段的话题内容,帮助用户理解新闻话题的来龙去脉以及话题内容之间的相关性和差异性,因此在网络新闻检索、网络舆情监控、互联网突发事件检测与应急管理等方面具有十分重要的作用和应用前景.现有工作由于缺乏对话题特征随时间发展而动态演变的深入分析,仅仅采用均值泛化的思想去增量扩充演化中的话题特征,引入大量话题无关信息,影响了话题关联的准确率,从而导致最终话题演化挖掘结果的偏斜.因此,针对以上问题,文中通过引入话题特征演变特性,提出一种针对话题演化的特征计算模型,在此基础上利用已有话题相关文档和最新文档进行话题信息动态增量扩充,通过对话题特征进行正向融合以及逆向过滤完成对特征信息的抗噪处理,提高话题关联的正确率,有效地解决了话题演化的偏斜问题.  相似文献   

17.
热点事件在发展过程中包括多个相关话题,分析多个话题在时序上的演化和传播路径,能够深层次把握热点事件产生、发展、消亡的具体细节。为此提出一种基于关联规则的热点事件时序分析方法。首先将关联规则算法并行实现获取多个时间片的频繁关键词集;然后筛选所有频繁关键词集的关联规则形成关联规则集,从而得到多个话题关键词集合;最后根据关键词集合分析热点事件多个话题的演化和传播路径。实验表明,该方法能够全面有效地跟踪热点事件的动态变化过程,为网络舆情监控和管理提供借鉴和支撑。  相似文献   

18.
面向互联网新闻的在线话题检测算法   总被引:2,自引:0,他引:2       下载免费PDF全文
程葳  龙志袆 《计算机工程》2009,35(18):28-30
针对互联网新闻报道冗余多、议题发散、易漂移等特点,提出一种面向互联网的在线话题检测算法。该算法针对冗余问题提出子话题概念,针对议题发散问题建立双层检测结构,针对话题漂移问题提出基于滑动窗口的跟踪策略。应用该算法建立网上话题检测系统,通过来源于互联网的真实数据进行测试。结果表明,算法性能优于传统的单路径聚类算法,其最小错误代价率低于0.14。  相似文献   

19.
吕楠  罗军勇  刘尧  杨慧洁 《计算机工程》2009,35(23):71-72,7
在话题追踪研究领域,话题随着时间不断发展变化。目前的话题追踪方法无法对话题的发展演化进行全局的把握。针对该问题,提出基于相似度计算的话题演化分析方法。该方法采用时间片划分的思想,通过子话题间的相似度计算得到话题演化的具体过程及细节。实验结果表明,该方法能有效地反映话题的演化历程。  相似文献   

20.
胡学刚  吴勇 《计算机工程》2009,35(23):212-213,
在话题追踪研究领域,话题随着时间不断发展变化。目前的话题追踪方法无法对话题的发展演化进行全局的把握。针对该问题,提出基于相似度计算的话题演化分析方法。该方法采用时间片划分的思想,通过子话题间的相似度计算得到话题演化的具体过程及细节。实验结果表明,该方法能有效地反映话题的演化历程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号