首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
本文首先简单介绍了话题发现与追踪的发展史及主要任务,然后重点分析比较了现有话题关联识别模型的使用情况,并测试了文档中各层次知识特征对话题关联识别性能的影响。其测试结果对如何评判已有的识别系统或构建好的识别系统具有一定参考价值。  相似文献   

2.
针对动态话题追踪模型高误报率的现象,提出了动态追踪中的误报检测来判断追踪到的相关报道是否误报,进而降低动态模型的误报率。考虑到新报道是否和话题相关,除了依据两者的相似度外,还涉及时间距离、差值关系、分布关系、追踪到的报道和话题核心报道的相似度四方面内容,给出了误报检测因子计算式。实验采用TDT4测试集合和DET曲线进行评测,通过反复实验获得了误报检测因子δ的阈值,与基于信念网络的动态话题追踪模型相比,使用误报检测后模型的最优(Cdet)norm降低了5.032%。  相似文献   

3.
基于K-Modes聚类的自适应话题追踪技术   总被引:2,自引:0,他引:2       下载免费PDF全文
传统自适应话题追踪用向量空间模型表示一个话题模型,通常会对话题模型更新带来错误的反馈。针对传统自适应话题追踪中话题模型的不足,提出基于K-Modes聚类的自适应话题追踪方法(K-MATT方法),用话题类中心代替话题模型,把命名实体向量空间模型作为话题类中心,在追踪过程中不断迭代更新话题类中心,直到话题类中心稳定。实验证明K-MATT方法是有效的。  相似文献   

4.
随着计算机的普及与互联网的高速发展,Facebook、Twitter、新浪微博等社交媒体逐渐成为人们信息交流的主要渠道。然而,由于社交媒体信息具有数量庞大、结构复杂、传播速度快等特点,人们无法从中快速准确地获取想要的信息。于是,话题检测与追踪技术应运而生,它将用户关注的信息从大量无序信息中筛选出来,经过细致的过滤和有效的整合,生成简单、清晰的话题信息,并在此基础上实现对话题的追踪和发展趋势分析。该文对社交媒体上的话题检测与追踪工作进行综述,首先论述了话题检测方面的三类方法,包括基于主题模型的话题检测、基于改进聚类算法的话题检测和基于多特征融合的话题检测;其次,对话题追踪的研究成果进行了介绍,主要分为非自适应话题追踪和自适应话题追踪两大类;最后,列举出社交媒体话题的检测与追踪中存在的问题以及对未来研究的展望。  相似文献   

5.
话题发现与追踪技术研究   总被引:3,自引:1,他引:2  
话题发现与追踪以新闻流为处理对象,采用基于事件的信息组织方式进行研究,一直是自然语言处理领域里的热点。该研究借鉴大量相关研究尤其是信息检索中的经典模型和方法,取得了很大成功。首先介绍了话题发现与追踪的主要研究内容、评价方法以及发展历史;然后对其多个研究内容提出一个统一研究框架,并对该框架中的关键技术进行了详细分析;最后指出该领域中的关键问题及难点,并对未来研究做出展望。  相似文献   

6.
郑燕  鲁燃  赵爱华 《计算机应用》2012,32(5):1343-1346
在话题追踪过程中,由于给定的初始话题相关报道少,而且话题具有动态演变的特点造成话题模型不准确。针对这一问题,提出了利用动态阈值收集反馈报道构造话题修正模型,实现了话题模型的动态修正;同时结合命名实体能够更加有效地区分不同话题的特性,提出了在修正话题模型时增大相关命名实体权重的方法,从而获得更准确的话题表示模型。实验结果表明,该方法能有效避免话题漂移现象,降低话题追踪过程中的漏报率和错报率。  相似文献   

7.
吕楠  罗军勇  刘尧  杨慧洁 《计算机工程》2009,35(23):71-72,7
在话题追踪研究领域,话题随着时间不断发展变化。目前的话题追踪方法无法对话题的发展演化进行全局的把握。针对该问题,提出基于相似度计算的话题演化分析方法。该方法采用时间片划分的思想,通过子话题间的相似度计算得到话题演化的具体过程及细节。实验结果表明,该方法能有效地反映话题的演化历程。  相似文献   

8.
随着对LDA模型的研究越来越深入,文本表示和挖掘能力进一步提高。话题是LDA模型中一个非常重要的概念,是特征集合的一个多项式概率分布。话题追踪是根据少数已知相关信息在未知报道流中追踪一个话题,找出与该话题相关的所有报道。把LDA模型用于话题追踪,目的有两个:(一)检验LDA话题对追踪话题的表示能力;(二)检验LDA模型在挖掘训练数据中的追踪话题时,LDA话题和追踪话题之间的关系。实验表明:相对于经典的向量空间模型和一元语言模型,以及专门针对追踪话题提出的事件模型,基于LDA模型的追踪性能更好,但由于粒度不同,LDA模型中的话题和追踪话题并没有直接的一一对应的关系,实现可定制话题的LDA模型是下一步工作的目标。  相似文献   

9.
在当前多种平台崛起的互联网背景下,与传统媒体相比,网络社交媒体中的数据具有传递速度快、用户参与度高、内容覆盖全等特点,其中存在着人们关注并发布评论的众多话题,而一个话题的相关信息中可能存在更深层次、更细粒度的子话题,针对该问题进行基于网络社交媒体的子话题检测技术的研究,这是一个新兴且不断发展的研究领域。通过社交媒体获取话题及子话题信息并参与讨论,这一方式正全方位、深层次改变着人们的生活,但是该领域技术还不成熟,且相关研究在国内尚处于起步阶段。首先,简述网络社交媒体中子话题检测的发展背景和基本概念;其次,将子话题检测技术分为七大类,对每类方法均加以介绍、对比和总结;然后,将子话题检测方式分为在线检测和离线检测两种方式,并将这两种方式进行对比,列举通用技术及两种方式下的常用技术;最后,概括了该领域当前不足及未来发展趋势。  相似文献   

10.
为了更加准确有效地从海量的互联网网页中获取感兴趣的信息,设计并实现了一个面向互联网新闻的话题追踪与检测系统,并在该系统的基础上提出了面向海量互联网网页时话题检测中聚类算法选择策略以及一个基于多重特征的话题追踪模型,该模型能够很好地区分相似与相同的话题,并且话题追踪正确率达到了85.7%,实验结果表明文中系统能够有效地检测和追踪互联网上的话题.  相似文献   

11.
话题检测可以及时发现互联网舆情热点和突发性事件,并可对话题进行持续跟踪,从而实时掌握舆情事件动向。文中提出了一种基于聚类的改进话题检测和跟踪算法。首先,对文本的特征向量进行改进,增加了基于句子主干的主干向量。然后对每个检测到的话题提取两个中心向量,一个是基本中心向量,另一个是基于主干向量提炼的主干中心向量。在此基础上再通过计算每个文本与中心向量之间的距离进行聚类分析,保证话题中各个文本之间的内聚性。同时基于主题词抽取,在主题词的基础上计算话题之间的主题相关性,有效地实现了子话题检测功能,从而提高了话题检测和跟踪的准确性。通过对10大网站5个频道超过两周数据量的测试,结果表明此方法在一定程度上提高了话题检测和跟踪的正确率,并具有一定的适应性和推广性。  相似文献   

12.
基于动态阈值和命名实体的双重过滤话题追踪   总被引:1,自引:0,他引:1  
针对话题追踪静态阈值的缺点和虚假相关报道问题,提出一种基于动态阈值和命名实体双重过滤的话题追踪方法.该方法中,研究了KL距离计算初始阈值,并筛选出候选报道;然后,根据报道时间特点研究了动态阈值方法;最后,抽取追踪话题和测试报道中命名实体,计算命名实体间的相似度以及命名实体相同的个数来选出相关报道,完成话题追踪.通过实验证明该方法的可行性,实验结果表明基于动态阈值和命名实体双重过滤方法能有效地改善话题追踪的性能,并有效降低了话题追踪的误报率和漏报率.  相似文献   

13.
章建  李芳 《中文信息学报》2015,29(2):179-189
自动挖掘大规模语料中的语义信息以及演化关系近年来已受到广大专家学者的关注。话题被认为是文档集合中的潜在语义信息,话题演化用于研究话题内容随时间的变化。该文提出了一种基于上下文的话题演化和话题关系抽取方法。分析发现,一个话题常和某些其他话题共现在多篇文档中,话题间的这种共现信息被称为话题的上下文。上下文信息可以用于计算同时间段话题间的语义关系以及识别不同时间段中具有相同语义的话题。该文对2008年~2012年两会报告以及2007年~2011年NIPS科技文献进行实验,通过人工分析,利用话题的上下文信息,不但可以提高话题演化的正确率,而且还能挖掘话题之间的语义关系,在话题演化的基础上,显示话题关系的演化。  相似文献   

14.
基于LDA模型的新闻话题的演化   总被引:1,自引:0,他引:1  
新闻话题及演化的研究可以帮助人们快速了解和获取新闻内容。提出了一种挖掘新闻话题随时间变化的方法,通过话题抽取和话题关联实现话题的演化。首先应用LDA(Latent Dirichlet Allocation Model)对不同时间段的文集进行话题的自动抽取,话题数目在不同时间段是可变的;计算相邻时间段中任意两个话题的分布距离实现话题的关联。实验结果证明该方法不但可以描述同一个话题随时间的演化过程,还可以描述话题内容随时间的变化,反映了话题(或子话题)之间多对多的演化关系。  相似文献   

15.
面向互联网新闻的在线话题检测算法   总被引:2,自引:0,他引:2       下载免费PDF全文
程葳  龙志袆 《计算机工程》2009,35(18):28-30
针对互联网新闻报道冗余多、议题发散、易漂移等特点,提出一种面向互联网的在线话题检测算法。该算法针对冗余问题提出子话题概念,针对议题发散问题建立双层检测结构,针对话题漂移问题提出基于滑动窗口的跟踪策略。应用该算法建立网上话题检测系统,通过来源于互联网的真实数据进行测试。结果表明,算法性能优于传统的单路径聚类算法,其最小错误代价率低于0.14。  相似文献   

16.
莫倩  张传想 《计算机仿真》2012,29(11):51-54,169
针对Web社会网络数据的特点,将话题追踪技术应用到社会网络关系分析当中,能够快速、有效地发现和拓展社会网络关系。介绍了系统采用的话题追踪的方法,以及如何对话题进行跟踪并自动采集话题信息,然后介绍了抽取网络实体及实体间关系的方法。描述了基于话题的社会网络关系分析系统的框架、主要功能和关键技术,并用可视化工具NetDraw给出了网络关系可视化图形,最后还对应用的结果进行了分析。  相似文献   

17.
多文档文摘技术能帮助用户减少不必要的阅读时间,有广阔的应用前景。该文以新闻报道为处理对象,以MMR(Maximal Marginal Relevance)文摘提取算法为基础,针对目前新闻报道往往以专题形式组织展现的特点,提出了一种基于话题的多文档文摘方法。这种方法以话题关键字为打分依据,同时考虑句子位置特征等信息对句子的重要性进行评分。 该文利用TDT4的新闻报道语料对上述文摘方法进行了试验评价,将基于话题的文摘系统和两个Baseline文摘系统进行比较,取得了较好的实验结果,尤其在5%的压缩比例下有明显优势。  相似文献   

18.
基于三维文档向量的自适应话题追踪器模型   总被引:1,自引:0,他引:1  
话题追踪(TT)是研究自动追踪事件动态发展过程的一种信息智能获取技术,是话题检测与追踪(TDT)技术的一个子任务,其目标在于自动发现新闻报道信息流中与某一已知话题有关的新报道。该文通过分析传统文档向量空间模型的不足,结合新闻报道的特征,提出了一种三维文档向量模型,在此基础上建立了一种符合新闻报道特征的话题模型。该话题模型在追踪过程中能够根据事件的动态发展进行自我学习和自我修正。结合话题模型,该文还设计了一种自适应的KNN新闻话题追踪器,从而形成了一种完整的中文话题追踪器模型。实验数据表明该方法在描述新闻话题、避免话题漂移方面具有一定优势,在中文话题追踪领域取得了较好效果。  相似文献   

19.
李树平  佟林  夏春艳 《网友世界》2014,(19):147-147
话题检测与跟踪旨在实现对新闻媒体信息流中新话题的自动检测以及对已知话题的动态跟踪。它是信息处理中的一项重要技术,如何提取鲁棒的话题样本特征是其中的研究重点。本文主要针对样本中的话题偏移问题,应用数据挖掘技术对样本进行话题偏移补偿,从而有效的删除偏移话题,提升了样本特征的鲁棒性。  相似文献   

20.
时间信息在话题检测中的应用研究   总被引:1,自引:0,他引:1  
赵华  赵铁军  赵霞 《计算机科学》2008,35(1):221-223
为了克服话题检测中使用静态阈值的缺点,我们提出了基于时间信息的动态阈值模型.在该模型中,探索了一种比值法来选择与某个特定报道最相似的话题.实验结果表明,动态阈值模型很好地改善了话题检测系统的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号