首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
话题识别与跟踪研究   总被引:24,自引:3,他引:24  
作为自然语言处理一个新的研究方向,话题识别与跟踪旨在发展一系列基于事件的信息组织技术,以实现对新闻媒体信息流中新话题的自动识别以及对已知话题的动态跟踪。自1997年以来连续举行的多次大规模评测使得话题识别与跟踪研究正逐步成为近来自然语言处理尤其是信息检索领域的一个研究热点,目前国内在这方面的研究尚处在起步阶段。该文介绍了话题识别与跟踪研究的发展历史、研究任务、主要技术及评价方法等,希望能引起相关研究者对这项研究的关注。  相似文献   

2.
话题检测与跟踪的评测及研究综述   总被引:8,自引:0,他引:8  
话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。自从1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性,并面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息处理领域的研究热点。本文简要介绍了话题检测与跟踪的研究背景、任务定义、评测方法以及相关技术,并通过分析目前TDT领域的研究现状展望未来的发展趋势。  相似文献   

3.
报道关系识别是话题识别与跟踪TDT(Topic Detection and Tracking)研究内容中的基本任务之一,根据新闻话题的几大要素:时间、地点、人物、内容等,提出了一种基于话题要素的话题报道表示模型,并给出了基于话题要素相似度计算的报道关系识别方法。实验证明这种方法特别适用于同主题下不同话题的报道关系识别。  相似文献   

4.
基于改进向量空间模型的话题识别与跟踪   总被引:4,自引:0,他引:4  
话题识别与跟踪旨在发展一系列基于事件的信息组织技术,通过监测以实现对新闻媒体信息流中新话题的自动识别和已知话题的动态跟踪。文中提供一种利用改进的向量空间模型进行识别和跟踪的方法。没有使用传统向量空间模型中单个向量,而是按照语义将特征词划分为4个组(人物、时间、地点、内容)并形成4个向量空间。每个空间进行独立的权重计算和相似度计算。实验证明这些方法是有效的。  相似文献   

5.
话题跟踪中静态和动态话题模型的核捕捉衰减   总被引:1,自引:0,他引:1  
洪宇  仓玉  姚建民  周国栋  朱巧明 《软件学报》2012,23(5):1100-1119
话题跟踪是一项针对新闻话题进行相关信息识别、挖掘和自组织的研究课题,其关键问题之一是如何建立符合话题形态的统计模型.话题形态的研究涉及两个问题,其一是话题的结构特性,其二是话题变形.对比分析了现有词包式、层次树式和链式这3类主流话题模型的形态特征,尤其深入探讨了静态和动态话题模型拟合话题脉络的优势和劣势,并提出一种基于特征重叠比的核捕捉衰减评价策略,专门用于衡量静态和动态话题模型追踪话题发展趋势的能力.在此基础上,分别给出突发式增量式学习方法和时序事件链的更新算法,借以提高动态话题模型的核捕捉性能.实验基于国际标准评测语料TDT4,采用NIST(National Institute of Standards and Technology)提出的最小检测错误权衡系数评测法,并结合所提出的核捕捉衰减评价方法,对各类主要话题模型进行测试.实验结果显示,结构化的动态话题模型具有最佳的跟踪性能,且突发式增量式学习和时序事件链的更新算法分别给予动态话题模型0.4%和3.3%的性能改进.  相似文献   

6.
基于子话题分治匹配的新事件检测   总被引:4,自引:0,他引:4  
洪宇  张宇  范基礼  刘挺  李生 《计算机学报》2008,31(4):687-695
新事件检测是话题检测与跟踪领域的一项重要研究,其任务是实时监控新闻报道流并从中识别新话题.现有方法将话题和报道描述为单一结构的特征向量进行匹配,造成子话题间互为噪声并形成错误语义,从而误导新话题的识别.针对这一缺陷,文中提出基于子话题分治匹配的新事件检测方法,将话题和报道划分为不同子话题,根据相关子话题的比例关系和分布关系建立新话题识别模型.实验在TDT4和TDT5中获得显著改进,最小检测错误代价为0.4061,相应漏检率为0.1859.  相似文献   

7.
话题跟踪是一项针对新闻话题进行相关信息识别、挖掘和自组织的研究课题,其关键问题之一是如何建立符合话题形态的统计模型.话题形态的研究涉及两个问题,其一是话题的结构特性,其二是话题变形.对比分析了现有词包式、层次树式和链式这3类主流话题模型的形态特征,尤其深入探讨了静态和动态话题模型拟合话题脉络的优势和劣势,并提出一种基于特征重叠比的核捕捉衰减评价策略,专门用于衡量静态和动态话题模型追踪话题发展趋势的能力.在此基础上,分别给出突发式增量式学习方法和时序事件链的更新算法,借以提高动态话题模型的核捕捉性能.实验基于国际标准评测语料TDT4,采用NIST(National Institute of Standards and Technology)提出的最小检测错误权衡系数评测法,并结合所提出的核捕捉衰减评价方法,对各类主要话题模型进行测试.实验结果显示,结构化的动态话题模型具有最佳的跟踪性能,且突发式增量式学习和时序事件链的更新算法分别给予动态话题模型0.4%和3.3%的性能改进.  相似文献   

8.
基于增量型聚类的自动话题检测研究   总被引:1,自引:0,他引:1  
张小明  李舟军  巢文涵 《软件学报》2012,23(6):1578-1587
随着网络信息飞速的发展,收集并组织相关信息变得越来越困难.话题检测与跟踪(topic detection and tracking,简称TDT)就是为解决该问题而提出来的研究方向.话题检测是TDT中重要的研究任务之一,其主要研究内容是把讨论相同话题的故事聚类到一起.虽然话题检测已经有了多年的研究,但面对日益变化的网络信息,它具有了更大的挑战性.提出了一种基于增量型聚类的和自动话题检测方法,该方法旨在提高话题检测的效率,并且能够自动检测出文本库中话题的数量.采用改进的权重算法计算特征的权重,通过自适应地提炼具有较强的主题辨别能力的文本特征来提高文档聚类的准确率,并且在聚类过程中利用BIC来判断话题类别的数目,同时利用话题的延续性特征来预聚类文档,并以此提高话题检测的速度.基于TDT-4语料库的实验结果表明,该方法能够大幅度提高话题检测的效率和准确率.  相似文献   

9.
宋丹  王卫东  陈英 《微机发展》2006,16(9):62-64
话题识别与跟踪旨在发展一系列基于事件的信息组织技术,通过监测以实现对新闻媒体信息流中新话题的自动识别和已知话题的动态跟踪。文中提供一种利用改进的向量空间模型进行识别和跟踪的方法。没有使用传统向量空间模型中单个向量,而是按照语义将特征词划分为4个组(人物、时间、地点、内容)并形成4个向量空间。每个空间进行独立的权重计算和相似度计算。实验证明这些方法是有效的。  相似文献   

10.
针对贝叶斯信念网络应用于话题识别进行了研究, 提出了新的话题识别模型。模型的拓扑结构包括新报道、报道术语、事件术语、话题四层节点, 用弧标明索引关系。在贝叶斯概率和条件独立性假设的基础上, 模型运用条件概率计算新报道和已有话题簇的相似度, 从而实现话题识别。考虑到核心报道、核心事件的重要性, 对不同层次的权重计算进行了调整。实验采用DET曲线评测法对模型性能进行测试, 实验结果显示, 调整后的权重计算可在一定程度上提高新模型的性能, 与向量空间模型相比, 在相同阈值下新模型的漏报率与误报率有所降低。  相似文献   

11.
目前,话题检测与跟踪已被广泛应用,新事件检测作为话题检测与跟踪领域中的研究任务之一,为跟踪后续话题发展的先验知识,在话题检测与跟踪领域具有重要的理论研究意义。LDA主题模型不能自动识别新事件,其主题数需通过人工或反复实验来确定,识别效率低。本文提出基于LDA及主题词间的相关性新事件检测算法,同时结合报道发生的时间,确定合理的主题数目,从而探知新事件。实验证明,与传统LDA算法及Gibbs LDA算法相比,该方法具有一定优势,提高了对新事件检测的敏感度。  相似文献   

12.
面向网络论坛的突发话题发现   总被引:1,自引:0,他引:1  
每天有大量的信息涌现在论坛上,用户可以通过论坛获知目前国际国内正在发生的一些突发事件。如何使用机器自动化的方法检测论坛中的突发话题已经成为搜索引擎以及网络挖掘系统的一项基础任务。话题检测与跟踪模型(TDT)可以很好的解决话题发现问题,但是TDT处理的对象是新闻语料,与论坛内容相比,新闻语料更准确、严谨、规范。TDT中使用的方法不适合用语随意的论坛。因此在网络论坛这种噪音环境下的话题检测面临着一定的困难与挑战。文中提出一种基于噪音过滤的话题发现模型,它从内容和用户参与度两个角度来检测论坛话题。在“水木社区”的“水木特快”上进行了相关的实验,实验结果表明该文提出的模型不仅可以检测突发话题,而且可以检测与这些话题相对应的用户社区。  相似文献   

13.
话题发现与追踪技术研究   总被引:3,自引:1,他引:2  
话题发现与追踪以新闻流为处理对象,采用基于事件的信息组织方式进行研究,一直是自然语言处理领域里的热点。该研究借鉴大量相关研究尤其是信息检索中的经典模型和方法,取得了很大成功。首先介绍了话题发现与追踪的主要研究内容、评价方法以及发展历史;然后对其多个研究内容提出一个统一研究框架,并对该框架中的关键技术进行了详细分析;最后指出该领域中的关键问题及难点,并对未来研究做出展望。  相似文献   

14.
基于语义域语言模型的中文话题关联检测   总被引:2,自引:0,他引:2  
洪宇  张宇  范基礼  刘挺  李生 《软件学报》2008,19(9):2265-2275
关联检测是话题检测与跟踪领域的基础性研究,其任务是检测任意新闻报道对是否论述同一话题.通过分析报道内容的结构关系和语义的分布规律,提出基于语义域语言模型的关联性检测方法,并在此基础上检验融入依存分析的语义描述策略对该模型性能的影响.实验采用TDT4中文语料进行评测,结果显示语义域语言模型显著改进了现有检测系统的性能,其最小DET代价降低了约3个百分点.  相似文献   

15.
一种基于自适应重心向量的主题检测方法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对影响主题检测性能的2个重要因素——相似主题的判定和主题漂移问题,提出一种基于自适应重心向量的主题检测方法。该方法将命名实体信息应用到特征表示上,将命名实体向量和关键词向量相结合表示主题的重心向量,以有效区分相似主题。采用增量聚类检测主题,在增量聚类过程中不断修正主题重心,以解决主题漂移的问题。实验结果与性能比较表明,该方法能有效提高主题检测的性能。  相似文献   

16.
随着计算机的普及与互联网的高速发展,Facebook、Twitter、新浪微博等社交媒体逐渐成为人们信息交流的主要渠道。然而,由于社交媒体信息具有数量庞大、结构复杂、传播速度快等特点,人们无法从中快速准确地获取想要的信息。于是,话题检测与追踪技术应运而生,它将用户关注的信息从大量无序信息中筛选出来,经过细致的过滤和有效的整合,生成简单、清晰的话题信息,并在此基础上实现对话题的追踪和发展趋势分析。该文对社交媒体上的话题检测与追踪工作进行综述,首先论述了话题检测方面的三类方法,包括基于主题模型的话题检测、基于改进聚类算法的话题检测和基于多特征融合的话题检测;其次,对话题追踪的研究成果进行了介绍,主要分为非自适应话题追踪和自适应话题追踪两大类;最后,列举出社交媒体话题的检测与追踪中存在的问题以及对未来研究的展望。  相似文献   

17.
微博突发话题检测方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
邱云飞  程亮 《计算机工程》2012,38(9):288-290
话题检测与跟踪模型不能很好地处理随意性强、用语不规范的微博短信息。为此,提出一种基于动态滑动窗口的微博突发话题检测方法。利用窗口提取具有潜在突发性的信息,采用结合语义的归一化词频-反文档频率函数计算特征权重,构建结合语义的空间向量模型,使用Single-Pass聚类算法思想对其加以改进,生成最终聚类。实验结果表明,该算法能获得较准确的突发话题检测结果。  相似文献   

18.
随着自媒体的迅速发展,微博中的舆情监控和舆情疏导成为一项重大的研究课题. 为了解决传统话题检测方法对于微博中大数据的分析往往具有复杂度高、实时性低、影响力小等问题,提出一种基于词共现和情感分析的突发话题检测方法. 通过研究微博中情感的突发和共现关系,从而建立情感子空间模型;通过该模型对微博中的信息流进行分类,最后对每个类别中的微博进行主题词提取,实现话题检测的目的. 在NLPIR微博内容语料库上的实验结果表明,该方法能够有效地从大规模微博信息中检测突发新闻,提高突发新闻的识别率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号