首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 156 毫秒
1.
报道关系识别是话题识别与跟踪TDT(Topic Detection and Tracking)研究内容中的基本任务之一,根据新闻话题的几大要素:时间、地点、人物、内容等,提出了一种基于话题要素的话题报道表示模型,并给出了基于话题要素相似度计算的报道关系识别方法。实验证明这种方法特别适用于同主题下不同话题的报道关系识别。  相似文献   

2.
新事件检测(New Event Detection,简称NED)的目标是从一个或多个新闻源中检测出报道一个新闻话题的第一个新闻.初步实验发现,构成事件的一项重要属性是事件发生的特定时间,因此时间是区分不同事件的重要标志.为此,提出时序话题模型(Temporal Topic Model,简称TTM).TTM将话题和报道切分为若干对应不同时间表达式的事件.其中,时间表达式描述事件发生的特定时间.TTM基于时间表达式在话题中出现的频率和增长率,估量对应时间表达式的事件作为种子事件或相关新颖事件的概率.此外,时间表达式的频率与增长率也用于衡量事件在相关性匹配中权重.在此基础上,NED依赖时间特性快速遏制不同时间发生的事件匹配,并借助种子事件和新颖事件调整相关性判定的权重分配.  相似文献   

3.
话题识别与跟踪中的层次化话题识别技术研究   总被引:19,自引:0,他引:19  
话题识别与跟踪(topic detection and tracking,TDT)旨在发展一系列基于事件的信息组织技术,层次化话题识别(hierarchical topic detection,HTD)是其中一项全新的任务定义形式.通过连续的大规模评测,话题识别与跟踪已成为国际上自然语言处理尤其是信息检索领域的一个研究热点.为此,将自然语言处理与信息检索技术相结合,提出了针对事件特点的切实有效的单粒度话题识别方法,并提出了基于多层聚类的MLCS算法对话题进行层次化组织.所提出的方法具有很好的效果,在TDT2004的HTD评测中,该方法取得了第2名的成绩.  相似文献   

4.
针对动态话题追踪模型高误报率的现象,提出了动态追踪中的误报检测来判断追踪到的相关报道是否误报,进而降低动态模型的误报率。考虑到新报道是否和话题相关,除了依据两者的相似度外,还涉及时间距离、差值关系、分布关系、追踪到的报道和话题核心报道的相似度四方面内容,给出了误报检测因子计算式。实验采用TDT4测试集合和DET曲线进行评测,通过反复实验获得了误报检测因子δ的阈值,与基于信念网络的动态话题追踪模型相比,使用误报检测后模型的最优(Cdet)norm降低了5.032%。  相似文献   

5.
目前,话题检测与跟踪已被广泛应用,新事件检测作为话题检测与跟踪领域中的研究任务之一,为跟踪后续话题发展的先验知识,在话题检测与跟踪领域具有重要的理论研究意义。LDA主题模型不能自动识别新事件,其主题数需通过人工或反复实验来确定,识别效率低。本文提出基于LDA及主题词间的相关性新事件检测算法,同时结合报道发生的时间,确定合理的主题数目,从而探知新事件。实验证明,与传统LDA算法及Gibbs LDA算法相比,该方法具有一定优势,提高了对新事件检测的敏感度。  相似文献   

6.
基于增量型聚类的自动话题检测研究   总被引:1,自引:0,他引:1  
张小明  李舟军  巢文涵 《软件学报》2012,23(6):1578-1587
随着网络信息飞速的发展,收集并组织相关信息变得越来越困难.话题检测与跟踪(topic detection and tracking,简称TDT)就是为解决该问题而提出来的研究方向.话题检测是TDT中重要的研究任务之一,其主要研究内容是把讨论相同话题的故事聚类到一起.虽然话题检测已经有了多年的研究,但面对日益变化的网络信息,它具有了更大的挑战性.提出了一种基于增量型聚类的和自动话题检测方法,该方法旨在提高话题检测的效率,并且能够自动检测出文本库中话题的数量.采用改进的权重算法计算特征的权重,通过自适应地提炼具有较强的主题辨别能力的文本特征来提高文档聚类的准确率,并且在聚类过程中利用BIC来判断话题类别的数目,同时利用话题的延续性特征来预聚类文档,并以此提高话题检测的速度.基于TDT-4语料库的实验结果表明,该方法能够大幅度提高话题检测的效率和准确率.  相似文献   

7.
目前关于话题内新事件检测的研究较少,传统的新事件检测方法多采用基于主题模型的方法,无法兼顾主题信息和语义信息,效果不够理想。针对该问题,该文提出一种基于主题词向量聚类的话题内新事件检测方法。该方法首先使用主题词嵌入(TWE)模型对经过预处理的语料进行训练,获取主题词向量;其次,通过对主题词向量进行K-means聚类来获取话题分布;再次,按照话题内新事件检测流程,将新事件检测问题转化为新子话题发现问题;最后,利用获取到的话题分布,对按时间顺序的文档进行检测。实验结果表明,该方法能够兼顾主题信息和语义信息,有效提高话题内新事件检测的性能。  相似文献   

8.
基于语义域语言模型的中文话题关联检测   总被引:2,自引:0,他引:2  
洪宇  张宇  范基礼  刘挺  李生 《软件学报》2008,19(9):2265-2275
关联检测是话题检测与跟踪领域的基础性研究,其任务是检测任意新闻报道对是否论述同一话题.通过分析报道内容的结构关系和语义的分布规律,提出基于语义域语言模型的关联性检测方法,并在此基础上检验融入依存分析的语义描述策略对该模型性能的影响.实验采用TDT4中文语料进行评测,结果显示语义域语言模型显著改进了现有检测系统的性能,其最小DET代价降低了约3个百分点.  相似文献   

9.
本文在对新闻报道理论分析及实验验证的基础上,提出一种多向量表示模型,使其在尽量不丢失信息的情况下,对特征集合尽可能细地划分。基于该模型,本文设计了一种模糊匹配的方法用于计算命名实体子向量之间的关联度,它们和多个向量相似度一起用支持向量机进行整合,形成报道模型间的相似度。本文选用TDT4中文语料作为测试语料,将上述模型及模糊匹配技术用于话题关联识别。实验表明,多向量模型能够改进话题关联识别的性能,模糊匹配技术也在一定程度上弥补了精确匹配带来的性能损失。  相似文献   

10.
话题跟踪中静态和动态话题模型的核捕捉衰减   总被引:1,自引:0,他引:1  
洪宇  仓玉  姚建民  周国栋  朱巧明 《软件学报》2012,23(5):1100-1119
话题跟踪是一项针对新闻话题进行相关信息识别、挖掘和自组织的研究课题,其关键问题之一是如何建立符合话题形态的统计模型.话题形态的研究涉及两个问题,其一是话题的结构特性,其二是话题变形.对比分析了现有词包式、层次树式和链式这3类主流话题模型的形态特征,尤其深入探讨了静态和动态话题模型拟合话题脉络的优势和劣势,并提出一种基于特征重叠比的核捕捉衰减评价策略,专门用于衡量静态和动态话题模型追踪话题发展趋势的能力.在此基础上,分别给出突发式增量式学习方法和时序事件链的更新算法,借以提高动态话题模型的核捕捉性能.实验基于国际标准评测语料TDT4,采用NIST(National Institute of Standards and Technology)提出的最小检测错误权衡系数评测法,并结合所提出的核捕捉衰减评价方法,对各类主要话题模型进行测试.实验结果显示,结构化的动态话题模型具有最佳的跟踪性能,且突发式增量式学习和时序事件链的更新算法分别给予动态话题模型0.4%和3.3%的性能改进.  相似文献   

11.
面向网络论坛的突发话题发现   总被引:1,自引:0,他引:1  
每天有大量的信息涌现在论坛上,用户可以通过论坛获知目前国际国内正在发生的一些突发事件。如何使用机器自动化的方法检测论坛中的突发话题已经成为搜索引擎以及网络挖掘系统的一项基础任务。话题检测与跟踪模型(TDT)可以很好的解决话题发现问题,但是TDT处理的对象是新闻语料,与论坛内容相比,新闻语料更准确、严谨、规范。TDT中使用的方法不适合用语随意的论坛。因此在网络论坛这种噪音环境下的话题检测面临着一定的困难与挑战。文中提出一种基于噪音过滤的话题发现模型,它从内容和用户参与度两个角度来检测论坛话题。在“水木社区”的“水木特快”上进行了相关的实验,实验结果表明该文提出的模型不仅可以检测突发话题,而且可以检测与这些话题相对应的用户社区。  相似文献   

12.
阐述了一种主题发现系统,它能发现数据流中的隐含知识,并将其表述为含有主题/副主题的层次树,每个主题包含与其相关的文档集和文档摘要,以便于用户从层次树中浏览和选择所需主题.并提出了一种增量层次聚类算法,该算法结合了划分聚类和凝聚聚类的主要优点.实验结果表明,无论是作为主题检测系统还是分类和概括工具,该算法都是高效的.  相似文献   

13.
受互联网文本信息话题内容多元性,演化性等特点的影响,传统的话题检测模型对子话题粒度的选取和检测质量很难保证。针对该问题,该文提出一种基于吸收马尔可夫链的子话题划分算法,该算法对基于网页聚类生成的话题关键词进行组合生成子话题,并以吸收马尔可夫链对子话题进行吸收衍化,进行重排序生成结果子话题。实验结果表明,该算法能同时保证生成子话题的重要性和多样性。  相似文献   

14.
基于反馈学习自适应的中文话题追踪   总被引:7,自引:1,他引:7  
在话题追踪研究领域,由于话题是动态发展的,在追踪过程中会产生话题漂移的问题。针对该问题以及现有自适应方法的不足,本文提出基于反馈学习的自适应方法。该方法采用增量学习的思想,对话题追踪任务中的自适应学习机制提出了新的算法。该算法能够解决话题漂移现象,并能够弥补现有自适应方法的不足。该算法中还考虑了话题追踪任务的时序性,将时间信息引入到了算法中。本文实验采用TDT4语料中的中文部分作为测试语料,使用TDT2004的评测方法对基于反馈学习的自适应的中文话题追踪系统进行评价,实验数据表明基于反馈学习的自适应方法能够提高话题追踪的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号