首页 | 本学科首页   官方微博 | 高级检索  
检索     
共有20条相似文献,以下是第1-20项 搜索用时 734 毫秒

1.  话题检测与跟踪的评测及研究综述  被引次数:4
   洪宇  张宇  刘挺  李生《中文信息学报》,2007年第21卷第6期
   话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。自从1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性,并面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息处理领域的研究热点。本文简要介绍了话题检测与跟踪的研究背景、任务定义、评测方法以及相关技术,并通过分析目前TDT领域的研究现状展望未来的发展趋势。    

2.  基于话题要素相似度计算的报道关系识别方法  
   赵艳  戴播  濮小佳  袁春风《计算机应用与软件》,2010年第27卷第1期
   报道关系识别是话题识别与跟踪TDT(Topic Detection and Tracking)研究内容中的基本任务之一,根据新闻话题的几大要素:时间、地点、人物、内容等,提出了一种基于话题要素的话题报道表示模型,并给出了基于话题要素相似度计算的报道关系识别方法。实验证明这种方法特别适用于同主题下不同话题的报道关系识别。    

3.  话题识别与跟踪研究  被引次数:27
   李保利  俞士汶《计算机工程与应用》,2003年第39卷第17期
   作为自然语言处理一个新的研究方向,话题识别与跟踪旨在发展一系列基于事件的信息组织技术,以实现对新闻媒体信息流中新话题的自动识别以及对巳知话题的动态跟踪。自1997年以来连续举行的多次大规模评测使得话题识别与跟踪研究正逐步成为近来自然语言处理尤其是信息检索领域的一个研究热点,目前国内在这方面的研究尚处在起步阶段。该文介绍了话题识别与跟踪研究的发展历史、研究任务、主要技术及评价方法等,希望能引起相关研究者对这项研究的关注。    

4.  基于增量型聚类的自动话题检测研究  被引次数:1
   张小明  李舟军  巢文涵《软件学报》,2012年第23卷第6期
   随着网络信息飞速的发展,收集并组织相关信息变得越来越困难.话题检测与跟踪(topic detection and tracking,简称TDT)就是为解决该问题而提出来的研究方向.话题检测是TDT中重要的研究任务之一,其主要研究内容是把讨论相同话题的故事聚类到一起.虽然话题检测已经有了多年的研究,但面对日益变化的网络信息,它具有了更大的挑战性.提出了一种基于增量型聚类的和自动话题检测方法,该方法旨在提高话题检测的效率,并且能够自动检测出文本库中话题的数量.采用改进的权重算法计算特征的权重,通过自适应地提炼具有较强的主题辨别能力的文本特征来提高文档聚类的准确率,并且在聚类过程中利用BIC来判断话题类别的数目,同时利用话题的延续性特征来预聚类文档,并以此提高话题检测的速度.基于TDT-4语料库的实验结果表明,该方法能够大幅度提高话题检测的效率和准确率.    

5.  话题跟踪中静态和动态话题模型的核捕捉衰减?  
   洪宇  仓玉  姚建民  周国栋  朱巧明《软件学报》,2013年第5期
   话题跟踪是一项针对新闻话题进行相关信息识别、挖掘和自组织的研究课题,其关键问题之一是如何建立符合话题形态的统计模型.话题形态的研究涉及两个问题,其一是话题的结构特性,其二是话题变形.对比分析了现有词包式、层次树式和链式这3类主流话题模型的形态特征,尤其深入探讨了静态和动态话题模型拟合话题脉络的优势和劣势,并提出一种基于特征重叠比的核捕捉衰减评价策略,专门用于衡量静态和动态话题模型追踪话题发展趋势的能力.在此基础上,分别给出突发式增量式学习方法和时序事件链的更新算法,借以提高动态话题模型的核捕捉性能.实验基于国际标准评测语料TDT4,采用NIST(National Institute of Standards and Technology)提出的最小检测错误权衡系数评测法,并结合所提出的核捕捉衰减评价方法,对各类主要话题模型进行测试.实验结果显示,结构化的动态话题模型具有最佳的跟踪性能,且突发式增量式学习和时序事件链的更新算法分别给予动态话题模型0.4%和3.3%的性能改进.    

6.  话题跟踪中静态和动态话题模型的核捕捉衰减  被引次数:1
   洪宇  仓玉  姚建民  周国栋  朱巧明《软件学报》,2012年第23卷第5期
   话题跟踪是一项针对新闻话题进行相关信息识别、挖掘和自组织的研究课题,其关键问题之一是如何建立符合话题形态的统计模型.话题形态的研究涉及两个问题,其一是话题的结构特性,其二是话题变形.对比分析了现有词包式、层次树式和链式这3类主流话题模型的形态特征,尤其深入探讨了静态和动态话题模型拟合话题脉络的优势和劣势,并提出一种基于特征重叠比的核捕捉衰减评价策略,专门用于衡量静态和动态话题模型追踪话题发展趋势的能力.在此基础上,分别给出突发式增量式学习方法和时序事件链的更新算法,借以提高动态话题模型的核捕捉性能.实验基于国际标准评测语料TDT4,采用NIST(National Institute of Standards and Technology)提出的最小检测错误权衡系数评测法,并结合所提出的核捕捉衰减评价方法,对各类主要话题模型进行测试.实验结果显示,结构化的动态话题模型具有最佳的跟踪性能,且突发式增量式学习和时序事件链的更新算法分别给予动态话题模型0.4%和3.3%的性能改进.    

7.  基于改进权重计算的话题跟踪  被引次数:1
   刘海娟  张佳骥  陈勇《无线电工程》,2008年第38卷第4期
   话题跟踪(Topic Tracking)任务是话题识别与跟踪(Topic Detection and Tracking,简称TDT)中的一个子任务,它的目的是监控新闻报道流识别出与预先给定的几个新闻报道所表述的话题相关的后继报道。特征项权重的计算方法是话题跟踪中的一个重要问题,计算方法的选择关系到话题跟踪的效果。提供了一种改进的权重计算方法,该方法的主要思想是:在计算特征项的权重时考虑了特征项的位置信息,将特征项的位置信息作为加权来计算特征项的权重。实验结果表明该方法有效,并提高了跟踪系统的性能。    

8.  中文论坛内容监测的方法研究  
   郝秀兰  胡运发  申情《中文信息学报》,2012年第26卷第3期
   互联网上充斥着用户生成文档,如论坛中的帖子.如何对这些杂乱无章的内容进行监控是安全部门所关心的重点之一,话题识别与跟踪(Topic Detection and Tracking,TDT)是监控的有效手段之一.但是,网络论坛帖子的特点是回帖篇幅短、话题转移快,使得面向论坛的话题识别与跟踪变得异常困难.针对其特点,给出了三个TDT模型:首先给出一个基线模型;为了缓解“话题漂移”现象,提出了将一个话题表示为种子向量与后续向量的改进模型;在改进的模型上运用最新的命名实体(NE)权重调节策略.针对论坛帖子格式不规范及TDT系统对处理速度的要求,提出了一种特征提取方法.最后,在真实数据集上给出了所用TDT模型的实验结果,证实了所建模型及特征提取方法的有效性.    

9.  基于多策略优化的分治多层聚类算法的话题发现研究  被引次数:2
   骆卫华  于满泉  许洪波  王斌  程学旗《中文信息学报》,2006年第20卷第1期
   话题发现与跟踪是一项评测驱动的研究,旨在依据事件对语言文本信息流进行组织利用。自1996年提出以来,该研究得到了越来越广泛的关注。本文在研究已有成熟算法的基础上,提出了基于分治多层聚类的话题发现算法,其核心思想是把全部数据分割成具有一定相关性的分组,对各个分组分别进行聚类,得到各个分组内部的话题(微类),然后对所有的微类再进行聚类,得到最终的话题,在聚类的过程中采用多种策略进行优化,以保证聚类的效果。基于该算法的系统在TDT4中文语料上进行了测试,结果表明该算法属于目前结果最好的算法之一。    

10.  话题发现与追踪技术研究  被引次数:2
   张晓艳  王挺《计算机科学与探索》,2009年第3卷第4期
   话题发现与追踪以新闻流为处理对象,采用基于事件的信息组织方式进行研究,一直是自然语言处理领域里的热点。该研究借鉴大量相关研究尤其是信息检索中的经典模型和方法,取得了很大成功。首先介绍了话题发现与追踪的主要研究内容、评价方法以及发展历史;然后对其多个研究内容提出一个统一研究框架,并对该框架中的关键技术进行了详细分析;最后指出该领域中的关键问题及难点,并对未来研究做出展望。    

11.  基于子话题分治匹配的新事件检测  被引次数:3
   洪宇  张宇  范基礼  刘挺  李生《计算机学报》,2008年第31卷第4期
   新事件检测是话题检测与跟踪领域的一项重要研究,其任务是实时监控新闻报道流并从中识别新话题.现有方法将话题和报道描述为单一结构的特征向量进行匹配,造成子话题间互为噪声并形成错误语义,从而误导新话题的识别.针对这一缺陷,文中提出基于子话题分治匹配的新事件检测方法,将话题和报道划分为不同子话题,根据相关子话题的比例关系和分布关系建立新话题识别模型.实验在TDT4和TDT5中获得显著改进,最小检测错误代价为0.4061,相应漏检率为0.1859.    

12.  中文时间表达式及类型识别  
   李君婵  谭红叶  王风娥《计算机科学》,2012年第39卷第Z3期
   目前,时间信息识别在信息抽取、问答系统、摘要生成、话题跟踪和检测等领域中有着广泛应用,同时也是自然语言处理的重要研究任务之一.针对TempEval-2会议评测任务中的时间表达式识别和类型识别任务:1)句内时间表达式识别,2)时间表达式类型识别,分别提出了基于词性构建时间单元规则库的识别方法以及基于最大熵的类型识别方法.实验对象为中文,结果显示时间表达式识别的准确率为85.16%,时间表达式类型识别的准确率为93.02%.    

13.  TDT中新发现话题的分类研究与实现  
   龙志祎  程葳  沈俊辉《武汉理工大学学报(信息与管理工程版)》,2009年第31卷第5期
   根据数据源为新闻网站的TDT(topic detection and tracking)系统的话题特点,首先提出了话题分类思想,然后将KNN(k-nearest neighbor)算法与网站频道信息相融合对话题进行分类.实验表明,话题分类的正确率达到98%,具有较高的实用性.    

14.  基于核心词和实体推理的事件关系识别方法  
   《中文信息学报》,2014年第2期
   事件关系识别是一项面向文本信息流进行事件关系判定的自然语言处理技术。事件关系识别的核心任务是以事件为基本语义单元,通过分析事件的篇章结构信息及语义特征,实现事件逻辑关系的浅层检测(即判定任意事件之间是否存在逻辑相关性)。该文通过利用同一话题下事件的核心词及实体的分布特性,针对同一话题下事件关系识别任务,提出一种基于核心词和实体推理的事件关系识别方法。实验结果显示,该文方法明显优于基于事件语义依存线索的事件关系识别方法,F值获得了15.34%的提升。    

15.  基于语义域语言模型的中文话题关联检测  被引次数:2
   洪 宇  张 宇  范基礼  刘 挺  李 生《软件学报》,2008年第19卷第9期
   关联检测是话题检测与跟踪领域的基础性研究,其任务是检测任意新闻报道对是否论述同一话题.通过分析报道内容的结构关系和语义的分布规律,提出基于语义域语言模型的关联性检测方法,并在此基础上检验融入依存分析的语义描述策略对该模型性能的影响.实验采用TDT4中文语料进行评测,结果显示语义域语言模型显著改进了现有检测系统的性能,其最小DET代价降低了约3个百分点.    

16.  事件关系检测的语言学资源、评测及研究综述  
   杨雪蓉  马彬  洪宇  姚建民  朱巧明《电脑学习》,2014年第2期
   事件关系是一种客观存在于事件之间的逻辑关系,事件关系检测是一项面向文本信息流进行事件关系判定的自然语言处理技术。事件关系检测的核心任务是以事件为基本语义单元,通过分析事件的篇章结构特征及语义特征,借助语义关系识别和推理,对事件关系进行自动分析与理解。事件关系检测技术在自动文摘,自动问答,信息检索等领域有着广泛的应用。首先介绍事件关系检测的任务定义、语言学资源和评测方法;然后,回顾国内外现有的主要研究方法;最后,给出这一研究的关键问题及技术难点。    

17.  事件关系检测的语言学资源、评测及研究综述  
   杨雪蓉  马 彬  洪 宇  姚建民  朱巧明《智能计算机与应用》,2014年第2期
   事件关系是一种客观存在于事件之间的逻辑关系,事件关系检测是一项面向文本信息流进行事件关系判定的自然语言处理技术。事件关系检测的核心任务是以事件为基本语义单元,通过分析事件的篇章结构特征及语义特征,借助语义关系识别和推理,对事件关系进行自动分析与理解。事件关系检测技术在自动文摘,自动问答,信息检索等领域有着广泛的应用。首先介绍事件关系检测的任务定义、语言学资源和评测方法;然后,回顾国内外现有的主要研究方法;最后,给出这一研究的关键问题及技术难点。    

18.  面向网络论坛的突发话题发现  被引次数:1
   陈友  程学旗  杨森《中文信息学报》,2010年第24卷第3期
   每天有大量的信息涌现在论坛上,用户可以通过论坛获知目前国际国内正在发生的一些突发事件。如何使用机器自动化的方法检测论坛中的突发话题已经成为搜索引擎以及网络挖掘系统的一项基础任务。话题检测与跟踪模型(TDT)可以很好的解决话题发现问题,但是TDT处理的对象是新闻语料,与论坛内容相比,新闻语料更准确、严谨、规范。TDT中使用的方法不适合用语随意的论坛。因此在网络论坛这种噪音环境下的话题检测面临着一定的困难与挑战。文中提出一种基于噪音过滤的话题发现模型,它从内容和用户参与度两个角度来检测论坛话题。在水木社区的水木特快上进行了相关的实验,实验结果表明该文提出的模型不仅可以检测突发话题,而且可以检测与这些话题相对应的用户社区。    

19.  语言模型在话题跟踪中的应用  
   刘海娟  张佳骥  陈勇《无线电工程》,2008年第38卷第9期
   语言模型技术作为信息检索领域的一个新的建模技术,已逐渐成为当代语言信息处理的主流技术之一。将该技术应用于话题跟踪研究中,对语言模型理论进行了介绍,详细描述了如何基于语言模型实现话题跟踪,构建了2个话题跟踪系统,分别利用向量空间模型和语言模型进行建模,并对它们的性能进行了比较。实验结果表明,语言模型比向量空间模型更适合于话题跟踪任务。    

20.  一种中文事件事实性识别方法  
   何天雄  李培峰  朱巧明《计算机科学》,2017年第44卷第5期
   事件事实性指出了事件发生与否的确定性程度,是自然语言理解的基础。在研究过程中,针对中文事件的事实性识别问题,提出了一种基于特征工程的有效识别方法。该方法选取事件的事实性相关信息进行特征的处理和转化。同时,考虑到部分特征与事件事实性之间的联系,依据规则进行特征融合。实验证明,相比基于规则的事件事实性识别方法,该方法有着更好的识别效果。    

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号