首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 531 毫秒
1.
话题识别与跟踪中的层次化话题识别技术研究   总被引:19,自引:0,他引:19  
话题识别与跟踪(topic detection and tracking,TDT)旨在发展一系列基于事件的信息组织技术,层次化话题识别(hierarchical topic detection,HTD)是其中一项全新的任务定义形式.通过连续的大规模评测,话题识别与跟踪已成为国际上自然语言处理尤其是信息检索领域的一个研究热点.为此.将自然语言处理与信息检索技术相结合,提出了针对事件特点的切实有效的单粒度话题识别方法,并提出了基于多层聚类的MLCS算法对话题进行层次化组织,所提出的方法具有很好的效果,在TDT2004的HTD评测中,该方法取得了第2名的成绩.  相似文献   

2.
话题检测与跟踪的评测及研究综述   总被引:8,自引:0,他引:8  
话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。自从1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性,并面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息处理领域的研究热点。本文简要介绍了话题检测与跟踪的研究背景、任务定义、评测方法以及相关技术,并通过分析目前TDT领域的研究现状展望未来的发展趋势。  相似文献   

3.
新媒体的迅猛发展,是当前舆情环境转变的重要肇因.从两个典型案例出发,探讨新媒体环境下体育舆情环境;同时还以一个采用话题识别与跟踪技术对国内体育知名论坛进行话题识别与跟踪的系统为例,探讨信息处理技术应对转变后的体育舆情环境的可能性.  相似文献   

4.
命名实体识别研究   总被引:5,自引:4,他引:5  
命名实体识别是文本信息处理的重要基础,已经逐步成为自然语言处理的一项关键技术。其基于规则、统计、机器学习的研究方法及成果,都推动了自然语言处理研究的发展,促进了自然语言研究与应用的紧密结合。本文回顾了命名实体识别技术的发展过程,分析了主要的方法和技术,并展望了未来的发展趋势。  相似文献   

5.
中文时间表达式及类型识别   总被引:1,自引:0,他引:1  
目前,时间信息识别在信息抽取、问答系统、摘要生成、话题跟踪和检测等领域中有着广泛应用,同时也是自然语言处理的重要研究任务之一.针对TempEval-2会议评测任务中的时间表达式识别和类型识别任务:1)句内时间表达式识别,2)时间表达式类型识别,分别提出了基于词性构建时间单元规则库的识别方法以及基于最大熵的类型识别方法.实验对象为中文,结果显示时间表达式识别的准确率为85.16%,时间表达式类型识别的准确率为93.02%.  相似文献   

6.
宋丹  王卫东  陈英 《微机发展》2006,16(9):62-64
话题识别与跟踪旨在发展一系列基于事件的信息组织技术,通过监测以实现对新闻媒体信息流中新话题的自动识别和已知话题的动态跟踪。文中提供一种利用改进的向量空间模型进行识别和跟踪的方法。没有使用传统向量空间模型中单个向量,而是按照语义将特征词划分为4个组(人物、时间、地点、内容)并形成4个向量空间。每个空间进行独立的权重计算和相似度计算。实验证明这些方法是有效的。  相似文献   

7.
事件挖掘就是从大量的、不完全的、人们事先不知道的,但同时又是潜在有用的信息中提取有用信息并概括为事件的过程。由于事件挖掘相对于话题检测与跟踪、信息检索、信息抽取等自然语言处理具备许多共性,并且具备预测事件发展的优越性,因此逐渐成为当前事件识别领域的研究热点。本文介绍事件挖掘相关研究的历史发展与应用背景,全新定义事件挖掘的概念与任务,并详细介绍事件挖掘任务相关的各种关键算法,尤其是语义链算法。指出事件挖掘的重要意义及其未来的发展趋势。  相似文献   

8.
基于改进向量空间模型的话题识别与跟踪   总被引:4,自引:0,他引:4  
话题识别与跟踪旨在发展一系列基于事件的信息组织技术,通过监测以实现对新闻媒体信息流中新话题的自动识别和已知话题的动态跟踪。文中提供一种利用改进的向量空间模型进行识别和跟踪的方法。没有使用传统向量空间模型中单个向量,而是按照语义将特征词划分为4个组(人物、时间、地点、内容)并形成4个向量空间。每个空间进行独立的权重计算和相似度计算。实验证明这些方法是有效的。  相似文献   

9.
通过定量与定性相结合的方式全面分析了深度学习在自然语言处理领域的研究情况。采用CiteSpace和VOSviewer对深度学习在自然语言处理领域的研究国家、机构、期刊分布、关键词共现、共被引网络聚类及时间轴视图等进行知识图谱绘制,理清研究脉络。通过深入挖掘领域内的重要文献,总结深度学习在自然语言处理领域的研究趋势、存在的主要问题或发展瓶颈,并给出相应的解决办法与思路。对于如何跟踪深度学习在自然语言处理领域的研究成果给出建议,为该领域的后续研究与发展提供参考。  相似文献   

10.
目前,话题检测与跟踪已被广泛应用,新事件检测作为话题检测与跟踪领域中的研究任务之一,为跟踪后续话题发展的先验知识,在话题检测与跟踪领域具有重要的理论研究意义。LDA主题模型不能自动识别新事件,其主题数需通过人工或反复实验来确定,识别效率低。本文提出基于LDA及主题词间的相关性新事件检测算法,同时结合报道发生的时间,确定合理的主题数目,从而探知新事件。实验证明,与传统LDA算法及Gibbs LDA算法相比,该方法具有一定优势,提高了对新事件检测的敏感度。  相似文献   

11.
基于三维文档向量的自适应话题追踪器模型   总被引:1,自引:0,他引:1  
话题追踪(TT)是研究自动追踪事件动态发展过程的一种信息智能获取技术,是话题检测与追踪(TDT)技术的一个子任务,其目标在于自动发现新闻报道信息流中与某一已知话题有关的新报道。该文通过分析传统文档向量空间模型的不足,结合新闻报道的特征,提出了一种三维文档向量模型,在此基础上建立了一种符合新闻报道特征的话题模型。该话题模型在追踪过程中能够根据事件的动态发展进行自我学习和自我修正。结合话题模型,该文还设计了一种自适应的KNN新闻话题追踪器,从而形成了一种完整的中文话题追踪器模型。实验数据表明该方法在描述新闻话题、避免话题漂移方面具有一定优势,在中文话题追踪领域取得了较好效果。  相似文献   

12.
话题跟踪旨在实现对新闻媒体信息流中已知话题的动态跟踪。在现有的向量空间模型分类算法的基础上,提出一种基于话题更新的话题跟踪算法,通过实验对其进行评价。  相似文献   

13.
随着对LDA模型的研究越来越深入,文本表示和挖掘能力进一步提高。话题是LDA模型中一个非常重要的概念,是特征集合的一个多项式概率分布。话题追踪是根据少数已知相关信息在未知报道流中追踪一个话题,找出与该话题相关的所有报道。把LDA模型用于话题追踪,目的有两个:(一)检验LDA话题对追踪话题的表示能力;(二)检验LDA模型在挖掘训练数据中的追踪话题时,LDA话题和追踪话题之间的关系。实验表明:相对于经典的向量空间模型和一元语言模型,以及专门针对追踪话题提出的事件模型,基于LDA模型的追踪性能更好,但由于粒度不同,LDA模型中的话题和追踪话题并没有直接的一一对应的关系,实现可定制话题的LDA模型是下一步工作的目标。  相似文献   

14.
基于子话题分治匹配的新事件检测   总被引:4,自引:0,他引:4  
洪宇  张宇  范基礼  刘挺  李生 《计算机学报》2008,31(4):687-695
新事件检测是话题检测与跟踪领域的一项重要研究,其任务是实时监控新闻报道流并从中识别新话题.现有方法将话题和报道描述为单一结构的特征向量进行匹配,造成子话题间互为噪声并形成错误语义,从而误导新话题的识别.针对这一缺陷,文中提出基于子话题分治匹配的新事件检测方法,将话题和报道划分为不同子话题,根据相关子话题的比例关系和分布关系建立新话题识别模型.实验在TDT4和TDT5中获得显著改进,最小检测错误代价为0.4061,相应漏检率为0.1859.  相似文献   

15.
基于增量型聚类的自动话题检测研究   总被引:1,自引:0,他引:1  
张小明  李舟军  巢文涵 《软件学报》2012,23(6):1578-1587
随着网络信息飞速的发展,收集并组织相关信息变得越来越困难.话题检测与跟踪(topic detection and tracking,简称TDT)就是为解决该问题而提出来的研究方向.话题检测是TDT中重要的研究任务之一,其主要研究内容是把讨论相同话题的故事聚类到一起.虽然话题检测已经有了多年的研究,但面对日益变化的网络信息,它具有了更大的挑战性.提出了一种基于增量型聚类的和自动话题检测方法,该方法旨在提高话题检测的效率,并且能够自动检测出文本库中话题的数量.采用改进的权重算法计算特征的权重,通过自适应地提炼具有较强的主题辨别能力的文本特征来提高文档聚类的准确率,并且在聚类过程中利用BIC来判断话题类别的数目,同时利用话题的延续性特征来预聚类文档,并以此提高话题检测的速度.基于TDT-4语料库的实验结果表明,该方法能够大幅度提高话题检测的效率和准确率.  相似文献   

16.
郑燕  鲁燃  赵爱华 《计算机应用》2012,32(5):1343-1346
在话题追踪过程中,由于给定的初始话题相关报道少,而且话题具有动态演变的特点造成话题模型不准确。针对这一问题,提出了利用动态阈值收集反馈报道构造话题修正模型,实现了话题模型的动态修正;同时结合命名实体能够更加有效地区分不同话题的特性,提出了在修正话题模型时增大相关命名实体权重的方法,从而获得更准确的话题表示模型。实验结果表明,该方法能有效避免话题漂移现象,降低话题追踪过程中的漏报率和错报率。  相似文献   

17.
基于查询向量的英语话题跟踪研究   总被引:1,自引:0,他引:1  
通过分析英语新闻报道的特点,提出了一种基于词汇区分和位置特征相结合的特征项抽取算法.词汇区分是指将单词分为首字母是大写的单词和首字母不是大写的单词,位置特征利用新闻报道的倒金字塔式的结构特点决定单词的重要性.提出了一种基于多个特征项抽取算法融合的特征项权值计算方法,该方法认为被越多的特征项抽取算法选中的特征项越重要.提出了一种基于多数投票策略的双重过滤算法,对报道和话题是否相关进行两次过滤,大大降低了系统的误报率.实验表明提出的3种算法不但取得了很好的效果,而且具有很好的可扩展性.  相似文献   

18.
Given the advance of Internet technologies, we can now easily extract hundreds or thousands of news stories of any ongoing incidents from newswires such as CNN.com, but the volume of information is too large for us to capture the blueprint. Information retrieval techniques such as topic detection and tracking are able to organize news stories as events, in a flat hierarchical structure, within a topic. However, they are incapable of presenting the complex evolution relationships between the events. We are interested to learn not only what the major events are but also how they develop within the topic. It is beneficial to identify the seminal events, the intermediary and ending events, and the evolution of these events. In this paper, we propose to utilize the event timestamp, event content similarity, temporal proximity, and document distributional proximity to model the event evolution relationships between events in an incident. An event evolution graph is constructed to present the underlying structure of events for efficient browsing and extracting of information. Case study and experiments are presented to illustrate and show the performance of our proposed technique. It is found that our proposed technique outperforms the baseline technique and other comparable techniques in previous work.  相似文献   

19.
随着计算机的普及与互联网的高速发展,Facebook、Twitter、新浪微博等社交媒体逐渐成为人们信息交流的主要渠道。然而,由于社交媒体信息具有数量庞大、结构复杂、传播速度快等特点,人们无法从中快速准确地获取想要的信息。于是,话题检测与追踪技术应运而生,它将用户关注的信息从大量无序信息中筛选出来,经过细致的过滤和有效的整合,生成简单、清晰的话题信息,并在此基础上实现对话题的追踪和发展趋势分析。该文对社交媒体上的话题检测与追踪工作进行综述,首先论述了话题检测方面的三类方法,包括基于主题模型的话题检测、基于改进聚类算法的话题检测和基于多特征融合的话题检测;其次,对话题追踪的研究成果进行了介绍,主要分为非自适应话题追踪和自适应话题追踪两大类;最后,列举出社交媒体话题的检测与追踪中存在的问题以及对未来研究的展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号