首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 162 毫秒
1.
基于三维文档向量的自适应话题追踪器模型   总被引:1,自引:0,他引:1  
话题追踪(TT)是研究自动追踪事件动态发展过程的一种信息智能获取技术,是话题检测与追踪(TDT)技术的一个子任务,其目标在于自动发现新闻报道信息流中与某一已知话题有关的新报道。该文通过分析传统文档向量空间模型的不足,结合新闻报道的特征,提出了一种三维文档向量模型,在此基础上建立了一种符合新闻报道特征的话题模型。该话题模型在追踪过程中能够根据事件的动态发展进行自我学习和自我修正。结合话题模型,该文还设计了一种自适应的KNN新闻话题追踪器,从而形成了一种完整的中文话题追踪器模型。实验数据表明该方法在描述新闻话题、避免话题漂移方面具有一定优势,在中文话题追踪领域取得了较好效果。  相似文献   

2.
微博文本长度短,网络用语层出不穷,传统方法在微博事件追踪中忽略了博文语义信息,导致追踪效果不够理想。针对该问题,提出一种基于维基知识的微博事件追踪方法。首先,定义维基词条的强相关实体和别名实体,并将维基知识表示为五元组形式。然后,构建词语空间到维基实体空间的映射来表示初始事件向量及后续博文向量。最后,计算博文向量与初始事件向量之间的语义相似度,并依据设定阈值进行判决,从而完成事件追踪。实验结果表明,相比传统方法,该方法可以充分利用维基知识语义信息,有效提高微博事件追踪的性能。  相似文献   

3.
微博文本长度短,且网络新词层出不穷,使得传统方法在微博事件追踪中效果不够理想。针对该问题,提出一种基于词向量的微博事件追踪方法。词向量不仅可以计算词语之间的语义相似度,而且能够提高微博间语义相似度计算的准确率。该方法首先使用Skip-gram模型在大规模数据集上训练得到词向量;然后通过提取关键词建立初始事件和微博表示模型;最后利用词向量计算微博和初始事件之间的语义相似度,并依据设定阈值进行判决,完成事件追踪。实验结果表明,相比传统方法,该方法能够充分利用词向量引入的语义信息,有效提高微博事件追踪的性能。  相似文献   

4.
宋丹  王卫东  陈英 《微机发展》2006,16(9):62-64
话题识别与跟踪旨在发展一系列基于事件的信息组织技术,通过监测以实现对新闻媒体信息流中新话题的自动识别和已知话题的动态跟踪。文中提供一种利用改进的向量空间模型进行识别和跟踪的方法。没有使用传统向量空间模型中单个向量,而是按照语义将特征词划分为4个组(人物、时间、地点、内容)并形成4个向量空间。每个空间进行独立的权重计算和相似度计算。实验证明这些方法是有效的。  相似文献   

5.
一种基于动态进化模型的事件探测和追踪算法   总被引:16,自引:2,他引:16  
在大量分析网络新闻特点的基础上,借鉴Single-Pass聚类思想,并结合新闻要素给出了一种基于动态进化模型的事件探测和追踪算法.该动态模型是基于新闻事件的生存特点提出的,包括:基于时间距离的相似度计算模型、事件模板进化策略以及动态阈值设置思想.该算法可以自动对新闻资料进行组织生成新闻专题,进而为用户提供个性化服务.实验结果验证了算法的有效性.  相似文献   

6.
在话题检测和追踪过程中,话题漂移的产生往往降低话题检测和追踪的准确率.为了克服这个问题,通过分析新闻报道中种子事件与后续的新颖事件之间的演化关系,强调命名实体词的贡献度,并及时调整话题的重心向量,建立了一种动态的话题检测和追踪模型.实验证明,该模型有效地降低了话题漂移现象在话题检测与话题追踪中的影响.  相似文献   

7.
基于改进向量空间模型的话题识别与跟踪   总被引:4,自引:0,他引:4  
话题识别与跟踪旨在发展一系列基于事件的信息组织技术,通过监测以实现对新闻媒体信息流中新话题的自动识别和已知话题的动态跟踪。文中提供一种利用改进的向量空间模型进行识别和跟踪的方法。没有使用传统向量空间模型中单个向量,而是按照语义将特征词划分为4个组(人物、时间、地点、内容)并形成4个向量空间。每个空间进行独立的权重计算和相似度计算。实验证明这些方法是有效的。  相似文献   

8.
基于向量空间模型的词共现研究及其在文本分类中的应用   总被引:14,自引:0,他引:14  
文中提出了一种基于向量空间模型的词共现模型算法,通过选取整篇文档为窗口单元,统计中高频特征词的共现信息,改进了模型的效果,并将得到的词共现资源应用于文本分类的研究中.实验证明其使分本分类系统的性能得到了一定程度的提高.  相似文献   

9.
传统向量空间模型(VSM)特征间无关联,且不能动态增量训练,不适合主题和焦点实时变化的Internet新闻信息,为此提出了一种改进的文本实时分类模型——动态向量空间模型(DVSM)。通过对VSM的特征提取策略进行改进,提出了特征聚合和增量训练算法。通过将对分类有相同贡献的文本特征词聚合,使用它们共同的分类贡献向量特征模式作为文本特征向量的基本维;采用增量动态训练改变对分类贡献已改变的特征词在文本向量的特征模式中的位置,适应Internet新闻信息的实时特性。使用静态训练集和动态训练集进行的DVSM与传统VSM的对比实验表明,采用特征聚合和动态训练的DVSM在Internet新闻实时分类中优势效果明显优越。  相似文献   

10.
Web文本特征选择算法的研究   总被引:1,自引:1,他引:0  
以向量空间模型作为Web文本的表示方法,结合Web文本的结构特征对向量空间模型中的特征选择算法进行了分析并加以改进。在改进的算法中,体现出了特征词在Web文档结构中的位置信息;引入了信息论中熵的概念,用词的熵函数对权值进行调整,从而更加准确地选取有效的特征词。实验验证了改进算法的可行性和有效性。  相似文献   

11.
话题关联检测是话题检测与跟踪的一项子任务,是判断随机抽取的两篇新闻报道是否讨论同一个话题的技术。受词语共现模型的启发,结合话题关联检测的特点,提出了词语间的动态同现关系,实现了基于动态共现关系的报道相似度计算方法;探讨了相似度计算方法在中文话题关联检测中的应用。通过实验可知,动态共现关系可以在一定程度上反映报道的语义信息,相似度计算方法很好地改善了中文话题关联检测系统的性能,取得了不错的效果。  相似文献   

12.
事件本体相比于传统本体具有更加丰富的语义信息,在面向事件的大数据集成中更具优势,然而用传统的本体相似计算方法计算事件本体相似度存在很多不足,提出了一种综合的事件本体相似度计算方法。该方法以词语相似度、集合相似度、层次结构相似计算为基础,然后从事件类名称、事件类要素、事件类层次结构和非层次结构讨论事件本体的相似度,最终获得事件本体的综合相似度。实验表明该方法相比传统本体相似度计算方法准确率更高,语义信息更加丰富。  相似文献   

13.
话题跟踪中静态和动态话题模型的核捕捉衰减   总被引:1,自引:0,他引:1  
洪宇  仓玉  姚建民  周国栋  朱巧明 《软件学报》2012,23(5):1100-1119
话题跟踪是一项针对新闻话题进行相关信息识别、挖掘和自组织的研究课题,其关键问题之一是如何建立符合话题形态的统计模型.话题形态的研究涉及两个问题,其一是话题的结构特性,其二是话题变形.对比分析了现有词包式、层次树式和链式这3类主流话题模型的形态特征,尤其深入探讨了静态和动态话题模型拟合话题脉络的优势和劣势,并提出一种基于特征重叠比的核捕捉衰减评价策略,专门用于衡量静态和动态话题模型追踪话题发展趋势的能力.在此基础上,分别给出突发式增量式学习方法和时序事件链的更新算法,借以提高动态话题模型的核捕捉性能.实验基于国际标准评测语料TDT4,采用NIST(National Institute of Standards and Technology)提出的最小检测错误权衡系数评测法,并结合所提出的核捕捉衰减评价方法,对各类主要话题模型进行测试.实验结果显示,结构化的动态话题模型具有最佳的跟踪性能,且突发式增量式学习和时序事件链的更新算法分别给予动态话题模型0.4%和3.3%的性能改进.  相似文献   

14.
Information ordering is a nontrivial task in multi‐document summarization (MDS), which typically relies on the traditional vector space model (VSM) notorious for semantic deficiency. In this article, we propose a novel event‐enriched VSM to alleviate the problem by building event semantics into sentence representations. The mediation of event information between sentence and term, especially in the news domain, has an intuitive appeal as well as technical advantage in common sentence‐level operations such as sentence similarity computation. Inspired by the block‐style writing by humans, we base the sentence ordering algorithm on sentence clustering. To accommodate the complexity introduced by event information, we adopt a soft‐to‐hard clustering strategy on the event and sentence levels, using expectation–maximization clustering and K‐means, respectively. For the purpose of cluster‐based sentence ordering, the event‐enriched VSM enables us to design an ordering algorithm to enhance event coherence computed between sentence and sentence–context pairs. Drawing on the findings of earlier research, we also incorporate topic continuity measures and time information into the scheme. We evaluate the performance of the model and its variants automatically and manually, with experimental results showing clear advantage of the event‐based model over baseline and non‐event‐based models in information ordering for multi‐document news summarization. We are confident that the event‐enriched VSM has even greater potential in summarization and beyond, which awaits further research. © 2014 Wiley Periodicals, Inc.  相似文献   

15.
首先给出基于事件的新闻报道分析技术相关概念的定义,并提出一个基于事件的新闻报道分析技术框架;然后从四个方面介绍了基于事件的新闻报道分析中的关键技术,包括事件探测、事件追踪、事件相关文档摘要和事件RSU检索.对一些关键技术进行了分类和评价,剖析其优势及不足,通过对各种方法的分析和比较,提出了一些改进的方法和建议.最后展望了未来基于事件的新闻报道分析技术的发展方向.  相似文献   

16.
现有汉越跨语言新闻事件检索方法较少使用新闻领域内的事件实体知识,在候选文档中存在多个事件的情况下,与查询句无关的事件会干扰查询句与候选文档间的匹配精度,影响检索性能。提出一种融入事件实体知识的汉越跨语言新闻事件检索模型。通过查询翻译方法将汉语事件查询句翻译为越南语事件查询句,把跨语言新闻事件检索问题转化为单语新闻事件检索问题。考虑到查询句中只有单个事件,候选文档中多个事件共存会影响查询句和文档的精准匹配,利用事件触发词划分候选文档事件范围,减小文档中与查询无关事件的干扰。在此基础上,利用知识图谱和事件触发词得到事件实体丰富的知识表示,通过查询句与文档事件范围间的交互,提取到事件实体知识表示与词以及事件实体知识表示之间的排序特征。在汉越双语新闻数据集上的实验结果表明,与BM25、Conv-KNRM、ATER等基线模型相比,该模型能够取得较好的跨语言新闻事件检索效果,NDCG和MAP指标最高可提升0.712 2和0.587 2。  相似文献   

17.
赵华  邓攀  张建伟 《计算机科学》2010,37(6):237-239270
报道关系检测是判断随机选取的两个新闻报道是否讨论同一话题的技术.提出了一种基于关联词对动态抽取的报道关系检测方法.关联词对是指在同一篇报道中出现的满足一定关系约束的两个单词,而关系约束是指一组特征的集合.该方法认为两篇报道中出现的相同的关联词对越多,两篇报道的相似度越大.实验证明基于关联词对动态抽取的报道关系检测方法取得了非常好的效果,从而证实了所提方法的有效性.同时,实验还表明,关系约束对该方法的成功实施起着非常重要的作用.  相似文献   

18.
程玉胜  梁辉  王一宾  黎康 《计算机应用》2016,36(11):2963-2968
传统的文本分类多以空间向量模型为基础,采用层次分类树模型进行统计分析,该模型多数没有结合特征项语义信息,因此可能产生大量频繁语义模式,增加了分类路径。结合基本显露模式(eEP)在分类上的良好区分特性和基于最小期望风险代价的决策粗糙集模型,提出了一种阈值优化的文本语义分类算法TSCTO:在获取文档特征项频率分布表之后,首先利用粗糙集联合决策分布密度矩阵,计算最小阈值,提取满足一定阈值的高频词;然后结合语义分析与逆向文档频率方法获取基于语义类内文档频率的高频词;采用eEP分类方法获得最简模式;最后利用相似性公式和《知网》提供的语义相关度,计算文本相似性得分,利用三支决策理论对阈值进行选择。实验结果表明,TSCTO算法在文本分类的性能上有一定提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号