共查询到17条相似文献,搜索用时 109 毫秒
1.
2.
3.
4.
基于子话题分治匹配的新事件检测 总被引:4,自引:0,他引:4
新事件检测是话题检测与跟踪领域的一项重要研究,其任务是实时监控新闻报道流并从中识别新话题.现有方法将话题和报道描述为单一结构的特征向量进行匹配,造成子话题间互为噪声并形成错误语义,从而误导新话题的识别.针对这一缺陷,文中提出基于子话题分治匹配的新事件检测方法,将话题和报道划分为不同子话题,根据相关子话题的比例关系和分布关系建立新话题识别模型.实验在TDT4和TDT5中获得显著改进,最小检测错误代价为0.4061,相应漏检率为0.1859. 相似文献
5.
庞海杰 《计算机应用与软件》2012,(3):115-117
话题关联检测是话题检测与跟踪的一项子任务,是判断随机抽取的两篇新闻报道是否讨论同一个话题的技术。受词语共现模型的启发,结合话题关联检测的特点,提出了词语间的动态同现关系,实现了基于动态共现关系的报道相似度计算方法;探讨了相似度计算方法在中文话题关联检测中的应用。通过实验可知,动态共现关系可以在一定程度上反映报道的语义信息,相似度计算方法很好地改善了中文话题关联检测系统的性能,取得了不错的效果。 相似文献
6.
7.
目前关于话题内新事件检测的研究较少,传统的新事件检测方法多采用基于主题模型的方法,无法兼顾主题信息和语义信息,效果不够理想。针对该问题,该文提出一种基于主题词向量聚类的话题内新事件检测方法。该方法首先使用主题词嵌入(TWE)模型对经过预处理的语料进行训练,获取主题词向量;其次,通过对主题词向量进行K-means聚类来获取话题分布;再次,按照话题内新事件检测流程,将新事件检测问题转化为新子话题发现问题;最后,利用获取到的话题分布,对按时间顺序的文档进行检测。实验结果表明,该方法能够兼顾主题信息和语义信息,有效提高话题内新事件检测的性能。 相似文献
8.
一种利用统计语义单元识别中文人名的方法 总被引:1,自引:0,他引:1
从语义语言的角度提出一种利用统计语义单元识别中文人名的方法.在该方法中没有词的概念,一切单位都是语义单元,语义单元有参数和类型等属性.通过语义单元对句子进行语义切分,获得句子的语义单元图,并利用联合概率模型求得语义单元图中概率最大的路径,然后根据人名模式集在该路径上识别人名.初步实验表明,该方法是一种值得探索的新方法. 相似文献
9.
针对群体情绪演进分析中话题内容挖掘及其对应群体情绪分析两个层面的难题,提出了一种基于概率潜在语义分析(PLSA)模型的群体情绪演进分析方法。该方法首先利用PLSA模型抽取时间序列上的子话题,挖掘话题内容随时间的演进规律;再利用句法关系和情感本体库,抽取与话题内容相匹配群体情绪单元,计算情绪单元的强度,形成情绪特征向量;最后,对各子话题下的情绪强度进行求和,细粒度分析子话题和事件的整体群体情绪,深入挖掘群体情绪演进规律,并将群体情绪量化和可视化。在话题情绪单元抽取过程中,引入了句法规则和情感本体库,更细粒度地抽取情绪单元,并提高了话题内容与情绪单元匹配的准确性。实验结果表明,该模型能够实现话题内容及其群体情绪按时序特征的演进分析,验证了所提方法的有效性。 相似文献
10.
研究关联数据的自动语义融合方法,提高关联数据的语义融合程度.利用传统算法进行数据的自动语义融合,往往只能针对同一知识单元的数据进行融合,假设待融合数据为不同知识单元、不同属性的关联数据,则数据间的语义融合很难实现.为此,提出基于概念关联性和重要性度量算法的关联数据的自动语义融合方法.针对关联数据的自动语义进行关联度计算,为避免对高端语义判别错误,采用语义概念相关性进行语义筛选,获取概念的被选择概率,根据改进方法步骤实现关联数据自动语义的进一步融合.实验结果表明,利用改进算法进行关联数据的自动语义融合,能够有效的获取语义关联度值以及相关性自动语义概念选择,从而实现关联数据的自动语义融合,提高了自动语义的融合程度,具有极大的优越性. 相似文献
11.
报道关系识别是话题识别与跟踪TDT(Topic Detection and Tracking)研究内容中的基本任务之一,根据新闻话题的几大要素:时间、地点、人物、内容等,提出了一种基于话题要素的话题报道表示模型,并给出了基于话题要素相似度计算的报道关系识别方法。实验证明这种方法特别适用于同主题下不同话题的报道关系识别。 相似文献
12.
13.
本文首先简单介绍了话题发现与追踪的发展史及主要任务,然后重点分析比较了现有话题关联识别模型的使用情况,并测试了文档中各层次知识特征对话题关联识别性能的影响。其测试结果对如何评判已有的识别系统或构建好的识别系统具有一定参考价值。 相似文献
14.
A semantic unit based event detection scheme in soccer videos is proposed in this paper. The scheme can be characterized as a three-layer framework. At the lowest layer, low-level features including color, texture, edge, shape, and motion are extracted. High-level semantic events are defined at the highest layer. In order to connect low-level features and high-level semantics, we design and define some semantic units at the intermediate layer. A semantic unit is composed of a sequence of consecutives frames with the same cue that is deduced from low-level features. Based on semantic units, a Bayesian network is used to reason the probabilities of events. The experiments for shoot and card event detection in soccer videos show that the proposed method has an encouraging performance. 相似文献
15.
话题关联识别用于判断新闻报道对流中每对中的两篇报道是否描述了同一个话题.为解决其中报道篇幅短小、稀疏问题严重及其内容存在漂移等问题,提出了一种动态信息扩充技术,用于改进报道表示模型.该技术用过去最新的话题相关报道来扩充当前报道,动态更新原有模型.此外,还研究了扩充信息的精化问题,通过有选择地加重一些重要特征的权重来减小扩充过程中噪音带来的影响.该方法在TDT4中的中文语料上进行了实验,结果表明动态信息扩充技术能够较大幅度地改进话题关联识别的性能,对多种特征采取的精化技术也对性能改进产生了较大影响. 相似文献
16.
针对贝叶斯信念网络应用于话题识别进行了研究, 提出了新的话题识别模型。模型的拓扑结构包括新报道、报道术语、事件术语、话题四层节点, 用弧标明索引关系。在贝叶斯概率和条件独立性假设的基础上, 模型运用条件概率计算新报道和已有话题簇的相似度, 从而实现话题识别。考虑到核心报道、核心事件的重要性, 对不同层次的权重计算进行了调整。实验采用DET曲线评测法对模型性能进行测试, 实验结果显示, 调整后的权重计算可在一定程度上提高新模型的性能, 与向量空间模型相比, 在相同阈值下新模型的漏报率与误报率有所降低。 相似文献
17.
基于双层模型的维吾尔语突发事件因果关系抽取 总被引:1,自引:0,他引:1
针对传统事件因果关系识别覆盖范围小和人工标注代价高等不足,提出了一种基于双层模型的维吾尔语突发事件因果关系抽取方法. 该方法采用分治思想,将因果关系抽取问题转化为对事件序列的两次模式识别标注. 采用Bootstrapping算法,在第一次模式识别时,标注因果关系的语义角色,并将标注的语义角色标签作为新的特征传递给第二层模式识别,用于因果关系边界标注. 该方法用于维吾尔语突发事件显式因果关系的抽取准确率为85.39%,召回率为77.53%,证明了本文提出的方法在维吾尔语主题突发事件因果关系抽取上的有效性和实用性. 相似文献