首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 125 毫秒
1.
话题关联检测的关键任务在于判断给定报道对是否属于同一话题. 现有判断方法往往忽略种子事件与其直接相关事件之间的层次关系.为此,通过分析报道内部语义分布规律及篇章结构,并依据语义分布规则,利用语义分布规律改进信息瓶颈(Information bottleneck,IB)算法,用于子话题逻辑语义单元的划分,并利用这些逻辑语义单元表示报道,进行话题关联检测. 实验证明该方法有较快的收敛速度,并在一定程度上提高了系统性能.  相似文献   

2.
针对无监督聚类方法在应用于话题检测与追踪任务时难以学习到深层语义特征及任务相关特征,K均值聚类、潜在狄利克雷分布(LDA)等方法无法用于增量式聚类的问题,提出基于预训练语言模型的BERT-Single半监督算法。首先使用小规模有标注数据训练预训练语言模型BERT,使BERT模型学习到任务特定的先验知识,生成能够适应话题检测与追踪任务且包含深层语义特征的文本向量;然后利用改进的Single-Pass聚类算法将预训练语言模型学习到的有标签样本信息泛化到无标签数据上,提升模型在话题检测与追踪任务上性能。在构建的数据集上进行实验,结果显示,相较于对比模型,BERT-Single模型精确率至少提升了3个百分点、召回率至少提升了1个百分点、F1值至少提升了3个百分点。BERT-Single模型对于解决话题检测与追踪问题具有较好效果,并能够很好地适应增量式聚类任务。  相似文献   

3.
话题关联检测是话题检测与跟踪的一项子任务,是判断随机抽取的两篇新闻报道是否讨论同一个话题的技术。受词语共现模型的启发,结合话题关联检测的特点,提出了词语间的动态同现关系,实现了基于动态共现关系的报道相似度计算方法;探讨了相似度计算方法在中文话题关联检测中的应用。通过实验可知,动态共现关系可以在一定程度上反映报道的语义信息,相似度计算方法很好地改善了中文话题关联检测系统的性能,取得了不错的效果。  相似文献   

4.
基于子话题分治匹配的新事件检测   总被引:4,自引:0,他引:4  
洪宇  张宇  范基礼  刘挺  李生 《计算机学报》2008,31(4):687-695
新事件检测是话题检测与跟踪领域的一项重要研究,其任务是实时监控新闻报道流并从中识别新话题.现有方法将话题和报道描述为单一结构的特征向量进行匹配,造成子话题间互为噪声并形成错误语义,从而误导新话题的识别.针对这一缺陷,文中提出基于子话题分治匹配的新事件检测方法,将话题和报道划分为不同子话题,根据相关子话题的比例关系和分布关系建立新话题识别模型.实验在TDT4和TDT5中获得显著改进,最小检测错误代价为0.4061,相应漏检率为0.1859.  相似文献   

5.
在目标检测任务中,当训练集和测试集来自不同应用场景时,通常存在检测性能下降问题,这源于不同场景的数据间存在域偏移(domain shift).收集不同场景的数据费时费力,且会增加模型部署成本,降低模型使用效率.针对这一问题,本文从强化特征的语义一致性以获得更好的域无关特征的思路出发,提出基于域内域间语义一致性约束的域自适应目标检测方法 .首先,本文考虑了特征解耦过程中的特征域内一致性,提出了一种基于正交分离特征的正交关系一致性约束,该约束能够保留解耦前后特征中的语义信息,以此强化域内特征一致性,从而提升模型识别的准确率.进一步地,本文考虑了在不同域间解耦后特征的域间一致性,引入了基于伪标签的对比学习机制,将来自不同域间的实例级特征进行对齐,以此保证域间特征一致性来提升模型的跨域性能.为验证本文所提出的方法,在本领域常用的数据集Cityscapes-FoggyCityscapes上进行了测试,相对于基线方法本文所提出的方法取得了3.1%的平均准确率(mAP)提升,其中在部分特定子类上提升达到6%;相比较最新方法也有约1%的平均准确率提升.本文还在KITTI-Cityscapes和Sim1...  相似文献   

6.
事件检测任务的目标是从文本中自动获取结构化的事件信息。目前基于表示学习的神经事件检测方法能够有效利用潜在语义信息,但人工标注数据集的语义知识含量有限,制约了神经网络模型的认知广度。相对地,多任务表示学习框架,有助于模型同时学习不同任务场景中的语义知识,从而提升其认知广度。BERT预训练模型得益于大规模语言资源的充沛语义信息,具有高适应性(适应不同任务)的语义编码能力。因此,该文提出了一种基于BERT的多任务事件检测模型。该方法将BERT已经包含的语义知识作为基础,进一步提升多任务模型的表示、学习和语义感知能力。实验表明,该方法有效提高了事件检测的综合性能,其在ACE2005语料集上事件分类的F1值达到了76.7%。此外,该文在实验部分对多任务模型的训练过程进行了详解,从可解释性的层面分析了多任务架构对事件检测过程的影响。  相似文献   

7.
目前关于话题内新事件检测的研究较少,传统的新事件检测方法多采用基于主题模型的方法,无法兼顾主题信息和语义信息,效果不够理想。针对该问题,该文提出一种基于主题词向量聚类的话题内新事件检测方法。该方法首先使用主题词嵌入(TWE)模型对经过预处理的语料进行训练,获取主题词向量;其次,通过对主题词向量进行K-means聚类来获取话题分布;再次,按照话题内新事件检测流程,将新事件检测问题转化为新子话题发现问题;最后,利用获取到的话题分布,对按时间顺序的文档进行检测。实验结果表明,该方法能够兼顾主题信息和语义信息,有效提高话题内新事件检测的性能。  相似文献   

8.
针对传统"视觉词包(BOW)模型"识别铁路扣件状态时仅利用扣件图像的特征域,忽略其空间域中上下文语义信息的缺点,提出了一种基于上下文语义信息的扣件检测模型.在传统"视觉词包模型"的基础上,引入吉布斯随机场模型对图像中像素的空间相关性进行建模,将图像块在特征域的相似性与空间域的上下文语义约束关系结合,更准确地定义视觉单词;利用潜在狄利克雷分布(LDA)学习扣件图像的主题分布;采用支持向量机(SVM)对扣件进行分类识别.对4类扣件图像的分类实验证明:模型能够有效提高扣件分类精度.  相似文献   

9.
语义分析和结构化语言模型   总被引:3,自引:0,他引:3       下载免费PDF全文
李明琴  李涓子  王作英  陆大? 《软件学报》2005,16(9):1523-1533
提出了一个语义分析集成系统,并在此基础上构建了结构化的语言模型.该语义分析集成系统能够自动分析句子中各个词的词义以及词之间的语义依存关系,达到90.85%的词义标注正确率和75.84%的语义依存结构标注正确率.为了描述语言的结构信息和长距离依存关系,研究并分析了两种基于语义结构的语言模型.最后,在中文语音识别任务上测试两类语言模型的性能.与三元语言模型相比,性能最好的语义结构语言模型--中心词三元模型,使绝对字错误率下降0.8%,相对错误率下降8%.  相似文献   

10.
微博话题随着移动互联网的发展变得火热起来,单个热门话题可能有数万条评论,微博话题的立场检测是针对某话题判断发言人对该话题的态度是支持的、反对的或中立的.本文一方面由Word2Vec训练语料库中每个词的词向量获取句子的语义信息,另一方面使用TextRank构建主题集作为话题的立场特征,同时结合情感词典获取句子的情感信息,最后将特征选择后的词向量使用支持向量机对其训练和预测完成最终的立场检测模型.实验表明基于主题词及情感词相结合的立场特征可以获得不错的立场检测效果.  相似文献   

11.
Semantic smoothing, which incorporates synonym and sense information into the language models, is effective and potentially significant to improve retrieval performance. Previously implemented semantic smoothing models such as the translation model have shown good experimental results. However, these models are unable to incorporate contextual information. To overcome this limitation, we propose a novel context-sensitive semantic smoothing method that decomposes a document into a set of weighted context-sensitive topic signatures and then maps those topic signatures into query terms. The language model with such a context- sensitive semantic smoothing is referred to as the topic signature language model. In detail, we implement two types of topic signatures, depending on whether ontology exists in the application domain. One is the ontology-based concept and the other is the multiword phrase. The mapping probabilities from each topic signature to individual terms are estimated through the EM algorithm. Document models based on topic signature mapping are then derived. The new smoothing method is evaluated on the TREC 2004/ 2005 Genomics Track with ontology-based concepts, as well as the TREC Ad Hoc Track (Disks 1, 2, and 3) with multiword phrases. Both experiments show significant improvements over the two-stage language model, as well as the language model with context- insensitive semantic smoothing.  相似文献   

12.
Computation on Sentence Semantic Distance for Novelty Detection   总被引:1,自引:0,他引:1       下载免费PDF全文
Novelty detection is to retrieve new information and filter redundancy from given sentences that are relevant to a specific topic. In TREC2003, the authors tried an approach to novelty detection with semantic distance computation. The motivation is to expand a sentence by introducing semantic information. Computation on semantic distance between sentences incorporates WordNet with statistical information. The novelty detection is treated as a binary classification problem: new sentence or not. The feature vector, used in the vector space model for classification, consists of various factors, including the semantic distance from the sentence to the topic and the distance from the sentence to the previous relevant context occurring before it. New sentences are then detected with Winnow and support vector machine classifiers, respectively. Several experiments are conducted to survey the relationship between different factors and performance. It is proved that semantic computation is promising in novelty detection. The ratio of new sentence size to relevant size is further studied given different relevant document sizes. It is found that the ratio reduced with a certain speed (about 0.86). Then another group of experiments is performed supervised with the ratio. It is demonstrated that the ratio is helpful to improve the novelty detection performance.  相似文献   

13.
报道关系识别是话题识别与跟踪TDT(Topic Detection and Tracking)研究内容中的基本任务之一,根据新闻话题的几大要素:时间、地点、人物、内容等,提出了一种基于话题要素的话题报道表示模型,并给出了基于话题要素相似度计算的报道关系识别方法。实验证明这种方法特别适用于同主题下不同话题的报道关系识别。  相似文献   

14.
主题检测近年来在文本挖掘和自然语言处理领域得到了广泛的应用,对主题进行结构建模是主题检测的基础。为了对文本流中的多粒度主题进行建模,提出一种基于语义层次树的主题结构模型。该模型利用领域本体的特点,将主题同本体作一一映射,结合概率理论,将概念集里的概念用主题树的叶子节点表示,每一层中的节点均是下一层节点的多项分布,使之更适合描述文本流中多粒度的主题结构。为了便于构建主题的空间结构,提出主题的相似度和事件相关度计算方法。该文结尾设计了实验构造真实新闻文本流数据上的主题树。实验结果表明,该结构模型能够体现主题丰富的多粒度空间语义特征。  相似文献   

15.
基于文档平滑和查询扩展的文档敏感信息检测方法   总被引:1,自引:0,他引:1  
由于办公终端可能出现敏感信息泄露的风险,对终端上的文档进行敏感信息检测就显得十分重要,但现有敏感信息检测方法中存在上下文信息无关的索引导致文档建模不准确、查询语义扩展不充分的问题。为此,首先提出基于上下文的文档索引平滑算法,构建尽可能保留文档信息的索引;然后改进查询语义扩展算法,结合领域本体中概念敏感度适当扩大敏感信息检测范围;最后将文档平滑和查询扩展融合于语言模型,在其基础上提出了文档敏感信息检测方法。将采用不同索引机制、查询关键字扩展算法及检测模型的四种方法进行比较,所提出的算法在文档敏感信息检测中的查全率、准确率和F值分别为0.798,0.786和0.792,各项性能指标均明显优于对比算法。结果表明该算法是一种能更有效检测敏感信息的方法。  相似文献   

16.
基于主题图的本体信息检索模型研究   总被引:1,自引:0,他引:1  
针对本体在定义领域概念时具有规范性、明确性和可共享性等特点,结合主题图对文档资源组织方式具有语义可导航性,提出了一种基于主题图的本体信息检索模型,并给出了模型的形式化定义。选择旅游领域作为研究对象,定义了旅游本体和旅游文档资源主题图,分析了在信息检索模型中利用本体来规范用户自然语言查询输入,识别用户检索意图和扩展查询语义方面的作用,并展示了主题图在语义导航和用户相关度排序方面的价值。最后通过实验表明基于主题图的本体信息检索模型较传统的检索系统有较好的性能。  相似文献   

17.
杨文太  梁刚  谢凯  杨进  许春 《计算机应用》2017,37(10):2799-2805
针对现有谣言检测方法中存在的数据采集困难和谣言检测滞后的问题,提出一种基于动量模型的突发话题检测和领域专家发现的谣言检测方法。该方法借鉴物理学中的动力学理论对话题特征进行建模,使用特征的动力学物理量描述特征的突发特性和发展趋势,并在对突发特征进行特征聚合之后提取得到突发话题;然后,依据话题与用户个人信息的领域相关性在候选专家池中发现领域相关的微博用户来甄别话题信息的真实性。基于新浪微博数据的实验结果表明,相对于仅基于有监督机器学习的微博谣言识别方法,该方法谣言识别准确率提高了13个百分点;相对于主流人工识别方法,将最长谣言检测用时缩短至20h,能够较好地应用于实际的微博谣言检测环境。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号