首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
宋丹  王卫东  陈英 《微机发展》2006,16(9):62-64
话题识别与跟踪旨在发展一系列基于事件的信息组织技术,通过监测以实现对新闻媒体信息流中新话题的自动识别和已知话题的动态跟踪。文中提供一种利用改进的向量空间模型进行识别和跟踪的方法。没有使用传统向量空间模型中单个向量,而是按照语义将特征词划分为4个组(人物、时间、地点、内容)并形成4个向量空间。每个空间进行独立的权重计算和相似度计算。实验证明这些方法是有效的。  相似文献   

2.
容错粗糙模型的事件检测研究   总被引:1,自引:0,他引:1  
对网站发布的Web新闻内容进行必要的、合理的监督管理,是保障网络信息内容安全的重要研究内容。将现有的文本表示模型应用于Web新闻会导致文本表示的稀疏性问题和话题跟踪过程中的主题词漂移问题,一种基于容错粗糙集的文本表示模型解决了这些问题。在理论分析和实验验证的基础上,结合向量空间模型(VSM),利用特征项在文档集中协同出现,构造了特征项的容错粗糙集。然后用特征项容错粗糙集生成文档的容错粗糙模型,来扩充原先的文档表示模型。最后用特征项容错类描述文档之间的相似性关系,实现事件检测过程。实验结果证明,容错粗糙模型能够改进事件检测系统的性能。  相似文献   

3.
基于改进向量空间模型的话题识别与跟踪   总被引:4,自引:0,他引:4  
话题识别与跟踪旨在发展一系列基于事件的信息组织技术,通过监测以实现对新闻媒体信息流中新话题的自动识别和已知话题的动态跟踪。文中提供一种利用改进的向量空间模型进行识别和跟踪的方法。没有使用传统向量空间模型中单个向量,而是按照语义将特征词划分为4个组(人物、时间、地点、内容)并形成4个向量空间。每个空间进行独立的权重计算和相似度计算。实验证明这些方法是有效的。  相似文献   

4.
目前关于话题内新事件检测的研究较少,传统的新事件检测方法多采用基于主题模型的方法,无法兼顾主题信息和语义信息,效果不够理想。针对该问题,该文提出一种基于主题词向量聚类的话题内新事件检测方法。该方法首先使用主题词嵌入(TWE)模型对经过预处理的语料进行训练,获取主题词向量;其次,通过对主题词向量进行K-means聚类来获取话题分布;再次,按照话题内新事件检测流程,将新事件检测问题转化为新子话题发现问题;最后,利用获取到的话题分布,对按时间顺序的文档进行检测。实验结果表明,该方法能够兼顾主题信息和语义信息,有效提高话题内新事件检测的性能。  相似文献   

5.
目前,话题检测与跟踪已被广泛应用,新事件检测作为话题检测与跟踪领域中的研究任务之一,为跟踪后续话题发展的先验知识,在话题检测与跟踪领域具有重要的理论研究意义。LDA主题模型不能自动识别新事件,其主题数需通过人工或反复实验来确定,识别效率低。本文提出基于LDA及主题词间的相关性新事件检测算法,同时结合报道发生的时间,确定合理的主题数目,从而探知新事件。实验证明,与传统LDA算法及Gibbs LDA算法相比,该方法具有一定优势,提高了对新事件检测的敏感度。  相似文献   

6.
针对如何快速发现微博中的热点话题,提出了一种具有更高准确率的中文微博话题检测方案。首先,优化了微博文本的特征选择,经过分析获得的这些博文特征有助于不同词性对话题表达的重要性;其次,在此基础上,提出了通过计算博文阈值的方法,将零散主题的博文作为噪声过滤,并用来博文集的降低维度;在现有Single-Pass聚类算法的基础上,引入了主题词的概念,根据中心向量的特征权重选择主题词,最终形成一种孤立点预处理和Single-Pass相结合的微博话题检测方法。实验结果表明,相比传统的Single-Pass算法,该方法有效去除了数据集的大部分孤立点,不仅具有较低的漏检率和误检率,而且在时间损耗方面表现更佳。  相似文献   

7.
博客是Web环境中个人表达观点和情感的一种重要载体,一般涉及较宽泛的话题,蕴含丰富的舆情信息。现有针对有关社会事件的用户产生内容进行情感分析的研究多数以篇章级为处理粒度,尚不能满足博客文本深度情感分析的需求。该文提出一种基于LDA话题模型与Hownet词典的中文博客多方面话题情感分析方法。该方法首先利用数据语料训练LDA话题模型,然后以滑动窗口为基本处理单位,利用训练好的LDA模型对博客文本进行话题识别与划分;在此基础上,基于Hownet词典对划分后的话题段落进行情感倾向计算。该方法有助于同时识别博客文本所涉及的多方面子话题及每个子话题上的情感倾向。实验结果表明,该方法不仅能获得较好的话题划分结果,也有助于改善情感分析的准确率。  相似文献   

8.
袁晓峰 《计算机时代》2014,(11):40-41,43
计算文本相似度常用基于向量空间计算夹角余弦的方法,该方法忽视了同一文本中词与词之间的语义相似度,因而造成了文本表示模型的高维性以及计算的高复杂性。为此,提出了一种文本相似度算法,利用HNC理论先计算特征词之间的语义相似度,进行必要的降维,进一步计算每个文本向量中的TF*IDF值,最后计算两个向量的空间夹角余弦值并将其作为两个文本之间的相似度。将实验结果与直接计算余弦值的结果比较发现,改进后的算法中VSM的维数明显比改进前小得多,改进后的算法提高了召回率和准确率。因此,改进后的算法是切实有效的。  相似文献   

9.
基于簇的K最近邻(KNN)分类算法研究   总被引:3,自引:1,他引:2  
传统K最近邻(KNN)分类算法为了找出待分类文本的k个邻居,需要与样本空间中的每个样本向量作比较,当训练样本较多时,导致相似度计算次数过多,分类速度下降.为此,改进了传统KNN算法,将训练文本中相似度大的文本合并,称为一簇,并计算簇的中心向量.待分类文本先与每一簇的中心向量计算相似度,当相似度达到某个阈值时,再与簇中的每个文本计算相似度,在一定程度上减少了相似度计算次数,降低了算法的时间复杂度.根据同一特征出现在文本中的位置不同应具有不同的权重改进了传统的TF-IDF计算公式.  相似文献   

10.
该文提出了一种基于衰退理论对Flickr数据进行热点事件检测的方法。该方法首先将从Flickr图像中提取的视觉词汇(Visual Words)与图像的文本信息加权合并成文档。然后训练LDA模型获得文档的主题分布作为其最终向量表示。在此基础上提出了一种改进的Single-Pass算法进行事件检测,该算法不仅考虑了图片的地理位置信息,而且基于衰退理论(Aging Theory)对检测到的事件进行生命周期建模,以便计算事件在每个时间段的能量值。最后,根据能量值进行事件排序,获得给定时间段内的热点事件。在真实Flickr数据集上的实验结果表明所提出的方法在精确率、召回率和F1测度上优于传统事件检测方法。  相似文献   

11.
针对传统的Single-Pass聚类算法对数据输入顺序过于敏感和准确率较低的问题, 提出一种以子话题为粒度, 考虑新闻文本动态性、时效性和上下文语义特征的增量文本聚类算法(SP-HTD). 首先通过解析LDA2Vec主题模型, 联合训练文档向量和词向量, 获得上下文向量, 充分挖掘文本的语义特征及重要性关系. 然后在Single-Pass算法基础上, 根据提取到的热点主题特征词, 划分子话题, 并设置时间阈值, 来确认类簇中心的时效性, 将挖掘的语义特征和任务相结合, 动态更新类簇中心. 最后以时间特性为辅, 更新话题质心向量, 提高文本相似度计算的准确性. 结果表明, 所提方法的F值最高可达89.3%, 且在保证聚类精度的前提下, 在漏检率和误检率上较传统算法有明显改善, 能够有效提高话题检测的准确性.  相似文献   

12.
Topics often transit among documents in a document collection. To improve the accuracy of the topic detection and tracking (TDT) algorithms in discovering topics or classifying documents, it is necessary to make full use of this kind of topic transition information. However, TDT algorithms usually find topics based on topic models, such as LDA, pLSI, etc., which are a kind of mixture model and make the topic transition difficult to be denoted and implemented. A topic transition model representation based on hidden Markov model is present, and learning the topic transition from documents is discussed. Based on the model, two TDT algorithms incorporating topic transition, i.e. topic discovering and document classifying, are provided to show the application of the proposed model. Experiments on two real-world document collections are done with the two algorithms, and performance comparison with other similar algorithm shows that the accuracy can achieve 93% for topic discovering in Reuters-21578, and 97.3% in document classifying. Furthermore, topic transition discovered by the algorithm on a dataset which was collected from a BBS website is consistent with the manual analysis results.  相似文献   

13.
基于增量型聚类的自动话题检测研究   总被引:1,自引:0,他引:1  
张小明  李舟军  巢文涵 《软件学报》2012,23(6):1578-1587
随着网络信息飞速的发展,收集并组织相关信息变得越来越困难.话题检测与跟踪(topic detection and tracking,简称TDT)就是为解决该问题而提出来的研究方向.话题检测是TDT中重要的研究任务之一,其主要研究内容是把讨论相同话题的故事聚类到一起.虽然话题检测已经有了多年的研究,但面对日益变化的网络信息,它具有了更大的挑战性.提出了一种基于增量型聚类的和自动话题检测方法,该方法旨在提高话题检测的效率,并且能够自动检测出文本库中话题的数量.采用改进的权重算法计算特征的权重,通过自适应地提炼具有较强的主题辨别能力的文本特征来提高文档聚类的准确率,并且在聚类过程中利用BIC来判断话题类别的数目,同时利用话题的延续性特征来预聚类文档,并以此提高话题检测的速度.基于TDT-4语料库的实验结果表明,该方法能够大幅度提高话题检测的效率和准确率.  相似文献   

14.
一种基于自适应重心向量的主题检测方法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对影响主题检测性能的2个重要因素——相似主题的判定和主题漂移问题,提出一种基于自适应重心向量的主题检测方法。该方法将命名实体信息应用到特征表示上,将命名实体向量和关键词向量相结合表示主题的重心向量,以有效区分相似主题。采用增量聚类检测主题,在增量聚类过程中不断修正主题重心,以解决主题漂移的问题。实验结果与性能比较表明,该方法能有效提高主题检测的性能。  相似文献   

15.
李忠俊 《计算机科学》2012,39(12):241-244
针对当前外部舆情系统中响应速度慢、准确度不高等问题,提出基于话题检测与分类的内部舆情监测系统, 给出了该系统的组织模型、数据结构与运行流程;采用内外结合的频谱话题检测法来发现当前关注的热点,应用话题 聚类预测模型对当前热点话题的可能发展趋势进行预评佑,并采取相应措施。实验证明,该系统具有较好的典情预警 能力和较快的响应处理速度。  相似文献   

16.
随着自媒体的迅速发展,微博中的舆情监控和舆情疏导成为一项重大的研究课题. 为了解决传统话题检测方法对于微博中大数据的分析往往具有复杂度高、实时性低、影响力小等问题,提出一种基于词共现和情感分析的突发话题检测方法. 通过研究微博中情感的突发和共现关系,从而建立情感子空间模型;通过该模型对微博中的信息流进行分类,最后对每个类别中的微博进行主题词提取,实现话题检测的目的. 在NLPIR微博内容语料库上的实验结果表明,该方法能够有效地从大规模微博信息中检测突发新闻,提高突发新闻的识别率.  相似文献   

17.
当今时代, 网络舆情传播速度快、影响力大, 而话题检测在网络舆情监管中有着不可替代的作用. 针对传统方法提取文本特征不完整和特征维度过高的问题, 本文提出了基于时间衰减因子的LDA&&Word2Vec文本表示模型, 将LDA模型的隐含主题特征和Word2Vec模型的语义特征进行加权融合, 并引入了时间衰减因子, 同时起到了降维和提高文本特征完整度的作用. 同时, 本文又提出了Single-Pass-SOM组合聚类模型, 该模型解决了SOM模型需要设定初始神经元的问题, 提高了话题聚类的精度. 实验结果表明, 本文提出的文本表示模型和文本聚类方法较传统方法拥有更好的话题检测效果.  相似文献   

18.
针对现有深度知识追踪模型存在输入习题间复杂关系捕获能力弱、无法有效处理长序列输入数据等问题,提出了基于自注意力机制和双向GRU神经网络的深度知识追踪优化模型(KTSA-BiGRU)。首先,将学习者的历史学习交互序列数据映射为实值向量序列;其次,以实值向量序列作为输入训练双向GRU神经网络,利用双向GRU神经网络建模学习者的学习过程;最后,使用自注意力机制捕获练习题之间的关系,根据双向GRU神经网络输出的隐向量和注意力权重计算学习者正确回答下一问题的概率。实验在三个公共数据集上的性能分析优于现有的知识追踪模型,能提高深度知识追踪的预测精度。  相似文献   

19.
Accurately tracking the video object in video sequence is a crucial stage for video object processing which has wide applications in different fields. In this paper, a novel video object tracking algorithm based on the improved gradient vector flow (GVF) snake model and intra-frame centroids tracking algorithm is proposed. Unlike traditional gradient vector flow snake, the improved gradient vector flow snake adopts anisotropic diffusion and a four directions edge operator to solve the blurry boundary and edge shifting problem. Then the improved gradient vector flow snake is employed to extract the object contour in each frame of the video sequence. To set the initial contour of the gradient vector flow snake automatically, we design an intra-frame centroids tracking algorithm. Splitting the original video sequence into segments, for each segment, the initial contours of first two frames are set by change detection based on t-distribution significance test. Then, utilizing the redundancy between the consecutive frames, the subsequent frames’ initial contours are obtained by intra-frame motion vectors. Experimental results with several test video sequences indicate the validity and accuracy of the video object tracking.  相似文献   

20.
针对网络论坛热点话题的识别、发现和舆情监测问题,提出一种基于热度熵值的热点话题发现方法。通过网络爬虫抓取网络论坛中的数据,在对数据进行预处理和分析热点话题属性特征的基础上,合理定义各属性的权重和话题的热度熵值,并以此对话题的热点信息进行分析、统计与评估,从而发现和追踪网络论坛中的热点话题。同时,对话题的热度进行细致划分和各种类型的定义,采用不同阈值策略计算不同类型的热度信息标注的准确率。实验结果表明,该方法合理、有效,相比于传统的话题语义分析方法具有较高的准确率,可作为互联网论坛舆情监测的依据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号