首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
冯礼  李芳  盛焕烨 《计算机工程》2009,35(3):45-47,4
在基于事件框架的新闻信息抽取中,针对事件侧面被框架结构所限定的问题,提出一种事件新侧面探测方法,并定义事件新侧面的2种类型。通过去除已有的侧面内容,实现LSA聚类探测,同时在文本特征选取部分采用词对特征模型,以充分利用有限文本中的语法信息。在原型系统中对该方法进行测试,实验结果表明,该方法是有效的。  相似文献   

2.
基于词元再评估的新事件检测模型   总被引:1,自引:0,他引:1  
张阔  李涓子  吴刚  王克宏 《软件学报》2008,19(4):817-828
新事件检测(new event detection,简称NED)的目标是从一个或多个新闻源中检测出报道一个新闻话题的第一个新闻.初步实验发现,在对不同类别的新闻报道进行新事件检测时,其不同类型的词元往往具有不同的敏感程度.而传统方法往往将所有的词元等同看待.重点研究在新事件检测模型中,对于不同词元的权重设定问题.提出利用统计方法优化不同类别新闻对于不同词性词元的权重参数;提出利用已有新闻簇信息动态更新词元权重的方法,采用在新闻之间(而非新闻与新闻簇之间)计算相似度的形式,发挥两种比较形式的优点.在Linguistic Data Consortium(LDC)公共数据集TDT2与TDT3上进行实验,实验结果表明,这两种改进方法的效果明显,性能与同类系统相比有显著提升.  相似文献   

3.
提出了一种结合关键词特征和共现词对特征的向量空间模型。首先,通过分词和去除停用词提取文本中的候选关键词,利用文本频率筛选关键词特征。然后,基于获得的关键词特征两两构造候选共现词对,定义支持度和置信度筛选共现词对特征。最后,结合关键词特征和共现词对特征构建向量空间模型。文本分类实验结果表明,提出的模型具有更强的文本分类能力。  相似文献   

4.
微博文本长度短,且网络新词层出不穷,使得传统方法在微博事件追踪中效果不够理想。针对该问题,提出一种基于词向量的微博事件追踪方法。词向量不仅可以计算词语之间的语义相似度,而且能够提高微博间语义相似度计算的准确率。该方法首先使用Skip-gram模型在大规模数据集上训练得到词向量;然后通过提取关键词建立初始事件和微博表示模型;最后利用词向量计算微博和初始事件之间的语义相似度,并依据设定阈值进行判决,完成事件追踪。实验结果表明,相比传统方法,该方法能够充分利用词向量引入的语义信息,有效提高微博事件追踪的性能。  相似文献   

5.
入侵检测系统是目前重要的网络安全产品之一,其检测技术主要为滥用检测和异常检测两种。目前,滥用检测技术已经相对成熟,而异常检测还存在大量问题难以解决。针对这一问题,提出了一个判别系统主体行为是否异常的自动分类器模型,并介绍其实现的关键技术。  相似文献   

6.
基于新闻要素的新事件检测方法研究   总被引:1,自引:0,他引:1  
薛晓飞  张永奎  任晓东 《计算机应用》2008,28(11):2975-2977
新事件检测(NED)的目标是检测出报道一个新闻话题种子事件的第一个新闻。考虑到新闻的基本要素在新闻中的作用,采用特征加权的方式对传统的词频和倒排文档频率(TF-IDF)模型进行改进,并在新闻报道中提取出时间信息和地点信息,分别对内容相似度、时间相似度和地点相似度进行计算,并将三者结合来检测新事件。实验证明这种方法有效。  相似文献   

7.
微博话题随着移动互联网的发展变得火热起来,单个热门话题可能有数万条评论,微博话题的立场检测是针对某话题判断发言人对该话题的态度是支持的、反对的或中立的.本文一方面由Word2Vec训练语料库中每个词的词向量获取句子的语义信息,另一方面使用TextRank构建主题集作为话题的立场特征,同时结合情感词典获取句子的情感信息,最后将特征选择后的词向量使用支持向量机对其训练和预测完成最终的立场检测模型.实验表明基于主题词及情感词相结合的立场特征可以获得不错的立场检测效果.  相似文献   

8.
新事件检测(New Event Detection,简称NED)的目标是从一个或多个新闻源中检测出报道一个新闻话题的第一个新闻.初步实验发现,构成事件的一项重要属性是事件发生的特定时间,因此时间是区分不同事件的重要标志.为此,提出时序话题模型(Temporal Topic Model,简称TTM).TTM将话题和报道切分为若干对应不同时间表达式的事件.其中,时间表达式描述事件发生的特定时间.TTM基于时间表达式在话题中出现的频率和增长率,估量对应时间表达式的事件作为种子事件或相关新颖事件的概率.此外,时间表达式的频率与增长率也用于衡量事件在相关性匹配中权重.在此基础上,NED依赖时间特性快速遏制不同时间发生的事件匹配,并借助种子事件和新颖事件调整相关性判定的权重分配.  相似文献   

9.
目前关于话题内新事件检测的研究较少,传统的新事件检测方法多采用基于主题模型的方法,无法兼顾主题信息和语义信息,效果不够理想。针对该问题,该文提出一种基于主题词向量聚类的话题内新事件检测方法。该方法首先使用主题词嵌入(TWE)模型对经过预处理的语料进行训练,获取主题词向量;其次,通过对主题词向量进行K-means聚类来获取话题分布;再次,按照话题内新事件检测流程,将新事件检测问题转化为新子话题发现问题;最后,利用获取到的话题分布,对按时间顺序的文档进行检测。实验结果表明,该方法能够兼顾主题信息和语义信息,有效提高话题内新事件检测的性能。  相似文献   

10.
已有的事件发现方法主要基于词频-逆文档频率文档表示,维度较高,语义稀疏,效率和准确率都较低,不适用于大规模在线新闻事件发现.因此,文中提出基于词向量的文档表示方法,降低文档表示维度,缓解语义稀疏问题,提高文档相似度计算效率和准确性.基于该文档表示方法,提出动态在线新闻聚类方法,用于在线新闻事件发现,同时提高事件发现的准确率和召回率.在标准数据集TDT4和真实数据集上的实验表明,相比当前通用的基线方法,文中方法在时间效率和事件质量上都有显著提高.  相似文献   

11.
向量空间模型(VSM)是一种使用特征向量对文本进行建模的方法,广泛应用于文本分类、模式识别等领域。但文本内容较多时,传统的VSM建模可能产生维数爆炸现象,效率低下且难以保证分类效果。针对VSM高维现象,提出一种利用词义和词频降低文本建模维度的方法,以提高效率和准确度。提出一种多义词判别优化的同义词聚类方法,结合上下文判别多义词的词义后,根据特征项词义相似度进行加权,合并词义相近的特征项。新方法使特征向量维度大大降低,多义词判别提高了文章特征提取的准确性。与其他文本特征提取和文本分类方法进行比较,结果表明,该算法在效率和准确度上有明显提高。  相似文献   

12.
词义消歧一直是自然语言理解中的一个关键问题,该问题解决的好坏直接影响到自然语言处理中诸多问题的解决.现在大部分的词义消歧方法都是在分词的基础上做的.借鉴前人的向量空间模型运用统计的方法,提出了不用直接分词而在术语抽取的基础上做消歧工作.在义项矩阵的计算中,采用改进了的tf.idf.ig方法.在8个汉语高频多义次的测试中取得了平均准确率为84.52%的较好的效果,验证了该方法的有效性.  相似文献   

13.
This paper presents a group-theoretical vector space model (VSM) that extends the VSM with a group action on a vector space of the VSM. We use group and its representation theory to represent a dynamic transformation of information objects, in which each information object is represented by a vector in a vector space of the VSM. Several groups and their matrix representations are employed for representing different kinds of dynamic transformations of information objects used in the VSM. We provide concrete examples of how a dynamic transformation of information objects is performed and discuss algebraic properties involving certain dynamic transformations of information objects used in the VSM.  相似文献   

14.
基于向量空间的信息检索模型的改进   总被引:1,自引:0,他引:1  
向量空间模型是有代表性的信息检索模型之一,针对该模型存在的问题进行了研究和探讨.在仅用统计词频表-示文档向量方面,引入知网作为语义知识库,提出基于概念的特征选择模型;在因词语的同义和多义,不能满足文档向量相互独立方面,提出潜在语义索引模型.实验验证了改进后的检索模型更能体现文本的内容,降低文本向量的维数,提高检索的准确率.  相似文献   

15.
基于向量空间模型的中文文本层次分类方法研究   总被引:8,自引:0,他引:8  
肖雪  何中市 《计算机应用》2006,26(5):1125-1126
在文本分类的类别数量庞大的情况下,层次分类是一种有效的分类途径。针对层次分类的结构特点,考虑到不同的层次对特征选择和分类方法有不同的要求,提出了新的基于向量空间模型的二重特征选择方法FDS以及层次分类算法HTC。二重特征选择方法对每一层均进行一次特征选择,并逐层改变特征数量和权重计算方法;HTC算法把分别对粗分和细分更有效的类中心向量法与SVM方法相结合。实验表明,该方法相对于平面分类和一般的层次分类方法,有较高的准确率。  相似文献   

16.
针对异常检测系统虚警率高、检测率低以及冗余特征对检测系统造成负担的问题,提出一种基于特征选择和支持向量机相结合的异常检测方法.该方法通过构造一种基于分类模型分类准确率计算的特征选择算法,筛选出能够获得分类准确率最高的特征组合,并与支持向量机分类算法相结合,实现数据的异常检测.仿真测试结果表明,该方法具有较高的检测准确率和较低的检测时间,并通过去除噪声特征,降低了系统的数据处理难度.  相似文献   

17.
针对Type-3克隆代码映射方法少且效率低等问题,提出了一种基于改进向量空间模型(VSM)的映射方法。该方法将改进的VSM引入到克隆代码分析中,从而得到一种可有效映射Type-1、Type-2以及Type-3克隆代码的克隆群映射方法。首先,将克隆群文档预处理得到去除无用词的代码文档,同时提取克隆群文档的文件名、函数名等特征项;其次,提取并构建克隆群词频向量空间,利用余弦算法计算出克隆群相似度;然后,通过克隆群相似度和特征项的匹配构建克隆群映射,最终得到克隆群映射结果。对5款开源软件进行实验并人工验证,所提方法能在低时耗的前提下,保证查全率和查准率均不低于96.1%和97.1%。实验结果表明了所提方法的可行性,为后期软件演化分析提供数据支撑。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号